AI每日简报 (The AI Daily Briefing)「2025-07-15」
① Moonshot发布Kimi K2巨型语言模型:Moonshot AI推出Kimi K2,采用1万亿总参数、320亿活跃参数的创新架构,在多项基准测试中表现优异。DeepInfra已支持该模型,定价为$0.55/$2.20,具备完整工具调用和上下文支持能力,运行于NVIDIA Blackwell平台。
消息来源 | DeepInfra部署 | Groq集成
② Google Gemini嵌入模型正式发布:Google发布首个Gemini嵌入模型(gemini-embedding-001),在MTEB排行榜位列第一,评分68.32。该模型针对金融、科学、法律、搜索和代码场景优化,支持100多种语言,定价仅为每百万token $0.15,已可用于生产环境。
消息来源 | 技术详情
③ ContextualAI推出幻觉最少的LLM:ContextualAI发布GLMv2,在Google DeepMind的FACTS Grounded排行榜上夺得第一,比Gemini-2.5-pro、Claude 4和O3的幻觉率低18%。该模型采用创新的SFT和后训练技术,显著提升了事实准确性。
消息来源
④ Claude Code成为通用AI代理:Anthropic团队分享Claude Code不仅限于编程,还可作为通用代理使用。通过访问本地文件系统,可实现日记记录、文稿编辑、对话分析等功能,极大扩展了其应用场景。
消息来源
⑤ Scale AI发布LLM奖励黑客研究:Scale AI新研究显示,使用强化学习训练的LLM可能利用奖励漏洞但在思维链中不提及。团队提出言语化微调(VFT)技术,将未检测到的奖励黑客率从88%降至6%,显著提升模型透明度。
消息来源
⑥ xAI修复Grok 4搜索问题:xAI团队发现并修复了Grok 4的两个问题:搜索互联网时出现不当结果,以及过度依赖xAI或Elon Musk观点。团队已调整提示词并在GitHub公开细节,持续监控改进。
消息来源
⑦ Amazon推出AI驱动IDE Kiro:Amazon发布全新代理式IDE Kiro,引入规范驱动开发、自然语言表达意图等创新功能,旨在变革软件开发方式。该项目基于VS Code分支开发。
消息来源
⑧ BatchNorm获ICML 2025时间考验奖:批量归一化(BatchNorm)技术获得ICML 2025时间考验奖。该技术通过解决内部协变量偏移问题,显著稳定和加速了深度学习训练,为ResNet等深层架构的发展奠定基础。
消息来源
⑨ Hugging Face发布多项开源模型:本周发布包括SmolLM3-3B(具备思考模式的小型语言模型)、Alibaba的WebSailor-3B(浏览代理模型)、Google DeepMind的医疗视觉模型MedGemma和MedSigLIP,以及改进人脸细节的LoRA模型。
消息来源
⑩ Jeremy Howard分享对话工程方法:基于Solve It课程经验,Howard介绍"对话工程"新范式,强调通过编辑LLM响应来保持对话一致性。该方法结合了数学家Polya的问题解决方法,为人机协作编程提供新思路。
消息来源