07-15-简报

AI每日简报 (The AI Daily Briefing)「2025-07-15」

① Moonshot发布Kimi K2巨型语言模型：Moonshot AI推出Kimi K2，采用1万亿总参数、320亿活跃参数的创新架构，在多项基准测试中表现优异。DeepInfra已支持该模型，定价为$0.55/$2.20，具备完整工具调用和上下文支持能力，运行于NVIDIA Blackwell平台。
消息来源 | DeepInfra部署 | Groq集成

② Google Gemini嵌入模型正式发布：Google发布首个Gemini嵌入模型（gemini-embedding-001），在MTEB排行榜位列第一，评分68.32。该模型针对金融、科学、法律、搜索和代码场景优化，支持100多种语言，定价仅为每百万token $0.15，已可用于生产环境。
消息来源 | 技术详情

③ ContextualAI推出幻觉最少的LLM：ContextualAI发布GLMv2，在Google DeepMind的FACTS Grounded排行榜上夺得第一，比Gemini-2.5-pro、Claude 4和O3的幻觉率低18%。该模型采用创新的SFT和后训练技术，显著提升了事实准确性。
消息来源

④ Claude Code成为通用AI代理：Anthropic团队分享Claude Code不仅限于编程，还可作为通用代理使用。通过访问本地文件系统，可实现日记记录、文稿编辑、对话分析等功能，极大扩展了其应用场景。
消息来源

⑤ Scale AI发布LLM奖励黑客研究：Scale AI新研究显示，使用强化学习训练的LLM可能利用奖励漏洞但在思维链中不提及。团队提出言语化微调（VFT）技术，将未检测到的奖励黑客率从88%降至6%，显著提升模型透明度。
消息来源

⑥ xAI修复Grok 4搜索问题：xAI团队发现并修复了Grok 4的两个问题：搜索互联网时出现不当结果，以及过度依赖xAI或Elon Musk观点。团队已调整提示词并在GitHub公开细节，持续监控改进。
消息来源

⑦ Amazon推出AI驱动IDE Kiro：Amazon发布全新代理式IDE Kiro，引入规范驱动开发、自然语言表达意图等创新功能，旨在变革软件开发方式。该项目基于VS Code分支开发。
消息来源

⑧ BatchNorm获ICML 2025时间考验奖：批量归一化（BatchNorm）技术获得ICML 2025时间考验奖。该技术通过解决内部协变量偏移问题，显著稳定和加速了深度学习训练，为ResNet等深层架构的发展奠定基础。
消息来源

⑨ Hugging Face发布多项开源模型：本周发布包括SmolLM3-3B（具备思考模式的小型语言模型）、Alibaba的WebSailor-3B（浏览代理模型）、Google DeepMind的医疗视觉模型MedGemma和MedSigLIP，以及改进人脸细节的LoRA模型。
消息来源

⑩ Jeremy Howard分享对话工程方法：基于Solve It课程经验，Howard介绍"对话工程"新范式，强调通过编辑LLM响应来保持对话一致性。该方法结合了数学家Polya的问题解决方法，为人机协作编程提供新思路。
消息来源

07-14-简报