AI/大模型研究简报
2026年5月7日 · 自动生成
今日必读
OpenSeeker-v2:仅用SFT训练出SOTA搜索Agent,学术团队首次超越工业流水线
- 来源: arXiv 2605.04036
- 摘要: 复旦等纯学术团队证明,通过知识图谱规模扩展、工具集扩大和严格低步数过滤三种数据合成策略,仅用10.6K数据点的SFT即可训练出超越CPT+SFT+RL全流程的搜索Agent。OpenSeeker-v2在BrowseComp(46.0%)、BrowseComp-ZH(58.1%)、HLE(34.6%)和xbench(78.0%)四项基准全面超越通义深度研究。
- 为什么重要: 打破了”搜索Agent必须靠重工业流水线训练”的固有认知,大幅降低了前沿搜索Agent的研发门槛,开源了模型权重。
- 深读链接: https://arxiv.org/abs/2605.04036
Kimi(月之暗面)即将完成20亿美元融资,投后估值突破200亿美元
- 来源: 澎湃新闻
- 摘要: 大模型独角兽Kimi即将完成新一轮20亿美元融资,由美团龙珠领投(超2亿美元),中国移动、CPE参投。同时DeepSeek被曝投后估值或达450亿美元。
- 为什么重要: 国产大模型融资热度持续攀升,头部玩家估值进入新量级,AI资本竞赛加剧。
- 深读链接: https://so.html5.qq.com/page/real/search_news?docid=70000021_32269fb231c54552
科技巨头AI资本开支逼近极限,华尔街耐心正在耗尽
- 来源: 环球市场播报
- 摘要: 亚马逊、谷歌、微软和Meta相继交出2026Q1成绩单,数千亿美元的年度资本支出承诺使轻资产软件巨头变得越来越像重资产公用事业公司。
- 为什么重要: AI投入规模已达到历史性临界点,市场开始质疑回报速度,可能影响未来投资节奏。
- 深读链接: https://so.html5.qq.com/page/real/search_news?docid=70000021_97669fbb01376952
arXiv 精选论文
Safety and Accuracy Follow Different Scaling Laws in Clinical Large Language Models
- arXiv ID: 2605.04039
- 领域: 临床AI / 安全对齐
- 评分: ⭐⭐⭐⭐⭐
- 摘要: 引入SaFE-Scale框架和RadSaFE-200基准,对34个本地部署LLM在6种部署条件下进行临床安全性审计。发现干净证据可将准确率从73.5%提升至94.1%,高风险错误从12.0%降至2.6%;但标准RAG和Agentic RAG未能复现这一安全特征,推理时计算增加仅带来有限增益。核心结论:临床LLM安全不是缩放的被动产物,而是由证据质量、检索设计和上下文构建共同塑造的部署属性。
- 链接: https://arxiv.org/abs/2605.04039
Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems
- arXiv ID: 2605.04018
- 领域: 信息检索 / Agentic Search
- 评分: ⭐⭐⭐⭐⭐
- 摘要: ACL 2026论文。提出BRIGHT-Pro专家标注基准和RTriever-Synth合成语料库,解决现有检索基准评估范围狭窄和训练语料仅优化单段落相关性的问题。基于Qwen3-Embedding-4B微调的RTriever-4B在多维度评估中显著超越基座模型。
- 链接: https://arxiv.org/abs/2605.04018
EQUITRIAGE: LLM急诊分诊中的性别偏见公平性审计
- arXiv ID: 2605.03998
- 领域: AI公平性 / 医疗AI
- 评分: ⭐⭐⭐⭐
- 摘要: 对5个LLM在374,275次评估中进行急诊分诊性别偏见审计。所有模型的翻转率均超5%阈值(9.9%-43.8%),DeepSeek和Gemini存在方向性女性低分诊现象。人口统计遮蔽可将Gemini翻转率降至0.5%,但DeepSeek仍有残差偏见。群体平权、反事实不变性和性别校准是三个不同的公平性属性。
- 链接: https://arxiv.org/abs/2605.03998
SATFormer: Transformers with Selective Access to Early Representations
- arXiv ID: 2605.03953
- 领域: 模型架构 / Transformer改进
- 评分: ⭐⭐⭐⭐
- 摘要: 将早期表征复用视为检索问题而非连接问题,引入上下文相关门控的选择性访问机制。130M到1.3B参数范围内持续改善验证损失和零样本准确率,在检索密集型基准上比静态值残差提升约1.5个平均百分点,同时保持吞吐量和内存接近基线。
- 链接: https://arxiv.org/abs/2605.03953
The Counterexample Game: Iterated Conceptual Analysis and Repair in Language Models
- arXiv ID: 2605.03936
- 领域: AI哲学推理 / NLP
- 评分: ⭐⭐⭐
- 摘要: 研究LLM能否通过迭代反例-修复链进行哲学概念分析。发现LM生成的反例中许多被判无效,LM裁判接受的比率约为人类的两倍;扩展迭代产生越来越冗长的定义但不改善准确性。部分概念本身抗拒稳定定义。
- 链接: https://arxiv.org/abs/2605.03936
Flow Sampling: Learning to Sample from Unnormalized Densities via Denoising Conditional Processes
- arXiv ID: 2605.03984
- 领域: 生成模型 / 分子科学
- 评分: ⭐⭐⭐⭐
- 摘要: ICML 2026 Spotlight论文。基于扩散模型和流匹配的无数据采样框架,训练目标以噪声样本为条件回归到由能量函数构建的去噪扩散漂移。自然扩展到黎曼流形,推导了常曲率流形上的闭式条件漂移公式。在合成基准、小肽和大尺度分子构象生成上展示强性能。
- 链接: https://arxiv.org/abs/2605.03984
GitHub 热门项目
Claude Context
- Stars: 10.8k
- 描述: AI编程智能体上下文优化插件,开源后Token成本直降40%
- 为什么值得关注: 直接解决Agent场景中上下文窗口和成本的核心痛点,对AI编程工作流有实用价值
OpenHands (原OpenDevin)
- Stars: 持续增长
- 描述: AI驱动的软件开发Agent平台
- 为什么值得关注: 活跃度极高,社区持续迭代,代表了AI Agent在开发领域的主流开源方案
产品与产业动态
- 中国移动将推出AI-eSIM产品:可实时调度云端模型,让设备自主思考、即时响应,应用于AI玩具、智慧穿戴等终端。5月7日-9日移动云大会上发布。
- OpenAI首款AI Agent手机目标最快2027年上半年量产:郭明錤透露,OpenAI正加速从软件向硬件延伸。
- 苹果就Siri AI升级延期达成2.5亿美元和解:因推迟Siri语音助手AI升级而遭遇集体诉讼,赔偿金额约17亿人民币。
- DeepSeek-V4上线东莞市人工智能大模型中心:百万token超长上下文和顶尖Agent能力,东莞制造企业率先享受普惠AI服务。
- AI大模型进入密集迭代爆发期:DeepSeek-V4预览版、GPT-5.5、Hy3 Preview、Seed3D 2.0等多模态模型集中发布,国内日均Token调用量突破140万亿。
融资与资本
- Kimi(月之暗面)即将完成20亿美元融资:美团龙珠领投,投后估值突破200亿美元
- DeepSeek投后估值或达450亿美元:国产大模型头部玩家估值持续攀升
- 全球金融监管机构(FSB)警告:AI行业在私募信贷交易中占比超1/3(此前5年仅17%),高度集中可能带来系统性风险
- AI投资进入”兑现期”:Anthropic营收超越OpenAI,AI Agent变现元年正式开启
- 大模型创业公司开始往”小”做:2025年OpenAI预计税前亏损212亿美元,规模不再是唯一叙事
行业与政策
- 微软警告黑客假借DeepSeek名义在GitHub传播木马:黑客冒充DeepSeek V4创建虚假仓库,诱导下载Vidar、GhostSocks等木马。DeepSeek官方通过API和Hugging Face发布,从未在GitHub提供模型仓库。
- 2026北京车展:智能座舱终局之战:大众宣布2026年起新车全面搭载AI智能体,地平线发布整车智能体”咖咖虾(KaKaClaw)”
- 阿里达摩院发布AI Agent专用芯片:玄铁RISC-V生态大会上发布,专攻AI Agent高并发低功耗算力需求
简报由AI自动生成,建议结合人工判断