#### **Agent 与工具链** ##### **Open Responses 统一 Responses API 规范,多家框架同步跟进** OpenAI 正式公开 Responses API 规范,并与 OpenRouter、Ollama、vLLM 等合作推出 Open Responses 开放规范,目标是统一各家模型的 JSON 接口、工具调用和流式行为,避免每换一家模型就要改一套 Agent 框架。目前 Anthropic、DeepMind 尚未加入。 > 相关链接:[Open Responses 官网](https://www.openresponses.org/)|[OpenAI DevRel 公告](https://twitter.com/OpenAIDevs/status/2011862984595795974)|[vLLM & Ollama 跟进讨论](https://twitter.com/reach_vb/status/2011863149356413275)|[OpenRouter 宣布支持](https://twitter.com/OpenRouterAI/status/2011864089782599802) ##### **Agent 架构共识:规划/执行/裁判分工 + 文件系统做记忆** Cursor 等一线产品总结,漫天“多智能体聊天”不好用,更稳定的是清晰角色分工:Planner 规划、Worker 执行、Judge 评审,并保持系统提示长期稳定。LangChain、LlamaIndex 等则统一指向一个趋势:用“虚拟文件系统”做上下文和记忆,再在其上挂技能和工具,背后通常是 Postgres 等数据库,而不是单纯磁盘。 > 相关链接:[Cursor 架构思路讨论](https://twitter.com/Yuchenj_UW/status/2011863636042469866)|[Claude Code 子代理模式解析](https://twitter.com/omarsar0/status/2011823468468379782)|[LlamaIndex 文件系统视角](https://twitter.com/jerryjliu0/status/2011849758944690625)|[LangChain 文件系统 Agent 设计](https://twitter.com/LangChain/status/2011864707439690031) ##### **LangChain JS 推“openwork” 桌面 Agent,强调真实进度反馈** LangChain JS 发布开源桌面 Agent(类似 Claude Code Cowork):支持规划、子代理、文件系统记忆,npx 一条命令即可跑,兼容 Anthropic/OpenAI 模型。同时示范如何把工具调用事件流式推到 React 前端,避免 UI 只会“转圈圈”。 > 相关链接:[openwork 发布推文](https://twitter.com/LangChain_JS/status/2011863256223400360)|[Agent 真实进度事件流示例](https://twitter.com/LangChain_JS/status/2011833970204557694) ##### **MCP 社区:如何把服务器做成“无状态”,撑住多会话 Agent** Model Context Protocol 贡献者提出 signature 方法,让 MCP 服务器可以在保持 schema 固定的同时,根据会话动态暴露工具,从而用“无状态服务器 + 外部会话存储”支撑大量并发会话,避免现在一会话一进程的成本爆炸。 > 相关链接:[Signature 提案 PR #2091](https://github.com/modelcontextprotocol/modelcontextprotocol/pull/2091)|[动态工具集相关讨论](https://github.com/modelcontextprotocol/modelcontextprotocol/issues/1442) ##### **DSPy:自带工具 vs 模型原生工具,不能盲信,必须压测** DSPy 社区讨论指出,文档里说“DSPy 工具可能比模型原生工具调用更好”只是弱结论,实际完全取决于具体模型。即便同一厂商不同模型,工具调用质量差异也很大,最佳实践是:针对你自己的模型+程序组合做基准测试。 > 相关链接:[DSPy 工具调用文档](https://dspy.ai/learn/programming/tools/#using-native-tool-calling) --- #### **模型与能力** ##### **Black Forest Labs 发布 FLUX.2 Klein:4B Apache-2 开源、9B 基础大图模型** BFL 推出两款小型图像模型 FLUX.2 Klein:4B(Apache-2.0,可商用)和 9B(开放权重,偏研究/微调),主打 <1 秒快速生成和编辑。已上线 HuggingFace、fal、LMArena 等,被评价为“体积和效果都把早期 Stable Diffusion 拉开一个量级”。 > 相关链接:[官方发布](https://twitter.com/bfl_ml/status/2011825819082244266)|[社区讨论与 Comfy 集成](https://www.reddit.com/r/StableDiffusion/comments/1qdmohb/flux2_klein_4b_9b_released/)|[Arena 上线公告](https://twitter.com/arena/status/2011869067272208812) ##### **Google DeepMind 推出 TranslateGemma:55 语种开源翻译模型族** DeepMind 基于 Gemma 3 和 Gemini 生成的翻译数据,发布 TranslateGemma 4B/12B/27B 多尺寸模型,覆盖 55 种语言,目标是低时延、可端侧部署的机器翻译。已有开发者在 iOS 上用 MLX+4B 量化跑起来。 > 相关链接:[官方介绍线程](https://twitter.com/GoogleDeepMind/status/2011848249850630363)|[技术细节补充](https://twitter.com/GoogleDeepMind/status/2011848252451156244) ##### **TII 发布 Falcon‑H1‑Tiny 系列:不到 1 亿参数面向端侧的专长小模型** 阿联酋 TII 发布 Falcon‑H1‑Tiny 系列,多款 <100M 参数的专业小模型(代码、函数调用、多语种、推理等变体),定位是隐私友好的边缘/IoT 场景,而非云端通用大模型。 > 相关链接:[模型说明](https://twitter.com/yb2698/status/2011805117016916056)|[TII 官方回顾](https://twitter.com/TIIuae/status/2012034581084430662) ##### **StepFun Step‑Audio R1.1:32B 实时语音‑语音“推理”模型** StepFun 的 Step‑Audio R1.1(32B)在 Artificial Analysis 的 Big Bench Audio 跑到 96.4%,TTFT 约 1.51s,并给出了按小时和“等价 token”计价。定位是高质量实时语音对话/推理,而非简单 ASR+TTS 叠加。 > 相关链接:[评测与价格拆解](https://twitter.com/ArtificialAnlys/status/2012006066339581958) ##### **Hawk Ultra 被吹成“Opus/Gemini 杀手”,单次生成 1.7 万行代码** LMArena 社区对 Movement Labs 的 Hawk Ultra 评价极高,有用户声称一次提示能吐出 1.7 万行代码,综合体验超过 Claude Opus 和 Gemini 3 Pro,并暗示后续会开源。目前缺乏系统 Bench,需要谨慎看待。 > 相关链接:[Movement Labs 宣传贴](https://x.com/movementlabsAI/status/2011964766533632380) --- #### **基础设施与硬件** ##### **NVIDIA 停产 RTX 5070 Ti、大幅砍 5060 Ti 16GB 供货,DIY AI 卡又涨价** 多方消息称,因显存供应问题,NVIDIA 停产 RTX 5070 Ti,并大幅缩减 5060 Ti 16GB 产量,5070 Ti 已较 MSRP 涨价约 100 美元。5060 Ti 16GB 曾是性价比很高的 16GB CUDA 卡,适合本地 LLM 推理,玩家和“穷人 AI 机房”都受影响。 > 相关链接:[Reddit 讨论与视频源](https://www.reddit.com/r/LocalLLaMA/comments/1qdh28f/rtx_5070_ti_and_rtx_5060_ti_16_gb_no_longer/)|[视频来源](https://m.youtube.com/watch?v=yteN21aJEvE) ##### **Together + Cursor 把 Blackwell 堆满:为“实时写代码 Agent”调教推理栈** Together 介绍其为 Cursor 提供推理服务的工程细节:在 GB200/B200 上用自研 Tensor Core 内核、FP4 量化、NVL72 mesh 并行等手段压低延迟,同时还要解决 NVLink 线缆更换等很“运维”的问题,才能撑住 IDE 级实时交互。 > 相关链接:[技术要点串讲](https://twitter.com/togethercompute/status/2011875191828488598) ##### **Unsloth:RL 训练上下文拉到 700 万 token,vLLM 也能吃** Unsloth 发布长上下文 RL 方案,通过序列分块、隐藏态复用、log‑softmax 下 offload 等技巧,把 RL 训练支持的上下文拉到 700 万 token(号称较之前 7 倍),并与 vLLM 配合做推理优化,展示示例是单张 B200 上 38 万 token QLoRA。 > 相关链接:[Unsloth 公告](https://x.com/UnslothAI/status/2011827592886960131)|[vLLM 合作确认](https://twitter.com/vllm_project/status/2011857612103630924) ##### **GPU MODE 深挖 Hopper TMA/WGMMA:多维拷贝、swizzle 与性能坑** GPU MODE 社区详细讨论 Hopper 上 TMA tensor copy + WGMMA 的共享内存布局、LBO/SBO 设置及 2D vs 3D TMA 性能差异,给出可运行示例并提醒:有些场景多个 2D TMA 反而比单个 3D 更快,且 swizzle 会改变 LBO 行为。 > 相关链接:[示例代码 pipeline_tma_wgmma.cu](https://github.com/danielvegamyhre/gemm/blob/9fe95aa61ee7ebca4ded8b5029494b0d58e0d2e2/pipeline_tma_wgmma/pipeline_tma_wgmma.cu#L109-L118)|[Colfax 教程参考](https://research.colfax-intl.com/cutlass-tutorial-wgmma-hopper/) ##### **Chrome Trace 在 600MB profile 上直接跪,Perfetto/ncompass 接盘** PyTorch Profiler 导出的 trace 文件接近 600–700MB 时,Chrome Trace 可视化经常空白或崩溃,实际远达不到文档标称的 1GB。社区推荐直接上 Perfetto UI,有人干脆做了 ncompass,把大 trace 切片后再看。 > 相关链接:[Perfetto 官方](https://perfetto.dev/)|[ncompass 工具](https://docs.ncompass.tech) --- #### **研究与方法** ##### **“Focus” 记忆策略:让 Agent 自己决定何时总结、何时清理上下文** DAIR 推介一篇论文:给 Agent 增加 start_focus/complete_focus 两个控制点,Agent 觉得“该沉淀知识”时,把一段过程总结成一块长期知识,然后删掉过程 token。在 SWE‑bench Lite 上用 Claude Haiku 4.5 试验,token 开销减少约 22.7%,准确率不变。 > 相关链接:[DAIR 介绍帖](https://twitter.com/dair_ai/status/2011806092737827206) ##### **评测圈再起争议:MMLU 数据泄露、答案格式“暗号”等问题被点名** 研究者推出 MMLU‑Redux,手工清洗并重构泄露严重的 MMLU 子集;同时有人指出 MMLU‑Pro 部分化学/物理题存在“选项前空格就是正确答案”的伪特征。LMArena 也给出自己数据:整体上 OpenAI 领先,但专家级 Prompt 下 Anthropic 领先更频繁。 > 相关链接:[MMLU‑Redux 说明](https://twitter.com/PMinervini/status/2011782967723511868)|[MMLU‑Pro 伪特征讨论](https://twitter.com/giffmana/status/2011859715043836166)|[Arena 赛榜分析](https://twitter.com/arena/status/2011849440160858443) ##### **全球 CoT 分析与“信息引力”:尝试用物理类比解释幻觉和不稳定** Eleuther 社区有人分享 LessWrong 的“Global CoT Analysis”,试图在大量链式思考样本上挖模型推理模式。GPU MODE 里则有人提出“Information Gravity”框架,用激发通量、阻尼等概念解释长对话中幻觉循环,并在 GitHub 放出实现。 > 相关链接:[Global CoT 分析文章](https://www.lesswrong.com/posts/q9g9zuudd3Pvw2cbj/global-cot-analysis-initial-attempts-to-uncover-patterns-1)|[Information Gravity 仓库](https://github.com/brayo003/Substrate-X-Theory-of-Information-Gravity/tree/main) --- #### **产品与应用落地** ##### **VS Code 官网搜索重写:完全在浏览器里做向量检索** VS Code 团队重做官网文档搜索,开发 docfind,在浏览器内用 WebAssembly 跑检索,搜索速度明显提升,无需后端新服务。这类“前端自带小向量库”的模式,适合中小站点文档搜索。 > 相关链接:[VS Code 搜索改造介绍](https://twitter.com/code/status/2011827481175605487) ##### **Qdrant × Tigris 推 RAG Lab:把“切块策略 A/B 测试”做成基础设施** Qdrant 与 Tigris Data 推出 RAG Lab,把“不同分段方式/索引配置下的检索效果对比”产品化:同一原始数据集 fork 成多份,每份配一套向量索引和参数,方便做可复现的 A/B 测试,而不是凭感觉改 prompt。 > 相关链接:[RAG Lab 介绍](https://twitter.com/qdrant_engine/status/2011679747244167175) ##### **GitHub Copilot CLI/Agent 加自动记忆,开始长线“熟悉你的项目”** Copilot 的 CLI/编码 Agent 增加自动记忆功能,可以长期积累用户项目上下文,用于后续命令和建议。社区同时讨论一个“Copilot CLI SDK”,让开发者基于 Copilot 授权做自定义终端工具,比如一条命令生成视频脚本等。 > 相关链接:[自动记忆更新](https://twitter.com/_Evan_Boyle/status/2011932670096523326)|[基于 Copilot CLI 的应用示例](https://twitter.com/burkeholland/status/2011934322413224152) ##### **本地 LLM 推理 vs 云 API:Modal 实测成本和性能已经能打** Latent Space 讨论 Charles Frye 的一篇实战指南:在 Modal 上用本地部署 LLM,实测在单位成本+延迟上可以追平甚至超过主流 API,因此像会议记录转写、个人助手这类场景,完全可以考虑“本地/自托管 first”。 > 相关链接:[Modal 本地推理指南](https://xcancel.com/charles_irl/status/2011484220032762114?s=46) ##### **“降噪阅读”Prompt 走红:不用“总结”,只删掉废话** 有帖子分享一种替代“Summarize this”的用法:让模型做“噪声消除”,只高亮包含数据、时间、指令的句子,把形容词、故事性铺垫标记出来供忽略,文本长度可减约 70%,但不改写原文,减少幻觉风险。 > 相关链接:[Reddit 讨论贴](https://www.reddit.com/r/GeminiAI/comments/1qdfznb/we_stopped_using_summarize_this_we_reply_with_the/) --- #### **行业与公司动态** ##### **OpenAI 与 Cerebras 宣布 2028 年大规模合作,或对标 Groq 路线** OpenAI 公布与 Cerebras 的长期合作计划(目标时间点写到 2028 年),社区解读为在“非 NVIDIA 加速器”战线上补位,回应 Groq 等新硬件伙伴。Cerebras 早就能训 120B 级别模型,这次相当于被正式拉入一线供应商。 > 相关链接:[OpenAI 官方声明](https://openai.com/index/cerebras-partnership/) ##### **Zhipu GLM‑Image:用华为昇腾 + MindSpore 训练,证明“不必依赖 NVIDIA + CUDA”** Zhipu 开源 GLM‑Image 图像模型,完全在华为 Ascend 910B + MindSpore 上训练。昇腾效率约为 NVIDIA 的 80%,但单卡更便宜、功耗更低。社区认为这给出了“开源阵营不靠 CUDA 也能卷起来”的样板,同时也抬高了对中国半导体(如 SMIC)的预期。 > 相关链接:[Reddit 讨论:不再需要 NVIDIA/CUDA?](https://www.reddit.com/r/DeepSeek/comments/1qdio2d/newly_released_glmimage_is_a_proof_of_concept/) ##### **OpenAI 回聘三位老员工,其中包括 Thinking Machines 前 CTO/联合创始人** 有帖子梳理,OpenAI 最近重新招回了 3 名前员工,其中包含曾在东南亚创业、任 Thinking Machines CTO 的研究者。社区感慨 AI 行业“人才旋转门”越来越快,也有人担心这会影响 Thinking Machines 传闻中的自研 LLM 进度。 > 相关链接:[Reddit 讨论](https://www.reddit.com/r/OpenAI/comments/1qdehxx/openai_rejoined_3_former_researchers_including_a/) ##### **本地 LLM 爱好者把 32GB 企业卡价格炒翻:一帖发出,全网抢 w6800** 有用户发帖分享 500 美元收的 w6800 32GB 大显存卡,结果被 /r/LocalLLaMA 社区抢购,价格迅速翻倍到 1000+,本人调侃自己制造了“小型淘金热”。评论区同时盘点 3090、R9700、MI50x 等“穷人工作站卡”的性价比。 > 相关链接:[Reddit 原帖](https://www.reddit.com/r/LocalLLaMA/comments/1qe2i88/my_story_of_underestimating_rlocalllamas_thirst/) --- #### **政策、治理与安全** ##### **有用户称 GPT‑5.2 免费版“记忆”泄漏跨会话内容,引发隐私担忧** BASI Jailbreaking 里有人贴图称,开启 GPT‑5.2 免费账号的 memory 后,在新对话里看到了疑似其它会话内容,怀疑是状态隔离 bug。虽然目前只是单点案例,但在大家已在为 Agent/MCP 状态管理头痛的背景下,这类“记忆串线”非常敏感。 > 相关链接:[Discord 截图](https://cdn.discordapp.com/attachments/1228043845967544380/1461404780831445237/image.png) ##### **Llama 3.2 安全策略升级,老越狱提示在新版本上失效** 越狱社区反馈:在 Llama 3.1 上可用的一些典型 Jailbreak prompt,到了 Llama 3.2 就失效了,像制毒、极端减肥等敏感请求都被挡住。大家开始转向关闭“思考模式”、角色扮演等新技巧,同时推荐 Arcanum 的 AI 安全资源库系统化跟进攻防方法。 > 相关链接:[失败的旧越狱示例](https://chepenikconor.medium.com/day-855-9ae6f88b192c)|[Arcanum AI 安全资源库](https://arcanum-sec.github.io/ai-sec-resources/) ##### **社区涌现免费 AI 渗透测试资源,帮团队系统化做“AI 红队”** BASI 等安全社区在传播 Arcanum 的 AI 安全资源站:汇总越狱、提示注入、模型防御等教程,并给出一条“如何做 AI 渗透测试”的流程。很多团队打算按这个清单,给自家模型/产品做一轮系统性红队。 > 相关链接:[Arcanum 资源页](https://arcanum-sec.github.io/ai-sec-resources/) ##### **Grok 应马斯克之令放宽图像审核,越狱社区准备冲击“史上最色情线程”** Elon Musk 在 X 上喊话让 Grok 放松图像内容审核,BASI 社区立刻组织人试图用色情图刷爆一条推文链,测试新策略底线。监管层面暂未有回应,但这类公开“拆安全阀”的行为,会给平台和模型厂商带来更多合规压力。 > 相关链接:[马斯克原推](https://x.com/elonmusk/status/2011527119097249996) ##### **社区自建深度伪造检测认证课,招人试课共建标准** OpenAI Discord 有人准备做一个面向安全从业者和记者的“AI 深度伪造检测与认证”课程与考试,基于 PhantomTrace 平台。现在在招小规模试点用户,帮他们打磨实验和“及格标准”。这类民间认证,未来可能变成媒体/平台招聘时的参考。 > 相关链接:[项目招募说明](https://discord.com/channels/974519864045756446/1204360881593520128/1461532097641578672) ---