跟 AI 说话，为什么还像发邮件？Mira Murati 的回答昨天炸了

昨天（5 月 12 日），科技圈最热的讨论不来自 OpenAI 或 Google，而是前 OpenAI CTO Mira Murati 创立的 Thinking Machines Lab（简称 TML）1。她发布了一个叫「interaction models」的研究预览，主发布推文在 24 小时内突破 100 万次浏览、获得 8357 个喜欢2。The Verge、TechCrunch、VentureBeat 等 7 家科技媒体同日报道，Reddit r/OpenAI 上以「让 GPT-Realtime-2 看起来像石器时代」为题的讨论帖拿下 383 分3。

这款产品目前还不能用——仍是研究预览阶段，计划数月内有限开放。但它掀起讨论的原因，恰恰是因为它问了一个让人意识到「对啊，这也太离谱了」的问题：我们现在和 AI 说话，为什么还像发邮件？

Thinking Machines Lab 团队成员与 Interaction Models 发布画面

图片来自：Introducing interaction models | Thinking Machines Lab

这是什么产品

TML-Interaction-Small，一个 2760 亿参数的 Mixture-of-Experts 模型（实际运行时只有 120 亿参数活跃），从零训练而来1。

产品定位不是更强的文字助手，也不是能独立完成复杂任务的自主 Agent，而是实时协作伙伴——人和 AI 同时在场、同时感知、同时推进一件事。TechCrunch 给出了目前最准确的一句话描述：「像打电话，而不是发短信」4。

公司本身的阵容值得交代一下。Thinking Machines Lab 由 Mira Murati（前 OpenAI CTO）2025 年 2 月在旧金山创立，首席科学家是 John Schulman（OpenAI 联合创始人），CTO 是 Soumith Chintala（PyTorch 联合创始人）5。2025 年 7 月完成了由 a16z 领投的 20 亿美元种子轮，估值 120 亿美元，Nvidia、AMD、Cisco、Jane Street 参投——被 WIRED 称为风投史上最大种子轮5。

创新①：从对讲机到电话——200ms 全双工架构

Mira Murati 在推文中写道2：

"The current AI experience often feels like a conversation that only begins after we stop talking. We have to batch our thoughts. We can't point at things. We phrase questions like emails."
「现在的 AI 体验，像是一段只有我们停止说话之后才开始的对话。我们被迫把想法打包成块。没法指着东西说。问题要像写邮件一样措辞。」

这段话说的，是今天所有语音 AI 的根本问题：轮次制（turn-based）。你说完，模型才开始处理；模型在回复，就完全感知不到你在做什么。

Interaction Models 的答案是把整个交互时钟缩短到 200ms。每 200ms，模型同时处理一段输入、生成一段输出，输入输出的 token 流交错运行，始终不停1。

官方博客写道：「With this design, there are no artificial turn boundaries that the model must adhere to.」（「这种设计下，没有模型必须遵守的人工轮次边界。」）1

结果是什么？打断、沉默、同时说话——这些在传统 AI 里需要 VAD（语音活动检测）外挂组件才能处理的特例，在这里全部成为模型本身的能力。就像 r/OpenAI 上一条被频繁引用的评论所说3：

"Today's voice assistants are chess: you talk, it waits for you to stop, it thinks and talks back. Thinking Machines are making StarCraft."
「现在的语音助手是下象棋：你说，它等你说完，它想，它回。Thinking Machines 在做的是星际争霸。」

延迟数据方面，TML 自报轮次延迟为 0.40 秒，GPT-Realtime-2.0 同类模式下为 1.18 秒，Gemini-3.1-flash-live 为 0.57 秒1。需要说明的是，这些数字是 TML 自报，尚未经过第三方独立验证6。独立技术分析者 Sean Goedecke 也指出，200ms 窗口「甚至有点长」，Demo 中实际可以感受到约半秒的停顿7。

对产品/设计师的启发：打断不再是需要「容忍」或「设计规避」的异常情况，而是值得专门设计的交互状态。「用户打断时 AI 如何优雅退出」「AI 选择主动开口前的沉默有多长」——这些在传统 UI 里不存在的设计问题，在全双工交互里会变成核心命题。

创新②：AI 先开口——主动感知设计

今天所有的 AI 产品，都在等你先说话。Interaction Models 反过来问：如果 AI 主动感知到了什么，为什么要等？

TML 把这个能力叫做视觉主动性（visual proactivity）：模型持续监控视频流，检测到触发条件时主动发言。官方 Demo 里有这样的场景8：

一个女生 Tessa 坐在桌前，模型发现她驼背，主动提醒
用户在跑步，模型在旁边帮忙计数深蹲次数
骑车规划路线时，模型检测到用户没提但实际上存在的危险路段，主动介入

另一个能力叫时间感知（time-awareness）——模型不是被动等计时器触发，而是直接感知经过的时间。内部测试里，TML 模型在「每 4 秒提醒我呼吸」这类任务上得分 64.7%，GPT-Realtime-2.0 相同模式下仅有 4.3%1。

图片来自：Simultaneous speech | Thinking Machines Lab

还有一组 Demo 展示了「对话管理」（dialog management）：模型能隐式判断你现在是在思考、还是在自我纠正、还是在邀请它回应1。这件事听起来简单，但实际上是当前所有语音 AI 的最大短板之一——它们要么过早打断，要么沉默太久。

对产品/设计师的启发：「AI 发起权」是一个几乎没被系统设计过的交互命题。在什么条件下让 AI 开口？主动介入的频率如何校准？介入的语气是提醒、建议还是警告？这套决策逻辑，以后大概率需要像今天的「通知权限申请」一样，成为每个 AI 产品的标准设计模块。

创新③：双模型分层——AI 一边思考，一边陪你说话

全双工有一个显而易见的问题：如果模型需要搜索、调用工具、做推理，用户等的那几秒怎么办？

TML 的方案是拆成两层1：

前端交互模型：始终保持与用户的实时双向对话，轻量、快、不离场
后台推理模型：异步处理深度推理、网页搜索、工具调用，把结果流式返回给前端

官方博客描述这个设计的价值1：

"This split lets the user benefit from both responsiveness as well as the full extent of intelligence: the planning, tool-use, and agentic workflows of reasoning models at the response latency of non-thinking ones."
「这种分层让用户同时享受到即时响应和完整智能：推理模型的规划、工具调用和 Agent 工作流，配上非思考模型的响应延迟。」

在 Demo 视频里，这种分层直接体现为：模型在为你搜索电影推荐的同时，还在继续听你补充的要求；在生成实时图表的同时，还在回答你插进来的问题5。

值得一提的是，独立分析者 Sean Goedecke 认为后台模型的引入部分是为了提升 benchmark 分数的策略，「给快速模型外挂推理模型是比较容易拉高分数的方式」7。这个质疑有道理，但也不妨碍这个架构思路本身对产品设计有参考价值。

对产品/设计师的启发：「前台轻量 + 后台重度」不只是工程架构，更是一个交互设计原则——AI 在等待期内保持存在感，比最终给出「更好的答案」更影响用户的协作体验。今天的 ChatGPT 高级语音模式里，推理时那段沉默是最破坏沉浸感的节点，解法不一定是让推理更快，也可以是前台继续说话。

这是一次哲学押注

行业里其他玩家在做什么？Anthropic 给 Claude Code 加了 /goal 命令，让模型能独立跑完整个任务；OpenAI 和 Google 的产品路线也越来越聚焦「自主 Agent 在复杂任务上的能力」。大方向是：让 AI 做得更多，让人介入得更少。

TML 的选择是反过来走：让 AI 更容易被人介入，让人在 AI 的工作过程中更容易保持「在场」1。官方博客引用了 Anthropic 自己的模型卡来支撑这个论点——Anthropic 的文档里写道，模型的编码能力在「自主、长时间运行」模式下更好发挥，暗示交互式协作还不够好。TML 的反应是：那就把交互做得足够好，而不是绕开它。

LinkedIn 上的一条评论很准确地总结了这件事的意义9：

"The next major UX leap isn't just better reasoning. It's breaking the single-thread freeze."
「下一个重大 UX 飞跃，不只是推理能力更强，而是打破单线程冻结。」

The Rundown AI 的评论团队也提出了一个尖锐的悬念10：「TML 能开辟出自己的市场，还是会被某家前沿实验室的下一次更新顺手吸收？」——这个问题，目前没有答案。

可以带走的四条洞察

这款产品现在还不能用，但它在架构和设计层面提出的几个问题，已经足够在今天的产品设计里用起来：

交互颗粒度不是「有无打断」，是「打断/沉默/同步」三种状态的设计。今天大多数语音助手把「打断」当异常情况处理，实际上它和沉默、同步说话一样，都是自然对话的正常模式。设计语音 AI 产品时，这三种状态各自需要什么反馈逻辑？

AI 的「发起权」是下一个未被设计的 UX 命题。「在什么条件下让 AI 先开口」——这是一个在 ChatGPT、Claude、Gemini 里几乎没有被认真设计过的问题。主动介入的门槛、频率、语气，将成为区分不同 AI 产品体验的核心变量之一。

「保持在场」比「答案质量」更影响协作感。双模型架构的核心洞察是：用户感受到 AI 在等待期间「消失了」，破坏协作体验的程度不亚于给出错误答案。前台的存在感是工程问题，也是设计问题。

「人机协作带宽」是与「AI 自主性」并行的产品路线，两条路不互斥。做 Agent 自动化的和做协作交互的，服务的是不同场景里的不同用户需求。两条路都能走，关键是想清楚自己的用户在哪条路上。

封面图：图片来自 Thinking Machines Lab: Interaction Models