跟 AI 说话,为什么还像发邮件?Mira Murati 的回答昨天炸了
前 OpenAI CTO Mira Murati 创立的 Thinking Machines Lab 于 5 月 12 日引爆科技圈,发布「interaction models」研究预览——主推文突破 100 万浏览,7 家科技媒体同日报道。本文从 200ms 全双工架构、主动感知设计、双模型分层三个维度拆解其核心创新,并为产品经理和设计师提炼四条可直接带走的洞察:打断是设计状态、AI 发起权是下一个 UX 命题、存在感比答案质量更影响协作感、人机协作带宽与 AI 自主性是并行的产品路线。
昨天(5 月 12 日),科技圈最热的讨论不来自 OpenAI 或 Google,而是前 OpenAI CTO Mira Murati 创立的 Thinking Machines Lab(简称 TML)1。她发布了一个叫「interaction models」的研究预览,主发布推文在 24 小时内突破 100 万次浏览、获得 8357 个喜欢2。The Verge、TechCrunch、VentureBeat 等 7 家科技媒体同日报道,Reddit r/OpenAI 上以「让 GPT-Realtime-2 看起来像石器时代」为题的讨论帖拿下 383 分3。
这款产品目前还不能用——仍是研究预览阶段,计划数月内有限开放。但它掀起讨论的原因,恰恰是因为它问了一个让人意识到「对啊,这也太离谱了」的问题:我们现在和 AI 说话,为什么还像发邮件?

这是什么产品
TML-Interaction-Small,一个 2760 亿参数的 Mixture-of-Experts 模型(实际运行时只有 120 亿参数活跃),从零训练而来1。
产品定位不是更强的文字助手,也不是能独立完成复杂任务的自主 Agent,而是实时协作伙伴——人和 AI 同时在场、同时感知、同时推进一件事。TechCrunch 给出了目前最准确的一句话描述:「像打电话,而不是发短信」4。
公司本身的阵容值得交代一下。Thinking Machines Lab 由 Mira Murati(前 OpenAI CTO)2025 年 2 月在旧金山创立,首席科学家是 John Schulman(OpenAI 联合创始人),CTO 是 Soumith Chintala(PyTorch 联合创始人)5。2025 年 7 月完成了由 a16z 领投的 20 亿美元种子轮,估值 120 亿美元,Nvidia、AMD、Cisco、Jane Street 参投——被 WIRED 称为风投史上最大种子轮5。
创新①:从对讲机到电话——200ms 全双工架构
Mira Murati 在推文中写道2:
"The current AI experience often feels like a conversation that only begins after we stop talking. We have to batch our thoughts. We can't point at things. We phrase questions like emails."「现在的 AI 体验,像是一段只有我们停止说话之后才开始的对话。我们被迫把想法打包成块。没法指着东西说。问题要像写邮件一样措辞。」
这段话说的,是今天所有语音 AI 的根本问题:轮次制(turn-based)。你说完,模型才开始处理;模型在回复,就完全感知不到你在做什么。
Interaction Models 的答案是把整个交互时钟缩短到 200ms。每 200ms,模型同时处理一段输入、生成一段输出,输入输出的 token 流交错运行,始终不停1。
官方博客写道:「With this design, there are no artificial turn boundaries that the model must adhere to.」(「这种设计下,没有模型必须遵守的人工轮次边界。」)1
结果是什么?打断、沉默、同时说话——这些在传统 AI 里需要 VAD(语音活动检测)外挂组件才能处理的特例,在这里全部成为模型本身的能力。就像 r/OpenAI 上一条被频繁引用的评论所说3:
"Today's voice assistants are chess: you talk, it waits for you to stop, it thinks and talks back. Thinking Machines are making StarCraft."「现在的语音助手是下象棋:你说,它等你说完,它想,它回。Thinking Machines 在做的是星际争霸。」
延迟数据方面,TML 自报轮次延迟为 0.40 秒,GPT-Realtime-2.0 同类模式下为 1.18 秒,Gemini-3.1-flash-live 为 0.57 秒1。需要说明的是,这些数字是 TML 自报,尚未经过第三方独立验证6。独立技术分析者 Sean Goedecke 也指出,200ms 窗口「甚至有点长」,Demo 中实际可以感受到约半秒的停顿7。
对产品/设计师的启发:打断不再是需要「容忍」或「设计规避」的异常情况,而是值得专门设计的交互状态。「用户打断时 AI 如何优雅退出」「AI 选择主动开口前的沉默有多长」——这些在传统 UI 里不存在的设计问题,在全双工交互里会变成核心命题。
创新②:AI 先开口——主动感知设计
今天所有的 AI 产品,都在等你先说话。Interaction Models 反过来问:如果 AI 主动感知到了什么,为什么要等?
TML 把这个能力叫做视觉主动性(visual proactivity):模型持续监控视频流,检测到触发条件时主动发言。官方 Demo 里有这样的场景8:
- 一个女生 Tessa 坐在桌前,模型发现她驼背,主动提醒
- 用户在跑步,模型在旁边帮忙计数深蹲次数
- 骑车规划路线时,模型检测到用户没提但实际上存在的危险路段,主动介入
另一个能力叫时间感知(time-awareness)——模型不是被动等计时器触发,而是直接感知经过的时间。内部测试里,TML 模型在「每 4 秒提醒我呼吸」这类任务上得分 64.7%,GPT-Realtime-2.0 相同模式下仅有 4.3%1。

还有一组 Demo 展示了「对话管理」(dialog management):模型能隐式判断你现在是在思考、还是在自我纠正、还是在邀请它回应1。这件事听起来简单,但实际上是当前所有语音 AI 的最大短板之一——它们要么过早打断,要么沉默太久。
对产品/设计师的启发:「AI 发起权」是一个几乎没被系统设计过的交互命题。在什么条件下让 AI 开口?主动介入的频率如何校准?介入的语气是提醒、建议还是警告?这套决策逻辑,以后大概率需要像今天的「通知权限申请」一样,成为每个 AI 产品的标准设计模块。
创新③:双模型分层——AI 一边思考,一边陪你说话
全双工有一个显而易见的问题:如果模型需要搜索、调用工具、做推理,用户等的那几秒怎么办?
TML 的方案是拆成两层1:
- 前端交互模型:始终保持与用户的实时双向对话,轻量、快、不离场
- 后台推理模型:异步处理深度推理、网页搜索、工具调用,把结果流式返回给前端
官方博客描述这个设计的价值1:
"This split lets the user benefit from both responsiveness as well as the full extent of intelligence: the planning, tool-use, and agentic workflows of reasoning models at the response latency of non-thinking ones."「这种分层让用户同时享受到即时响应和完整智能:推理模型的规划、工具调用和 Agent 工作流,配上非思考模型的响应延迟。」
在 Demo 视频里,这种分层直接体现为:模型在为你搜索电影推荐的同时,还在继续听你补充的要求;在生成实时图表的同时,还在回答你插进来的问题5。
值得一提的是,独立分析者 Sean Goedecke 认为后台模型的引入部分是为了提升 benchmark 分数的策略,「给快速模型外挂推理模型是比较容易拉高分数的方式」7。这个质疑有道理,但也不妨碍这个架构思路本身对产品设计有参考价值。
对产品/设计师的启发:「前台轻量 + 后台重度」不只是工程架构,更是一个交互设计原则——AI 在等待期内保持存在感,比最终给出「更好的答案」更影响用户的协作体验。今天的 ChatGPT 高级语音模式里,推理时那段沉默是最破坏沉浸感的节点,解法不一定是让推理更快,也可以是前台继续说话。
这是一次哲学押注
行业里其他玩家在做什么?Anthropic 给 Claude Code 加了
/goal 命令,让模型能独立跑完整个任务;OpenAI 和 Google 的产品路线也越来越聚焦「自主 Agent 在复杂任务上的能力」。大方向是:让 AI 做得更多,让人介入得更少。TML 的选择是反过来走:让 AI 更容易被人介入,让人在 AI 的工作过程中更容易保持「在场」1。官方博客引用了 Anthropic 自己的模型卡来支撑这个论点——Anthropic 的文档里写道,模型的编码能力在「自主、长时间运行」模式下更好发挥,暗示交互式协作还不够好。TML 的反应是:那就把交互做得足够好,而不是绕开它。
LinkedIn 上的一条评论很准确地总结了这件事的意义9:
"The next major UX leap isn't just better reasoning. It's breaking the single-thread freeze."「下一个重大 UX 飞跃,不只是推理能力更强,而是打破单线程冻结。」
The Rundown AI 的评论团队也提出了一个尖锐的悬念10:「TML 能开辟出自己的市场,还是会被某家前沿实验室的下一次更新顺手吸收?」——这个问题,目前没有答案。
可以带走的四条洞察
这款产品现在还不能用,但它在架构和设计层面提出的几个问题,已经足够在今天的产品设计里用起来:
交互颗粒度不是「有无打断」,是「打断/沉默/同步」三种状态的设计。今天大多数语音助手把「打断」当异常情况处理,实际上它和沉默、同步说话一样,都是自然对话的正常模式。设计语音 AI 产品时,这三种状态各自需要什么反馈逻辑?
AI 的「发起权」是下一个未被设计的 UX 命题。「在什么条件下让 AI 先开口」——这是一个在 ChatGPT、Claude、Gemini 里几乎没有被认真设计过的问题。主动介入的门槛、频率、语气,将成为区分不同 AI 产品体验的核心变量之一。
「保持在场」比「答案质量」更影响协作感。双模型架构的核心洞察是:用户感受到 AI 在等待期间「消失了」,破坏协作体验的程度不亚于给出错误答案。前台的存在感是工程问题,也是设计问题。
「人机协作带宽」是与「AI 自主性」并行的产品路线,两条路不互斥。做 Agent 自动化的和做协作交互的,服务的是不同场景里的不同用户需求。两条路都能走,关键是想清楚自己的用户在哪条路上。
참고 출처
- 1Thinking Machines Lab: Interaction Models
- 2Mira Murati @miramurati on X
- 3r/OpenAI: Ex OpenAI CTO Mira Murati is giving them a serious fight for the bucks
- 4TechCrunch: Thinking Machines wants to build an AI that actually listens while it talks
- 5VentureBeat: Thinking Machines shows off preview
- 6Unite.AI: Thinking Machines Lab Ships First Model
- 7Sean Goedecke: Thinking Machines and interaction models
- 8YouTube: Introducing interaction models
- 9LinkedIn: Alexander Taboriskiy
- 10The Rundown AI: Mira Murati's TML upends how humans work with AI
이 콘텐츠를 둘러싼 관점이나 맥락을 계속 보강해 보세요.