
自 2016 年立项至今,时空壶的翻译产品已经销往全球 170 多个国家,几乎以一己之力定义了「翻译耳机」这个品类。在 AI 翻译行业因行业巨头到来而「风云突变」的 2025 年下半年,雷科技也带着问题拜访了时空壶 CTO 石伟,聊了聊他眼中这场新的翻译革命。

说起翻译耳机,其实很多人对这个品类都有误解。在不少消费者眼里,所谓的「翻译耳机」不过是一个可以调用手机翻译 App 的普通蓝牙耳机。毕竟翻译的步骤都在手机 App 里处理,只要 App 翻译够快就行。
不过在时空壶看来翻译耳机其实是一个非常浅层的品类;他们真正想解决的,是人与人交流、理解之间的障碍。简单来说,翻译只是信息的转移,交流是情感和语境的传递,而理解则是人与人真正建立连接的过程。时空壶希望用技术跨越前两者的界限,让机器翻译最终服务于人类的理解与共感。
也正因如此,时空壶选择了一个过去大家都未曾留意到的地方,作为重构翻译耳机品类的落脚点——「听」,具体来说是让「翻译耳机听清人说的话」。
戳视频看
一般来说,只有近距离面对面翻译才会用到翻译耳机。而在近距离、面对面的双向交流下,让翻译耳机能搞清楚「谁在说什么」,并不是一件简单的事情:
首先,一般的耳机只有一路麦克风上行信号、开启同传模式需要更新蓝牙耳机的底层固件;其次,普通的蓝牙耳机在近距离场景下很难区分每只耳机对应的讲话人—— A 说话的声音除了会被 A 佩戴的耳机捕捉,同时也会被 B 佩戴的耳机捕捉,并导致翻译混乱。
在 2021 年发布的 W3 同传耳机中,时空壶设计了一套「矢量降噪技术」,可以区分不同的讲话人。而在今年 9 月推出的时空壶 W4 上,时空壶更进一步,拿出了 TWS 中首创的「骨声纹技术」。

当然,为了保证 W4 收音的质量,W4 利用骨声纹技术识别讲话人的同时,也会用气传导麦克风联动捕捉说话的声音。骨声纹技术分辨讲话人,气传导麦克风技术采集说话声,W4 这套业内首创的翻译耳机声学方案,让翻译耳机可以「无惧」环境噪声,即使在 IFA、CES 那种人声汹涌的国际展会中,也能准确分辨、识别佩戴者的声音。
而这样技术创新的背后,自然也离不开时空壶研发团队的努力。由于时空壶 W4 是 TWS 耳机领域首个落地骨传导麦克风技术的产品,时空壶必须从零开始研发,在这个没有前人可以借鉴的「技术无人区」,时空壶结合骨导与气导信号,经过上万次测试、数十轮样品验证,才在 W4 上实现稳定量产。
翻译应该像母语一样自然
解决了「听」这个前置条件,我们来谈谈翻译耳机的「根」。毫无疑问,翻译耳机的核心功能就是「翻译」——把 A 说的话翻译成另一种语言,播放给 B 听,反之亦然。但在时空壶看来,「翻译」只不过是翻译耳机的表象。
「我们做产品的出发点,并不仅仅是要做一个翻译耳机」,石伟解释道,「我们实际上更希望的它是一个人与人交流的工具」。
有了「交流工具」这个终极目标,时空壶开始对传统翻译设备的工作模式进行了大刀阔斧的改进:
首先是翻译的流畅性。传统的翻译耳机受技术限制,高度依赖云端的翻译模型。这种云端翻译模型虽然可以带来较好的翻译效果,但高度依赖网络传输,一旦网络信号波动,就会出现断句。
石伟举例到:「打电话卡时候,人们自然就会知道这是网络延迟问题,而在翻译方面,大部分用户不会往网络延迟上想,而是会直接认为这就是产品有问题。从品牌角度,我们肯定不会要求用户理解我们。」
但这也意味着,时空壶必须从翻译的原理入手,用更强的短策大模型来处理翻译延迟的问题。

但端侧模型并不是时空壶在「交流」这个大命题下的唯一解决方案。为了让跨语言交流能像「母语交流」一样自然,时空壶还构建了「超能翻译引擎」系统。
简单来说,「超能翻译引擎」集成了行业内最好的翻译模型,并建立专有评测体系,通过真人录音测试以确保输出品质。石伟介绍道:「我们会邀请专业的真人译员,由他们和时空壶一起评测翻译的质量。积累出一个公平、全面的评测机制,再基于这个机制去测试市面上的翻译模型。」
我们知道,不同翻译服务对不同的翻译语种有不同的效果,可能某个公司的模型擅长 AB 语言的翻译,另一个公司的模型擅长 CD 语言之间的翻译。而时空壶采用的「超能翻译引擎」,能在不同的翻译模型之间各取所长,从而打造真正的「母语级」翻译。
当然了,这并不意味着时空壶没有自己的翻译模型能力。石伟补充道「如果(外界翻译引擎)没有我们自己的好,我们集成自己的引擎,自己动手优化和提升翻译质量。」

比如在实验室中,时空壶还打造了「音色跨语种克隆」技术,让翻译后的译文也拥有讲话人原始语音中的音色、语气,让跨语言交流不再是「机器替用户说话」。
在「技术无人区」里,
用户就是唯一的前进方向
尽管在访谈中,石伟介绍「骨声纹」「超能翻译引擎」「双向翻译」等技术时有些「轻描淡写」,但代入到时空壶的角色后,我们也能看到时空壶从零开始打造翻译耳机品类的艰辛。
2016 年,时空壶成立。当时整个翻译耳机行业尚无可参考的成熟模板,技术、形态、交互方式都要时空壶亲自去摸索。「时空壶作为行业先行者,一直都是在『无人区』里探索」,石伟说。
在这样的「技术无人区」里,时空壶没有数据可抄、也没有竞品可比,唯一能指引时空壶不断前行的,就是时空壶的用户。
在此次交流之前,雷科技曾参观过时空壶的办公室。在其研发区域,挂着一台所有人看见的电视。但电视里放的并不是企业文化宣传片,而是「实时评价」——时空壶会在电视上实时滚动播放全球电商平台上关于自己产品的评价。

除了专注线上用户反馈,时空壶还会把团队带到真实的使用现场。「我们会给研发同事补助、奖金,让他们带家人去日本、泰国、越南等小语种国家旅游。唯一的要求就是必须亲自用自己的产品,去感受时空壶在真实的场景里的体验」。
在交流中,石伟也向雷科技分享了一个受用户启发的案例:
时空壶原本是一个纯 C 端(面向消费者)的产品,但有段时间,时空壶发现很多学校的老师都会自费购买他们的产品。「同时到了现场,观察到海外很多 K12 教育机构(幼儿园到 12 年级的教育阶段),除了正常的课堂,还有很多手工课、木工课之类的课程,课堂里面的收音环境特别的差。正是这些真实的用户和场景需求,才让我们找到了如 W4 这样的骨传导抗噪方向。」

可以说,正是来自海量用户的信任和反馈,让时空壶能从 2016 年一路走到今天。也正是这种「洞察用户、倾听用户」的方法论,让时空壶能从翻译耳机品类中脱颖而出,从「翻译耳机品类探索者」成长为「有温度的科技品牌」。
不做「没有意义」的竞争
当然了,时空壶开辟翻译耳机这个赛道已经将近十年了,翻译耳机这个赛道也迎来了不少「新玩家」。但谈到不同品牌之间的竞争时,石伟的看法却让雷科技有些出乎意料。
「竞争是一定会有的,这没什么意外。」他顿了顿,「但关键是,我们不能让竞争变得无意义。」
石伟认为,翻译耳机这个品类还远没到「成熟」的阶段。它不像手机、汽车那样可以比参数、拼配置;现在所有玩家都还在摸索体验边界。「有的品牌想靠价格战抢市场,但我们更清楚,这个行业跑的是马拉松,不是百米赛。」石伟喜欢用跑步做比喻:「你跑了三公里就开始回头看别人追上来没,这种状态是跑不远的。」
结合时空壶在「无人区」探索的经历,石伟这样的观点其实也很好理解。就当前的翻译设备市场来说,企业发展的难题并不是「竞争对手太多」,而是「行业、技术对交流的覆盖还不够深」。
举个例子,人与人的交流除了语义,还包括声调、眼神、手势等多种维度。比如意大利人在说话时,手部动作就特别丰富;亚洲人在表达情绪时,也更常用眼部动作。
如果我们将时空壶看作一个「翻译耳机品牌」,那这个赛道里不同品牌的竞争点无非就是翻译准确度、速度。但在时空壶看来,「翻译耳机」只不过是时空壶基于当前消费电子技术现况,选定的最「最佳形态」而已。如果从「交流工具」的角度看,时空壶依旧是那个「没有对手、探索未知」的品牌。
让技术更有温度
在石伟看来,时空壶真正想做的,是让机器的语言逐渐「长出人味」,而不仅仅是做一个快速且没有感情的翻译机器。
「技术再先进,也得让人感受到温度。」石伟解释道,「翻译不是字对字,而是要把说话的感觉传过去。」

为了实现这一目标,时空壶作出了大量的努力。得益于大模型的加入,时空壶的双向翻译拥有了对上下文的理解能力,可以理解对话场景,并根据历史对话,排除不符合语境的多音字、多义词分支,获得更准确的翻译效果。
而之前提到的「音色跨语种克隆」技术,也能在翻译原话的同时,尽可能保留原声的特点。用石伟的话来说:「我们希望用户在使用时不会觉得这是机器在帮你,而是有人在理解你。 」
不只是翻译耳机,还是沟通的桥梁
在 AI 迅猛发展的时代,大多数公司都在追逐更高的模型参数、更快的响应速度。但时空壶选择了一条不那么显眼的路径——去研究「交流的质感」。

End
