AI“带火”语音办公:打工人开始对着电脑嘀嘀咕咕
创始人
2026-05-30 02:21:10
0

记者 郑晨烨

淘宝上最近流行起了一种键盘产品,但它只有4个按键、1个拨杆和1个麦克风接口,没有字母键,不能打字,售价269元起,搭配大疆麦克风的版本售价400多元。这个产品叫AhaKey-X1,由南京锦心湾科技有限责任公司(下称AhaKey)开发,今年春节前后才上线。

它的用途很简单:方便用户对AI说话。

用户只需按下语音键,对着麦克风口述工作指令,AI将语音转成文字后发送给Claude、ChatGPT、DeepSeek、Cursor等AI工具执行。不管是写代码、改方案还是整理会议纪要,用户都不需要打字,说出来就行,AI会自动把口语化的表达整理成结构化的文本。

AhaKey联合创始人兼CTO张心阳告诉经济观察报记者,自产品上线以来,每月销量翻倍增长,“6・18”期间公司备货量已近1000台,目前正和多家产业资本及投资机构接洽融资。

一个没有字母键的键盘能卖得好,是因为越来越多的人开始用语音代替打字对AI下达工作指令。这种办公方式最早在程序员中流行,他们用语音向AI描述需求,AI生成代码。但现在,产品经理、律师、内容创作者也开始这样做。

张心阳告诉经济观察报记者,有一个令他印象很深的用户,是一个40多岁的律师,“他连Windows电脑用得都不是特别顺”,但买了AhaKey之后,不需要打字就能和AI对话完成工作。张心阳说,这让他和团队意识到,AI时代的语音办公需求可能远比他们预想的要大。

实际上,语音输入并不是什么很新鲜的玩意儿。早在1997年,IBM就推出了商用中文语音识别系统ViaVoice,标称最高识别率95%,预装在当时的主流PC上。此后近三十年,科大讯飞、搜狗、百度等公司在语音输入领域持续投入,产品从PC端延伸到手机端,但语音始终没有成为主流的输入交互方式。

张心阳认为,变化发生在AI大模型成熟之后。“过去语音输入解决的是转文字的问题,没有解决理解语言的问题。”他说,过去的语音输入法是把你说的话逐字记录下来,错一个字就得手动改,输出的文字是口语态的,人读起来费劲,但AI大模型改变了接收端,哪怕你说得断断续续,夹着口误,AI依然能理解你的意思,再输出一段通顺的文字。

或者说,当语音输入的接收方从人变成AI,对识别准确率的要求大幅降低,语音办公才真正可以实现。

根据经济观察报记者的不完全统计,截至2026年第一季度末,全球语音AI方向的初创公司融资总额已超过70亿美元。

目前,海外语音听写应用Wispr正在进行新一轮融资,目标估值接近20亿美元,而在半年前这个数字还是7亿美元;5月12日,Google把AI听写功能Rambler内置进默认键盘Gboard,覆盖数亿台Android手机,免费使用;国内,5月7日,阿里千问在PC端上线AI语音输入功能;5月28日,科大讯飞(002230.SZ)发布AI眼镜,其搭载的智能体可以将口语化表达自动整理成结构化文本。

过去二十年来,语音输入一直是输入法中一个不太好用的附属功能,现在,AI大模型正在把它变成一种新潮的办公方式。

“AI感受不到痛苦”

即便如今各类语音输入工具的识别准确率已经很高,同声传译、多语种翻译等功能也陆续上线,但语音输入始终没有成为一种主流的交互方式。大多数人在线上交流、办公或日常交互时仍然选择打字,问题显然不在识别准确率上。

科大讯飞穿戴设备业务部总经理林会杰在接受经济观察报记者采访时提到,传统语音输入有一个明显的问题——语音转写完成后,“你是没有办法直接发过去的,因为别人一看就知道,你这就是语音打字出来的,观感不好,虽然说方便了你自己,但是痛苦了别人”。

中文语速通常是打字速度的三倍左右,速度优势明确,但“快”只解决了发送端的效率。一段口语化的文字,夹着语气词、重复和跳跃的逻辑,对读的人来说是负担。比如,微信里收到60秒语音消息会让人头疼,原因也在这里——说的人痛快,听的人痛苦。

这是传统语音输入法面对的一个共同问题:哪怕识别准确率做到了99%,输出的文字依然是口语态的,没有标点,没有段落,时常也会夹着“嗯”“啊”或半句废话,人读起来费劲。

但AI感受不到这种痛苦——对人来说难以忍受的口语化文字,对AI来说没有任何理解障碍,人说得再乱再碎,它都能从中提取意图。语音输入“方便了自己,痛苦了别人”的问题,在接收方变成AI的那一刻起就消失了。

于是,语音办公在两类场景中快速铺开。第一类场景是,用户对着Claude、DeepSeek或ChatGPT说话下达指令,AI直接理解意图并执行任务,整个过程不需要产出一段通顺的文字给人看。这是语音输入在过去几十年都没有遇到过的局面:当接收方从人变成AI,对语言表达的规范性要求大幅度下降。

用张心阳的话说就是,“理解意图比逐字准确更重要”。

程序员是最早大规模进入这个模式的群体。OpenAI联合创始人Andrej Karpathy在2025年2月公开提出“vibe coding”(氛围编程)的概念——开发者用自然语言描述需求,AI生成代码,开发者审核和修改。Karpathy当时就提到,他使用语音听写工具SuperWhisper向AI口述编程指令。到了2025年12月,Karpathy已经完全停止打字写代码,100%依赖语音输入。

2026年2月底至3月初,OpenAI旗下的编程智能体Codex和Anthropic旗下的编程智能体Claude Code在相隔不到一周的时间里先后上线原生语音模式,开发者按住空格键说话,AI就能接收编程指令。

AhaKey-X1就是为这个工作流设计的。张心阳说,用Claude Code等AI编程工具时,AI会频繁要求用户批准操作,拨杆推上去是自动批准,拨下来是逐一确认,“像自动挡一样,所有需要批准的就自动批准掉了”。4个按键中的3个按键分别对应说话、确认、拒绝,第4个键留给用户自定义。

据张心阳介绍,团队最初自己在用AI办公时发现一个问题:正襟危坐在电脑前打字,有时候反而限制想法,“很多点子是灵光一现出来的,可能是在你躺在书房沙发上的时候”。那么,既然和AI交流已经变成说话了,为什么一定要坐在电脑前?

于是,他们先做了一个开源项目放在开源社区GitHub上,有人看到后就来买元器件和套件,再后来就有人希望直接收到组装好的成品。“是用户推着我们往前走的。”张心阳说。在小红书上,也已经有不少用户自己花69元钱买三键小键盘、配一个麦克风,手搓出类似的设备。

语音办公快速铺开的第二类场景是,即便最终还是需要产出文字给人看,AI也在语音转写之后增加了一层语义处理:自动删除语气词,修正语法,理顺逻辑,调整句式,输出一段可以直接使用的通顺文字。这个过程造成的延迟通常只有一两秒钟。

“哪怕你前面说的内容有错误,后面又纠正过来了,AI都可以帮你完整梳理出来,形成一个有效的文案内容。”林会杰这样告诉记者。这也意味着,过去的语音输入需要极高的识别准确率才勉强可用,现在的语音输入即便准确率一般,大模型凭借理解能力也能输出比逐字转写更好的结果。

事实上,过去两年,一批围绕AI语音听写的创业公司在快速成长,其中估值最高的是位于美国旧金山的Wispr公司。这家公司2021年成立,最初做脑机接口腕带(用于无声语音输入),2024年年中转型做语音听写软件。

公开信息显示,截至2026年初,Wispr累计完成约8100万美元融资。根据Wispr披露的数据,持续使用产品超过6个月的用户,日常输入中72%的字符通过语音而非键盘完成;产品上线至今,用户规模同比增长超过100倍,使用满12个月的用户中有70%仍在活跃使用。

2025年9月,LinkedIn联合创始人Reid Hoffman在社交媒体上宣称自己被“voicepilled”(语音觉醒),称这是“一种全新的能力放大方式”。

截至2026年5月,Wispr的目标估值已接近20亿美元,半年内上涨了近三倍。一个听写应用估值20亿美元,资本市场显然在押注语音替代一部分键盘输入的场景。

讯飞输入法也在跟进这个方向。2025年底,讯飞输入法在键盘界面新增了一个AI键,用户长按该键即可用语音直接向AI下达指令,不需要切换到其他应用。科大讯飞2025年年报披露,讯飞输入法大模型服务用户渗透率提升900%,输入效率提升77%。

这或许可以说明,语音办公的需求正在从极客圈向更广泛的职场人群渗透。

“悄悄说话!”

语音办公的速度优势很明确,但办公不只是追求速度。写一封措辞谨慎的邮件、改一段逻辑复杂的代码、打磨一份给客户的方案,这些场景需要的是精确控制,而不是快速表达。能不能覆盖这些场景,是语音办公能走多远的关键问题之一。

经济观察报记者在采访中问张心阳:有人认为用键盘打出来的提示词更有条理,打字过程本身会帮你整理思路,语音输入能取代这个过程吗?对此,张心阳的回答是,“打字的价值永远存在”。

他把两者分得很清楚:语音在表达那一侧,键盘在整理那一侧,“你要修改某个东西的时候,思考过程本身对你是有价值的”。语音解决的是把想法快速“倒”出来,编辑和深度思考仍然需要键盘。

张心阳还提到一个变化:两年前,“提示词工程师”是热门招聘岗位,用户需要精心设计输入格式才能让AI给出满意的结果。但现在,这个岗位基本消失了,AI自己就能把零散的口语化输入进行结构化、拆解、调度,“纯从效果方面看,已经不需要人再去编辑打字了”。

AI对输入格式的容忍度越来越高,用什么方式给AI下指令变得越来越不重要。在这个前提下,速度最快、认知负担最低的输入方式自然会胜出,而且说话时不需要把想法先翻译成书面语。或者说,AI对自然语言的理解能力到了今天这个水平,以语音为核心交互方式的办公产品第一次具备了成立的条件。

但实际上,用语音操作电脑的想法比AI大模型出现得更早。

2018年5月15日,锤子科技在北京鸟巢举办发布会,创始人罗永浩彼时在台上演示了坚果TNT工作站。TNT全称Touch and Talk,主打语音加触控操作桌面电脑,用户对着屏幕说话就能完成搜索、编辑文档、发送邮件等操作。这样一个被锤子科技定义为跨时代的产品,却在发布会后被大范围嘲讽,网友调侃的“安静!你吵到我用TNT了!”一度成为彼时互联网流传甚广的“名梗”。

网友们嘲讽TNT的核心原因是罗永浩在现场演示的语音交互体验不好。2018年的语音识别技术虽然已经能做到较高的准确率,但没有大模型理解意图,每一个识别错误都是一个需要用户手动纠正的摩擦点——用户必须说得字正腔圆、逻辑清晰,机器才能给出正确响应,稍有含糊,体验就会崩掉。

或者说,2018年语音交互的接收方是一套传统软件系统,它需要精确的输入才能运行,对口语化表达缺乏容忍度。哪怕语音识别本身的准确率已经达到95%以上,剩下那5%的错误在没有大模型兜底的情况下,每一个都会变成用户体验的断裂点。

在当时的技术条件下,一个以语音为主要操作方式的桌面电脑,无法兑现它的承诺,也无法带来想象中的体验。如果TNT搭载的是一个能理解自然语言的大模型,并且在今天发布,它面对的将是另一种情形。

大模型解决了“听不懂”的问题,但“不方便说”的问题仍然存在。在张心阳看来,语音办公在实际推广中面对的第一个问题就是噪声,“在开放式办公室里,七八个人同时对着电脑嘟囔,哪怕每个人都在压低音量,汇在一起也够让人头疼的”。

美国人力资源软件公司Gusto的联合创始人Edward Kim近期在接受媒体采访时也表示,他在公司内部推广语音办公工具,自己“现在几乎一直在对着电脑说话”,但在办公室里持续这样做“确实有点尴尬”。

张心阳介绍,AhaKey搭配大疆麦克风可以做到低声识别,在20分贝的音量下仍能保持99%的准确率,20分贝大约相当于深夜卧室里的耳语,坐在旁边的同事几乎听不到你在说什么。

当然,在这个问题上也有另外的技术解决方案。5月28日,科大讯飞研究院语音翻译条线总监孔常青在接受经济观察报记者采访时介绍,讯飞最新发布的AI眼镜采用了唇动识别结合麦克风阵列的多模态降噪方案,在展会、地铁、餐厅等高噪音场景下,识别准确率可以提升30%到40%。

唇动识别和低声识别是两种不同的技术路径,但面对的是同一个市场需求:在人多嘈杂的环境里也能用语音办公。“尤其是对于一些以前完全不可用的特别吵的场景,(唇动识别)基本上已经达到了使用的门槛。”孔常青说。

语音办公面临的第二个问题是隐私——口述内容变成声波,邮件内容、代码逻辑、商业想法,周围的人都能听到;另外,云端处理的语音数据也让人有安全顾虑。

2025年11月,有用户在社区论坛上发现,AI语音听写软件Wispr Flow在宣称“零数据留存”的同时,实际上在存储用户的屏幕截图并上传至服务器。该事件迅速发酵,Wispr CEO Tanay Kothari随后公开道歉并更新了隐私策略。Google在2026年5月发布AI语音听写功能Rambler时也特别强调,“不存储语音录音,音频仅用于转写”。

噪音和隐私的问题还没有完全解决,但这并没有阻止硬件厂商的快速入场——从录音卡片、耳机到眼镜、键盘,围绕语音和AI的办公硬件正在密集出现,品类和价格带也在快速拓宽。

比如,2025年8月,钉钉发布首款AI硬件DingTalk A1,售价分799元和499元两个版本,搭载6颗麦克风阵列,支持120多种语言转写;2026年1月,飞书联合安克创新发布AI录音豆,重量10克,售价899元;此外,科大讯飞、360公司也推出了类似产品。

对此,林会杰的感受很直接:“对着键盘空流泪。我能想到是什么,也能说出来是什么,但打字打出来的时候就很痛苦。”他认为,在想法和文字之间始终隔着一层翻译,从脑子里的念头到手指在键盘上敲出的字符,中间既有信息损耗,也有时间损耗,但AI大模型正在改变这种状况。据其介绍,讯飞的GlassClaw智能体可以把口语化表达自动整理成通顺文本,“一句话即可完成从查询信息到撰写方案到发送邮件的全流程”。

张心阳亦称,其团队正在探索本地Agent与隐私计算能力。如果这个方向成立,语音加AI的组合将有可能催生一个独立于PC和手机之外的新办公硬件品类。当然,键盘依然会存在,但它的角色会发生变化——从主要输入工具变为编辑工具。

相关内容

热门资讯

美军:将在霍尔木兹海峡附近开展... △资料图当地时间5月29日,美国中央司令部警告称,将在霍尔木兹海峡附近开展军事行动,并以自卫名义打击...
黑色终于回来了!iPhone ... 说实话,今年 iPhone 18 Pro 在外观上大家真不用抱太大期待。能让人一眼看出是新机的变化差...
神舟二十一号航天员乘组安全顺利... 中国军网北京5月29日电(记者 牛凯旋) 据中国载人航天工程办公室消息,北京时间2026年5月29日...
神舟二十一号航天员乘组返回任务... 神舟二十一号航天员乘组返回任务取得圆满成功 5月29日,载着神舟二十一号航天员乘组的神舟二十二号...
AI“带火”语音办公:打工人开... 记者 郑晨烨 淘宝上最近流行起了一种键盘产品,但它只有4个按键、1个拨杆和1个麦克风接口,没有字母键...
神二十一乘组平安凯旋后,还有哪... 5月29日,神舟二十一号航天员乘组搭乘载人飞船在东风着陆场成功着陆。20时59分,航天员张陆、武飞、...
普京:有理由认为俄乌冲突临近收... 新华社阿斯塔纳5月29日电 据今日俄罗斯通讯社29日援引俄总统普京的话报道,从特别军事行动战场形势来...
AI牵手能源,会擦出怎样的火花... (来源:中国电力新闻网) 转自:中国电力新闻网 AI牵手能源,会擦出怎样的火花? ——国家能源集团“...
时政微观察丨创新之道 唯在得人 5月25日,中国航天太空“全家福”再上新——神舟二十三号航天员乘组顺利进驻“天宫”,与神舟二十一号航...
机器人“亮绝活”!2026世界... 5月28日至31日,以“智行天下 能动未来”为主题的2026世界智能产业博览会(以下简称智博会)在国...