AI 正悄然改变着人类与计算机的交互模式,而下一个可能被彻底颠覆的日常操作,就是每天重复数百次的“输入”行为。
语音输入并非新鲜事物。从早期的 Siri、Google Assistant,到近年来 Whisper、Otter.ai 等工具在海外带动的语音转文字热潮,这一领域早已被反复验证,用户需求真实存在。
然而,用户的抱怨也从未间断。识别结果充斥着口语化表达,“嗯、啊、那个、这个……”等语气词、停顿和口误统统被保留,说完后还得手动修改一遍,绕了一大圈,效率并未真正提升。
此外,许多工具与实际办公场景脱节。核心工作都在电脑上完成,而语音工具却困在手机里。
最近,千问电脑版推出了全新的语音输入法。用户只需对着屏幕开口说话,系统便能自动识别当前应用和屏幕内容,理解表达意图,过滤语气词和口误,直接输出结构化、可用的文字。
这套语音能力还与千问电脑版自身的生产力工具深度融合。语音指令可直接调用AI,协助回邮件、润色文案、生成PPT、整理表格等。
交互逻辑极为简洁,只需记住两个操作。在任意界面长按右 Alt(Mac用户长按右 Command),松开后语音自动转为文字,无需额外安装插件或切换应用。
若想直接下达指令让AI执行任务,双击同一快捷键即可。查资料、回消息、生成文档、做PPT,选中内容后双击,千问便能基于当前屏幕内容直接完成任务。

可以说,在这里,语音输入不仅仅是替代键盘的输入方式,更是触发整条工作流的开关。
目前,该功能已正式上线,用户可以下载千问电脑版或访问网页版直接体验,功能完全免费、零门槛。
接下来,我们将带来一手实测,看看能挖掘出哪些提效玩法。
- 千问网页版:https://www.qianwen.com/
- 千问客户端:https://www.qianwen.com/download?ch=tongyi_redirect
智能语音输入:打工人最强“嘴替”
先来体验智能语音输入。
将输入光标置于钉钉聊天框中,按住右 Alt(Mac用户按住右 Command),对着电脑说一段完全口语化的内容,不停顿、不整理,就像与朋友随口聊天那样:
“就是啊,这个项目的话,我觉得吧,嗯,时间线要排一下,然后那个……对,就是周四之前要跟客户确认方案,然后内容那边也要催一催,不然可能来不及。”
千问将所有语气词过滤干净,原本散乱的三件事被整理成逻辑清晰的三句话,意思完整保留,但文字已是可以直接发送的状态。

千问语音输入法效果
以前写 prompt 需要斟酌半天,现在可以随想随说。
例如,口语输入一段复杂的提示词:
“我要写一份千问电脑版语音输入法上线的营销策划方案,你帮我整理一下。先说产品功能和价值,讲它怎么结合千问 AI 提高办公效率和内容整理能力。然后分析目标用户和市场定位,比如职场白领、内容创作者、学生,他们的痛点和需求,跟竞品比有什么优势。接着帮我设计营销策略,包括线上线下推广、社交媒体、短视频、KOL 合作之类的。再帮我做个预算和 KPI 规划,每个渠道和活动的预算、下载量、转化率、曝光量等。还要分析风险和应对,比如用户认知不足、教育成本高、竞品影响。最后帮我做深度分析和观点拔高,讲 AI 语音输入在办公效率、知识管理、内容创作的趋势,国内外输入法发展和推广动向,以及对数字办公生态和用户习惯的长期影响。”
千问能分条缕析地理清需求,自动按框架分点输出,结构一目了然。

千问语音输入法效果
在识别准确率方面,正常语速下中文识别几乎没有错别字,中英文混说也能无缝识别。例如,我们语音输入:
“王姐,问你个事儿呗,明天咱们的会是几点呀?我下午有个 Deadline,能不能往后 push 一下?哎呦,楼下新开了一家羊汤馆,挺好吃的。中午咱一块去吃饭去?”

千问语音输入法效果
再试一个包含大量英文技术术语的提示词,原话是:
“对话历史太长导致 Context Window 爆了。我想把 ConversationBufferMemory 换成 ConversationSummaryMemory,请给我一个用 LLM 自动 Summarize 历史消息的代码示例。”
千问的识别结果依然非常准确,中英文混说没有出现任何偏差。

千问语音输入法效果
智能语音指令:不用打字,开口说话就能办公
双击右 Alt(Mac用户双击右 Command),则进入另一种模式——AI 语音指令。用户说什么,千问就能做什么,在任意软件或桌面任意位置均可唤起千问。
例如,在邮件页面双击唤起,直接说:
“帮我写一封邮件,告诉客户方案延期两天,周五能交付,态度诚恳一些。”
千问听懂指令后,能感知上下文,识别收件对象,并按邮件格式输出一封带开头、结尾的完整邮件,语气客气且不拖沓。

千问语音输入法效果
如果觉得过于正式,再说一句“将邮件语气改得轻松一点”,千问直接重新生成,措辞到位,无需手动修改。

千问语音输入法效果
此外,它还具备场景感知能力。同样一句语音指令“帮我回复下,说我可以”,在钉钉聊天框中,它输出的是:“收到啦!我会准时到达会议室哒~不见不散呀!”保留了即时通讯的口语感,末尾还自然带上表情。

千问语音输入法效果
切换到邮件界面再说同样的内容,话术则变为“收到,我会准时参加”,语气直接切换为商务书面表达。

千问语音输入法效果
同样的指令,它可以根据不同场景,呈现出截然不同的表达风格。
千问智能语音指令还可以用来记便签。任何时候双击唤起,原话是:
“我觉得可以写一个趣味选题,吐槽当代大学生写论文的现状:很多人先用 AI 生成初稿,再用 AI 扩写润色,最后又用 AI 检测重复率,结果整篇论文几乎全程由 AI 操作,自己动手的部分越来越少。帮我记录这个灵感,并给几个拓展方向,比如学术诚信:AI 写作和扩写的滥用是否影响原创性和学术道德。技术怪圈:AI 生成论文再用 AI 检测的荒诞逻辑和‘自相矛盾’的现象。写作能力退化:过度依赖 AI 是否导致学生基本写作技能下降。教育制度应对:学校和老师如何应对 AI 写作带来的教学挑战和评估问题。”
千问电脑版能自动识别、记录并提供查看入口。

千问语音输入法效果
接下来,我们再试几个进阶场景。
例如,语音指令与千问内置的 PPT 功能联动。
千问 PPT 新增专业模式,由 Qwen 最新 AI 大模型编程能力加持,可动态生成复杂结构的 PPT 页面和内容,内容有深度,排版专业。
我们在钉钉中选中一段需求,双击快捷键,开口说:“帮我把这段需求整理成待办清单,再做成汇报 PPT。”
千问基于选中的内容,自动梳理逻辑、提炼要点,生成一份结构完整的 PPT。无需复制粘贴、切换窗口,更无需手动排版。生成后还支持继续修改,直接在原 PPT 上调整,不必推倒重来。

千问语音输入法效果
此外,它还支持多文件处理。将几十份 Word、PDF 文件拖入千问,双击快捷键下达指令,AI 可以自动读取内容、提炼关键信息、生成数据可视化图表,输出一份可直接上台汇报的材料。支持 39 种文件格式,可一次性批量处理。
语音指令搭配 Excel 也是需求极高的场景。
我们依然双击快捷键下指令,原话是:
把“财政部、税务总局公告2026年第10号”中涉及的增值税优惠政策具体条目整理成一份Excel清单,包含减免方式、政策内容和执行期限。
千问自动搜集相关政策信息,并生成增值税优惠政策清单的Excel文件,整个过程完全通过对话式操作完成。

千问语音输入法效果展示
在整个流程中,我们只需清晰表达需求,执行层面全权交由千问处理。对于日常需要维护各种数据表、但对Excel操作不熟练的用户来说,这种交互方式几乎零门槛。
结语
支撑这一切的,是千问大模型多年沉淀的语音底层能力,包括超亿小时的音视频数据训练和端到端的实时响应。扎实的技术底座,原本就在等待一个足够日常、足够高频的落地场景。
真正让千问电脑版语音输入法值得单独讨论的,是它重新定义了“语音输入”。普通语音输入法只做听写——我们说,它转,转完就结束。而千问做的是理解,将声音到文字的单次转写,升级为识别、理解、重写、排版的完整智能链路。
这条链路是专为语音输入打造的AI流水线:Qwen定制ASR模式负责高精度识别,Qwen最新序列的LLM负责深度理解与表达重构。它同时监听我们说什么、观察屏幕上有什么、判断我们正在使用哪个软件,再决定输出什么。它真正解决的,是把口头想法快速转化为一段可直接使用的高质量文本。
同时,它也大幅压缩了使用AI的流程。长按说话、双击下指令,AI能力直接嵌入我们正在使用的软件中,输入与执行之间没有断点,注意力也不会因切换窗口而中断。
这背后,是一个正在成形的更大趋势。苹果将Siri全面升级为AI助手,OpenAI持续推进ChatGPT的语音对话能力,Google的Gemini也在强化多模态交互……语音正从键盘的补充,演变为AI时代最自然的交互入口,因为大模型已经能真正理解人话、把握上下文,打字反而成了多余的中间环节。
但在电脑端,这一转变才刚刚开始。桌面端的语音输入长期停留在转写工具层面,未能与AI能力真正结合。千问电脑版语音输入法恰好做了一次尝试。
模型的聪明程度,决定产品的上限;用户能否以最自然的方式将意图传递给AI,决定产品能否真正融入日常生活。
语音输入,正在成为AI交互的下一个入口。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33599

