
要先把你的声音变成文字语音识别理解明天早上八点是时间、定闹钟是任务自然语言理解然后执行操作最后用语音告诉你好的已经设好闹钟了语音合成。这一连串的动作背后涉及四项关键技术自然语言处理NLP让机器读懂你说的话语音识别ASR让机器听懂你的声音语音合成TTS让机器能开口说话。因为AI幻觉的存在为了让AI的执行与决策不再是个黑箱可解释AIXAI这一技术也应用而生。昨天我们简单地介绍了《一文读懂AI基础技术机器学习、深度学习、计算机视觉》今天这篇文章就把这四项技术讲清楚。读完之后你会理解为什么现在的AI能和你丝滑地对话。自然语言处理Natural Language ProcessingNLP—— 让机器读懂人类语言让机器读懂人类语言是AI领域最具挑战性的任务之一。语言是人类最自然的表达方式但同时人类语言充满歧义、依赖上下文、规则复杂。同样一句话不同语气、不同场景意思可能完全相反。比如挺好的可以是真心夸赞也可以是无奈敷衍苹果可以是水果也可以是手机。同一个词在不同语境下意思可能天差地别这让机器要真正理解人类语言难上加难。NLP要解决的核心问题就是如何更好地理解人类语言。而这个问题目前主要体现在以下几个方面语言理解让机器能读懂文字说的是什么能对语言进行分词把句子切成词、句法分析搞清主谓宾、语义理解知道真正表达的意思这些基础中的基础操作。语言生成让机器能写出通顺、有逻辑的文字。你让ChatGPT帮你写邮件、写报告它做的事就是语言生成。信息抽取从一大段文字中提取关键信息。比如从一份合同里抽出甲方乙方、金额、期限这就是信息抽取。机器翻译让机器在两种语言之间做转换。DeepL、Google翻译做的是这件事但机翻至今在处理复杂语境和修辞时仍有明显短板。NLP之所以能在这几年迎来爆发根本原因也是深度学习技术方案Transformer架构的出现让机器能够真正理解上下文语境而不只是做字面对应。这才有了大语言模型的横空出世有了今天我们用自然语言和AI对话、让它帮我们写文章、翻译外文资料这些成为日常的能力。语音识别Automatic Speech RecognitionASR—— 让机器听懂人话语音识别是将人类语音转换为对应文本的技术。简单来说就是你说什么我就写下什么。目标说起来简单但做起来极其复杂。为什么难不同人说话方式差异很大加上录音环境嘈杂、方言众多同样一句话不同人说的声波特征可能完全不一样这些都是技术要克服的挑战。早期语音识别靠的是人工设计规则效果很差。但深度学习的发展让语音识别实现了质的飞跃。2010年前后端到端深度学习模型横空出世直接从语音信号学习映射到文字识别准确率大幅提升。今天主流的语音识别系统基本都是深度学习的天下。正是因为深度学习带来了识别率的飞跃语音交互已经从能用走向好用。你现在可以直接对着手机说话让它打字对着智能音箱发指令开车时用语音导航不用动手背后都是ASR技术的进步。语音合成Text-to-SpeechTTS—— 让机器开口说话前面我们讲了语音识别和自然语言处理的技术实现了AI从听到理解的过程。那如何让AI开口说话呢语音合成就是将文本转换为自然语音的技术也就是让机器开口说话。这项技术的进化史其实挺有意思的。最早是拼接录音先把所有可能的音节都录一遍合成的时候按需拼接。就像你小时候玩的那种点读机每个字都是录好的点哪里读哪里。听起来很生硬因为每个音节是孤立的拼在一起没有自然的语调起伏。后来进化到参数合成用数学模型来模拟声带振动和口腔共鸣。听起来比拼接好一点但仍然机器感十足像工厂流水线上的自动广播。现在的深度学习端到端合成完全不一样了。你跟“小爱”对话时听到的声音就是这类技术的产物。它能模拟真人的语调、停顿、甚至情感。该快的地方快该拖长的地方拖长听起来已经相当自然。语音合成与语音识别是一对镜像技术。ASR负责听TTS负责说两者配合再接入自然语言处理就构成了完整的人机语音对话。今天你用到的语音导航、有声书朗读、AI助手的声音都是TTS技术真正进入实用阶段的体现。可解释AIExplainable AIXAI—— 让人理解AI在想什么可解释AI是一个相对较新的技术方向指的是让AI的决策过程能够被人类理解和解释。为什么突然火起来了因为AI应用越来越深入高风险领域。传统AI尤其是深度学习模型是一个黑箱。你给它输入它给你输出但中间的判断逻辑人类完全看不懂。模型为什么会把这张X光片判断为阳性、患者是否有病它关注了图片的哪些区域、哪些特征医生不知道病人更不知道。这种知其然不知其所以然在娱乐推荐场景问题不大但在医疗诊断、金融贷款、法律判决等场景就是大问题了。可解释AI要做的就是打开这个黑箱。怎么做目前主流有几条路事后解释Post-hoc Explanation模型已经训练好了用额外的技术手段去解释它的决策。比如生成一张热力图标出模型在判断时重点关注了图片的哪些区域Grad-CAM技术从而让医生知道AI在看X光片时关注的是不是正确的位置。内置可解释模型直接设计本身就容易解释的模型比如决策树。每一步判断逻辑清晰可见但这类模型在复杂任务上效果往往不如深度学习模型属于精度和可解释性之间的权衡。在医疗诊断、金融贷款、法律判决这些高风险场景里AI的判断直接影响人的生命财产和安全可解释AI的价值就凸显出来了。医生需要知道AI看的是不是对的部位被拒贷的用户有权知道自己为什么被拒AI辅助量刑时必须能说明依据。这些都是AI真正可信、可靠的前提也是所有AI技术走向合规应用的必经之路。说到这里这篇文章就讲完了。自然语言处理让机器读懂你说的话语音识别把声音变成文字语音合成让机器能开口说话可解释AI打开AI黑箱让决策可被理解。这四项技术有一个共同点它们直接决定了AI好不好用、你用起来顺不顺手。今天你用手机地图导航、用AI助手查资料、听有声书打发通勤时间。这些日常体验背后都是这些技术在支撑。了解它们至少有三个好处不会被忽悠。现在什么产品都往自己脸上贴AI标签。你了解了这些技术的边界听到我们的AI特别智能这种话时至少能问出你们用的是NLP还是规则引擎、模型能解释吗这样的问题对方就知道你不是好糊弄的。