EP_VLA_大语言模型与音频输入的结合方式

发布时间:2026/6/27 19:45:46
EP_VLA_大语言模型与音频输入的结合方式 EPEngineering And ProjectVLAVision Language Action音频输入与大语言模型LLM结合的三种主流方案行业标准分为级联流水线、连续特征深度融合、音频离散 Token 原生输入三类从工程落地到原生多模态模型逐层说明核心解决一个矛盾音频是连续波形信号LLM 只认离散文本 Token / 向量 Embedding必须做模态对齐才能共用一套 Transformer 主干。一、方案 1级联流水线工程最常用所有语音 App/API 底层完整链路原始音频 → ASR 语音识别模型Whisper/Paraformer→ 纯文本文字 → 文本送入 LLM 正常推理 → LLM 输出文本 → TTS 转语音输出共用逻辑LLM 完全不变只处理文本音频能力靠独立语音模型外挂不存在音频特征流入 LLM 主干。优缺点优点开发简单、可单独替换 ASR/LLM、算力隔离、无需微调大模型市面绝大多数语音对话、语音 API豆包语音、GPT Realtime 简易版都用这套。缺点丢失声学信息语气、情绪、语速、多人说话、环境音ASR 转写错误会直接传递给 LLM级联误差累积。适用场景普通语音聊天、录音转文字问答、低成本语音助手。二、方案 2音频编码器 投影层深度融合主流多模态语音 LLM如 Qwen-Omni、AudioPaLM、GPT-4o 音频架构核心真正让音频和文本共用 LLM 主干音频编码器Wav2Vec/WavLM/Whisper Encoder把 16kHz 波形转成时序连续高维声学特征向量投影适配器Projector关键桥梁把音频特征维度映射到和 LLM 文本 Embedding 完全相同的维度序列拼接送入 LLMLLM 的自注意力会同时对音频片段、文字内容做交叉建模音频、文本共享同一套 Transformer 权重、上下文窗口、注意力机制。音频投影向量序列] [文本Prompt Token Embedding] → 拼接成一条完整序列统一输入LLM Transformer推理输出LLM 输出文本部分模型再外挂声码器生成语音。共用机制细节文本词→词表 Embedding音频波形→声学向量→投影对齐 Embedding二者格式统一在输入层直接拼接全程共用 LLM 所有层模型能听懂语气、情绪、停顿、音色、背景噪音不只识别文字。优缺点优点保留全部声学信息支持语音总结、情绪分析、多人对话区分、音频事件理解一次推理统一建模无中间文本误差。缺点需要联合微调音频编码器 投影层训练成本更高推理显存占用更大。三、方案 3音频离散 Token 原生输入端到端语音大模型Speech LLM核心思路把音频做向量量化 VQ压缩成和文字 Token 一样的离散音频码本 Token扩展 LLM 词表音频和文本完全统一为 “Token 序列”无连续向量过渡层。链路音频波形 → 声学编码器 → VQ 量化 → 离散音频 Token → 和文本 Token 拼接 → LLM 原生处理共用逻辑LLM 词表同时包含文字 Token、音频 Token自注意力平等对待两种 Token极致深度融合支持音频输入 音频输出直接语音对话不用中间文本中转代表AudioPaLM、Step-Audio、OpenAI Realtime 完整端到端模式。优缺点优点融合程度最高支持流式实时语音对话、语音翻译、语音续写语音延迟最低。缺点训练难度极大词表膨胀量化会轻微损失声学细节。四、三种方案对比表表格融合方式是否共用 LLM 主干是否丢失声学信息开发成本代表产品ASR 级联流水线不共用音频走独立模型丢失情绪 / 音色 / 环境音极低普通语音聊天小程序、本地 OllamaWhisper音频 Encoder 投影融合完全共用完整保留声学特征中等GPT-4o、通义千问 Audio、Qwen-Omni音频离散 Token 端到端原生统一 Token 体系深度共用少量量化损失极高Realtime API、AudioPaLM、语音原生基座关键补充实时流式音频的共用逻辑WebSocket 流式语音实时通话采用增量分块编码麦克风音频分段送入音频编码器每段生成少量音频向量 / Token增量拼入 LLM 上下文窗口边输入边推理音频流和文本流实时共享同一个 LLM 会话上下文支持边说边回复。五、结束语简单工程方案音频先转文字LLM 只处理文本二者完全分离商用多模态大模型方案音频转特征 投影对齐和文本 Embedding 拼接后共用 LLM 全部 Transformer 层原生端到端语音模型音频转离散 Token和文字 Token 统一词表LLM 原生同时处理语音与文本。