语音合成技术发展简史:从拼接合成到神经网络 TTS

发布时间:2026/6/19 14:08:33
语音合成技术发展简史:从拼接合成到神经网络 TTS 系列文章导航第一篇语音合成技术发展简史本文第二篇主流 TTS 架构对比第三篇语音克隆是怎么实现的第四篇TTS 推理速度为什么这么慢第五篇本地部署 TTS 方案横向对比第六篇VoxFlash-TTS 部署实践相关技术专题语音克隆模型架构对比F5-TTS、Supertonic TTS 与 VoxFlash-TTS语音克隆模型的难点之一音素对齐及交叉注意力早期失效问题——F5-TTS、SupertonicTTS、VoxFlash-TTS 对比扩散模型语音克隆参考音频注入的五种方式掩码扩散语音克隆参考音频为什么会被噪声污染扩散模型的训练-推理鸿沟Exposure Bias 全景分析TTS 中的音素对齐从强制对齐到注意力机制的全面解析本文是「语音合成技术系列」第一篇梳理语音合成技术从早期到现在的演进脉络。前言语音合成Text-to-SpeechTTS是让机器开口说话的技术。这件事听起来简单实际上是一个横跨声学、语言学、信号处理和深度学习的复杂工程问题。从上世纪五十年代第一台能发出声音的机器到今天用几秒参考音频就能克隆任何人声音的系统TTS 技术经历了漫长的演进。这篇文章按时间线梳理这段历史重点放在每个阶段的核心思路和局限性。一、早期探索规则驱动1950s–1980s1.1 从物理模拟开始最早的语音合成尝试来自对人类发声机制的物理模拟。人类发音本质上是气流经过声带、口腔、鼻腔等共鸣腔的振动过程。早期研究者试图用电路来模拟这套物理系统。1939 年贝尔实验室的 Homer Dudley 发明了Vocoder声码器能够分析和重新合成人声这是语音合成领域最早的里程碑之一。1.2 共振峰合成1950–1980 年代主流方案是共振峰合成Formant Synthesis。人声的音色由共振峰决定——声道在特定频率上形成的共鸣峰值。共振峰合成的思路是用数学模型模拟声道的共振特性通过控制共振峰的频率和带宽来生成语音。代表系统PAT1958英国MITalk1970sMITDECtalk1984DEC—— 著名物理学家霍金使用的正是基于这类技术的语音合成器优点计算量小可在低端硬件上运行参数可精确控制。缺点音质机械感强听起来明显不像真人参数调整需要大量语言学专家经验。二、拼接合成用真实录音拼出语音1980s–2000s2.1 基本思路共振峰合成的瓶颈在于音质——毕竟是数学模型模拟出来的不是真实人声。研究者很快想到既然模拟不够真实为什么不直接用真实录音拼接合成Concatenative Synthesis的核心思路是让配音演员录制大量语音片段覆盖各种音节、音素组合建立一个庞大的语音片段数据库合成时从数据库中搜索并拼接合适的片段2.2 单元选取合成拼接合成发展到顶峰是单元选取合成Unit Selection Synthesis代表系统是卡内基梅隆大学的Festival和贝尔实验室的系统。核心改进是用搜索算法自动选取最合适的语音片段同时优化两个目标目标代价选出的片段和目标音素尽量匹配拼接代价相邻片段之间的过渡尽量自然2.3 统计参数合成HMM-TTS2000 年代基于隐马尔可夫模型的统计参数合成HMM-TTS成为主流代表系统是日本名古屋工业大学开发的HTS。思路转变不再存储和拼接真实录音片段而是用统计模型学习语音的参数分布合成时从模型中生成参数再用声码器还原波形。优点数据量需求大幅下降可以灵活控制语速、音调、说话风格。缺点音质比单元选取合成更差过度平滑导致语音听起来模糊缺乏自然度。三、深度学习时代的开端2016–20183.1 WaveNet一切改变的起点2016 年DeepMind 发布了WaveNet这是 TTS 领域的分水岭。WaveNet 是一个自回归波形生成模型——直接在原始音频波形的层面建模逐个采样点生成音频。它用因果卷积捕捉长距离依赖生成的音频质量远超此前所有方案听起来几乎和真人无异。问题自回归意味着必须逐个采样点顺序生成24kHz 的音频每秒有 24000 个采样点。WaveNet 原版推理极慢完全无法实用。此后研究者花了大量精力解决 WaveNet 的推理速度问题衍生出 Parallel WaveNet、WaveRNN、WaveGlow 等方案。3.2 Tacotron端到端的第一步2017 年Google 发布Tacotron2018 年发布Tacotron 2。Tacotron 的思路是端到端输入文本直接输出梅尔频谱图Mel Spectrogram再用神经声码器如 WaveNet转换为波形。整个流程只需要文本和对应录音的配对数据不再需要手工标注音素、声调等语言学特征。Tacotron 2 WaveNet 的组合在当时的音质评测中创下新高接近人类水平。局限推理速度仍然是问题Tacotron 的注意力机制在长句子上容易失稳偶尔会跳词或重复。四、并行生成与工程落地2019–20214.1 FastSpeech速度优先Tacotron 系列的瓶颈是自回归——必须逐帧顺序生成梅尔频谱无法并行。2019 年微软发布FastSpeech2020 年发布FastSpeech 2。核心改进非自回归并行生成。用显式的时长预测器Duration Predictor预测每个音素对应几帧频谱然后一次性并行生成所有帧推理速度提升数十倍。代价是音质略低于 Tacotron以及需要对齐标注数据后来的改进版本解决了这个问题。FastSpeech 2 是工程落地最广泛的 TTS 架构之一直到今天仍有大量生产系统在使用。4.2 VITS端到端的完善2021 年VITSVariational Inference with adversarial learning for end-to-end Text-to-Speech将声学模型和声码器合并为一个端到端模型同时引入变分推断和对抗训练。VITS 在音质和推理速度之间取得了很好的平衡成为此后大量开源 TTS 项目的基础架构。五、扩散模型与零样本克隆2022 至今5.1 扩散模型进入 TTS2022 年前后扩散模型Diffusion Model在图像生成领域大放异彩随即被引入 TTS。扩散模型的核心思路在数据上逐步加噪然后训练模型学习逆向去噪过程。相比 GAN扩散模型训练更稳定生成质量更高。代表工作Grad-TTS2021DiffSpeech2022NaturalSpeech 22023微软扩散模型带来了音质的显著提升尤其是自然度和情感表达方面。新的瓶颈扩散模型需要多步迭代去噪推理速度比 FastSpeech 慢得多成为新的工程挑战。5.2 零样本语音克隆这一阶段最重要的突破之一是零样本语音克隆Zero-shot Voice Cloning——只需要几秒参考音频不需要任何微调就能合成目标说话人的声音。技术路径通常是提取参考音频的说话人特征speaker embedding注入到 TTS 模型的生成过程中引导输出向目标音色靠拢。代表工作YourTTS2022Vall-E2023微软—— 用 3 秒音频实现高度相似的零样本克隆Seed-TTS2024字节跳动CosyVoice 22024阿里5.3 大语言模型与 TTS 的结合2023 年起部分研究开始将大语言模型LLM引入 TTS把语音生成建模为语言模型的序列预测问题。代表方向用 LLM 生成语音 token再用声码器解码将情感、风格、说话方式等信息通过自然语言指令控制这个方向目前仍在快速发展中情感可控性和跨语言能力是主要研究焦点。六、各阶段对比总结时代代表技术音质推理速度数据需求克隆能力规则驱动共振峰合成差快无无拼接合成单元选取中等中等大量录音无统计参数HMM-TTS较差中等中等无深度学习初期Tacotron / WaveNet好慢中等无并行生成FastSpeech / VITS好快中等有限扩散模型NaturalSpeech / Seed-TTS极好慢中等零样本LLMTTSVall-E / CosyVoice极好中等大零样本七、小结语音合成技术的演进本质上是在音质、推理速度、数据需求、可控性这几个维度上反复权衡的过程。每一次技术突破都解决了前一代的核心瓶颈同时带来新的挑战拼接合成解决了音质问题但需要海量录音数据深度学习解决了数据依赖但带来了推理速度问题并行生成解决了速度但牺牲了部分音质扩散模型再次提升音质推理速度又成了新瓶颈零样本克隆解决了说话人依赖但计算成本更高目前这个领域仍在快速发展推理速度的优化、情感可控性的提升、多语言支持的完善是当下最活跃的研究方向。下一篇将介绍当前主流 TTS 架构的技术细节和对比Tacotron、FastSpeech、VITS、扩散模型各自的优缺点和适用场景。