- 중간 음향 표현을 직접적으로 예측·활용하는 음향 모델과 보코더를 결합한 신경망 기반 음성 합성 연구 초기 핵심 패러다임
- 핵심 과제: 텍스트 → 시간–주파수 중간 음향 표현 → 파형
- 장점
- 모듈성 (modularity) : 음향 모델과 보코더를 독립적으로 교체·재학습 가능
- 진단 용이성 (diagnosability) : 중간 음향 표현에서 오류 원인 분해·시각화 용이
- 제어 가능성 (controllability) : 음 지속길이(duration)·음 높낮이(pitch)·음 세기(energy) 등을 직접 예측하거나 제어 변수로 활용하여 운율(prosody) 제어가 용이
- 약점
- 스테이지 간 오류 전파 (error propagation) : 음향 모델 단계의 왜곡이 보코더 단계에 누적되어 전달되어 오류 증폭
- 다수 음향 모델에서의 느린 자기회귀(AR) 디코딩 (autoregressive decoding) : 프레임/토큰 순차 생성으로 지연 발생
- 패러다임:
$p(y_{1:T}\mid x)$ 를 과거 조건부 다음 프레임/토큰 예측으로 모델링 - 연구 흐름: 초기에는 RNN+attention, 이후 Transformer decoder로 문맥 처리 향상
- 장점
- 연속성 (temporal coherence) : 조건부 종속으로 미시적 시간 연결성이 우수
- 억양 자연스러움 : 장기 문맥 조건화로 기본 주파수(F0, 주요 음높이)·음 세기(energy) 곡선이 부드럽고 자연스러움
- 약점
- 노출 편향 (exposure bias) : 학습 시 교사강제(teacher forcing)와 추론 시 자기회귀의 불일치로 누적 오류가 증폭
- 느린 추론 : 순차 생성으로
$O(T)$ 복잡도
- 문자/음소 → 멜스펙트로그램(mel-spectrogram)으로의 어텐션(attention) 기반 seq2seq
- 종단간(end-to-end) 학습 용이
- 안정적 어텐션(attention)과 우수한 보코더(vocoder)가 중요
- Tacotron (1) (Google, 2017.03.29)
- 널리 채택된 최초의 학습된 어텐션을 사용한 종단간(end-to-end) 텍스트 → 멜(mel) 변환
- 아키텍쳐: Conv + CBHG/BiRNN encoder → AR GRU decoder + attention
- 보코더로는 일반 Griffin–Lim 알고리즘을 사용
- Tacotron 2 (★) (Google, 2017.12.16)
- 텍스트 → 멜(mel)을 수행하는 뉴럴 음향 모델과 신경망 보코더의 결합으로 연구 발표 이후 장기간 동안 음질 비교의 대표적 기준점으로 자리잡음.
- 아키텍쳐: Encoder(Conv + BiLSTM) → AR LSTM decoder + location-sensitive attention
- 보코더로는 WaveNet(Google DeepMind, 2016.09.12)를 사용
- Baidu의 실용성 지향 TTS 연구 시리즈
- 개별 모듈로 분리해서 각각 학습 (Deep Voice 1) → 어텐션 기반 시퀀스-투-시퀀스(sequence-to-sequence) (Deep Voice 2) → 합성곱 기반 시퀀스-투-시퀀스(sequence-to-sequence) (Deep Voice 3)로 발전
- Deep Voice (1) (Baidu, 2017.02.25)
- 자소-음소 변환(grapheme-to-phoneme, G2P), 음 지속길이(duration), 기본 주파수(F0, 주요 음높이)와 같은 구성요소를 별개 모듈로 분리 학습하는 모듈러 TTS 파이프라인
- 아키텍쳐: G2P seq2seq (BiGRU encoder → GRU decoder) + CTC 기반 음소 경계 (Conv + BiGRU) + duration·F0 공동예측 (FC → GRU) → 조건부 WaveNet (Bi-QRNN conditioner, 반복 업샘플링)
- Deep Voice 2 (Baidu, 2017.05.24)
- 多화자(multi-speaker) 확장과 음질·운율(prosody) 개선
- 아키텍쳐: G2P + CTC segmentation(Conv-BN-Res + BiGRU) → Duration(CRF) + F0(BiGRU+다중 Conv 혼합, ω) + 스피커 임베딩 → 조건부 WaveNet
- Deep Voice 3 (Baidu, 2017.10.20)
- 설명: 대규모 데이터와 多화자 환경으로 확장 가능한 완전 합성곱 기반의 어텐션(attention) 메커니즘을 이용한 신경망 음성합성 시스템
- 아키텍쳐: 전면 CNN Encoder → Causal CNN Decoder + 다중-홉 어텐션(위치 인코딩·단조성) → 멜(mel); 非-causal CNN Converter → 보코더(Griffin-Lim/WORLD/WaveNet)
- Normalizing flow : 가역 변환과 정확한 우도(likelihood)로 병렬 샘플링을 지원하며 정렬기(aligner)와의 결합이 용이.
- Flowtron (NVIDIA, 2020.05.12)
- 멜(mel) 상의 자기회귀(AR) flow로 강력한 스타일 제어와 샘플링 유연성 제공
- 아키텍쳐: 멜 프레임 단위 입력의 autoregressive normalizing flow
- Glow-TTS (♥) (Kakao, 2020.05.22)
- 견고한 정렬로 병렬 멜(mel) 생성을 제공하는 비자기회귀(NAR) flow 모델
- 아키텍쳐: Glow-style flows + Monotonic Alignment Search(MAS)
- PortaSpeech (Zhejiang Univ, 2021.09.30)
- 경량 variational 음향 모델에 flow post-net으로 스펙트럼 선명화
- 아키텍쳐: variational generator + flow post-net
- 비자기회귀(NAR) 디코더 : 모든 프레임을 병렬 예측
- 정렬기(aligner)와 운율 변동 예측기(variance predictors; 음 지속길이(duration), 음 높낮이(pitch), 음 세기(energy))로 안정성과 제어성 확보
- 장점
- 속도 : 전 프레임 병렬 예측으로 실시간 합성에 유리
- 견고성 (robustness) : 길이 불일치·반복/누락 현상 감소로 학습·추론 안정
- 약점
- 추가 조건 없이는 운율적 특징(prosody) 다양성 한계 : 확률적 디코딩·발화 스타일(style) 조건이 없으면 단조 운율로 수렴하기 쉬움
- 병렬 음향 모델링
- 교사–학생(teacher–student) 학습 구조(또는 2s의 2단계 종단간 방식)와 길이 조절기(length regulator)를 이용해 텍스트 입력을 멜 프레임 시퀀스로 확장
- FastSpeech (1) (Zhejiang Univ & Microsoft, 2019.05.22)
- 길이 조절기(length regulator)를 도입한 대표적 병렬 음향 모델
- 아키텍쳐: Feed-Forward Transformer blocks + length regulator(teacher aligner 기반)
- FastSpeech 2 (★) (Zhejiang Univ & Microsoft, 2020.06.08)
- 설명: 운율 변동 예측기(variance predictors; 음 높낮이(pitch), 음 세기(energy))로 충실도와 제어성 향상.
- 아키텍쳐: Feed-Forward Transformer blocks + duration/pitch/energy predictors
- 보코더로는 Parallel WaveGAN(LINE & Naver, 2019.10.25)을 사용
- ※ FastSpeech 2s : 본 논문에서 제시한 정렬기(aligner)/보코더(vocoder)를 통합 학습하는 FastSpeech 2의 종단간(End-to-End, E2E) 변형. 보코더로는 WaveNet(Google DeepMind, 2016.09.12)과 유사한 非-causal CNN 기반 waveform decoder 사용.
- ParaNet (Baidu, 2019.05.21)
- AR 교사(teacher)로부터 증류(distillation)되는 비자기회귀(NAR) 다중-홉(multi-hop) 정제(refinement)
- 아키텍쳐: stacked convolutional decoders + attention distillation
- DurIAN (Tencent AI Lab, 2019.09.04)
- 음 지속길이 정보 어텐션(duration-informed attention)으로 강건한 멜(mel) 예측
- 아키텍쳐: duration predictor + monotonic 제약의 attention
- AlignTTS (Ping An Tech, 2020.05.04)
- 학습된 정렬(alignment)로 안정적 병렬 멜(mel) 합성
- 아키텍쳐: alignment module + duration control
- FastPitch (NVIDIA, 2020.06.11)
- 명시적 음 높낮이(pitch) 조건을 더한 FastSpeech 스타일 모델
- 아키텍쳐: Feed-Forward Transformer blocks + duration/pitch predictors
- IAF/Glow류의 가역 흐름(invertible flow)으로 원시 파형(raw waveform)을 병렬 생성하고 정확한 우도(likelihood)를 제공
- 종종 강한 AR 교사(teacher) 모델로부터 증류(distillation) 학습 (예. Parallel WaveNet, ClariNet)
- Parallel WaveNet (Google, 2017.11.28)
- AR WaveNet을 가역 흐름(invertible flow)으로 증류(distillation)하여 실시간 파형 합성
- 아키텍쳐: Inverse Autoregressive Flow(IAF)
- WaveGlow (NVIDIA, 2018.10.31)
- 단순·견고한 flow 보코더로 빠른 추론에 널리 사용
- 아키텍쳐: Glow-style flow
- 다중 스케일/주기 판별기(multi-scale/period discriminators)를 활용한 적대적(adversarial) 학습
- 확률밀도 모델 없이도 고충실·경량·실시간 합성 달성
- MelGAN (Lyrebird AI, 2019.10.08)
- 빠른 병렬 파형 합성을 보인 대표적 초기 GAN 보코더
- 아키텍쳐: transposed-conv generator + multi-scale discriminators
- VocGAN (NCSoft, 2020.07.30)
- 계층형 구조로 고충실 실시간 합성
- 아키텍쳐: hierarchical multi-period discriminators + sub-band modeling
- HiFi-GAN (♥) (Kakao, 2020.10.12)
- 품질/속도 측면에서 균형적인 성능을 보여주는 현대 뉴럴 보코더의 사실상 표준
- 아키텍쳐: multi-period(MPD) + multi-scale(MSD) discriminators; ResBlocks
- VITS (★★★) (Kakao & KAIST, 2021.06.11)
- 음향 모델과 보코더를 통합하여 텍스트 인풋으로부터 음성 파형을 바로 출력하고 확률적 음 지속시간(stochastic duration)을 도입.
- 아키텍쳐: (Glow-TTS : conditional VAE + alignment용 flows) + (HiFi-GAN : adversarial waveform generator)
- YourTTS (Coqui TTS, 2021.12.04)
- VITS를 기반으로 zero-shot 多화자·多국어 TTS를 제안하며 ZS-TTS에서 SOTA를 보고
- 언어 처리: 음소 대신 문자 입력을 사용하고 각 문자 임베딩에 4차원 언어 임베딩을 결합해 多국어 학습을 단순화
- 화자 조건: 외부 화자 임베딩을 (1) 텍스트 인코더 출력에 더해 지속시간 예측기(duration predictor) 입력으로, (2) flow 디코더의 아핀 결합(affine coupling) 층에 전역조건으로, (3) 후방 인코더(posterior encoder)에 전역조건으로, (4) 보코더에 전역조건으로, (5) 디코더 출력에 더해 보코더 입력으로 사용
- 학습/표현: 후방 인코더(posterior encoder)-VAE로 보코더와 결합해 멜(mel) 등의 중간 음향 표현 없이 종단간 학습을 수행하고 확률적 지속시간 예측기(stochastic duration predictor)로 리듬 다양성 확보
- 아키텍쳐: text encoder(Transformer 기반) → Flow-based decoder(affine coupling) + stochastic duration predictor → posterior encoder(VAE) → HiFi-GAN v1 vocoder
- VITS 2 (Kakao & KAIST, 2023.07.31)
- 품질·효율·多화자 유사도·음소 의존도 동시 개선
- 시간 스텝별 조건 판별기를 갖춘 GAN 기반 확률적 지속시간 예측기(stochastic duration predictor) 도입으로 효율과 자연스러움 개선
- MAS 정렬 탐색에 초기 가우시안 노이즈 추가로 대안 정렬 탐색 폭 확장
- 정규화 플로우에 소형 트랜스포머 블록 추가로 장기 의존성 포착 강화, 텍스트 인코더 3번째 트랜스포머 블록에 스피커 조건 주입
- 아키텍쳐: text encoder(Transformer, speaker condition on 3rd block) → stochastic duration predictor(GAN, time-step D) + MAS (with Gaussian noise) → normalizing flows(Conv + small Transformer) ↔ posterior encoder → GAN-based waveform decoder
- MeloTTS (★) (MIT & MyShell.ai, 2024.02.20)
- 경량화 된 VITS 계열 모델로, 단일단계 CVAE+Flow+GAN 골격은 VITS와 동일하고 BERT 기반 텍스트 특징과 텍스트 인코더 스피커 조건 주입은 VITS2·Bert-VITS2와 유사하며, Transformer coupling 기반 플로우와 보코더 조건 주입은 자체 구현체 차별점.
- 언어 처리: 多국어 BERT 특성 입력용 투영 레이어와 language embedding, tone embedding 채택.
- 화자 조건: speaker embedding을 텍스트 인코더 뿐만 아니라 Flow에 주입하고 보코더에서도 조건으로 사용.
- 정규화 플로우: WaveNet형 residual coupling 대신 Transformer 기반 coupling 사용하며, VITS2의 플로우 내 소형 Transformer와 목적은 유사하나 구현은 상이.
- 아키텍쳐: text encoder(Transformer + conditions) → stochastic duration predictor + MAS → Transformer-based normalizing flows(affine coupling, speaker condition) ↔ posterior encoder → HiFi-GAN vocoder
- Nix-TTS (Kata.ai, 2022.03.29)
- VITS를 교사(teacher)로 한 모듈별 지식증류(KD)로 비자기회귀(NAR)·종단간(end-to-end)(외부 보코더 없음) 특성을 유지하면서 파라미터를 약 5.23M까지 대폭 축소.
-
VITS와 달리 정규화 플로우/후방 인코더를 제거하고, 텍스트 인코더(dilated 1D Conv) → 정렬(정규화된 pairwise affinity) + MAS → 지속시간 예측기 → 잠재 인코더에서
$Gaussian(\mu, \sigma)$ 을 직접 예측. - 디코더는 HiFi-GAN 계열을 경량화(depthwise-separable Conv, 채널 축소)해 직접 파형을 생성하여 별도 보코더 없이 동작.
- 아키텍쳐: text encoder(dilated 1D Conv) → alignment(affinity) + MAS → duration predictor → latent encoder(
$\mu$ ,$\sigma$) → lightweight HiFi-GAN-like waveform decoder
- Kitten TTS (KittenML, 2025.08.04)
- 텍스트 인코더가 BERT/ALBERT 계열 임베딩 + ALBERT 블록 + 다층 LSTM으로 구성되고(v0.1·v0.2 공통), v0.2에서는 임베딩 LayerNorm과 embedding_hidden_mapping_in(투영) 경로가 명시되어 전처리·정규화·차원매핑이 강화됨.
- 디코더는 {decoder/encode → decode.0~3 → generator} 파이프라인으로, 생성기(generator) 내부에 resblocks와 AdaIN(adain1/2.*)·noise_res·업샘플(ConvTranspose) 등 스타일 조건(입력 style)을 반영해 직접 파형을 합성함.
- 모델은 멜 없이 종단간(end-to-end)로 파형을 바로 출력하고 음 지속길이(duration)을 함께 예측하며, 전 구간에서 DynamicQuantizeLinear/MatMulInteger/ConvInteger가 광범위하게 쓰여 CPU 실시간 추론을 겨냥한 정수 양자화가 적용됨.
- 아키텍쳐: text encoder(ALBERT embedding + LSTMs, v0.2: LayerNorm+hidden mapping) → duration head + decoder(encode/decode) → style-conditioned generator(resblocks+AdaIN, noise_res, ConvTranspose upsampling) → waveform
- 제어된 노이징 과정을 역추론하여 음성 표현을 생성
- 연구 흐름: 초기에는 vocoder 또는 멜(mel) 공간을 대상으로 했고, 이후에는 잠재(latent) 토큰·style을 직접 모델링하여 표현력 강화
- 장점
- 훈련 안정성 (training stability) : 판별자 없이 확률적 손실로 모드 붕괴 위험을 낮추고 수렴이 안정적임
- 약점
- 샘플링 지연 (sampling latency) : 수십~수백 스텝의 역확산으로 추론 시간이 길어짐
- §1. 2단 구성 모델의 패러다임을 공유하며, 멜(mel)을 직접 생성할 때는 음향 모델(예: Grad-TTS), 멜(mel)에서 파형을 생성할 때는 보코더(예: WaveGrad)에 해당
- 공통점 : Diffusion/Score matching을 통한 생성 학습과 반복적 정제(iterative refinement)
- 차이점 : GAN/Flow 기반 모델과 달리, 우도(likelihood)의 기울기(score)를 추정하여 학습하므로 안정적인 훈련이 가능
- Grad-TTS (Huawei Noah's Ark Lab, 2021.05.13)
- 텍스트와 멜 스펙트로그램 사이의 정렬(alignment)을 학습하면서, 노이즈에서 시작하여 점진적으로 멜 스펙트로그램을 생성하는 초기의 디퓨전 기반 음향 모델
- 아키텍쳐: 텍스트 인코더(U-Net 유사 구조) + 단조 정렬 탐색(Monotonic Alignment Search) + score-based diffusion decoder
- 논문에서는 HiFi-GAN을 사용하여 최종 파형을 생성
- WaveGrad (Google, 2020.09.02)
- 멜 스펙트로그램을 조건으로, 가우시안 노이즈로부터 반복적인 추정을 통해 원시 파형(raw waveform)을 생성하는 디퓨전 보코더
- 아키텍쳐: 멜 스펙트로그램 조건의 U-Net 기반 score estimator
- 음향 모델: 특정 모델에 종속되지 않는 범용 보코더. 논문에서는 Tacotron 2와 같은 표준 음향 모델과 결합하여 성능을 시연
- TODO: revise
- WaveGrad 2 (Google, 2021.05.07)
- 설명: WaveGrad의 조건화 방식과 샘플링 효율을 개선하여 더 적은 스텝으로 고품질 합성을 달성
- 아키텍쳐: 경량화된 U-Net + 룩업 테이블(Look-up Table) 기반 노이즈 스케줄링
- 음향 모델: WaveGrad와 마찬가지로 범용 보코더이며, Tacotron 2와 함께 실험됨
- 장점
- 잠재공간 모델링 (latent-space modeling) : 뉴럴 코덱/자기지도학습(self-supervised learning, SSL) 임베딩 기반 조건화로 고품질·장문 일관성과 스타일 제어가 강화됨
- 약점
- 계산비용 (compute cost) : 대형 U-Net·가이던스 사용으로 메모리와 추론 비용이 증가
- TODO: revise
- 발화의 스타일(억양, 리듬, 감정 등)을 명시적으로 분리하여 디퓨전 모델로 모델링하고, 이를 내용(content) 정보와 결합하여 표현력과 제어성이 뛰어난 음성을 생성.
- 장점
- 표현력 (expressiveness) : 미세한 운율적 특징을 포착하여 자연스럽고 감정 표현이 풍부한 음성 생성 가능
- 제어성 (controllability) : 참조 음성이나 텍스트 프롬프트만으로 발화 스타일을 직접 제어하기 용이
- 약점
- 학습·추론 복잡도 증가 : 스타일 인코딩/생성과 내용 합성을 위한 다단계 파이프라인으로 인해 모델 구조가 복잡해짐
- TODO: revise
- Meta-StyleSpeech (KAIST & AITRICS, 2021.10.12)
- 설명: 메타 러닝(meta-learning)과 스타일 적응형 레이어 정규화(Style-Adaptive LayerNorm, SALN)를 도입하여 적은 샘플(few-shot)만으로 새로운 화자나 스타일에 빠르게 적응하는 모델. StyleTTS의 직접적인 선행 연구는 아니나, 스타일 분리 및 적응 아이디어에 영향을 줌.
- 아키텍쳐:
Encoder + SALN + Decoder구조에 에피소드 기반 메타 트레이닝 적용
- TODO: revise
- StyleTTS (UCSD & NVIDIA, 2022.08.31)
- 설명: 참조 음성(reference audio)에서 스타일 벡터를 추출하고, 이를 조건으로 디퓨전 모델을 사용하여 운율(prosody)을 생성함으로써 제어성을 높인 TTS 모델
- 아키텍쳐: 참조 인코더 + 스타일 디퓨전 모델 + VITS 기반 디코더
- TODO: revise
- StyleTTS 2 (★) (Columbia Univ., 2023.06.02, 2024.03.11)
- 설명: 참조 음성 없이 텍스트만으로 매우 표현력 높은 스타일을 생성하는 제로샷(zero-shot) TTS. 대규모 음성 언어 모델(SLM)을 판별자로 활용한 적대적 학습을 통해 자연스러움을 극대화.
- 아키텍쳐: 텍스트 인코더 + 스타일 디퓨전 모델 + adversarial training with SLM discriminators
- TODO: revise
- 고품질 음성 합성을 위해 VAE, Flow 등 다양한 생성 모델 기법을 결합하고, 최종적으로는 뉴럴 코덱 토큰을 활용한 잠재 공간 디퓨전(latent diffusion)으로 발전하여 충실도와 제로샷 성능을 크게 향상시킴.
- TODO: revise
- NaturalSpeech (Microsoft, 2022.05.09)
- 설명: 음성 고유의 변동성을 모델링하기 위해 VAE를 사용하고, 정규화 흐름(normalizing flows)과 지속시간 정보 기반 정렬기(duration-informed aligner)를 결합하여 견고하고 자연스러운 음성을 합성.
- 아키텍쳐: VAE 기반 잠재 벡터 생성 + Normalizing Flows + Duration-informed Aligner + HiFi-GAN 보코더
- TODO: revise
- NaturalSpeech 2 (Microsoft, 2023.05.08)
- 설명: 오디오를 뉴럴 코덱으로 이산적인 잠재 토큰(latent token)으로 변환한 뒤, 이 토큰 공간에서 디퓨전 모델을 학습하여 높은 충실도(high-fidelity)와 제로샷 능력을 달성.
- 아키텍쳐: 뉴럴 오디오 코덱(RVQ 기반) + 잠재 공간 디퓨전 트랜스포머(Latent Diffusion Transformer) + 코덱 디코더
- TODO: revise
- Voicebox (Meta, 2023.06.16)
- 설명: TTS를 포함한 다양한 음성 생성 작업(제로샷 음성 변환, 노이즈 제거, 내용 편집 등)을 수행할 수 있는 다목적(multi-purpose) 모델. 기존 디퓨전보다 빠른 플로우 매칭(flow matching) 기법을 사용.
- 아키텍쳐: 텍스트/오디오 문맥을 조건으로 받는 Non-AR Flow-Matching 모델
- TODO: revise
- Parler-TTS (Hugging Face, 2024.02.01)
- 설명: "whispering with a fast pace"와 같은 자연어 스타일 프롬프트를 통해 음색(timbre), 속도(rate), 음높이(pitch) 등을 상세하게 제어할 수 있는 대규모 다국어 TTS. 학습 코드와 모델 가중치가 공개됨.
- 아키텍쳐: 텍스트 인코더(T5 계열) + Diffusion Transformer(DiT) 기반 Decoder + HiFi-GAN 보코더
- TODO: revise
- Matcha-TTS (NVIDIA 외 다수, 2024.03.12)
- 설명: 조건부 플로우 매칭(Conditional Flow Matching)을 사용하여 단 2~4 스텝의 매우 적은 ODE(Ordinary Differential Equation) 해석만으로 고품질 음성을 빠르게 합성하는 비자기회귀(non-AR) 모델.
- 아키텍쳐: 텍스트 인코더 + Conditional Flow-Matching Transformer + 보코더
- TODO: revise
- DiTTo-TTS (KAIST, 2024.05.29)
- 설명: 이미지 생성 분야에서 성공한 Diffusion Transformer(DiT) 아키텍처를 음성 합성에 적용. 음소 단위의 명시적인 정렬이나 지속시간 예측 없이 잠재 공간에서 직접 작동하여 대규모 데이터 학습에 유리.
- 아키텍쳐: DiT 기반 잠재 공간 디퓨전 + 음성 길이 예측기 + 텍스트 Cross-Attention
- 음성을 이산 오디오 토큰 시퀀스(discrete audio token sequence)로 보고 Transformer 기반 대규모 언어모델로 예측
- 장점
- 문맥 내 학습 (in-context learning) : 소량 프롬프트 데모만으로 발화 스타일·발음 규칙에 즉시 적응
- 제로샷 음성 모사 (zero-shot cloning) : 수초 레퍼런스에서 화자 임베딩/코덱 토큰 조건화로 음색·말투를 모사
- 통합 모델링 : 텍스트, 발음, 운율, 오디오 토큰을 단일 확률모형으로 공동 추론
- 약점
- 지연시간 : 긴 토큰 시퀀스 생성으로 추론이 느림
- 직접 예측기 없이 세밀 운율적 특징(prosody) 제어 난해 : 음 길이(duration)/음 높낮이(pitch)/음 세기(energy)의 독립 제어가 어려움
- §1. 2단 구성 모델의 패러다임을 공유하며, 멜(mel)을 직접 생성할 때는 음향 모델 (예. Transformer-TTS)에 해당
- 공통점 : 셀프 어텐션(self-attention) 기반 시퀀스-투-시퀀스(sequence-to-sequence) 학습과 교사강제(teacher forcing), 정렬기(aligner) 필요
- 차이점 : 멜(mel, 중간 음향 표현) 예측과 파형 직접 생성, AR/NAR 여부, 사용 손실(회귀/분류/감별) 구성이 상이
- TODO: revise
- Transformer TTS (Microsoft, 2018.09.19)
- RNN을 Transformer로 대체하여 학습 병렬성과 장문맥 처리 개선한 음향 모델 (멜(mel) 예측)
- 아키텍쳐: Transformer encoder–decoder + multi-head attention
- 보코더로는 WaveNet(Google DeepMind, 2016.09.12)를 사용
- 장점
- 장문 의존성 모델링 (long-context modeling) : 수천~수만 토큰 컨텍스트로 문서 단위 운율·일관성 유지
- 멀티모달 조건화 (multimodal conditioning) : 텍스트 외 스타일·스피커·음향 프롬프트를 단일 토큰화로 통합
- 약점
- 토큰화 손실 (tokenization loss) : 코덱/멜 토큰화로 미세 음질 손실 및 비용 증가
- 데이터 요구량 (data scaling) : 대규모 多화자·多스타일 코퍼스와 긴 컨텍스트 학습 비용이 큼
- TODO: revise
- 계열 설명
- codec-$LM$ 접근: neural codec으로 오디오를 토큰화하고, 텍스트·짧은 오디오 프롬프트를 조건으로
$AR$ decoder-only Transformer를 학습. 수초 프롬프트로 화자/스타일 in-context 전이를 달성.
- codec-$LM$ 접근: neural codec으로 오디오를 토큰화하고, 텍스트·짧은 오디오 프롬프트를 조건으로
- TODO: revise
-
Vall-E (★) (Microsoft, 2023)
- 설명: 약 3초 프롬프트로 in-context cloning을 보인 대표적 codec-$LM$.
- 아키텍처:
EnCodec 토큰 + AR decoder-only Transformer.
- VALL-E X (Microsoft, 2023)
- 설명: 다국어 확장. 언어 ID 제어 및 zero-shot S2ST.
- 아키텍처:
multilingual conditional codec LM.
- TODO: revise
- Fish-Speech (Hanabi AI, 2024.11.02)
- 오픈 커뮤니티 VITS 유사 시스템. 다국어·오픈 데이터 지향.
- 아키텍처: VITS-like generator + LLM-aided conditioning.
- TODO: revise
- IndexTTS (BiliBili, 2025.02.08)
- 제어 가능성(controllability)을 위한 index 유사 이산 단위 기반 제로샷(zero-shot) TTS.
- 아키텍처: RVQ/codebook modeling + controllable conditioning.
- TODO: revise
- IndexTTS2 (BiliBili, 2025.06.23)
- RVQ·학습 전략 개선으로 제로샷(zero-shot) 품질 향상.
- 아키텍처: 향상된 RVQ + 개선된 decoders.
- TODO: revise
- XTTS (v1) (Coqui TTS, 2023.09.14)
- 다국어(multilingual) 제로샷 복제(zero-shot cloning). 공개 체크포인트 제공.
- 아키텍처: VITS 스타일 generator + 강력한 multilingual speaker encoder.
- TODO: revise
- XTTS v2 (★) (Coqui TTS, 2023.11.06)
- 짧은 프롬프트로 유사도 개선.
- 아키텍처: 업그레이드된 speaker/content encoders + 개선된 decoding.
- TODO: revise
- Zonos (Zyphra, 2025.02.07)
- 대규모 오픈 가중치(open-weight) 다국어(multilingual) TTS. 강한 복제(cloning).
- 아키텍처: 고용량 VITS-like generator + speaker/style modules.
-
TODO: revise all
-
Tortoise (independent/J. Betker, 2022)
- 설명: 품질지향
$AR$ LM 스타일 TTS. 코드·가중치 공개. - 아키텍처:
Transformer 기반 AR spectrogram/codec 모델링 + vocoder.
- 설명: 품질지향
-
Bark (Suno, 2023)
- 설명: speech·music·SFX를 포괄하는 transformer text-to-audio.
- 아키텍처:
이산 오디오 토큰 위의 Transformer; multi-audio 기능.
-
CosyVoice (Alibaba/FunAudioLLM, 2024)
- 설명: 확장형 다국어 zero-shot TTS. 강한 cloning 및 대화형 사용. 스트리밍 변형 존재.
- 아키텍처:
neural codec 토큰 + hybrid non-AR/AR generators.
-
seed-tts (ByteDance, 2024)
- 설명: 대규모
$AR$ TTS로 강한 in-context 학습. diffusion(DiT) 변형도 보고됨. - 아키텍처:
speaker/semantic encoders + AR/DiT generators over RVQ 토큰.
- 설명: 대규모
-
ChatTTS (2Noise/Tsinghua, 2024)
- 설명: 대화 최적화 LM-TTS. prosody/비언어 토큰을 함께 예측.
- 아키텍처:
EnCodec 토큰 + 특수 prosody 토큰을 포함한 AR Transformer.
-
Orpheus-TTS (CanopyAI, 2024) [요청에 따라 추가; 위 singing 모델과 별개]
- 설명: 실사용 클로닝·배포를 겨냥한 open-source codec-LM TTS.
- 아키텍처:
neural codec tokenizer + AR decoder-only Transformer + vocoder/codec decoder.
-
Spark TTS (Apple, 2024/2025)
- 설명: global/semantic 토큰을 사용하는 LM 기반 TTS. single-stream decoding으로 효율적이며 짧은 프롬프트 클로닝 성능 우수.
- 아키텍처:
speech-prompt encoder + AR Transformer(semantic + global 토큰) + codec decoder.