이 프로젝트는 복잡한 설치 과정 없이 누구나 쉽게 사용할 수 있는 올인원(All-in-One) 음성 업스케일링 구글 Colab 노트북을 제공합니다. 코딩이나 AI에 대한 전문 지식이 없어도 단 한 번의 클릭으로 최신 음성 업스케일링 기술을 경험해보세요.
본 프로젝트는 AUTOMATIC1111/stable-diffusion-webui, oobabooga/text-generation-webui, liltom-eth/llama2-webui, jhj0517/Whisper-WebUI, rsxdalv/TTS-WebUI, 그리고 gitmylo/audio-webui와 같이 사용자 편의성을 극대화한 다른 성공적인 WebUI 프로젝트들에서 영감을 받아 제작되었습니다.
- 간편한 사용: 별도의 프로그램 설치 없이, 구글 Colab에서 바로 실행할 수 있습니다.
- 최신 모델 통합: 검증된 고성능 음성 업스케일링 모델들을 하나로 모았습니다.
- 자동화된 환경: 버튼만 누르면 필요한 모든 것이 자동으로 준비됩니다.
Open In Colab배지를 클릭하여 구글 Colab 노트북을 엽니다.- 노트북의 셀을 위에서부터 순서대로 실행하기만 하면 됩니다.
- 잠시 기다리면 WebUI가 나타나고, 여러분의 음성 파일을 업스케일링할 수 있습니다.
- NU-Wave 2 (Seoul Natl. Univ.; 2022.06) (ArXiv, GitHub): STFC와 BSFT를 활용하여 다양한 입력 샘플링 레이트를 단일 모델로 처리하는 Diffusion 모델입니다.
- AudioSR (Univ. of Surrey, Univ. of CA S.D., ByteDance; 2023.09) (ArXiv, GitHub): 음향 효과, 음악, 음성 등 다용도 오디오에 범용적으로 적용 가능한 Diffusion 기반 초해상도 모델입니다.
- FlowHigh (Korea Univ.; 2025.01) (ArXiv, GitHub): 단일 스텝 샘플링으로 효율적인 오디오 생성을 목표로 하는 Flow Matching 기반 모델입니다.