音频语音 · AI 模型
语音合成、识别与音乐生成模型,覆盖 TTS、ASR 与音频创作。
Whisper large-v3
音频语音 · 国外
OpenAI 开源语音识别模型,多语言转写业界标杆。
免费 开源 可商用 1.55B
CosyVoice 2
音频语音 · 国内
阿里开源语音合成模型,少样本音色复刻与流式 TTS。
免费 开源 可商用 0.5B
ChatTTS
音频语音 · 国内
面向对话场景的开源中英文 TTS,韵律自然口语化。
免费 开源 不可商用 —
F5-TTS
音频语音 · 国内
开源流匹配 TTS,零样本音色克隆速度快效果好。
免费 开源 可商用 0.3B
SenseVoice
音频语音 · 国内
阿里开源多语言语音理解,识别+情感+事件检测。
免费 开源 可商用 0.2B
Kokoro-82M
音频语音 · 国外
超轻量开源 TTS,82M 参数音质媲美大模型。
免费 开源 可商用 82M
Spark-TTS
音频语音 · 国内
基于 LLM 的开源高效 TTS,中英文零样本克隆。
免费 开源 可商用 0.5B
Step-Audio
音频语音 · 国内
阶跃星辰开源语音交互大模型,语音理解+生成一体。
免费 开源 可商用 130B
FireRedTTS
音频语音 · 国内
小红书开源 TTS,自然中文语音合成与克隆。
免费 开源 限制商用 0.4B
IndexTTS
音频语音 · 国内
B站开源工业级 TTS,中文发音可控、音色克隆。
免费 开源 可商用 —
Qwen2.5-Omni-3B
音频语音 · 国内
通义千问全模态轻量版,语音输入输出端到端。
免费 开源 限制商用 3B
Dia
音频语音 · 国外
Nari Labs 开源对话 TTS,生成带情感的多人对话音频。
免费 开源 可商用 1.6B
Higgs Audio V2
音频语音 · 国外
Boson AI 开源语音基座,多说话人与表现力强。
免费 开源 可商用 3B