音频语音 · AI 模型

语音合成、识别与音乐生成模型,覆盖 TTS、ASR 与音频创作。

地区
价格
Whisper large-v3
音频语音 · 国外
需代理

OpenAI 开源语音识别模型,多语言转写业界标杆。

免费 开源 可商用 1.55B
CosyVoice 2
音频语音 · 国内
可直连

阿里开源语音合成模型,少样本音色复刻与流式 TTS。

免费 开源 可商用 0.5B
ChatTTS
音频语音 · 国内
可直连

面向对话场景的开源中英文 TTS,韵律自然口语化。

免费 开源 不可商用
F5-TTS
音频语音 · 国内
可直连

开源流匹配 TTS,零样本音色克隆速度快效果好。

免费 开源 可商用 0.3B
SenseVoice
音频语音 · 国内
可直连

阿里开源多语言语音理解,识别+情感+事件检测。

免费 开源 可商用 0.2B
Kokoro-82M
音频语音 · 国外
需代理

超轻量开源 TTS,82M 参数音质媲美大模型。

免费 开源 可商用 82M
Spark-TTS
音频语音 · 国内
可直连

基于 LLM 的开源高效 TTS,中英文零样本克隆。

免费 开源 可商用 0.5B
Step-Audio
音频语音 · 国内
可直连

阶跃星辰开源语音交互大模型,语音理解+生成一体。

免费 开源 可商用 130B
FireRedTTS
音频语音 · 国内
可直连

小红书开源 TTS,自然中文语音合成与克隆。

免费 开源 限制商用 0.4B
IndexTTS
音频语音 · 国内
可直连

B站开源工业级 TTS,中文发音可控、音色克隆。

免费 开源 可商用
Qwen2.5-Omni-3B
音频语音 · 国内
可直连

通义千问全模态轻量版,语音输入输出端到端。

免费 开源 限制商用 3B
Dia
音频语音 · 国外
需代理

Nari Labs 开源对话 TTS,生成带情感的多人对话音频。

免费 开源 可商用 1.6B
Higgs Audio V2
音频语音 · 国外
需代理

Boson AI 开源语音基座,多说话人与表现力强。

免费 开源 可商用 3B