音频语音 · AI 模型

语音合成、识别与音乐生成模型，覆盖 TTS、ASR 与音频创作。

Whisper large-v3

音频语音 · 国外

OpenAI 开源语音识别模型，多语言转写业界标杆。

免费开源可商用 1.55B

音频语音 · 国内

阿里开源语音合成模型，少样本音色复刻与流式 TTS。

免费开源可商用 0.5B

音频语音 · 国内

面向对话场景的开源中英文 TTS，韵律自然口语化。

免费开源不可商用 —

音频语音 · 国内

开源流匹配 TTS，零样本音色克隆速度快效果好。

免费开源可商用 0.3B

音频语音 · 国内

阿里开源多语言语音理解，识别+情感+事件检测。

免费开源可商用 0.2B

音频语音 · 国外

超轻量开源 TTS，82M 参数音质媲美大模型。

免费开源可商用 82M

音频语音 · 国内

基于 LLM 的开源高效 TTS，中英文零样本克隆。

免费开源可商用 0.5B

音频语音 · 国内

阶跃星辰开源语音交互大模型，语音理解+生成一体。

免费开源可商用 130B

音频语音 · 国内

小红书开源 TTS，自然中文语音合成与克隆。

免费开源限制商用 0.4B

音频语音 · 国内

B站开源工业级 TTS，中文发音可控、音色克隆。

免费开源可商用 —

Qwen2.5-Omni-3B

音频语音 · 国内

通义千问全模态轻量版，语音输入输出端到端。

免费开源限制商用 3B

音频语音 · 国外

Nari Labs 开源对话 TTS，生成带情感的多人对话音频。

免费开源可商用 1.6B

音频语音 · 国外

Boson AI 开源语音基座，多说话人与表现力强。

免费开源可商用 3B