多模态 · AI 模型

多模态模型,统一处理文本、图像、音视频的理解与生成。

地区
价格
Qwen2.5-VL-72B
多模态 · 国内
可直连

通义千问视觉语言旗舰,文档/图表/视频理解能力领先。

免费 开源 可商用 72B · 128K
GLM-4V-9B
多模态 · 国内
可直连

智谱开源多模态模型,中英文图文理解能力强。

免费 开源 限制商用 9B · 8K
MiniCPM-V 2.6
多模态 · 国内
可直连

面壁智能端侧多模态模型,8B 比肩更大模型,可手机运行。

免费 开源 限制商用 8B
InternVL2.5-78B
多模态 · 国内
可直连

上海 AI Lab 开源多模态旗舰,综合视觉理解逼近闭源。

免费 开源 可商用 78B
Qwen2.5-Omni-7B
多模态 · 国内
可直连

通义千问全模态模型,文本/图像/音频/视频输入+语音输出。

免费 开源 可商用 7B · 32K
DeepSeek-VL2
多模态 · 国内
可直连

深度求索 MoE 多模态模型,视觉理解高效。

免费 开源 可商用 27B(MoE, 4.5B active)
GLM-4.1V-Thinking
多模态 · 国内
可直连

智谱开源视觉推理模型,带思维链的多模态理解。

免费 开源 可商用 9B · 64K
MiniCPM-o 2.6
多模态 · 国内
可直连

面壁智能端侧全模态模型,视觉+语音+实时对话。

免费 开源 限制商用 8B
Ovis2-8B
多模态 · 国内
可直连

阿里国际开源多模态模型,结构化视觉理解强。

免费 开源 可商用 8B
Kimi-VL-A3B
多模态 · 国内
可直连

月之暗面开源 MoE 视觉模型,仅激活 3B 高效推理。

免费 开源 可商用 16B(MoE, 3B active) · 128K
InternVL3-78B
多模态 · 国内
可直连

上海 AI Lab 书生·万象3 开源多模态旗舰,MIT 可商用。

免费 开源 可商用 78B · 32K
Step3
多模态 · 国内
可直连

阶跃星辰开源多模态推理大模型,视觉推理强。

免费 开源 可商用 321B(MoE) · 64K
GLM-4.5V
多模态 · 国内
可直连

智谱开源多模态 MoE 旗舰,视觉推理 SOTA、MIT 可商用。

免费 开源 可商用 106B(MoE, 12B active) · 64K
Kimi-VL-Thinking
多模态 · 国内
可直连

月之暗面开源视觉推理 MoE,带思维链、MIT 可商用。

免费 开源 可商用 16B(MoE, 3B active) · 128K