Mistral 发布首款开源 AI 音频模型 Voxtral

随着 AI 系统能力日益强大,语音正迅速成为人机交互的主流方式。法国 AI 初创公司 Mistral 携其首个开源模型加入音频赛道,旨在用开放权重的替代方案挑战封闭企业系统的垄断地位。
周二,Mistral 宣布推出面向企业的首个音频模型系列 Voxtral。
该公司将 Voxtral 定位为首个能在生产环境中部署"真正可用的语音智能"的开源模型。
这意味着开发者不必再面临两难选择:要么使用价格低廉但转录错误频出、无法真正理解语义的开源系统,要么选择性能优异但封闭的解决方案——后者不仅成本更高,还会让开发者失去对部署的控制权。
对企业而言,Voxtral 提供了经济实惠的替代方案,该公司宣称其价格"比同类解决方案低一半以上"。

Mistral 表示 Voxtral 可转录长达 30 分钟的音频。得益于其 LLM 基础架构 Mistral Small 3.1,该模型能理解 40 分钟内的内容,用户可针对音频内容提问、生成摘要,或将语音指令转化为调用 API 或运行函数等实时操作。Voxtral 还支持多语言转录与理解,包括英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语。
该公司推出了两款"语音理解模型"。首款 Voxtral Small 拥有 240 亿参数,适用于生产级部署,性能可与 ElevenLabs Scribe、GPT-4o-mini 及 Gemini 2.5 Flash 相媲美。
第二个版本 Voxtral Mini 拥有 30 亿参数,适用于本地和边缘部署。另有一款名为 Voxtral Mini Transcribe 的超经济型精简快速 API 版本,专为纯转录场景优化,承诺以不到一半的价格超越 OpenAI Whisper 的表现。
用户可通过 Hugging Face 下载 API 或通过 Mistral 聊天机器人 Le Chat 测试模型,免费试用 Voxtral。据该公司介绍,将 API 集成到应用程序中的起价为每分钟 0.001 美元。
此次发布距离 Mistral 推出首款分步推理模型系列 Magistral 仅过去一个月,该模型通过逐步解决问题来提升可靠性。
作为欧洲顶尖人工智能企业之一,Mistral 以其倡导开源 AI 模型而闻名。本月初 TechCrunch 曾报道,该公司正与阿布扎比 MGX 基金等投资方洽谈高达 10 亿美元的股权融资 。