阿里巴巴发布全新 AI 模型 Qwen2-VL,可分析 20 分钟以上视频
阿里巴巴云发布了其最新的视语言模型Qwen2-VL,该模型能够分析超过20分钟长的视频,并在多语言环境下进行图像处理和视频理解。Qwen2-VL在性能上优于市面上许多顶尖的AI模型,支持多种语言并具备实时分析和反馈能力,为技术支持和其他实时操作提供了新的可能性。该模型的多个参数版本中,部分为开源,企业可灵活应用,展示了其在复杂推理和决策任务方面的潜力。
关键点
- 阿里巴巴云推出了Qwen2-VL,一个进阶的视语言模型,旨在提升视频和图像的理解能力。
- Qwen2-VL可分析长达20分钟的视频,支持多语种的文本图像处理。
- 此模型在第三方基准测试中表现优于Meta、OpenAI及Google的多款先进模型。
- Qwen2-VL能够实时总结视频内容,并在对话中进行交互,在技术支持中显示其实用性。
- 该模型分为三个不同参数的版本,其中7B和2B模型采用Apache 2.0开源许可证可供使用。
- Qwen2-VL在功能调用和人类视觉理解方面有显著进展,支持与第三方软件的集成。
- 算法架构的改进使得模型能够处理不同分辨率的图像,提升视觉数据解析的准确性。
Alibaba releases new AI model Qwen2-VL that can analyze videos more than 20 minutes long