5月20日 消息:面壁智能推出了最新一代端侧多模态模型 MiniCPM-Llama3-V2.5,这款模型具有超强的综合性能,能够超越 Gemini Pro 和 GPT-4V 等多模态巨无霸。
MiniCPM-Llama3-V2.5在 OCR(光学字符识别)方面取得了 SOTA 的成绩,能够精准识别难图、长图和长文本。该模型支持30多种语言,并且首次实现了端侧系统级多模态加速,使图像编码速度提升150倍。
此外,MiniCPM-Llama3-V2.5在幻觉能力、复杂推理能力等方面也取得了突出表现,能够在多种场景下进行准确的分析和推理。
总体来说,MiniCPM-Llama3-V2.5展现出了强大的多模态综合能力,为端侧 AI 模型的发展带来了新的突破。
MiniCPM-Llama3-V2.5开源地址:
https://github.com/OpenBMB/MiniCPM-V
MiniCPM 系列开源地址:
https://github.com/OpenBMB/MiniCPM
Hugging Face 下载地址:
https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5