网站推广三步走:十秒注册 -> 提交网站 -> 快速审核 -> 带来无限流量和外链 -> 点入及点出一次即可排名第一位

当前位置:66网站目录 » 站长资讯 » 科技资讯 » 文章详细

零一万物Yi-VL多模态语言模型上线 包括Yi-VL-34B、Yi-VL-6B两个版本(万物基于0和1)

来源:网络 浏览:36次 时间:2024-02-03

简介:零一万物Yi-VL多模态语言模型是零一万物Yi系列模型家族的新成员,它在图文理解和对话生成方面具备卓越的能力。Yi-VL模型在英文数据集MMMU和中文数据集CMMMU上都取得了领先成

1月23日 消息:零一万物 Yi-VL 多模态语言模型是零一万物 Yi 系列模型家族的新成员,它在图文理解和对话生成方面具备卓越的能力。Yi-VL 模型在英文数据集 MMMU 和中文数据集 CMMMU 上都取得了领先成绩,展示了在复杂跨学科任务上的实力。

Yi-VL 模型分为 Yi-VL-34B 和 Yi-VL-6B 两个版本,它们在全新多模态基准测试 MMMU 中表现出色。MMMU 数据集包含了来自六大核心学科的11500个问题,涉及多种异构图像类型和交织的文本图像信息。Yi-VL-34B 在该测试集上以41.6% 的准确率超越了一系列多模态大模型,仅次于 GPT-4V,展现了强大的跨学科知识理解和应用能力。

微信截图_20240123090308.png

在针对中文场景打造的 CMMMU 数据集上,Yi-VL 模型也展现了独特优势。CMMMU 包含约12000道源自大学考试、测验和教科书的中文多模态问题。Yi-VL-34B 以36.5% 的准确率紧随 GPT-4V 之后,领先于当前最前沿的开源多模态模型。

Yi-VL 模型的核心亮点之一是基于 Yi 语言模型的强大文本理解能力,它只需对图片进行对齐,就可以得到优秀的多模态视觉语言模型。

Yi-VL 模型基于开源 LLaVA 架构,包含三个主要模块:Vision Transformer(ViT)、Projection 模块和大规模语言模型 Yi-34B-Chat 和 Yi-6B-Chat。ViT 用于图像编码,Projection 模块实现了图像特征与文本特征空间对齐的能力,大规模语言模型提供了强大的语言理解和生成能力。

Yi-VL 模型的训练过程分为三个阶段:第一阶段使用1亿张的 “图像 - 文本” 配对数据集训练 ViT 和 Projection 模块;第二阶段将 ViT 的图像分辨率提升至448x448,并使用约2500万 “图像 - 文本” 对进行训练;第三阶段对整个模型的参数进行训练,目标是提高模型在多模态聊天互动中的表现。

除了 Yi-VL 模型,零一万物技术团队还验证了使用其他多模态训练方法(如 BLIP、Flamingo、EVA)基于 Yi 语言模型可以快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。

Yi-VL 模型地址:

https://huggingface.co/01-ai

https://www.modelscope.cn/organization/01ai

推荐站点

  • 聚站网聚站网

    聚站网,免费提供网站目录分类检索,收集正规的中文网站,用户自主的网站提交,为各行业分类目录收藏,聚站网努力打造优质丰富的网站收录平台。

    www.565865.com
  • YY分类目录YY分类目录

    YY分类目录全人工编辑的开放式网站分类目录,收录国内外、各行业优秀网站,旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。

    www.yydir.com
  • 66网站目录66网站目录

    66网站目录是免费收录各行业优秀网站,提供网站分类目录检索,关键字搜索,提交网站即可免费推广,增加外链,提升网站流量。

    www.66dir.com
  • 25分类目录25分类目录

    25分类目录专业提供网站网址免费提交收录,25分类目录是采用开放导航式的网站大全,收录国内外各行业优秀的网站网址,让网站在各大搜索引擎收录快排名靠前。

    www.25dir.com
  • 和讯科技和讯科技

    和讯科技是和讯网核心资讯频道,以报道科技中国,分享全球智慧为目标,为高端财经网络用户提供有关TMT产业领域及时、快速、全面的资讯报道。

    tech.hexun.com
  • 百度搜索百度搜索

    百度,全球最大的中文搜索引擎、最大的中文网站。

    www.baidu.com