网站推广三步走:十秒注册 -> 提交网站 -> 快速审核 -> 带来无限流量和外链 -> 点入及点出一次即可排名第一位

当前位置:66网站目录 » 站长资讯 » 科技资讯 » 文章详细

UC伯克利研究者推大世界模型(LWM) 与Gemini 1.5 Pro能力相当(伯克利博士)

来源:网络 浏览:27次 时间:2024-03-09

简介:谷歌的Gemini1.5和OpenAI的Sora模型引发热议,但这些模型是否真的能很好地理解世界?以Sora为例,虽然给人们带来了惊喜,但在模拟复杂物理原理方面存在一定局限性,如健身男

2月20日 消息:最近,谷歌的Gemini1.5和OpenAI的Sora模型引发热议,但这些模型是否真的能很好地理解世界?以Sora为例,虽然给人们带来了惊喜,但在模拟复杂物理原理方面存在一定局限性,如健身男子倒跑跑步机。随着大型模型的发展,固有的缺点也显现出来,模型在处理现实世界难以用语言描述的内容时表现困难,长程任务也难以处理。

因此,视频模型的出现在一定程度上弥补了这一问题,提供了语言和静态图像所缺少的时间信息,为大型语言模型(LLM)的发展带来新的可能性。然而,由于内存限制、计算复杂性和有限的数据集,从数百万个视频和语言序列的token中学习仍然具有挑战性。

image.png

项目地址:https://top.aibase.com/tool/large-world-models

为了解决这些挑战,来自UC伯克利的研究者推出了大世界模型(LWM),利用RingAttention技术对长序列进行可扩展训练,这是一个带有视频生成功能的多模态模型,非常强大,与Gemini1.5Pro的能力相当。这个模型支持100万上下文的文本检索,可以分析超过1小时的视频,并支持视频和图片生成。

该研究在长视频和语言序列上训练了一个具有极大上下文尺寸的transformers模型,为新的检索任务和长视频理解设立了新的标杆。

通过RingAttention、掩码序列打包等方法,研究团队成功训练了数百万长度的多模态序列,提供了处理超过100万token长文本文档和视频的完全开源模型。LWM模型不仅可以根据文本提示生成图像和视频,还能深入理解图片、回答关于图片的问题,表现出优越的长视频理解能力。

总的来说,LWM模型在长视频问题回答方面表现优于业界其他模型,包括谷歌的Gemini Pro和OpenAI的GPT-4。研究者通过多种策略克服了视觉-语言训练的挑战,为处理长视频与语言序列提供了新的思路,如损失加权和使用模型生成的问答数据。该研究的推出将为语言模型更好地理解物理世界打开新的可能性,为人工智能技术的发展带来新的契机。

推荐站点

  • 聚站网聚站网

    聚站网,免费提供网站目录分类检索,收集正规的中文网站,用户自主的网站提交,为各行业分类目录收藏,聚站网努力打造优质丰富的网站收录平台。

    www.565865.com
  • YY分类目录YY分类目录

    YY分类目录全人工编辑的开放式网站分类目录,收录国内外、各行业优秀网站,旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。

    www.yydir.com
  • 66网站目录66网站目录

    66网站目录是免费收录各行业优秀网站,提供网站分类目录检索,关键字搜索,提交网站即可免费推广,增加外链,提升网站流量。

    www.66dir.com
  • 25分类目录25分类目录

    25分类目录专业提供网站网址免费提交收录,25分类目录是采用开放导航式的网站大全,收录国内外各行业优秀的网站网址,让网站在各大搜索引擎收录快排名靠前。

    www.25dir.com
  • 和讯科技和讯科技

    和讯科技是和讯网核心资讯频道,以报道科技中国,分享全球智慧为目标,为高端财经网络用户提供有关TMT产业领域及时、快速、全面的资讯报道。

    tech.hexun.com
  • 百度搜索百度搜索

    百度,全球最大的中文搜索引擎、最大的中文网站。

    www.baidu.com