刚炮轰完GPT模式，杨立昆推出首个“世界模型” 快播

2023-06-17 15:05:42 来源：智东西

智东西

编译 | ZeR0

(资料图片)

编辑 | 漠影

智东西6月14日报道，今日凌晨，Meta宣布推出首个“类人（human-like）”AI模型 I-JEPA 。这是第一个基于Meta首席AI科学家杨立昆（Yann LeCun）愿景关键组成部分的AI模型，据称能比现有模型更准确地分析和完成未完成的图像。

在上周举办的背景智源大会上，杨立昆在发表致辞演讲时斗志昂扬地驳斥了GPT的逻辑，说自回归模型没有规划、推理的能力，单纯根据概率生成自回归的大语言模型从本质上根本解决不了幻觉、错误的问题，并给出了他认为的正确答案—— 世界模型。

杨立昆去年提出了一种新的架构，旨在克服当今最先进的AI系统的关键限制。他的愿景是创造出能够学习世界如何运作的内部模型的机器，这样它们就可以更快地学习，计划如何完成复杂的任务，并随时适应不熟悉的情况。

基于LeCun愿景关键组成部分，今日发布的图像联合嵌入预测架构（I-JEPA）通过创建外部世界的内部模型来学习，该模型比较图像的抽象表示（而不是比较像素本身）。

I-JEPA在多个计算机视觉任务上提供了强大的性能，并且比其他广泛使用的计算机视觉模型的计算效率高得多。I-JEPA学习的表示也可以用于许多不同的应用程序，而不需要进行大量的微调。

例如，Meta研究人员在72小时内使用16个A100 GPU训练了一个拥有6.32亿个参数的视觉Transformer模型，并且它在ImageNet上实现了最先进的少样本分类性能，每个类只有12个标记示例，其他方法通常需要2到10倍以上的GPU时，并在使用相同数量的数据进行训练时获得更低的错误率。

I-JEPA相关论文将在下周的CVPR 2023上发表，训练代码和模型检查点的源代码已开放。

论文地址：https://arxiv.org/pdf/2301.08243.pdf

项目地址：https://github.com/facebookresearch/ijepa

Meta AI博客文章全文编译如下：

一、通过自监督学习获取常识性知识

Meta在I-JEPA（以及更普遍的联合嵌入预测架构（JEPA）模型）上的工作基于这样一个事实：人类通过被动地观察世界来学习大量关于世界的背景知识。

据推测，这种常识性信息是实现智能行为的关键，例如样本高效获取新概念、基础和计划。

AI研究人员试图设计学习算法，捕捉有关世界的常识背景知识，然后将其编码为算法以后可以访问的数字表示。

为了提高效率，系统必须以自监督的方式学习这些表征——也就是说，直接从图像或声音等未标记的数据中学习，而不是从人工组装的标记数据集中学习。

在较高的层次上，JEPA旨在通过相同输入的其他部分的表示来预测输入部分（如图像或文本）的表示。因为它不涉及将图像的多个视图/增强表示折叠到单个点，所以希望JEPA能够避免与另一种广泛使用的称为基于不变性的预训练的方法相关的偏差和问题。

与此同时，通过在高抽象水平上预测表征，而不是直接预测像素值，Meta希望直接学习有用的表征，同时避免生成方法的局限性，这是大型语言模型的基础，最近已经产生了如此多令人兴奋的进展。

相比之下，生成式架构通过删除或扭曲模型输入的部分来学习，例如删除照片的一部分或隐藏文本段落中的一些单词。然后，他们尝试预测损坏或丢失的像素或单词。

然而，生成式AI方法的一个显著缺点是，模型试图填补每一点缺失的信息，即使世界本身是不可预测的。因此，生成式AI方法可能容易犯一些人们永远不会犯的错误，因为它们过于关注不相关的细节，而不是捕捉高层次的可预测概念，例如生成式AI模型很难准确地生成人手。（他们经常会添加额外的数字或犯其他明显的错误。）

自监督学习的通用架构，其中系统学习捕捉其输入之间的关系。目标是为不兼容的输入分配一个高能量，并为兼容的输入分配一个低能量。(a) 联合嵌入（不变）体系结构学习为兼容输入x、y输出相似嵌入，为不兼容输入输出不同嵌入。(b) 生成式架构学习从兼容信号x直接重构信号y，使用以附加（可能是潜在的）变量z为条件的解码器网络来促进重构。(c) 联合嵌入预测架构学习从兼容信号x中预测信号y的嵌入，使用以附加（可能是潜在的）变量z为条件的预测网络来促进预测。

二、迈向具有广泛功能的联合嵌入预测架构的第一步

I-JEPA背后的想法是用一种更接近于人们一般理解的抽象表示来预测缺失的信息。

与在像素/标记空间进行预测的生成方法相比，I-JEPA使用抽象的预测目标，可以消除不必要的像素级细节，从而使模型学习更多的语义特征。引导I-JEPA生成语义表示的另一个核心设计选择是提出的多块屏蔽策略。

具体来说，Meta研究人员证明了使用信息（空间分布）上下文预测包含语义信息（具有足够大的规模）的大型块的重要性。

I-JEPA使用单个上下文块来预测来自同一图像的各种目标块的表示。上下文编码器是一个视觉Transformer（ViT），它只处理可见的上下文补丁。预测器是一个狭窄的ViT，它接受上下文编码器的输出，并根据目标的位置标记（以颜色显示）来预测目标块在特定位置的表示。目标表示对应于目标编码器的输出，其权重通过上下文编码器权重的指数移动平均值在每次迭代中更新。

I-JEPA中的预测器可以看作是一个原始的（受限制的）世界模型，它能够从部分可观察的环境中对静态图像中的空间不确定性进行建模。更重要的是，这个世界模型是语义的，因为它预测图像中未见区域的高级信息，而不是像素级的细节。

说明了预测器是如何学习对世界的语义建模的。对于每个图像，蓝色框外的部分被编码并作为上下文提供给预测器。预测器输出它在蓝色框内的区域中所期望的表示。为了可视化预测，我们训练了一个生成模型，该模型生成由预测器输出表示的内容的草图，并且我们在蓝色框中显示了一个示例输出。显然，预测器能够识别应该填充哪些部分的语义（狗的头顶、鸟的腿、狼的腿、建筑物的另一边）。

为了理解模型捕获的是什么，Meta训练了一个随机解码器，它将I-JEPA预测的表示映射回像素空间，当在蓝色框内进行预测时，它显示了模型的输出。这种定性评估表明，该模型正确地捕捉了位置的不确定性，并产生了具有正确姿势的高级物体部件（例如，狗的头，狼的前腿）。

简而言之，I-JEPA能够学习对象部件的高级表示，而不会丢弃它们在图像中的局部位置信息。

三、更高的效率和强大的性能

I-JEPA预训练的计算效率也很高。它不涉及与应用更多计算密集型数据增强来生成多个视图相关的任何开销。目标编码器只需处理图像的一个视图，并且上下文编码器只需处理上下文块。

根据经验，Meta发现I-JEPA无需使用人工制作的视图增强即可学习强大的现成语义表示（参见下图）。它在ImageNet-1K线性探测和半监督评估上也优于像素和标记重建方法。

ImageNet-1k上的线性评估性能作为GPU预训练小时数的函数。

I-JEPA还与以前依赖于语义任务上手工制作的数据增强的预训练方法相竞争。与这些方法相比，I-JEPA在物体计数和深度预测等低级视觉任务上取得了更好的性能。

通过使用更简单的模型和更少的刚性归纳偏差，I-JEPA适用于更广泛的任务集。

低镜头分类精度:在ImageNet-1k上使用1%的标签进行半监督评估(每个类大约12个标记图像)。

结语：人工智能向人类水平迈进了一步

I-JEPA展示了学习竞争性现成图像表示的架构的潜力，而不需要通过手工制作的图像转换编码额外的知识。

推进JEPAs从更丰富的模式中学习更一般的世界模型将是特别有趣的，例如，使人们能够从短上下文中对视频中的未来事件做出长期的空间和时间预测，并根据音频或文本提示调节这些预测。

Meta研究人员期待着将JEPA方法扩展到其他领域，如图像-文本配对数据和视频数据。

未来，JEPA模型可能会在视频理解等任务上有令人兴奋的应用。这是应用和扩展自监督方法来学习世界一般模型的重要一步。

上一篇 : 如何滋阴补阳，三个中成药防止未老先衰_全球热头条

下一篇 : 最后一页

刚炮轰完GPT模式，杨立昆推出首个“世界模型” 快播

2023-06-17 15:05:42 来源：智东西

一、通过自监督学习获取常识性知识

二、迈向具有广泛功能的联合嵌入预测架构的第一步

三、更高的效率和强大的性能

结语：人工智能向人类水平迈进了一步

相关推荐

刚炮轰完GPT模式，杨立昆推出首个“世界模型” 快播

如何滋阴补阳，三个中成药防止未老先衰_全球热头条

叔十二硫醇商品报价动态（2023-06-17）-全球热点

每日热议!微信发公告：这类行为，严厉打击

济南曹博士整形美容医院怎么样-今日快讯

如皋市政策性农业保险工作获评省级“优秀”

世界滚动:俄外交部警告：西方国家欲通过数字独裁实现全球霸权

中超卫冕冠军换帅！武汉三镇官宣佩德罗下课

广西壮族自治区多措并举确保2023年高考评卷公平准确

海南“6·16”安全宣传咨询日暨安全文化嘉年华活动启幕

穿高领衣服脖子敏感（穿高领衣服脖子难受）

战舰世界活动中心在哪_战舰世界活动中心-世界快资讯

吞噬的拼音大写 吞噬的拼音|天天亮点

全球微头条丨北京租房屋信息_北京个人租房信息

世界视点！日本货币政策为何“按兵不动”

排骨教主女装照片 排骨教主是男是女-每日速看

新动态：惊艳！草书纪念币27日发行，已可预约

教育技术学是什么专业类别_教育技术学是什么 世界热推荐

优质采电子招投标与采购平台_优质采电子交易平台官网 当前视讯

索尼表示后续第一方新游戏不会首发进入 PS Plus 天天日报

环球资讯：前5个月全国一般公共预算收入近10万亿元

马鞍山钢铁股份(00323)将于7月14日派末期股息每股0.02195港元

winkawaks吧_winkawaks1 59

3亿珠宝，9亿豪宅，67亿身家，这些港圈老牌美人晚年真有钱 天天速读

国际中文教育数智化发展研讨会在泰国举行 环球今日报

天天滚动:刷屏！球迷冲入场内拥抱梅西后，北京110回复了

世界热议:隐藏款不能隐藏信息！52TOYS等回应盲盒规范：杜绝炒盒

【聚看点】3500万！耻辱性报价！曼联被秒拒，皇马出手：5000万，不卖拉倒

斯莫林谈续约：留在罗马是个轻松的决定，在这里过得很舒服

成都大运会各个体育比赛门票价格一览-世界时快讯

天天速看：科城街道：网格员绿色护考在行动

微动态丨山东墨龙(00568)：墨龙物流拟为寿光懋隆提供不超过 5000 万元的担保额度

当前热文：“喜看丰收粮满仓！” 多地麦收喜迎丰收

当前速讯：青岛世博园预约及购票入口

天天讯息：多主力现身龙虎榜，云赛智联涨停（06-16）

叛逆期的孩子父母应该怎么办？

云南勐绿高速建设顺利推进 实现首个标段双幅贯通

环球新动态：一生要知道的100幅世界名画（你应该读懂的一百幅世界名画）

世界观察：武冈市司法局：汇聚“全员悦读”能量 赋能法治政府建设

每日快播：江湖有你不孤单！怀旧天龙全新社交玩法今日上线

盐城赶海路线_盐城赶集网

【观影零距离】《别叫我赌神》 全球最新

权志龙到底有多宠胜利（权志龙有多宠李胜贤） 世界聚看点

方城县召开府院联动实质化解行政争议工作会

张富春简历（张国标 富春控股集团创始人）

高龄能不能转行做程序员？|天天通讯

当前看点!交通运输部：2022年完成交通固定资产投资38545亿元

世界百事通！噫！64岁美国名校教授在公园里和牧羊犬发生性行为，还将其带回家

陕西省造老银元价格（2023年06月16日）|全球新要闻

国投瑞银基金唐沐霖：良好的ESG绩效主要有三方面意义

全球快报:铁建重工TBM助力福州滨海快线大直径TBM隧道全线首家贯通

北向资金净买入超50亿元

楚乔为什么离开宇文玥(楚乔传:林更新饰演的宇文玥为什么在红川救下楚乔之后就离开了呢?)

衣服码数xl是多高_衣服的尺码XL是175的么

第32届哈洽会开幕 共享高质量发展新机遇

世界快讯:采光好的房子怎么形容

全球今头条！高温黄色预警继续，京津冀鲁豫等7省区市局地最高气温可超40℃

周姓女孩名字最高分 大气一点的三个字|观热点

每日热议!闯入球场拥抱梅西致比赛中断的球迷面临什么处罚？律师：如是未成年人，警告或罚款可能性较大

当前速讯：范娅萍_关于范娅萍的简介

环球看点！财务指标“承压” 天富龙闯关主板

世界百事通！梦笔生花的故事（梦笔生花的主人公是谁）

中金：百度集团-SW文心一言大模型技术持续迭代 评级维持“跑赢行业”

6月15日江苏地区顺酐市场行情整理

每日聚焦：森霸传感：投资2.9亿元参与设立并购基金

每日快播：csgo什么开箱网站好 csgo最便宜的开箱网站大全

论文英语文献翻译软件_论文英语文献翻译

2024款本田奥德赛上市 售价23.58万起

锚定电动化，中国企业抢先机

4 年遭遇 16 起车祸？真相惊人……

上海：到2025年三大先导产业总规模达1.8万亿 工业机器人使用密度力争达360台/万人-环球热闻

广州港南沙港区：打造高水平对外开放门户枢纽 助力高质量发展

支付宝上的电子医保卡在哪里（电子医保卡在支付宝哪里找）

吞噬的拼音大写吞噬的拼音|天天亮点

排骨教主女装照片排骨教主是男是女-每日速看

教育技术学是什么专业类别_教育技术学是什么世界热推荐

优质采电子招投标与采购平台_优质采电子交易平台官网当前视讯

3亿珠宝，9亿豪宅，67亿身家，这些港圈老牌美人晚年真有钱天天速读

国际中文教育数智化发展研讨会在泰国举行环球今日报

云南勐绿高速建设顺利推进实现首个标段双幅贯通

世界观察：武冈市司法局：汇聚“全员悦读”能量赋能法治政府建设

【观影零距离】《别叫我赌神》全球最新

权志龙到底有多宠胜利（权志龙有多宠李胜贤）世界聚看点

张富春简历（张国标富春控股集团创始人）

第32届哈洽会开幕共享高质量发展新机遇

周姓女孩名字最高分大气一点的三个字|观热点

中金：百度集团-SW文心一言大模型技术持续迭代评级维持“跑赢行业”

2024款本田奥德赛上市售价23.58万起

上海：到2025年三大先导产业总规模达1.8万亿工业机器人使用密度力争达360台/万人-环球热闻

广州港南沙港区：打造高水平对外开放门户枢纽助力高质量发展

CPO概念延续强势光迅科技两连板中际旭创续创新高

孙倩：登泉城舞台，用母爱和坚韧演绎创业故事今日最新

老农人新体验社会化服务组织带来现代农业生产手段|世界今日报

统计局： 5月份新建商品住宅销售价格环比整体涨幅回落，二手住宅环比下降天天时快讯

世界球精选！影视行业拥抱人工智能谋求营收、估值双回升

夸男生的彩虹屁长文100字_唯世暴亚梦hh长文焦点热门

快报：长篇小说投稿地址长篇小说投稿

蓝色协议怎么快速提高战斗分蓝色协议提高战斗分攻略