发布日期:2026-04-06 17:44 点击次数:120

这项由Google DeepMind和北卡罗来纳大学教堂山分校协作的商量发表于2026年3月25日,有兴味深入了解的读者不错通过arXiv:2603.22529v1查询完整论文。
如果AI助手只可看懂电脑屏幕上的网页,却看不懂你目下的真实天下,那它能算是信得过智能的助手吗?比如当你戴着AR眼镜看到一个中意的包包,却无法让AI帮你在网上找到并购买这个包包,这就像有了一个只会念书却不会不雅察现实的助理。Google DeepMind的商量团队意志到了这个严重问题,他们发现目前首先进的网页AI助手齐存在一个致命弱势:它们只可基于网页截图或翰墨领导职责,绝对脱离了用户的真实视觉环境。
为了处置这个问题,商量团队创建了一个名为Ego2Web的全新测试平台。这个平台就像一座桥梁,逢迎了第一东谈主称视角的视频阐明和网页操作履行。当咱们说第一东谈主称视角,指的即是从你我方眼睛看出去的画面,就像你戴着录像头记载我方的平方活命一样。商量团队采集了500个这么的视频-任务对,涵盖了从购物网站到舆图做事的各种真实场景。
更蹙迫的是,他们还开发了一套名为Ego2WebJudge的自动评估系统。这个系统就像一个相配严格的考官,概略判断AI是否信得过阐明了视频中的内容,并在网页上正确完成了相应任务。这套评估系统与东谈主类巨匠的判断一致性高达84%,远超现存的评估方法。
一、从活命场景到网页任务的竣工交融
当你在超市里提起第四个零食,然后想在亚马逊上检察它的养分信息时,这听起来很节略,但对AI来说却是一个雄壮的挑战。商量团队发现,现存的AI助手就像只会在考试中作念题的学生,一朝遭受需要连合现实不雅察和汇聚操作的任务就安坐待毙。
Ego2Web平台就像一个素质营,专门素质AI如安在这种复杂情况下职责。通盘过程不错分为两个关键门径:率先是视觉感知和定位,AI需要从第一东谈主称视频中准确识别有关的视觉陈迹,比如零食的品牌、颜料或其他视觉特征。其次是网页履行推理,根据视频中得回的信息,AI需要遐想并履行一系列网页操作来完成任务,比如导航到网站、搜索、滚动页面、点击按钮等。
通盘测试被遐想得相配严格:惟有当最终的网页气象与主张绝对匹配时,AI才算成效完成了任务。这就像要求一个学生不仅要阐明题目,还要给出绝对正确的谜底,不允许有任何偏差。
商量团队将这些任务分为五个主要类别。电子商务任务是最大的类别,占了总和的50.3%,这类任务要求AI识别视频中的物品,然后在购物网站上找到交流或有关的家具。媒体检索任务占24.1%,要求AI根据视频中看到的举止或事件,在YouTube等平台上找到有关的教程或内容。学问查询任务占17%,主淌若让AI识别视频中的品牌或地标,然后在维基百科等学问平台上查找有关信息。腹地舆图做事占6%,要求AI识别视频中的地点信息,然后在舆图做事中定位。其他类型的任务占2.6%,包括一些特殊的应用场景。
二、智能数据生成:让机器学会不雅察天下
创建这么一个测试平台最大的挑战是若何生成高质地的视频-任务配对。商量团队遐想了一个好意思妙的半自动化进程,就像一个高效的内容创作工场。
通盘进程从全心规划的第一东谈主称视频库运行。商量团队从公开的第一东谈主称视频数据鸠合遴荐素材,这些视频记载了东谈主们在各种真实场景中的举止,从家庭环境到购物场合,从办公室到旅行景点。每个视频齐像一个小故事,记载着录像头带领者与周围环境的互动。
然后,商量团队使用了一个强盛的多模态大言语模子来分析这些视频。这个AI分析师会仔细不雅察每个5秒钟的视频片断,就像一个防备的不雅察者,记载下全局场景配景和局部物体细节。比如,它会防备到"一个东谈主在厨房绽开雪柜,拿出一瓶绿色的可乐",并详备描写可乐的品牌、颜料和其他可见特征。悉数这些片断描写被整理成一个结构化的视频档案,就像为每个视频建筑了一份详备的"身份证"。
有了视频档案后,另一个AI遐想师会根据这些信息和预界说的热点网站列表来构念念任务领导。这个遐想师的职责就像一个创意编剧,它需要确保生成的任务必须明确依赖视频中的视觉内容,况且概略在指定的网站上履行。比如,看到视频中有东谈主提起特定品牌的咖啡后,它可能会生成"在亚马逊上找到不异的咖啡并证明其价钱"这么的任务。
临了,东谈主类巨匠会对每个自动生成的视频-任务对进行严格的质地查验。这些巨匠就像严格的剪辑,他们从三个角度评估每个样本:视觉依赖性,确保任务如实需要依赖视频中可见的信息;网页可行性,确保任务概略在主张网站上践诺履行;领导质地,确保生成的任务领导澄莹且语法正确。惟有通过悉数查验的高质地样本才会被纳入最终的测试平台。
这种夹杂式的进程使商量团队概略高效地创建出500个经过考据的高质地视频-任务对,涵盖了多个热点网站和各种交互类型,确保了测试平台的各种性和真实性。
三、创新性评估系统:让AI当我方的考官
传统的网页AI测试方法就像只看学生的功课本,却不知谈题目是什么。商量团队意志到,既然任务需要连合视频阐明和网页操作,评估方法也必须同期接洽这两个方面。于是他们开发了Ego2WebJudge,这是一个概略"看懂"视频并"阐明"网页操作的智能评估系统。
Ego2WebJudge的职责进程就像一个相配仔细的考官。率先,它会根据任务领导索求关键评分点,明确界说成效完成任务需要达到的具体要求,比如找到特定物品、定位到正确位置或获取准确属性等。接着,它会从AI履行的通盘操作序列中筛选出最蹙迫的网页截图。由于网页操作轨迹可能包含5到20个门径,其中许多是无关的页面加载、后退操作或界面舛讹,径直把悉数截图齐输入评估模子会导致信息过载和判断质地下跌。因此这个筛选过程就像从一堆相片中挑出最蹙迫的几张,让评估愈加精确高效。
临了,多模态评估模子会概述接洽任务领导、筛选出的关键截图、AI的操作历史和预界说的评分重点,再连合从第一东谈主称视频中索求的关键帧,来判断AI是否成效完成了任务。这个过程越过强调视觉一致性,也即是说,网页上的最终收尾必须与视频中不雅察到的内容在视觉上保持一致,比如匹配物体、场景或品牌等。
这套评估系统的严格进度超出了东谈主们的设想。它不会因为AI的翰墨声明、网页标题、搜索查询或者约略有关的匹配就给出好评。相悖,它支柱"宁可错杀,不行放过"的原则,任何存在不祥情味、朦拢性、不匹配或穷乏视觉笔据的情况齐会被判定为失败。这种严格范例确保了评估收尾的可靠性和准确性。
实考据明,Ego2WebJudge与东谈主类巨匠判断的一致性达到了84%,显赫优于现存的自动评估方法。这意味着这个AI考官还是概略像东谈主类巨匠一样准确判断复杂的视觉网页任务,为大限制评估提供了可靠且可扩张的处置有计算。
四、现实锻练:顶尖AI的推崇若何
商量团队遴荐了六个面前首先进的网页AI助手来测试Ego2Web平台,收尾令东谈主深念念。这些AI助手包括学术界的SeeAct和工业界的明星家具,比如Browser Use配合GPT-4.1、Claude Computer-Use等。测试就像让这些AI学霸干预一次史上最难的概述考试。
测试收尾露出,即使是推崇最佳的Browser Use配合Gemini-3-Flash,在东谈主类巨匠评估中也只达到了58.6%的成效力,与期望的满分推崇还有约40%的雄壮差距。这个收尾就像发现即使是最优秀的学生,在面对需要同期诈欺不雅察才智和实践技巧的概述测试时,仍然有很大的普及空间。
更趣味趣味的是,不同AI助手的推崇各别很猛进度上取决于它们处理视觉输入的神态。那些概略径直处理原始视频的AI助手,比如基于Gemini的系统,推崇较着优于那些只可通过翰墨描写阐明视频内容的系统。这就像比较一个能亲眼看到现场情况的眼见者和一个只听别东谈主转述的东谈主,北京pk10前者昭彰能得回更准确、更丰富的信息。
商量团队还发现了一个蹙迫礼貌:不同类型任务的难度各别很大。学问查询任务相对最容易,平均成效力达到50%,这可能是因为这类任务触及的内容相对结构化,主张相对明确。比较之下,腹地舆图做事和电子商务任务更具挑战性,别离惟有23.1%和21.7%的平均成效力,这主淌若因为这些任务触及动态界面和多步交互,对AI的概述才智要求更高。
通过深入分析50个失败案例,商量团队发现了AI助手的几个主要问题。物体识别舛讹占了36%,AI庸俗无法正确识别视频中的主张物体,导致检索或交互时针对舛讹的物品。时间和四肢阐明舛讹占18%,AI在阐明视频中的时间方法或四肢序列时庸俗出错,比如污染第二次和第三次交互。跨模态检索失败占16%,天然AI正确识别了主张物体,但无法在网页上找到所需信息。粗粒度匹配舛讹占12%,AI检索到语义相似但践诺舛讹的收尾。其他类型失败占18%,包括领导阐明舛讹、遐想效果低下或外部抑止如考据码等。
五、视觉阐明的关键作用
为了考据视觉信息在这类任务中的蹙迫性,商量团队进行了一个越过趣味趣味的对比实验。他们让合并个AI助手在三种不同输入条目下完成交流任务:绝对莫得视觉信息、惟有详备的翰墨描写、以及原始视频输入。
收尾就像考据了"千闻不如一见"这句古话的科学版块。在莫得任何视觉输入的情况下,AI的推崇极其倒霉,总成效力惟有4.4%,这证实机动基于言语的信号对处置这类视觉有关的网页任务是远远不够的。当提供详备的视频翰墨描写后,AI的推崇存了显赫改善,成效力高潮到23.6%,这诠释结构化的翰墨选录概略部分捕捉有关的语义信息。
然而,当AI概略径直处理原始视频输入时,性能出现了质的飞跃,达到48.2%的成效力,比翰墨描写版块提高了一倍多。这种趋势在悉数任务类别中齐保持一致,越过是在学问查询任务中,从39.1%跃升到75%,在腹地舆图任务中从38.7%普及到48.3%,这些齐是需要精确空间和时间陈迹的任务类型。
这些发现揭示了一个澄莹的性能眉目:无视觉输入
这项商量明晰地诠释了信得过的视觉感知关于第一东谈主称网页助手任务的蹙迫性,也证实基于翰墨的替代有计算无法替代原始视频阐明的丰富性和准确性。
六、时间败坏的真切意旨
Ego2Web平台的创建不单是是一个时间演示,它代表了东谈主工智能发展的一个蹙迫转换点。传统的AI助手就像活命在二维天下的住户,只可阐明屏幕上的平面信息,而这项商量初度让AI概略信得过"睁开眼睛"看天下,然后基于所见来履行复杂的汇聚任务。
这种才智的杀青依赖于几个关键时间的败坏。率先是多模态阐明才智的显赫普及,AI需要同期处理视频、图像和文本信息,并在这些不同模态之间建筑特别旨的逢迎。其次是时空推理才智的发展,AI必须概略阐明视频中事件的时间方法和空间筹商,这比节略的图像识别复杂得多。临了是跨模态检索和匹配时间的向上,AI需要将从真实天下不雅察到的物体或场景,与汇聚上的数字化信息进行准确匹配。
商量团队开发的自动化数据生成进程也具有蹙迫的方法讲价值。这种连合AI自动生成和东谈主工考据的夹杂风景,为创建大限制、高质地的多模态数据集提供了一个可行的范式。这种方法既保证了数据的各种性和限制,又确保了质地和真实性,这关于素质更强盛的多模态AI系统具有蹙迫意旨。
Ego2WebJudge评估系统的成效也展示了AI在自动化评估界限的后劲。传统的东谈主工评估天然准确,但资本高、速率慢,难以复古大限制的模子迭代和鼎新。这种高度一致的自动评估系统不仅镌汰了评估资本,还使得快速、大限制的模子测试成为可能,从而加快了通盘界限的商量进展。
从应用出路来看,这项商量为将来的智能助手神态了一个令东谈主情愿的愿景。用户将概略通过AR眼镜或其他可衣服开发,让AI助手径直不雅察他们的真实环境,然后无缝地履行有关的汇聚任务。比如,看到一件中意的衣服后立即找到购买逢迎,遭受不观念的地标后自动获取有关信息,或者根据正在进行的举止自动搜索有关的教程视频。
这种才智的普及将透澈更正东谈主机交互的神态,使AI助手从被迫的信息检索器具调理为主动的、情境感知的智能伙伴。用户不再需要手动描写他们所看到的内愉快想要完成的任务,AI概略径直阐明用户的视觉环境并提供相应的匡助。
七、挑战与将来发展地点
天然Ego2Web平台展示了好听东谈主心的可能性,但商量收尾也明晰地揭示了面前AI系统的局限性。即使是首先进的系统,在这个相对简化的测试环境中也只可达到不到60%的成效力,这证真的真实天下的复杂应用中还有很长的路要走。
目前AI系统濒临的主要挑战不错分为几个层面。在感知层面,AI仍然难以准确识别复杂场景中的特定物体,越过是当这些物体部分装潢、光照条目欠安或角度特殊时。在阐明层面,AI对时间序列和因果筹商的把合手还不够准确,庸俗污染事件的先后方法或诬陷四肢的含义。在推理层面,AI在将视觉不雅察滚动为具体步履计算时庸俗出错,费事东谈主类那种直观性的瞎想才智。
时间杀青方面也存在不少挑战。视频处理需要大宗的揣测资源,越过是当需要及时处理高质地视频时。不同网站的界面遐想和交互风景霄壤之别,AI需要具备强盛的泛化才智才智合适这种各种性。秘密和安全问题也扼制冷漠,用户的第一东谈主称视频可能包含大宗明锐信息,如安在保护秘密的前提下提供智能做事是一个蹙迫课题。
从商量地点来看,将来的发展可能会鸠合在几个关键界限。率先是更强盛的多模态交融时间,概略更好地整合视觉、听觉和其他传感器信息。其次是更智能的凹凸文阐明才智,AI需要概略阐明用户的长久主张和即时需求。再次是更高效的学习机制,AI应该概略从极少样本中快速学习新的任务和场景。
践诺应用的推行也濒临诸多挑战。硬件开发需要变得愈加轻便、电板续航更长、资本更低。软件系统需要愈加踏实可靠,概略处理各种特殊情况。用户接受度亦然一个蹙迫成分,需要通过不断改善用户体验和诠释实用价值来得回用户信任。
尽管濒临这些挑战,Ego2Web平台的成效创建还是为通盘界限指明了地点。它不仅提供了一个范例化的测试环境,还展示了将真实天下不雅察与数字化步履接续合的可行性。跟着时间的不断向上和更多商量者的参与,咱们有原理肯定,这种概略信得过"看懂"天下的AI助手将在不久的将来成为现实。
说到底,这项商量最蹙迫的孝敬不是某个特定的算法或系统,而是为AI商量开辟了一个全新的地点。它让咱们看到,信得过智能的AI助手不应该只是一个高等的搜索引擎或文本处理器,而应该是一个概略不雅察、阐明并在真实天下中步履的智能伙伴。Ego2Web平台就像一个通往这个将来的桥梁,天然咱们还在桥的开头,但主张还是澄莹可见。关于每个期待更智能、更天然东谈主机交互的东谈主来说,这项商量齐值得咱们密切关切后来续发展。有兴味深入了解时间细节的读者,不错通过arXiv:2603.22529v1查询完整的商量论文。
Q&A
Q1:Ego2Web平台是什么,它处置了什么问题?
A:Ego2Web是Google DeepMind开发的AI测试平台,专门素质AI同期阐明第一东谈主称视频和履行网页操作。它处置了现存AI助手只可看懂网页截图、无法阐明用户真实视觉环境的问题,让AI概略看懂你目下的天下,然后在网上完成有关任务。
Q2:为什么目前首先进的AI在Ego2Web测试中推崇不好?
A:即使最佳的AI系统也惟有不到60%的成效力,主要因为三个问题:物体识别庸俗出错,时间方法阐明有偏差,无法准确将视频中看到的内容与网页信息匹配。这证实让AI信得过"看懂"天下并罗致步履比设想中费事得多。
Q3:Ego2Web时间什么时候能在平方活命中使用?
A:目前还处于商量阶段北京pk10官方网站,需要处置揣测资源、秘密保护、硬件资本等多个问题。不外这项商量还是指明了发展地点,跟着时间向上,将来几年内咱们可能会看到访佛功能在AR眼镜或智妙手机上的初步应用。
牛牛游戏官方网站