百卅天大
您当前的位置:首页 > 开云新闻 > 正文

kaiyun体育(中国)2026世界杯 老黄吹的Cosmos 3,在一个北大团队作念的榜单上拿了第一

来源:未知   作者:admin   时间:2026-06-05 00:41   浏览:183

刚刚昔时的 GTC Taipei 上,最备受情切的,莫过于Cosmos 3。

这是一个十足开源的物理 AI 全模态模子。老黄示意,Cosmos 3 谢天下生成这项上,在 Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench 四个开源榜单上均列第一。

前三个 bench 都算业界比较眼熟的,而R-bench——我专门查了查,这个让 Cosmos 3 霸榜的榜单,竟出自一支北大团队。

这篇责任已被 ICML 2026 接收,名字叫《Rethinking Video Generation Model for the Embodied World》,来自北京大学、字节跨越 Seed 等机构的接头团队。

他们忽视了面向具身天下的视频生成评测与数据基础设施:R-Bench+RoVid-X。

值得贯注的是,在作家列内外,字节 Seedance 2.0 的预覆按认真东谈主曾妍,也赫然在列。

R-Bench:专门给机器东谈主视频生成请的"考官"

Cosmos 3 是英伟达此次 GTC Taipei 的主角之一。

亚搏体育中国官方网站入口

按老黄的说法,它是大家首个十足开源的物理 AI 全模态模子,基于一种 mixture-of-transformers 架构,能在一个模子里同期交融和生成文本、图像、视频、环境声息,乃至机器东谈主的动作。

Nano 和 Super 两个尺寸,都仍是挂上了 Hugging Face。

换句话说,Cosmos 3 要作念的不是"拍出顺眼的视频",而是给机器东谈主、自动驾驶这些要在简直天下里干活的系统,生成"物理上说得通"的数据。

但问题它就来了。

一个模子生成的机器东谈主视频,到底是不是"物理上说得通",该用什么来揣测?

昔时一年,视频生成的故事险些都绕着并吞个问题张开:谁能拍得更澄清、更放心、更有电影感。

但在机器东谈主场景里,画质顺眼是一趟事,能弗成用又是另一趟事。

若是一个模子能生成传神的机械臂,却让夹爪穿过物体;能让机器东谈主看起来"动起来",却无法完成抓取、甩掉、回身、互助等任务,那么它距离 Physical AI 需要的"天下模子",仍然隔着一条领域。

R-Bench的中枢起点,即是把视频生成模子从"视觉生成器"放到"物理天下模拟器"的语境下再行评估。

它不单看画面是否传神,而是系统性揣测模子是否能生成适应具身任务逻辑和物理拘谨的视频。

具体而言,R-Bench 是一个以机器东谈主为中心的视频生成评测基准,包含650 个图像 - 文本评测样本,从5 类任务才气和4 类机器东谈主时势两个维度构建。

在职务维度上,R-Bench 掩饰操作引申、空间相关、多主体互助、永劫缠绵和视觉推理;在机器东谈主时势维度上,掩饰单臂、双臂、四足和东谈主形机器东谈主。

这么的遐想让 R-Bench 不再只问"视频像不像",而是进一步追问:

机器东谈主有莫得简直交游到主义物体?

任务环节设施是否好意思满出现?

多个物体或多个主体之间的相关是否合理?

机器东谈主时势在解析经由中是否保持放心?

永劫序动作是否适应任务逻辑?

因此,R-Bench 不仅仅一个名次榜,更可以算作机器东谈主视频生成数据的"物理质料过滤器":

它能够评估生成视频是否安闲交游相关、动作设施、时势放心性和任务完成度等物理拘谨,从而匡助筛选出更适应物理规章、可用于具身智能覆按的数据。

为了捕捉这些问题,R-Bench 遐想了一套可复现的自动化评测目的体系,能够识别机器东谈主时势畸变、物体属性漂移、部件飘摇或穿模、无交游抓取、杜撰出现物体、环节动作缺失等常见失败模式。

值得贯注的是,R-Bench 的自动打分,和东谈主工评测的 Spearman 洽商所有这个词达到0.96。

这意味着它不仅仅个自动跑分器具,在很猛进度上对都了东谈主类对"物理合不对理""任务完没完成"的判断。

榜单上还能看到什么?

在最新 R-Bench Leaderboard 中,Cosmos 3 系列仍是成为开源社区最亮眼的模子之一。

Cosmos3-Nano 以0.584的玄虚得分位列 RBench 开源模子第一,Cosmos3-Super 紧随其后,拿到0.581。

放到通盘榜单里看,这传递出两个信号。

一所以物理 AI 为主义覆按的视频天下模子,仍是开动在机器东谈主图像到视频生成上展现竞争。

比拟传统通用视频模子,它的上风不单在画质,更在于更接近具身智能需要的物理模拟与动作延展才气。

二是闭源贸易模子玄虚才气仍然泉源,但开源正在快速追逐。

对接头社区来说,kaiyun体育中国2026世界杯入口这种"开源能打"的信号,比单个模子更强更进犯。

而比排名更有价值的,是 RBench 照出来的几处共性短板:

精致操作照旧老浩劫。出动、回身这类大幅动作模子仍是作念得可以,但抓、持、拧、插、甩掉这些对交游建模条件高的动作,最容易出错。

永劫缠绵仍是弱项。视频看起来连贯,不代表任务逻辑正确,模子可能动作开通却漏掉环节设施,或者把设施搞反。

通用常识和机器东谈主数据没"合上"。纯通用视频有丰富的天下常识但缺机器东谈主交互,纯机器东谈主数据又同样领域有限、时势单一。

从这个角度看,R-Bench 更像一面镜子,把视频模子在物理天下里的简直软肋照了出来。

RoVid-X:400 万条机器东谈主视频,开源了

发现了问题,下一步即是喂数据。这恰是RoVid-X要处置的事。

团队仍是在 Hugging Face 上开源了 RoVid-X 的进犯子集(300 万条机器东谈主视频),上线后热度攀升很快——它在 Datasets Trending 的 Video 模态大领域数据采集排名第一,在沿路 6.5 万多个 Video 模态数据集的合座 Trending 里也位列第九。

这响应了 RoVid-X 算作面向机器东谈主视觉 / 视频交融的大领域数据资源,在开源社区中的快速影响力。

数据集的好意思满版领域达到400 万条机器东谈主视频片断、1300+ 细粒度手段、1 万 + 小时骨子,隔离率 720P,并附带 RGB、深度、光流等多模态物理标注。

和通用互联网视频不同,RoVid-X 要让模子交游的是更接近简直的机器东谈主交互经由:物体如何被抓取、机械臂如何接近主义、任务如何被解析、动作和环境如何共同酿成物理拘谨。

这种数据关于视频天下模子尤其环节。因为物理交融不是轻便靠领导词补出来的,而需要模子在无数交互数据中学习交游、设施、力学相关和结构放心性。

施行铁心也涌现,引入 RoVid-X 数据后,模子在具身任务中的阐明能够取得放心擢升。

举例在 Wan 系列模子上,经过 RoVid-X 微调后,模子在操作引申、永劫缠绵和空间交融等维度均有显著改善。

这证据高质料、结构化的机器东谈主视频数据,如实能够擢升视频生成模子面向具身场景的可引申性与放心性。

这项责任的兴趣,不单在于多了一个 benchmark 和一个 dataset,而是把视频生成放进了物理 AI 的语境里再行疑望。

昔时视频生成更多工作于骨子创作:告白、短片、殊效。往后,它可能成为机器东谈主覆按、仿真环境构建和具身智能数据闭环的基础设施。

当模子开动交融交游、设施、结构放心性和动作后果,"生成一段看起来合理的视频"就在向"可用于物理天下推演的天下模拟引擎"围聚。

R-Bench 和 RoVid-X 是在这个转向中补上两块环节拼图:一个汇报"如何评估",一个汇报"如何覆按"。

跟着 Cosmos 3 等 Physical AI 视频天下模子参预 R-Bench 榜单并取得开源 Top-1,具身视频生成的竞争也正在从单纯比拼视觉成果,转向更接近简直天下的物理交融和任务引申才气。

关于开源社区而言,这省略是一个更进犯的信号:Physical AI 的进展,不单属于闭源模子和贸易系统,也可以建设在怒放评测、怒放数据和怒放模子共同演化的基础之上。

按团队的缠绵,下一步还会去作念从生成视频反推可引申动作的 Inverse Dynamics Model,进一步买通视频生成、战术学习和真机部署之间的闭环。

视频生成模子的下一站,省略确切不仅仅拍电影,而是模拟、交融,并参与简直的物理天下。

团队布景

这支团队叫DAGroup,来自北京大学,认真东谈主是周大权。

周大权的阅历,恰恰踩在此次责任的题眼上。

他从 2022 年就开动作念视频生成,是最早一批入场的东谈主之一——

代表作 MagicVideo 是业界最早的隐空间扩散视频模子之一,自后还有 MagicVideo-V2、StoryDiffusion、Magic-Me 等一系列责任。

在腾讯混元视频模子 HunyuanVideo 中,他率领了模子预覆按与扩散算法遐想团队。

更早之前,他在模子与硬件遵守标的也颇有积攒,Coordinate Attention 曾被列为 CVPR 2020 最具影响力论文第 2 名。

如今回到北大作念助理阐述,他把接头重点放到了机器东谈主、AIGC 和 VLA 上。

他自述,我方的接头恒久带着一条"用最少的算力和内存,跑最强的算法"的干线。

除 R-Bench/RoVid-X 外,DAGroup 还在股东 HumanNet、StableVLA 等多个具身与天下模子标的的开源名目。

论文地址:

https://arxiv.org/abs/2601.15282

Project Page:

https://dagroup-pku.github.io/ReVidgen.github.io/

GitHub 地址:

https://github.com/DAGroup-PKU/HumanNet

R-Bench Leaderboard:https://huggingface.co/spaces/DAGroup-PKU/Leaderboard  

RoVid-X Dataset:https://huggingface.co/datasets/DAGroup-PKU/RoVid-X/

—  接待 AI 家具从业者共建  —

� �「AI 家具常识库」是量子位智库基于经久家具库跟踪和用户举止数据推出的飞书常识库,旨在成为 AI 行业从业者、投资者、接头者的中枢信息环节与有缠绵缓助平台。

一键情切 � � 点亮星标

科技前沿进展逐日见kaiyun体育(中国)2026世界杯