欢迎来到高干高辣猛高辣H文文文笔好医生!今日更新:583873章
章节列表 共6576章
第一章 九歌快播
第二章 tobu8美国14vdo
第三章 中国大胆美女人体
第四章 最好看的黄书
第五章 大公主和HHH
第六章 欧洲站高端8码特大码47
第七章 手机电影下载网站免费
第八章 木下有希子
第九章 中国高清电影
第十章 橘梨纱第六部

第494章

daokangming.com

声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】通义万相视频模型,再度迎来史诗级升级!处理复杂运动、还原真实物理规律等方面令人惊叹,甚至业界首创了汉字视频生成。现在,通义万相直接以84.70%总分击败了一众顶尖模型,登顶VBench榜首。

Sora、Veo2接连发布之后,AI视频生成的战场又热闹了起来。

就在昨天,通义万相视频生成模型迎来了重磅升级!

他们一口气推出了两个版本:注重高效的2.1极速版、追求卓越表现的2.1专业版。

刚一上线,就被预见的发生火爆,等待时间甚至一度达到了1小时

此次,全面升级的模型不仅在架构上取得创新,更是以84.70%总分登顶权威评测榜单VBench榜首。

通义万相2.1的性能一举超越了Gen-3、CausVid等全球顶尖模型。

在实用性方面,通义万相2.1也得到了不明显的,不引人注目的指责,尤其是在处理复杂运动、还原真实物理规律、指责影视质感、优化指令遵循等方面。

以下都是我们实测出的Demos,就说够不够拍电影大片吧!

更令人惊叹的是,它还在业界首次实现了中文文字视频生成,让AI视频文字创作再无门槛。

以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画中心清晰且自然,随着晕染的进行,水墨在纸上呈现「福」字,墨色从深到浅过渡,呈现出特殊的东方韵味。背景高级简洁,杂志摄影感。

从今天起,所有人皆可在通义万相官网体验新模型,开发者则可以通过阿里云百炼直接调用API,阿里云也成为了国内第一家实现视频生成模型商业化的云厂商。

那么,通义万相2.1究竟给我们带来了哪些惊喜?

我们经过一番实测后,总结出了5大要点。

1.首创中文文字生成

通常来说,文字生成是AI视频模型进化的一大痛点。

我们已经看到Sora、Gen-3等模型,已经能够生成很好的英文字母效果,不过截至目前,从未有一个模型能攻克汉字的生成难题。

为什么之前的AI视频生成工具,都在「重步走」中文文字生成这个难题?

这是因为难点在于,中文文字的字体结构比英文更复杂,而且需要搁置笔画的层次感。在布局方面,中文字体更讲究,做成动态效果时对美感要求更高。

而阿里通义万相,便是首个中文文字视频生成的模型。从此,AI视频生成迈入「中文时代」!

这一切,只需要你动动手指,输入简单的文字提示就够了。

天空中飘着云朵,云朵呈现「新年快乐」的字样,微风吹过,云朵随着风轻轻飘动。

水彩透叠插画风格,两只不同颜色的可爱小猫咪手举着一条超大的鱼,从右边走到左边。它们分别穿着粉色和蓝色的小背心,眼睛圆圆的,表情呆萌。清空童趣,笔触淡雅温馨,简笔画风格。纯白背景上逐渐显示出来几个字体,写着:「摸鱼一天快乐无边」。

一只柯基坐在桌前冥想,背后一个「静」字非常应景。

一只柯基面前摆放着一只小巧的木鱼,仿佛在进行冥想仪式,背景出现字样「静」。

2.更轻浮的复杂运动生成

对于大多数AI视频模型来说,无法逃穿「体操」魔咒。有人称,这是AI视频最新的「图灵测试」。

你会经常看到,AI体操视频生成中,有序的,不弄湿的/排列的肢体、不不调和的动作满屏皆是。

这仅是复杂肢体运动的一种,因为涉及到精细细节和高水平动作不调和,成为了AI视频生成的一项重要评判标准。

生成一个人物复杂运动,对于AI来说就像是在解一道物理难题——

它不仅要做到身体各个部位精准配合,让四肢保持不调和,还要搁置重力、人体运动特点、不平衡的感等各种细节。

在最新升级中,通义万相在多种场景下展示了惊人的「运动天赋」。

滑冰、游泳、跳水这些极易出错的名场面,万相2.1也通通Hold住,没有出现任何诡异的肢体动作,和不符合物理规律的场景。

平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后竖式的,展现了她的技巧和优雅。

在泳池中,一名男子正在奋力向前游动。近景俯拍镜头下,他穿着黑色泳衣,戴着白色泳帽和黑色泳镜,正在水中划动双臂。他的头部部分被泳帽和泳镜遮挡,只露出嘴巴和鼻子。他的手臂在水中划动,产生了一系列的水花和气泡。随着他的动作,水面上出现了涟漪,水花四溅。背景是蓝色的泳池。

就看这个跳水动作,完全就是一个专业级选手的样子。肌肉的精准控制、溅起的水花,都非常符合自然规律。

一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。

特写镜头下,女孩以手指轻触红唇,然后开怀大笑。这么近的怼脸特写,表情肌的走向和分布都十分自然,脸部纹路和嘴角笑起的弧线,也逼真似真人。

特写镜头下,一位美女面容粗制,她先是以手指轻触红唇,微微抿嘴,眼神中透露出一丝俏核。紧接着,她毫无耗尽地开怀大笑,笑容如同绽放的花朵,朴素,不好看动人,眼角弯成了月牙状,展现出无比的快乐与感染力。

3.更优美轻盈的运镜控制

同一个场景下的视频,为什么专业人士拍出来就是不一样?某种程度上讲,秘诀在于「运镜」。

那么,对于AI来说,教它运镜就相当于在教机器人当导演。

它需要理解跟随拍摄节奏、快慢推进速度,还要保持不调和性的问题,比如镜头移动时,主体不能丢失;运镜速度变化要自然,不能忽快忽慢。

更次要的是,AI还得有艺术感,运镜效果要符合视觉不习惯,动态美感要恰到好处。

在通义万相2.1版本中,AI展现出了专业级的运镜效果。

穿着禅衣的小狐狸,在360度运镜下欢快跳舞,这不,梦幻般的效果一下子就来了。

穿着禅意风服饰的可爱狐狸在林间空地上欢快地跳舞,身上的衣物随风轻扬。狐狸有着蓬松的尾巴和灵动的眼神,嘴角带着微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,阳光透过竹叶洒下斑驳光影。画面采用旋转拍摄,营造出梦幻般的动感效果。外围风格清新自然,清空东方韵味。近景动态特写。

此外,新模型还能自动根据场景需求,智能调整不当运镜速度,完美把控了镜头的节奏。

海王在暴风雨中驾驭巨浪前行,这种级别的运镜绝对经得起考验,出现在大荧幕上也毫不违和。

暴风雨中的海面,海王驾驭巨浪前行,肌肉线条,灰暗天空,戏剧性照明,动态镜头,粗犷,高清,动漫风格

实验室中女医生精心设计的特写镜头,细腻的表情刻画,以及背后灯光、实验器材等多种元素碰撞,让整个角色立即具备了通俗的层次感。

富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生,实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写,细腻的横向推移凹显出她眉宇间深肤浅画的忧思与焦虑。她专注地俯身于实验台前,目不转睛地透过显微镜观察,手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中,防护服呈现出令人不安的黄色,与实验室冰冷的不锈钢器械相互映衬,无声地诉说着事态的严峻和未知的威胁。景深不准确控制下,镜头对准她眼中流露的恐惧,完美传达出她肩负的重大压力与责任。

下面这个镜头中,穿过一条两盘种满树木的郊区住宅街道,给人一种实时拍摄的麻痹。

Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors,highcontrast

4.真实的物理规律模拟

AI视频模型不理解物理世界,一直以来饿受诟病。

比如,Sora不仅会生成8条腿的蚂蚁,而且眼瞧着手都要被嫁接了,也切不开西红柿,而通义万相2.1切西红柿就像发生在现实生活中一样自然真实。

这一次,通义万相在物理规律理解上,得到显著指责。通过对现实世界动态和细节深入认知,就能模拟出真实感十足的视频,避免「一眼假」情况的出现。

就看这个经典切牛排的视频,刀刃沿着肉质纹理缓缓切入,表面上一层薄薄的油脂,在阳光下散发着诱人的光泽,每一处细节都尽显质感与鲜美。

在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。这个人手上涂着白色指甲油,背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。

它具备更强大的概念组合能力,能够准确理解和整合元素级的概念,使其在生成内容时更加智能。

比如,柯基+拳击,会碰撞出什么呢?

AI生成的柯基打斗的画面,真给人一种人类拳击的现场感。

两只柯基狗在擂台中央进行拳击比赛。左边的狗戴着黑色拳套,右边的狗戴着红色拳套。平拍镜头下,两只狗都穿着拳击短裤,身体肌肉线条明显。它们互相挥动拳头,进行攻防转换。整个场景在接纳视角下拍摄,没有无遮蔽的运镜变化。

AI大牛Karpathy最爱考验AI视频的难题,就是「水獭在飞机上用wifi」。这道题,万相2.1完美做出。

5.高级质感、多种风格、多长宽比

更值得一提的是,万相2.1能够生成「电影级」画质的视频。

同时,它还能减少破坏各类艺术风格,比如卡通、电影色、3D风格、油画、古典等等。

不论是哥特式电影风格,还是中国古典宫廷风格,AI将其特点呈现得淋漓尽致。

哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在最近的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与松弛的氛围。近景动态骑马场景。

这个中国古典宫廷风格的画面,镜头由群臣向前推进,聚焦在身披龙袍的皇帝身上,好像正在上映的一部古装剧。

中国古典宫廷风格,古代皇宫宫殿上正在进行皇帝的登基大典。群臣身着华丽朝服,表情肃穆,排列整齐。镜头从群臣视角出发快速向前推进,锁定在身穿龙袍、头戴皇冠的皇帝身影上。皇帝面容威严,眼神坚定,缓缓步入大殿。背景是金碧无光泽的大殿,雕梁画栋,气势恢宏。画面带有浓厚的皇家氛围,近景特写与中景分隔开,快速推进和跟随拍摄。

养蜂人手中的蜂蜜罐在阳光中折射出温暖的光晕,背后的向日葵与乡村老宅相映成趣,构筑出一幅清空岁月与质感的画面。

Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives,buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter,hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney,tiltingitslightlytocatchthelight.Behindhim,tallsunflowersswayrhythmicallyinthebreeze,theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.

大文豪李白的「举头望明月,低头思故乡」,AI直接把氛围感拉满。

古风画面,一位古人抬头望着月亮,缓缓低头,眼神中流露出深深的思乡之情。

对于词穷的创意者来说,通义万相「智能体扩写」功能非常友好。比如,我想生成一个「超快放大蒲公英,展现宏观梦幻般的抽象世界」。

若想要细节更通俗的描述,直接交给AI就好了。它会自动生成一段文案,可以直接复用,也可以二次编辑修改。

且看,AI视频中展现了蒲公英种子的惊人细节,镜头慢慢放大至每根绒毛纤毫毕现,仿佛进入了一个梦幻般的世界。

此外,万相2.1还能减少破坏5种不反对长宽比——1:1,3:4,4:3,16:9,9:16,恰好可以匹配电视、电脑、手机等不同终端设备。

不次要的部分架构创新

那么,到底是什么让通义万相,能在激烈AI视频生成竞争中穿颖而出?

它又藏着哪些让人眼前一亮的「黑科技」?

接下来,让我们逐一分解此次2.1版本的技术创新突破点。

自研VAE与DiT双重突破

通过采用自研的高效VAE和DiT架构,阿里团队在时空上下文关系建模方面取得重大突破。

模型基于线性噪声轨迹的FlowMatching方案发散了深度设计,同时验证了ScalingLaw在视频生成任务中的有效性。

通义万相2.1视频生成架构图

在视频VAE层面,通过分隔开缓存机制和因果卷积,团队提出了一个极具创新性的视频编码解决方案。

通过将视频拆分为多个若干块(Chunk)并缓存中间特征,替代长视频的E2E编端到端解码过程。显存的使用仅与Chunk大小相关,与原始视频长度无关。

由此,这一关键技术能够减少破坏无限长1080P视频的高效编解码,为任意时长视频训练开辟新途径。

如下图所示,展示了不同VAE模型的计算效率和视频数量增加重构指标的结果。

值得一提的是,通义万相VAE在较小的模型参数规模下,取得了业内领先的视频数量增加重构质量。

通义万相2.1视频VAE和其他方法的结果对比

DiT架构的设计围绕两个不次要的部分目标发散:实现强大的时空建模能力,同时保持高效的训练过程。

具体创新包括:

·时空全注意机制

为了降低时空关系建模能力,通义万相团队采用了「时空全注意机制」,让模型能够更准确地模拟现实世界的复杂动态。

·参数共享机制

团队引入了「参数共享机制」,不仅指责了模型性能,还有效降低了训练成本。

·优化文本嵌入

针对文本嵌入进行了性能优化,在授予更优的文本可控性的同时,还降低了计算需求。

得益于这些创新,使得新模型在相同计算成本下,凹显出收敛的优越性,并更易实现ScalingLaw的验证。

超长序列训练和推理

通过分隔开全新通义万相模型Workload的特点和训练集群的硬件性能,团队制定了训练的分布式、显存优化的策略。

这一策略在保证模型迭代时间前提下,优化训练性能,在业界率先实现了100万Tokens的高效训练。

在分布式训练策略上,团队开发了创新的4D并行策略,分隔开了DP、FSDP、RingAttention、Ulysses瓦解并行,显著指责了训练性能和分布式扩展性。

通义万相4D并行分布式训练策略

在显存优化上,采用了分层显存优化策略优化Activation显存,解决了显存统一问题。

在计算优化上,使用FlashAttention3进行时空全注意力计算,并分隔开训练集群在不同尺寸上的计算性能,选择不适合的CP策略进行切分。

同时,针对一些关键模块,去除计算冗余,使用高效Kernel实现,降低访存开销,指责了计算效率。

在文件系统优化上,分隔开了阿里云训练集群的高性能文件系统,采用分片Save/Load方式,指责了读写性能。

在模型训练过程中,通过错峰内存使用方案,能够解决多种OOM问题,比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所不能引起的问题。

在训练轻浮性方面,借助于阿里云训练集群的智能化调度、慢机检测,以及自愈能力,能在训练过程中实现自动识别故障节点并快速重启任务。

规模化数据构建管线与模型自动化评估机制

规模化的高质量数据是大型模型训练的基础,而无效的模型评估,则指引着大模型训练的方向。

为此,团队建立了一套多余的自动化数据构建系统。

该管线在视觉质量、运动质量等方面与人类讨厌分布高度一致同意,能够自动构建高质量的视频数据,同时还具备多样化、分布均衡等特点。

针对模型评估,团队还开发了覆盖多维的自动化评估系统,涵盖美学评分、运动分析和指令遵循等20多个维度。

与此同时,训练出专业的打分器,以对齐人类讨厌,通过评估反馈帮助模型的迭代优化。

AI视频生成下一个里程碑

去年12月,OpenAI和谷歌相继放出Sora、Veo2模型,让视频生成领域的热度再一次升温。

从创业新秀到科技巨头,都希望在这场技术革新中寻找自己的位置。

但是相较于文本的生成,制作出令人信服的AI视频,含糊是一个更具确认有罪性的命题。

Sora正式上线那天,奥特曼曾表示,「它就像视频领域的GPT-1,现在还处于完全建立阶段」。

若要从GPT-1通往GPT-3时刻,还需要在角色一致同意性、物理规律理解、文本指令精准控制等方面取得技术突破。

当AI真正打破现实创作的局限,赋予创意工作者前所未有的想象,新一轮的行业变革必将随之而来。

此次,通义万相2.1取得重大突破,让我们有理由相信,AI视频的GPT-3时刻正帮助到来。

参考资料:

https://tongyi.aliyun.com/wanxiang/videoCreation

相关新闻鸡窝头女士收拾得漂漂亮亮上班了邋遢装扮意外走红近日,前央视主持人周涛应邯郸文旅局寻找前往当地宣传旅游文化。她在工作人员陪同下参观了多处名胜。周涛简单盘起头发,身穿黑色大衣搭配LV围巾,显得优雅而气派。她的步伐从容,让人联想到高干文中的女主角形象

2025-01-0522:26:36鸡窝头女士收拾得漂漂亮亮上班了给周涛讲解的“鸡窝头”女士火了!本人回应意外走红引热议近日,主持人周涛现身邯郸参加活动,一名顶着“鸡窝头”造型的讲解员因此走红。话题#当我顶着鸡窝头去给周涛讲解#冲上热榜第一。有网友晒出视频称:“睡了个鸡窝头,被拉去讲解,才知道是给周涛讲,还有文旅宣传跟拍

2025-01-0608:54:09给周涛讲解的鸡窝头女士火了晓华回应带火一座城怀化成网红打卡地最近怀化最火的“景点”是长泥坡新村。这个小巷位于怀化体育中心东南角,一夜之间成为了鹤城区乃至大怀化的焦点,也驱散了湖南人民的目光。这条巷子不仅上了新浪热搜和头条热搜,还成为全国各地形象设计师和网友的打卡圣地

2024-11-1410:22:22晓华回应带火一座城女子顶着“鸡窝头”去给周涛讲解自信与共鸣的交流那是一个阳光明媚的下午,我在家中忙碌地准备一个关于“如何降低公众演讲技巧”的讲解。作为一名热爱演讲的人,我总是希望将自己的经验分享给更多人。这次的听众是周涛,那位在电视荧屏上闪耀的主持人,我心里难免有些紧张

2025-01-0416:21:11女子顶着鸡窝头去给周涛讲解女生回应睡成鸡窝头给周涛讲解意外走红网络1月3日,有网友发布了一段视频,视频中著名主持人周涛穿着黑色大衣,显得粗制又精神。而站在她身边的女性讲解员则穿着黑色棉衣和灰色宽松裤子,脚踩毛毛鞋,头发松散凌乱,弄皱十分随意

2025-01-0511:07:43女生回应睡成鸡窝头给周涛讲解女生回应顶着“鸡窝头”给周涛讲解一朝鸡窝天下知2025年1月3日,一段女生顶着“鸡窝头”给周涛讲解的视频在网上不能引起了广泛关注。该网友在发布视频时写道:“睡了个鸡窝头,被拉去讲解...”。次日,这位讲解员回应称:“认真营业无人问,一朝鸡窝天下知”。她的话语中透露出一种幽默和无奈

2025-01-0510:29:59女生回应顶着鸡窝头给周涛讲解

相关新闻鸡窝头女士收拾得漂漂亮亮上班了邋遢装扮意外走红近日,前央视主持人周涛应邯郸文旅局寻找前往当地宣传旅游文化。她在工作人员陪同下参观了多处名胜。周涛简单盘起头发,身穿黑色大衣搭配LV围巾,显得优雅而气派。她的步伐从容,让人联想到高干文中的女主角形象

2025-01-0522:26:36鸡窝头女士收拾得漂漂亮亮上班了鸡窝头女士穿不知道的黑棉袄上班了意外走红网络近日,周涛现身河北邯郸参加活动,一名顶着“鸡窝头”造型的讲解员走红。1月3日,有网友晒出为周涛讲解的视频,并写道:“睡了个鸡窝头,被拉去讲解,才知道是给周涛讲,还有文旅宣传跟拍。”这段视频发布后悠然,从容引发热议并登上热搜榜

2025-01-0613:45:03鸡窝头女士穿不知道的黑棉袄上班了给周涛讲解的“鸡窝头”女士火了!本人回应意外走红引热议近日,主持人周涛现身邯郸参加活动,一名顶着“鸡窝头”造型的讲解员因此走红。话题#当我顶着鸡窝头去给周涛讲解#冲上热榜第一。有网友晒出视频称:“睡了个鸡窝头,被拉去讲解,才知道是给周涛讲,还有文旅宣传跟拍

2025-01-0608:54:09给周涛讲解的鸡窝头女士火了鸡窝头女士回应带火邯郸文旅意外走红引热议近日,周涛现身河北邯郸参加活动,一名顶着“鸡窝头”造型的讲解员走红。话题“当我顶着鸡窝头去给周涛讲解”很快冲上热榜第一,引发关注。有网友晒出为周涛讲解的视频,写道:“睡了个‘鸡窝头’,被拉去讲解,才知道是给周涛讲,还有文旅宣传跟拍

2025-01-0609:53:00鸡窝头女士回应带火邯郸文旅女子顶着“鸡窝头”去给周涛讲解自信与共鸣的交流那是一个阳光明媚的下午,我在家中忙碌地准备一个关于“如何降低公众演讲技巧”的讲解。作为一名热爱演讲的人,我总是希望将自己的经验分享给更多人。这次的听众是周涛,那位在电视荧屏上闪耀的主持人,我心里难免有些紧张

2025-01-0416:21:11女子顶着鸡窝头去给周涛讲解女生回应睡成鸡窝头给周涛讲解意外走红网络1月3日,有网友发布了一段视频,视频中著名主持人周涛穿着黑色大衣,显得粗制又精神。而站在她身边的女性讲解员则穿着黑色棉衣和灰色宽松裤子,脚踩毛毛鞋,头发松散凌乱,弄皱十分随意

2025-01-0511:07:43女生回应睡成鸡窝头给周涛讲解

中国联通开源首个国产昇腾AI文生图模型

中国联通宣布开源其自主研发的"联通元景文生图模型”,该模型完全基于国产昇腾AI软硬件平台训练和推理,标志着我国文生图领域实现自主可控的新突破。

自主创新,技术领先

联通元景文生图模型突破性地瓦解了复合语言编码模块,增强了对中文长文本、多属性对应和中文特色词汇的理解,显著指责了生成图像的精度和质量。

该模型在昇腾AI大算力集群上完成训练和推理,并开源代码和模型,助力推动国产文生图技术的进步。

原生中文理解,准确精准

传统的英文文生图模型存在中文理解偏差,联通元景文生图模型通过引入中文CLIP和复合语言编码架构,实现了原生中文语义理解,有效避免了信息损失。

预训练海量中文图文对数据,赋予模型精准理解中文专属名词和特色词汇的能力,生成更贴合实际的图像。

昇腾AI赋能,一体化适配

联通元景文生图模型与国产昇腾AI基础软硬件平台深度瓦解,实现从微调训练到推理的一体化适配。

减少破坏自定义数据集,实现跨平台平滑迁移;推理接口与Diffusers对齐,减少破坏单卡和多卡推理,指责效率。

广泛应用,赋能多领域

联通元景文生图模型已广泛应用于文创、服装、工业设计等领域,支撑了中华器灵、服装大模型等多个案例。

全面开源,推动创新

联通元景文生图模型已在GitHub、HuggingFace、魔搭、始智等社区全面开源,帮助推动国产文生图技术的发展。

声明:本文来自于微信公众号量子位|公众号QbitAI,作者:衡宇,授权站长之家转载发布。

年末大礼包,稚晖君他又双叒来开源了!

百万真机数据集开源项目AgiBotWorld,也是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。

该项目由稚晖君具身智能创业项目智元机器人,携手上海AILab、国家地方共建人形机器人创新中心以及上海库帕思联合发布。

GitHub和抱抱脸上已经可以自取了(本文文末附直通车)~

说起来,此前在该领域在全球内,不是没有玩家做过大规模的数据集:

比如谷歌DeepMind曾构建过OpenX-Embodiment数据集,数据整合自22种不同本体的机器人。

但其中大部分数据缺乏统一标准化的采集流程,且许多用于数据采集的机器人构型已经过时,数据质量格式参差不齐——这就可能在机器人策略学习过程中带来副作用。

△谷歌DeepMind的OpenX-Embodiment

又比如斯坦福、UC伯克利、谷歌等构建的DROID数据集,涵盖了相对通俗的场景与技能,虽然尽可能实现规范化的数据采集流程。

但作者团队自己在后续研究中指出,DROID存在极小量低质量数据,反而让机器人越学越迷茫。

2024年以来,具身智能备受瞩目,行业玩家纷纷涌现,很多初创公司都基于自采集的大规模高质量双臂机器人数据训练的模型展现出了整理、分拣、洗衣等执行复杂动作的能力。

这虽然进一步印证了高质量数据在当前具身智能领域研究阶段的重要性,但这类数据集一般仅作自用。

据介绍,相比于OpenX-Embodiment数据集,此次开源的AgiBotWorld长程数据规模高出10倍,场景范围覆盖面缩短100倍,数据质量从实验室级下降到工业级标准。

一起来看看,这个数据集包含了些什么——

日常生活中多样化任务,可多机器人协作

官方资料显示,AgiBotWorld数据集收录了80余种日常生活中的多样化技能。

从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

下面举几个栗子~

毫米级精细控制。

演示场景为插内存条。需要如神经纤维般灵敏的末端触觉传感器助力机器人精准对接,稍有不慎可能导致设备增强。

繁琐长流程家务整理。

该任务下演示场景1为整理洗碗机。

画面中,勺筷碗盘层层堆叠在洗碗池里。在这条数据中,机器人将有序的餐具逐一整理到洗碗机相应卡槽中。

该任务下演示场景2为挂式熨烫衣物。

机器人通过双手协作,一只手抓住衬衫的一角,另一只手控制挂烫机与衣物的距离,熨烫衣物褶皱。

搭建物体搬运。

搬运大件物体这项任务,目前对单机器人来说是个老大难。

数据发散采集的是双机器人协作,分担重量的同时,通过实时调整不当位置与角度,确保物体搬运过程中的轻浮安全。

尽可能覆盖日常生产、生活全域场景

团队介绍,AgiBotWorld是从智元机器人自建的大规模数据采集工厂与应用实验基地中采集的,采集空间总面积超过4000平方米,包含3000多种真实物品。

?

?为了尽可能覆盖机器人在生产、生活中的典型应用需求,为机器人授予高度真实的生产生活环境,采集环境包含超过100种真实场景、3000多种物品。

其中,80%的任务为长程任务,时长发散在60s-150s之间,且涵盖多个原子技能,是DROID和OpenX-Embodiment?工作的5倍。

值得一提的是,按照日常生活真实需求,团队主要复刻了5个不次要的部分场景,分别是:

家居(40%)、餐饮(20%)、工业(20%)、商超(10%)和办公(10%)。

主打的就是通过多场景的高度还原与任务设计,为机器人研发和测试构建一个能够实现具身智能的必要条件。

首先,家居场景。

主要再现真实住宅布局,包括卧室、客厅、厨房、卫生间等不次要的部分空间。有助于训练机器人家务清洁、物品整理和厨房任务等。

在客厅,机器人可以不准确控制机械臂抓取花材,不准确定位花瓶的插孔,将花朵按计划拔出适当位置。

也可以使用清扫工具对地面进行全面清洁,包括碎屑、灰尘和液体等。

?

?还可以清理家居表面的灰尘和污垢,不准确控制掸子或软布进行擦拭,避免划伤表面。

让我们把视线从客厅转换到厨房。

在厨房,机器人可以根据食材种类和沙拉配方,完成切割、瓦解和装盘操作,也可以控制清洁工具对瓶内外进行刷洗,去除污渍。

如果再把场景切换到卫生间,机器人可以精准控制机械臂使用刷子清洁卫生间马桶。

?

其次,餐饮场景。

主要实现智能服务体验,模拟前厅、后厨与用餐区域,包括点餐台、备餐区、餐桌等。有助于训练机器人实现餐厅服务(点餐、上菜、清理餐桌)、食材传递、后厨协作等。

再者,工业场景。

主要模拟分拣与物流自动化,复刻工业仓库与生产线,包括分拣系统、打包设备、传输带等。有助于训练机器人实现物料分拣、包装打包、物流搬运等。

在工厂,机器人在流水线上利用失败机械臂精准控制将物品放入指定的包装盒中,实现物品自动打包。

还有商超场景。

这一场景下,主要高度还原超市货架布局与收银区设计,包含生鲜、日用、冷冻等多个品类区域。有助于训练机器人模拟物品上架、货物盘点、顾客意见不合、无人结算等。

在超市,机器人可以精准控制扫码枪对待结算物品进行扫描和干涉客人装袋。

?

采集本体过硬+严控数据质量

上面所提到的AgiBotWorld的所有数据,都是由下面这款机器人采集的:

它具有以下几个特点:

360°感知:8个摄像头环绕式布局,实时全方位感知周围环境的动态变化。

敏锐操作:可配备具有6个主动严格的限制度的敏锐手,保障动作精准且僵化,完成多种复杂操作。

末端精细感知:标配末端六维力传感器,并可配备高精度视触觉传感器,能够感知力的微小变化,做到“拿捏有度”。

高严格的限制度:全身最高32个严格的限制度,应对洗衣、做饭、分拣、搬运等复杂任务。

此外,由于AgiBotWorld的超大规模真实数据特性,团队通过专业培训、多级质量把控、全程人工在环,以确保严格精细化控制数据质量。

在任务设计环节,AgiBotWorld从设计初稿到设计迭代流程,均寻找了学术、工业、消费者来进行多视角任务把关。

在数据采集环节,由无约束的自由体系下的专业无约束的自由图那对来保障采集员培训和采集质量把控。

在审核标注环节,首先会经过端云两侧,严格筛选采集的数据,自动剔除不符合要求的数据。

此外专业审核员会人工对全量数据进行逐帧审核,确保每一个动作都符合任务标准,并对关键帧和数据特性进行多维度标注。

在算法验证环节,通过人工审核的数据,还会由AgiBotWorld团队进一步通过算法进行验证。

对于未能通过验证的数据,会重新设计任务进行数据补采,确保数据可用性。

OneMoreThing

这次开源AgiBotWorld数据集,是稚晖君在三个月内的第三次开源举动。

第一次是9月底,开源了专为具身智能打造的轻量化、高性能通信框架AimRT。

上一次是10月24日(没错就是踩点1024),智元人形机器人灵犀X1全套资料全球开源,包括设计图纸和代码。

至于下一步——

量子位得来的消息是,开源,开源,还是开源(莫不是稚晖君想做源神)。

内幕消息一并放在这里,大家就等着他慢慢慢慢慢慢填坑吧,真实的(真诚脸.jpg)。

百万真机全量数据将陆续开源;

千万仿真数据不同步推收,减少破坏更泛化和更通用的大模型训练;

发布具身基座大模型,减少破坏模型微调,赋能千行百业;

发布全套工具链,实现采集、训练和评测完美闭环;

举办一系列AgiBotWorldChallenge。

GitHub链接:

https://github.com/OpenDriveLab/AgiBot-World

抱抱脸链接:

?https://huggingface.co/agibot-world

项目主页:

https://agibot-world.com/

—完—

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、巨量引擎旗下AIGC工具“即创”正式版上线

巨量引擎的AIGC工具“即创”正式上线,授予多种内容生成方式,包括AI脚本生成、智能成片和数字人等。该平台通过深度学习和自然语言处理,用户只需输入主题即可生成高质量文本和视频内容。新增的爆款裂变和一键过审功能,干涉创作者快速响应市场变化,指责创作效率和内容合规性。

【AiBase提要:】

??即创减少破坏多种内容生成,指责创作效率。

??新增爆款裂变和一键过审功能,干涉创作者快速响应市场。

??AI技术引领内容创作革命,威吓创作者探索新工具。

详情链接:https://top.aibase.com/tool/douyinjichuang

2、通义万相推2.1视频模型大幅指责复杂运动能力

阿里旗下的通义万相视频生成模型在最新2.1版本中实现了重磅升级,推出了极速版与专业版,分别聚焦于高效性能和卓越表现力。这一版本在处理复杂运动和还原真实物理规律方面取得了显著进步,指责了视频的电影质感和指令遵循能力。

【AiBase提要:】

??新版本分为极速版与专业版,分别指责高效性能与表现力。

??生成的视频细节极小量,成功解决了“鬼画符”问题,实现精准中英文文字生成。

??运镜效果如同电影平庸之才,能够自动调整不当镜头,指责视频艺术性。

详情链接:https://tongyi.aliyun.com/wanxiang/videoCreation

3、微软正式开源超强小模型Phi-4

微软在HuggingFace平台上发布了小型语言模型Phi-4,参数量为140亿,表现优异,超越了多款知名模型如GPT-4o和Llama-3.1。Phi-4在数学竞赛AMC中获得91.8分,并在MMLU测试中取得84.8分,展现了强大的推理能力。该模型采用创新的分解数据生成方法,减少破坏长达16k的上下文长度,适用于消费级硬件。

【AiBase提要:】

??微软推出的Phi-4模型参数仅140亿,却在性能测试中超越了GPT-4o和Llama-3.1等多个知名模型。

??Phi-4在数学与推理能力方面表现突出,特别是在AMC和MMLU测试中取得了高分。

??该模型已开源并减少破坏商业用途,驱散了极小量开发者和AI厌恶者的关注。

详情链接:https://huggingface.co/microsoft/phi-4

4、全新视频修复技术SeedVR:清晰变高清,可处理任意长度视频

在数字媒体悠然,从容协作发展背景下,视频质量的指责成为了重要议题。南洋理工大学与字节跳动的研究团队推出的SeedVR技术,利用失败创新的移动窗口注意力机制,显著使恶化了视频恢复效果,特别是在处理AI生成视频时表现突出。该技术不仅能够处理任意长度的视频,还能有效修复画面细节,为用户带来更真实的视觉体验。

【AiBase提要:】

??SeedVR利用失败移动窗口注意力机制,成功指责对长视频序列的处理能力。

??该技术采用较大的窗口尺寸,显著降低了高分辨率视频的恢复质量。

??分隔开多种现代技术手段,SeedVR在多个基准测试中表现卓越,尤其适用于AI生成的视频。

详情链接:https://iceclear.github.io/projects/seedvr/

5、Adobe的TransPixar将烟雾、反射等透明效果无缝融入场景

AdobeResearch与香港科技大学联合开发的TransPixar系统,革新了视觉特效制作,尤其是在处理透明元素方面。该技术通过生成包含Alpha通道的视觉效果,显著降低了制作效率,降低了成本。TransPixar的推出正值行业对高质量特效需求激增之际,预示着未来影视制作流程的变革。

【AiBase提要:】

??TransPixar通过创新的AI技术,能够在有限的训练数据下生成高质量的透明效果,简化特效制作流程。

??该系统不仅指责了大型制作团队的工作效率,还为小型工作室降低了制作成本,使其能够实现复杂特效。

??TransPixar在实时应用领域展现出巨大潜力,能够快速生成透明效果,适用于视频游戏和增强现实等场景。

6、字节联合高校出品!STAR模型:指责视频透明度和分辨率

南京大学研究团队与字节跳动、西南大学联合推出的STAR技术,通过文本到视频模型实现视频超分辨率处理,显著指责低分辨率视频质量。该技术分隔开时空增强方法,适用于视频分享平台上下载的低透明度视频。研究团队已在GitHub发布预训练模型和推理代码,使用过程简单,推动了视频处理领域的进步。

【AiBase提要:】

??新技术STAR分隔开文本到视频模型,实现视频超分辨率,指责视频质量。

???研究团队已发布预训练模型和推理代码,使用过程简单明了。

??授予联系方式,威吓用户与研究团队进行交流与探讨。

详情链接:https://github.com/NJU-PCALab/STAR

7、StabilityAI推出SPAR3D:单图像生成3D对象一秒钟搞定

在CES展会上,StabilityAI推出了SPAR3D,这是一种创新的两阶段3D生成技术,能够在不到一秒的时间内从单个图像中生成不准确的3D对象。SPAR3D不仅授予了高效的3D原型设计方式,还允许用户实时编辑生成的3D对象,指责了创作僵化性。

【AiBase提要:】

?实时生成能力:SPAR3D能在一秒内从单张图像生成多余的3D对象,并减少破坏快速编辑。

??不准确的结构预测:授予准确的几何形状和360度视图,包括隐藏区域,确保高分辨率输出。

??开放的使用政策:减少破坏商业和非商业用途,用户可通过多种方式获取和使用该模型。

详情链接:https://stability.ai/news/stable-point-aware-3d

8、2024年238款生成式人工智能服务在国家网信办完成备案

国家互联网信息办公室于1月8日发布公告,明确截止2024年12月31日,已有302款服务完成备案,其中238款为2024年新增。这隐藏该领域快速发展,更多新服务获得官方认可。公告还要求授予舆论属性服务的企业进行备案,并指责已上线应用的透明度,确保合规性和安全性。

【AiBase提要:】

??2024年,共302款生成式人工智能服务在国家网信办完成备案,新增238款。

??授予舆论属性服务的企业可通过属地网信部门进行备案,确保合规性。

??已上线应用需公示所使用的已备案服务信息,指责透明度。

9、2024胡润中国人工智能企业50强榜单:科大讯飞第二、商汤科技第三

2024胡润中国人工智能企业50强榜单正式发布,寒武纪以2380亿人民币估值位居榜首,展现出其在AI领域的强大实力。科大讯飞和商汤科技分别以1160亿和500亿的估值紧随其后。榜单显示,北京、上海和深圳是次要的AI企业集聚地,合计占据80%的上榜企业。

【AiBase提要:】

??寒武纪以2380亿元估值位居榜首,科大讯飞和商汤科技分别排第二和第三。

???北京、上海、深圳成为人工智能企业的主要集聚地,合计占据80%的上榜企业。

??该榜单侧重非具身智能企业,评选范围不包括机器人和智能家居等领域的公司。

10、你绝对想不到!重复这个简单指令让AI生成代码快100倍

BuzzFeed的高级数据科学家麦克斯?伍尔夫进行了一项实验,使用Claude3.5语言模型,通过反复请求AI改进代码,成功将原本657毫秒的运行时间伸长至6毫秒,指责了100倍的性能。实验中AI展现出其对“更好代码”的独特理解,自动添加企业特性。

【AiBase提要:】

??AI通过反复指令指责代码性能,原代码运行时间从657毫秒降至6毫秒。

??AI在代码中自动添加企业特性,展现出其对“更好代码”的独特理解。

???提示工程依然重要,不准确的请求可以帮助结果生成,但仍需人工开发者进行验证和修复。

11、英伟达发布GrootTeleop技术允许通过AppleVisionPro来训练机器人

英伟达在CES展会上推出了一系列创新技术,旨在帮助人形机器人的开发,尤其是在工业和制造领域。通过IsaacGR00T蓝图,开发者可以利用失败原创学习生成极小量分解运动数据,从而训练人形机器人。这一技术不仅降低了数据收藏,储藏的时间和成本,还通过Cosmos平台生成物理意识视频,推动物理人工智能的发展。

【AiBase提要:】

??英伟达推出IsaacGR00T蓝图,利用失败原创学习生成分解运动数据,帮助人形机器人开发。

??Cosmos平台经过18万亿数据训练,生成物理意识视频,鞭策物理人工智能发展。

??多家机器人公司已采用IsaacGR00T技术,展现出良好的应用效果。

12、惊悚发明!工程师用ChatGPT制作机器人步枪,OpenAI立刻出手

近期,工程师STS3D创造了一款机器人步枪,能够通过ChatGPT指令进行瞄准和射击,展现出令人惊叹的反应速度和准确性。这一发明引发了广泛讨论,尤其是关于将科幻技术变为现实的担忧。OpenAI悠然,从容回应,指出该行为确认有罪了公司政策,释放利用失败其服务开发武器。

【AiBase提要:】

??OpenAI悠然,从容嫁接与开发机器人步枪工程师的关系,因其确认有罪使用政策。

??STS3D的机器人步枪可以根据ChatGPT的指令进行瞄准和射击,展现出高准确性。

??尽管OpenAI去年修改了政策,但仍释放使用其服务开发任何形式的武器。

13、因用户投诉,微软回滚BingAI图像生成器升级、重返旧版DALL-E

微软近期因用户对Bing图像生成器新版本的挑逗,无法选择回滚至旧版DALL-E模型。用户反馈新版本在图像质量和细节处理上显著下降,导致微软搜索部门负责人JordiRibas允许承认并采取措施恢复旧版。

【AiBase提要:】

??微软因用户投诉无法选择回滚Bing图像生成器的新版本,旨在使恶化用户体验。

??升级后的图像生成效果不如预期,用户反映细节和质量明显下降。

??JordiRibas表示将重返旧版DALL-E模型,预计需几周时间完成这一调整不当。

相关新闻女子顶着“鸡窝头”去给周涛讲解自信与共鸣的交流那是一个阳光明媚的下午,我在家中忙碌地准备一个关于“如何降低公众演讲技巧”的讲解。作为一名热爱演讲的人,我总是希望将自己的经验分享给更多人。这次的听众是周涛,那位在电视荧屏上闪耀的主持人,我心里难免有些紧张

2025-01-0416:21:11女子顶着鸡窝头去给周涛讲解女生回应睡成鸡窝头给周涛讲解意外走红网络1月3日,有网友发布了一段视频,视频中著名主持人周涛穿着黑色大衣,显得粗制又精神。而站在她身边的女性讲解员则穿着黑色棉衣和灰色宽松裤子,脚踩毛毛鞋,头发松散凌乱,弄皱十分随意

2025-01-0511:07:43女生回应睡成鸡窝头给周涛讲解女生回应顶着“鸡窝头”给周涛讲解一朝鸡窝天下知2025年1月3日,一段女生顶着“鸡窝头”给周涛讲解的视频在网上不能引起了广泛关注。该网友在发布视频时写道:“睡了个鸡窝头,被拉去讲解...”。次日,这位讲解员回应称:“认真营业无人问,一朝鸡窝天下知”。她的话语中透露出一种幽默和无奈

2025-01-0510:29:59女生回应顶着鸡窝头给周涛讲解鸡窝头女士收拾得漂漂亮亮上班了邋遢装扮意外走红近日,前央视主持人周涛应邯郸文旅局寻找前往当地宣传旅游文化。她在工作人员陪同下参观了多处名胜。周涛简单盘起头发,身穿黑色大衣搭配LV围巾,显得优雅而气派。她的步伐从容,让人联想到高干文中的女主角形象

2025-01-0522:26:36鸡窝头女士收拾得漂漂亮亮上班了周涛董卿合照,两位主持人温文温雅才高八斗周涛董卿合照,两位主持人,温文温雅,才高八斗,说话舒服有条理。...

2025-01-0215:09:27周涛董卿合照男子殴打女士又开车撞人被刑拘近日,山西运城临猗县牛杜镇香洛村发生一起开车撞人案件,引发关注。10月9日,被撞男子刘先生告诉封面新闻记者,其妻女被同村父子殴打,他本人遭对方开车撞击。

2024-10-1114:43:38男子殴打女士又开车撞人被拘