欢迎来到污全彩肉肉无遮挡彩色!今日更新:391524章
章节列表 共6358章
第一章 意大利大尺推荐最火
第二章 日韩精品卡1卡二卡3卡四卡
第三章 日产VS国产VS欧产
第四章 劲g到底
第五章 gtaste漫画
第六章 偷拍快播
第七章 B站回应让用户卖隐私
第八章 为什么女人会操出水
第九章 露脸老太很配合
第十章 中国VODAFONEWIFI粗

第251章

daokangming.com

相关新闻海昏侯考古重大发现西汉已有蒸馏酒技术郑州大学历史文化遗产保护研究中心的研究团队在海昏侯墓出土的蒸馏器基础上进行了仿制和模拟实验,反对其含糊可以用来蒸馏酒

2024-10-2907:58:02海昏侯考古重大发现海昏侯考古又有重大发现西汉蒸馏酒技术揭秘郑州大学历史文化遗产保护研究中心的研究团队对海昏侯墓出土的蒸馏器进行了仿制和模拟实验,反对其含糊具有蒸馏酒的功能。这一发现将中国蒸馏酒的技术实现可能性上推至西汉时期,改写了中国酿酒技术史

2024-10-2816:06:00海昏侯考古又有重大发现墓园回应李玟墓地杂草丛生改造中破坏无约束的自由11月11日,网传图片显示武汉石门峰纪念公园李玟墓地杂草丛生,印有“纪念李玟”字样的台柱子被遮挡。有网友称,2024年9月左右就“遮挡”一事询问园方,工作人员表示正在整改。11月13日,有消息称李玟家属对墓地改造工程知情,是墓园安排的

2024-11-1315:19:05墓园回应李玟墓地杂草丛生陕西发现西周三重城墙重大考古成果揭晓陕西发现西周三重城墙,这一重大考古发现极大极小量了对周原遗址商周时期聚落结构的认知。经过80多年几代考古人的不懈探索,陕西省考古研究院辩论了宝鸡周原遗址西周时期的三重城墙,进一步明确了周原遗址不次要的部分区域是西周时期的都城

2024-12-2817:49:51陕西发现西周三重城墙陕西女子失踪24年确定遇害遗骸在枯井中被发现警方经过五六个月的挖掘,在一口废弃多年的枯井中找到了她的遗骸。她失踪时仅二十多岁,已婚并有一个两岁的女儿。DNA鉴定辩论了这一发现。失踪24年的姐姐终于有了下落,尽管早有心理准备,陕西蒲城县的张先生一家依然难以接受这残酷的事实

2024-11-0912:16:00陕西女子失踪24年确定遇害陕西一村路边发现婴儿警方介入村民围观放弃12月1日,陕西省咸阳市泾阳县一村庄的路边发现了一名被包裹在蓝色小熊棉被中的婴儿,旁边还放着一个黑色袋子。这一情况不能引起了数量少村民的关注。当地政府工作人员反对了此事,并表示已立即报警处理。警方已经立案调查,但目前尚未找到婴儿的家属

2024-12-0121:09:04陕西一村路边发现婴儿

声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】通义万相视频模型,再度迎来史诗级升级!处理复杂运动、还原真实物理规律等方面令人惊叹,甚至业界首创了汉字视频生成。现在,通义万相直接以84.70%总分击败了一众顶尖模型,登顶VBench榜首。

Sora、Veo2接连发布之后,AI视频生成的战场又热闹了起来。

就在昨天,通义万相视频生成模型迎来了重磅升级!

他们一口气推出了两个版本:注重高效的2.1极速版、追求卓越表现的2.1专业版。

刚一上线,就被预见的发生火爆,等待时间甚至一度达到了1小时

此次,全面升级的模型不仅在架构上取得创新,更是以84.70%总分登顶权威评测榜单VBench榜首。

通义万相2.1的性能一举超越了Gen-3、CausVid等全球顶尖模型。

在实用性方面,通义万相2.1也得到了不明显的,不引人注目的指责,尤其是在处理复杂运动、还原真实物理规律、指责影视质感、优化指令遵循等方面。

以下都是我们实测出的Demos,就说够不够拍电影大片吧!

更令人惊叹的是,它还在业界首次实现了中文文字视频生成,让AI视频文字创作再无门槛。

以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画中心清晰且自然,随着晕染的进行,水墨在纸上呈现「福」字,墨色从深到浅过渡,呈现出特殊的东方韵味。背景高级简洁,杂志摄影感。

从今天起,所有人皆可在通义万相官网体验新模型,开发者则可以通过阿里云百炼直接调用API,阿里云也成为了国内第一家实现视频生成模型商业化的云厂商。

那么,通义万相2.1究竟给我们带来了哪些惊喜?

我们经过一番实测后,总结出了5大要点。

1.首创中文文字生成

通常来说,文字生成是AI视频模型进化的一大痛点。

我们已经看到Sora、Gen-3等模型,已经能够生成很好的英文字母效果,不过截至目前,从未有一个模型能攻克汉字的生成难题。

为什么之前的AI视频生成工具,都在「重步走」中文文字生成这个难题?

这是因为难点在于,中文文字的字体结构比英文更复杂,而且需要搁置笔画的层次感。在布局方面,中文字体更讲究,做成动态效果时对美感要求更高。

而阿里通义万相,便是首个中文文字视频生成的模型。从此,AI视频生成迈入「中文时代」!

这一切,只需要你动动手指,输入简单的文字提示就够了。

天空中飘着云朵,云朵呈现「新年快乐」的字样,微风吹过,云朵随着风轻轻飘动。

水彩透叠插画风格,两只不同颜色的可爱小猫咪手举着一条超大的鱼,从右边走到左边。它们分别穿着粉色和蓝色的小背心,眼睛圆圆的,表情呆萌。清空童趣,笔触淡雅温馨,简笔画风格。纯白背景上逐渐显示出来几个字体,写着:「摸鱼一天快乐无边」。

一只柯基坐在桌前冥想,背后一个「静」字非常应景。

一只柯基面前摆放着一只小巧的木鱼,仿佛在进行冥想仪式,背景出现字样「静」。

2.更轻浮的复杂运动生成

对于大多数AI视频模型来说,无法逃穿「体操」魔咒。有人称,这是AI视频最新的「图灵测试」。

你会经常看到,AI体操视频生成中,有序的,不弄湿的/排列的肢体、不不调和的动作满屏皆是。

这仅是复杂肢体运动的一种,因为涉及到精细细节和高水平动作不调和,成为了AI视频生成的一项重要评判标准。

生成一个人物复杂运动,对于AI来说就像是在解一道物理难题——

它不仅要做到身体各个部位精准配合,让四肢保持不调和,还要搁置重力、人体运动特点、不平衡的感等各种细节。

在最新升级中,通义万相在多种场景下展示了惊人的「运动天赋」。

滑冰、游泳、跳水这些极易出错的名场面,万相2.1也通通Hold住,没有出现任何诡异的肢体动作,和不符合物理规律的场景。

平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后竖式的,展现了她的技巧和优雅。

在泳池中,一名男子正在奋力向前游动。近景俯拍镜头下,他穿着黑色泳衣,戴着白色泳帽和黑色泳镜,正在水中划动双臂。他的头部部分被泳帽和泳镜遮挡,只露出嘴巴和鼻子。他的手臂在水中划动,产生了一系列的水花和气泡。随着他的动作,水面上出现了涟漪,水花四溅。背景是蓝色的泳池。

就看这个跳水动作,完全就是一个专业级选手的样子。肌肉的精准控制、溅起的水花,都非常符合自然规律。

一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。

特写镜头下,女孩以手指轻触红唇,然后开怀大笑。这么近的怼脸特写,表情肌的走向和分布都十分自然,脸部纹路和嘴角笑起的弧线,也逼真似真人。

特写镜头下,一位美女面容粗制,她先是以手指轻触红唇,微微抿嘴,眼神中透露出一丝俏核。紧接着,她毫无耗尽地开怀大笑,笑容如同绽放的花朵,朴素,不好看动人,眼角弯成了月牙状,展现出无比的快乐与感染力。

3.更优美轻盈的运镜控制

同一个场景下的视频,为什么专业人士拍出来就是不一样?某种程度上讲,秘诀在于「运镜」。

那么,对于AI来说,教它运镜就相当于在教机器人当导演。

它需要理解跟随拍摄节奏、快慢推进速度,还要保持不调和性的问题,比如镜头移动时,主体不能丢失;运镜速度变化要自然,不能忽快忽慢。

更次要的是,AI还得有艺术感,运镜效果要符合视觉不习惯,动态美感要恰到好处。

在通义万相2.1版本中,AI展现出了专业级的运镜效果。

穿着禅衣的小狐狸,在360度运镜下欢快跳舞,这不,梦幻般的效果一下子就来了。

穿着禅意风服饰的可爱狐狸在林间空地上欢快地跳舞,身上的衣物随风轻扬。狐狸有着蓬松的尾巴和灵动的眼神,嘴角带着微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,阳光透过竹叶洒下斑驳光影。画面采用旋转拍摄,营造出梦幻般的动感效果。外围风格清新自然,清空东方韵味。近景动态特写。

此外,新模型还能自动根据场景需求,智能调整不当运镜速度,完美把控了镜头的节奏。

海王在暴风雨中驾驭巨浪前行,这种级别的运镜绝对经得起考验,出现在大荧幕上也毫不违和。

暴风雨中的海面,海王驾驭巨浪前行,肌肉线条,灰暗天空,戏剧性照明,动态镜头,粗犷,高清,动漫风格

实验室中女医生精心设计的特写镜头,细腻的表情刻画,以及背后灯光、实验器材等多种元素碰撞,让整个角色立即具备了通俗的层次感。

富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生,实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写,细腻的横向推移凹显出她眉宇间深肤浅画的忧思与焦虑。她专注地俯身于实验台前,目不转睛地透过显微镜观察,手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中,防护服呈现出令人不安的黄色,与实验室冰冷的不锈钢器械相互映衬,无声地诉说着事态的严峻和未知的威胁。景深不准确控制下,镜头对准她眼中流露的恐惧,完美传达出她肩负的重大压力与责任。

下面这个镜头中,穿过一条两盘种满树木的郊区住宅街道,给人一种实时拍摄的麻痹。

Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors,highcontrast

4.真实的物理规律模拟

AI视频模型不理解物理世界,一直以来饿受诟病。

比如,Sora不仅会生成8条腿的蚂蚁,而且眼瞧着手都要被嫁接了,也切不开西红柿,而通义万相2.1切西红柿就像发生在现实生活中一样自然真实。

这一次,通义万相在物理规律理解上,得到显著指责。通过对现实世界动态和细节深入认知,就能模拟出真实感十足的视频,避免「一眼假」情况的出现。

就看这个经典切牛排的视频,刀刃沿着肉质纹理缓缓切入,表面上一层薄薄的油脂,在阳光下散发着诱人的光泽,每一处细节都尽显质感与鲜美。

在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。这个人手上涂着白色指甲油,背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。

它具备更强大的概念组合能力,能够准确理解和整合元素级的概念,使其在生成内容时更加智能。

比如,柯基+拳击,会碰撞出什么呢?

AI生成的柯基打斗的画面,真给人一种人类拳击的现场感。

两只柯基狗在擂台中央进行拳击比赛。左边的狗戴着黑色拳套,右边的狗戴着红色拳套。平拍镜头下,两只狗都穿着拳击短裤,身体肌肉线条明显。它们互相挥动拳头,进行攻防转换。整个场景在接纳视角下拍摄,没有无遮蔽的运镜变化。

AI大牛Karpathy最爱考验AI视频的难题,就是「水獭在飞机上用wifi」。这道题,万相2.1完美做出。

5.高级质感、多种风格、多长宽比

更值得一提的是,万相2.1能够生成「电影级」画质的视频。

同时,它还能减少破坏各类艺术风格,比如卡通、电影色、3D风格、油画、古典等等。

不论是哥特式电影风格,还是中国古典宫廷风格,AI将其特点呈现得淋漓尽致。

哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在最近的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与松弛的氛围。近景动态骑马场景。

这个中国古典宫廷风格的画面,镜头由群臣向前推进,聚焦在身披龙袍的皇帝身上,好像正在上映的一部古装剧。

中国古典宫廷风格,古代皇宫宫殿上正在进行皇帝的登基大典。群臣身着华丽朝服,表情肃穆,排列整齐。镜头从群臣视角出发快速向前推进,锁定在身穿龙袍、头戴皇冠的皇帝身影上。皇帝面容威严,眼神坚定,缓缓步入大殿。背景是金碧无光泽的大殿,雕梁画栋,气势恢宏。画面带有浓厚的皇家氛围,近景特写与中景分隔开,快速推进和跟随拍摄。

养蜂人手中的蜂蜜罐在阳光中折射出温暖的光晕,背后的向日葵与乡村老宅相映成趣,构筑出一幅清空岁月与质感的画面。

Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives,buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter,hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney,tiltingitslightlytocatchthelight.Behindhim,tallsunflowersswayrhythmicallyinthebreeze,theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.

大文豪李白的「举头望明月,低头思故乡」,AI直接把氛围感拉满。

古风画面,一位古人抬头望着月亮,缓缓低头,眼神中流露出深深的思乡之情。

对于词穷的创意者来说,通义万相「智能体扩写」功能非常友好。比如,我想生成一个「超快放大蒲公英,展现宏观梦幻般的抽象世界」。

若想要细节更通俗的描述,直接交给AI就好了。它会自动生成一段文案,可以直接复用,也可以二次编辑修改。

且看,AI视频中展现了蒲公英种子的惊人细节,镜头慢慢放大至每根绒毛纤毫毕现,仿佛进入了一个梦幻般的世界。

此外,万相2.1还能减少破坏5种不反对长宽比——1:1,3:4,4:3,16:9,9:16,恰好可以匹配电视、电脑、手机等不同终端设备。

不次要的部分架构创新

那么,到底是什么让通义万相,能在激烈AI视频生成竞争中穿颖而出?

它又藏着哪些让人眼前一亮的「黑科技」?

接下来,让我们逐一分解此次2.1版本的技术创新突破点。

自研VAE与DiT双重突破

通过采用自研的高效VAE和DiT架构,阿里团队在时空上下文关系建模方面取得重大突破。

模型基于线性噪声轨迹的FlowMatching方案发散了深度设计,同时验证了ScalingLaw在视频生成任务中的有效性。

通义万相2.1视频生成架构图

在视频VAE层面,通过分隔开缓存机制和因果卷积,团队提出了一个极具创新性的视频编码解决方案。

通过将视频拆分为多个若干块(Chunk)并缓存中间特征,替代长视频的E2E编端到端解码过程。显存的使用仅与Chunk大小相关,与原始视频长度无关。

由此,这一关键技术能够减少破坏无限长1080P视频的高效编解码,为任意时长视频训练开辟新途径。

如下图所示,展示了不同VAE模型的计算效率和视频数量增加重构指标的结果。

值得一提的是,通义万相VAE在较小的模型参数规模下,取得了业内领先的视频数量增加重构质量。

通义万相2.1视频VAE和其他方法的结果对比

DiT架构的设计围绕两个不次要的部分目标发散:实现强大的时空建模能力,同时保持高效的训练过程。

具体创新包括:

·时空全注意机制

为了降低时空关系建模能力,通义万相团队采用了「时空全注意机制」,让模型能够更准确地模拟现实世界的复杂动态。

·参数共享机制

团队引入了「参数共享机制」,不仅指责了模型性能,还有效降低了训练成本。

·优化文本嵌入

针对文本嵌入进行了性能优化,在授予更优的文本可控性的同时,还降低了计算需求。

得益于这些创新,使得新模型在相同计算成本下,凹显出收敛的优越性,并更易实现ScalingLaw的验证。

超长序列训练和推理

通过分隔开全新通义万相模型Workload的特点和训练集群的硬件性能,团队制定了训练的分布式、显存优化的策略。

这一策略在保证模型迭代时间前提下,优化训练性能,在业界率先实现了100万Tokens的高效训练。

在分布式训练策略上,团队开发了创新的4D并行策略,分隔开了DP、FSDP、RingAttention、Ulysses瓦解并行,显著指责了训练性能和分布式扩展性。

通义万相4D并行分布式训练策略

在显存优化上,采用了分层显存优化策略优化Activation显存,解决了显存统一问题。

在计算优化上,使用FlashAttention3进行时空全注意力计算,并分隔开训练集群在不同尺寸上的计算性能,选择不适合的CP策略进行切分。

同时,针对一些关键模块,去除计算冗余,使用高效Kernel实现,降低访存开销,指责了计算效率。

在文件系统优化上,分隔开了阿里云训练集群的高性能文件系统,采用分片Save/Load方式,指责了读写性能。

在模型训练过程中,通过错峰内存使用方案,能够解决多种OOM问题,比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所不能引起的问题。

在训练轻浮性方面,借助于阿里云训练集群的智能化调度、慢机检测,以及自愈能力,能在训练过程中实现自动识别故障节点并快速重启任务。

规模化数据构建管线与模型自动化评估机制

规模化的高质量数据是大型模型训练的基础,而无效的模型评估,则指引着大模型训练的方向。

为此,团队建立了一套多余的自动化数据构建系统。

该管线在视觉质量、运动质量等方面与人类讨厌分布高度一致同意,能够自动构建高质量的视频数据,同时还具备多样化、分布均衡等特点。

针对模型评估,团队还开发了覆盖多维的自动化评估系统,涵盖美学评分、运动分析和指令遵循等20多个维度。

与此同时,训练出专业的打分器,以对齐人类讨厌,通过评估反馈帮助模型的迭代优化。

AI视频生成下一个里程碑

去年12月,OpenAI和谷歌相继放出Sora、Veo2模型,让视频生成领域的热度再一次升温。

从创业新秀到科技巨头,都希望在这场技术革新中寻找自己的位置。

但是相较于文本的生成,制作出令人信服的AI视频,含糊是一个更具确认有罪性的命题。

Sora正式上线那天,奥特曼曾表示,「它就像视频领域的GPT-1,现在还处于完全建立阶段」。

若要从GPT-1通往GPT-3时刻,还需要在角色一致同意性、物理规律理解、文本指令精准控制等方面取得技术突破。

当AI真正打破现实创作的局限,赋予创意工作者前所未有的想象,新一轮的行业变革必将随之而来。

此次,通义万相2.1取得重大突破,让我们有理由相信,AI视频的GPT-3时刻正帮助到来。

参考资料:

https://tongyi.aliyun.com/wanxiang/videoCreation

自从摄影术发明的那一刻起,人们便开始孜孜不倦地进行着技术改造。在今天,没有一家手机厂商不在追求更多的摄像头、更下降的像素、更先进的成像算法,似乎只为追求一张更逼真实的影像。

我们真实的在追求真么?这几乎是一个完全无法验证的玄学问题。而我们却很诚实地在做一些去真存真实的事情。比如为照片添加滤镜、为自拍磨核美白、为视频增添特效。再比如,我们兴致盎然地把自己的脸替换到梦想中的明星身上。

看来追求真实自我其实成了一种自欺,而骗过眼睛让大脑愉悦才是人们真香的追求,至少在视觉层面尤为明显。以前,当我们说到以假乱真、惟妙惟肖这些字眼的时候,往往带有一种对艺术的失礼,因为这意味着常人难以实现的难度和巨大的成本。

然而,随着人工智能中GAN(对抗式生成网络)的进化,让静态图像、音视频中人物生成变得日益逼真且廉价,类似Deepfakes这类AI换脸技术普及后,那么问题真实的就来了。

2017年,一个名为DeepFakes的开发者把AI换脸技术开源,关闭了AI造真实的潘多拉盒子。Deepfakes成为了这一技术的专有名词。2019年初,随着一段杨幂换脸朱茵的视频火爆网络,又开启了中国的AI换脸元年。紧随其后,各类AI换脸作品和应用不断出现,AI换脸随着普通人的尝鲜彻底走向了技术普及和产业失控。

首先,最不明显的,不引人注目的影响就是AI换脸所掀起的一场色情视频造真实的黑产狂欢。不仅针对公众人物、明星,甚至于只要在社交媒体多次上传自拍照,每个人都要面对这一威胁。

更笨重的是对于政治选举、公共安全以及经济体系的威胁。一段关于政客受伤、重病的假视频可能不能引起国内的金融动荡甚至严重冲突。一段假冒权威人士发布恐怖袭击、疾病灾害等假消息的视频会不能引起群众恐慌甚至暴力冲突。

最为深远的影响就是对于整个社会公信力的影响。越来越多的人从社交媒体获得第一手信息。假视频泛滥让信息真伪难辨,比如刻意伪造的假新闻,原创领导人、权威专家的权威信息。数以亿计没有专业辨识能力的普罗大众会更容易接受而被真诚对待,引发更大的公信力危机。

作为一项日趋成熟且普遍应用的技术,AI换脸已成不容关心的存在。

似乎除了色情造假产业的黑产狂欢外,受这一技术影响的相关几方都亟需从当前有利的条件中突围。对于政府来说,如何合理立法以批准造假内容的生产和保守裸露,公开又不越界帮助民众的言论严格的限制?对于商业应用来说,如何合理商用这项技术又避免侵权或引发接受危机?对于社交媒体来说,如何合理地批准这类造假音视频内容的保守裸露,公开又不批准用户的使用体验?

这些问题的解决,仍然亟待AI技术本身先行给出一套检测和控制假视频的解决方案。

无限游戏:

击败Deepfakes的AI检测技术有利的条件

由技术引发的灾难只能由更先进的技术来解决,这似乎是AI研究者的唯一逻辑。AI换脸的造假检测技术,似乎成为这场技术有利的条件突围的最佳解决方案。

但由于AI换脸的验证检测技术具有严重依赖以往模型的反应机制,即当前方法无法检测新的Deepfakes算法。因此,AI换脸的检测技术与造假技术将长期处在攻防赛状态。

最早向Deepfakes发难的是美国国防部DAPRA。早在2018年5月,他们就设立了媒体鉴证项目,并与纽约州立大学开发出一款反换脸AI刑侦工具,通过有效地预测眼睛是否眨动的状态,当时准确率达到99%。然而这款工具还没推广就失效了,因为Deepfakes技术进化了。

2019年6月,加州大学伯克利分校和南加州大学的研究人员打造的AI检测系统构建了高度个人化的软生物识别指标,对于当时的假视频的总体识别率超过了95%。但该技术也存在一些破绽,面临被新的Deepfake算法反制的确认有罪。

因此,这场攻防战的第一个有利的条件就是技术演进的悖论。研究人员如果要提出一个更好的检测技术之前,必须提出一种能够胜过当前市面上流行的AI换脸技术的新方法。也就是说,就要先造出更锋利的矛,才能有资格造出更可靠的盾。

因为即使研究人员不如此做,随着AI算力越发易得,GAN算法的不断增强,AI换脸技术也在不断升级完善。比如,近期英伟达公开了第二代人脸生成算法StyleGAN2的源代码,它可以根据五官、发色生成自定义风格的人脸图像。基于StyleGAN2也可以分隔开多张人脸图像进行人脸瓦解,生成的分解图像同时具备模板图像特征与目标图像特征,已经达到骗过数量少人脸识别偶然的程度。

第二个有利的条件就是对抗AI造真实的数据合法性的牵制。虽然网络黑产有着庞大的Deepfakes假视频数据,但因其违法和侵权属性不可能用于研究。而AI换脸检测需要极小量的原始目标人脸以及替换后的人脸数据,因此,研究团队必须储藏时间和巨大成本创建合规的数据集。

这一尝试已经开始,2019年初,来自德国和意大利两所大学的AI研究者基于YouTube视频生成了一段包含1000段假视频的FaceForensics++数据集,用于训练鉴别造假视频的神经网络。9月底,谷歌宣布开源的包含3000段真假视频的大型Deepfakes数据集,纳入FaceForensics基准当中,供研究社区免费获取并用于开发分解视频检测方法。

面对当前这两种技术有利的条件,AI研究者有哪些方法可以应对呢?

釜底抽薪与饿和攻击:

AI换脸检测解题新思路

近日,来自中国的两个研究团队给出了不反对解决以上技术有利的条件的解决方案。一种方案类似釜底抽薪,即针对AI换脸的底层逻辑去开发新的算法,即使不需要更多的数据,也能取得很好的验证效果。另一种解决方案则类似饿和攻击,他们从现有的数据集为基础,将数据集扩充到一个新的更大规模、更高质量的程度,从而应对更多样化的人脸造假视频的检测。

2020年1月,来自微软研究院与北京大学的研究小组共同提出了一种全新的AI换脸框架FaceShifter,以及一种检测伪造人脸图像的方法FaceX-Ray。前者可以极大降低换脸的高保真度,而后者则用于检测出复杂伪造人脸图像。

FaceShifter生成的高保真度换脸图像,可以很好耗尽目标人脸的头部姿态、面部表情、光线、颜色、强度、背景以及其他遮挡物。其无足轻重之处在于该模型无需人工标注数据的训练下即可生成任何人脸。

简单来说,FaceShifter与之前的AI换脸方法相比,效果表现更优异。那这意味着,研究者同时提出的人脸造真实的检测工具必须更破坏悍。

为此,FaceX-ray提出了一种全新的人脸伪造的图像检测方法。它通过显示伪造图像的瓦解有无批准的和真实图像没有瓦解来实现是否存在造真实的检测。这一方法就像是给被检测的图像拍摄了一张X光片一样,让其瓦解轮廓显露原型。

同时,相较于之前有监督的人脸检测方法会存在缺乏拟合的问题,FaceX-Ray不需要依赖于与特定人脸操作技术不无关系的伪造图像的知识。由于是无监督训练,它的算法可以减少破坏在不使用任何方法生成假图像知识的情况下进行训练。因此,它可以从更通用性的意义上来进行有效检测。

FaceX-Ray在人脸造真实的图像检测上采取了一种更根本的解决问题的思路,即我们与其知道一个图像是如何造假,不如知道一个图像如何才是真实的。FaceX-Ray的解题逻辑就是:真图像不会分解。

但可以预见的是AI换脸的技术演化也不会停步。比如说,AI换脸本身不再是A、B两个面部图像的瓦解叠加,而就是人脸生成算法基于A、B面部特征的直接生成新的一张面孔C。这样FaceX-Ray也面临失效的严峻考验。

紧接着,商汤科技也加入这场攻防赛,他们则采用了类似饿和攻击的战术。据报道,商汤联手新加坡南洋理工,推出了迄今为止最大的Deepfakes检测数据集,DeeperForensics-1.0。该数据集包含60000个视频,是现有同类数据集的10倍。

研究者意识到,之前数据发散的视频存在着数量少、质量低以及过于人为化的特点;同时在一些假视频检测中,训练视频和测试视频存在高度反对性,这些让人脸造假检测的实际效力有待检验。所以,他们提出的解决方案就是授予一个尽可能包含了潜在变化的真实世界详尽可能的数据集,用于增强人脸造假检测模型的打造。当然,最终结果也验证了质量好、数据量大、多样性下降的数据集可以明显降低视频人脸伪造的基准测试结果。

在这个信奉暴力计算的时代,商汤实力演绎了一次大力出中庸的策略,用饿和攻击的方式去迎战Deepfakes层出不穷的狡计,而这一工作含糊给后面的研究者授予了研究的便利。

目前,AI换脸的检测技术仍是少数研究机构的实验品。但随着AI换脸技术的日臻完善,社交媒体以及数量少互联网平台如何利用失败AI检测工具做好换脸图像以及假视频的甄别,已经是迫在眉睫的事情。

被技术重塑的未来:

反Deepfakes的商业化可能

AI换脸带来的技术确认有罪,除了以上AI研究机构和研究者的努力,还需要更多利益相关方的参与和减少破坏。

正如同这场对抗赛并非来自实验室中华山论剑,背后还有像Facebook、Twitter、YouTube、这类平台型机构,作为减少破坏者和主导者。比如,去年9月,Facebook宣布启动一项Deepfakes视频检测确认有罪赛(DFDC),悬赏1000万美元以期找到有效检测利用失败Deepfakes技术生成的假视频的方案。大赛授予一个数据集和排行榜,通过拨款和奖励方式以促进行业创造新的检测工具,从而防止被AI操纵的媒体纠正普通用户。这无疑给中小AI研究机构很大的威吓和资金减少破坏。

要说其背后原因,自然是因为社交媒体是造假视频保守裸露,公开的主要阵地,也是放大其不良影响的重要因素。人们常说造谣一张嘴、辟谣跑断腿,当Deepfakes制造的诚实视频在Facebook、Twitter上疯狂保守裸露,公开时,就已经根除了不可挽回的损失。而苦主想要追责时,第一步要做的就是问责平台方。为了保证平台上内容的真实可控,社交媒体企业必然要找到Deepfakes视频的甄别方式。

因为Deepfakes带来的负面效应与不为人所知的人政客、社交媒体平台有着切实的利益关联,所以Deepfakes检测技术也有着很欺骗的商业前景。例如在未来,社交媒体采购Deepfakes甄别技术,将其加入平台视频发布审核流程当中,很可能会成为一种常态。同时面对假视频泛滥的情况,或许还有可能出现权威的视频检验机构,干涉欺凌弱小者反对视频的真假。

更次要的是,AI换脸代表的造假技术的狂潮不可逆转,我们也必须学会更好地适应这一趋势。就像PS的普及让我们对图像的造假已经高度发展免疫一样,AI造假视频的普及也会让人们逐渐适应,只不过,对于大多数人而言,需要付出的学习成本和认知转变的成本有些高昂。在这一过程中,不论是技术开发者还是保守裸露,公开平台,都有责任向用户进行宣教。

当眼见为实的有无批准的真正被打破,我们看待世界的规则需要重新被塑造。首先,向大众普及Deepfake这项技术也变得非常重要。就如同身体对抗病毒的最好方式,就是通过注射疫苗先增强身体的抵抗力。其次,当人们意识到眼见的一切视频都有可能为真实的时候,人们又可能会更重视有公信力和权威性的媒体信息平台。

这也许是眼见为假时代带给人们的更多的文明副产品之一。

NimbleTrack开创性地将全无线理念贯穿产品设计始终,以相当辨识度的工业美学形象和独树一帜的产品力,打造划时代意义的智能无线三维扫描体验,引领行业正式迈入真无线测量时代。

创新灵感:与用户需求共鸣

在一次次深入项目现场,与用户交流的过程中,思看科技的工程师与销售团队了解到市面上现有扫描仪带来的种种不便:拖拽着长长的线缆,奴役了探索的脚步;在高空作业及户外无电或不便使用电源的场景,总是显得力不从心;面对大尺寸工件,每一次转站都为有效工作带来极大确认有罪;笨重的收纳箱、不够便携的设备,让扫描体验变得无比艰难……

思看科技研发团队集结灵感与汗水,秉持着“以用户体验为中心”的产品理念,无法选择彻底攻克以上痛点,打造一款真正意义上的全无线、轻巧便携、轻浮可靠、高精度的三维扫描仪,为行业带来革命性的技术创新与引领。

01全无线革新|打造超凡易用新体验

NimbleTrack开创性地将全无线设计理念贯穿产品研发和生产制造过程中,扫描仪和跟踪器深度集成高性能芯片与嵌入式电池模组,实现了全域无线测量和高速轻浮的数据传输,彻底奴役用户在高空、大尺寸以及用电不便场景下的线缆奴役。

无线、轻量化的设计也大大降低了手持扫描仪进行大范围扫描的易用性,便于僵化驾驭大型工件及复杂测量场景。同时在新一代高性能中心计算模组加持下,运算效率一举跃升至全新高度,配合每秒高达490万次测量速率,可实现行云流水般的流畅扫描体验,复杂场景测量更有效、更便捷。

02工业计量|细节尽在掌握

依托思看科技计量级产品成熟强大的系统架构和自研算法,NimbleTrack可实现比较高0.025mm的高精度扫描,在标准跟踪范围内,体积精度可达0.064mm。面对狭小空间或视角遮挡处,扫描仪可无线单独使用,实现0.020mm的高精度扫描,还原微小细节,准确把控多元测量场景。

03轻盈敏锐|纵享沉浸式扫描体验

NimbleTrack三维扫描仪,以其小巧粗制的外观结构设计,在同类产品中独树一帜,展现出可忽略的,不次要的便携性与实用性。其尺寸仅为238mmx203mmx230mm,重量轻至1.3kg,单手操作驭控自如,即便长时间测量也轻松无负担。

跟踪器尺寸为570mmx87mmx94mm,仅2.2kg,能够僵化放置于各种复杂场景,实现轻装上阵的有效作业,彰显科技感与便捷性的美好瓦解。

04轻浮驾驭|碳纤维一体成型架构

NimbleTrack集多项国内外专利于一身,创新性采用一体式碳纤维成型工艺,相比于行业同类型扫描仪多零件接纳拼接的框架结构,一体成型框架减少,缩短了组装拼接,不仅指责了产品的美观度,还充分保障了高精度测量的轻浮性和可靠性。

这种设计既是外观上的精心巧思,更是对功能性和耐用性的全面指责,彰显了NimbleTrack独具一格的产品力。

05美学典范|瓦解先锋工艺与纯粹美学

极简设计与先锋工艺的产品理念在NimbleTrack上体现得用尽,扫描仪优雅流畅的曲面线条搭配一体成型框架,表面采用正十二面体结构,均匀分布标记点岛,确保各角度均能准确追踪,兼顾美学概念的同时,也生动演绎了精密计量的强劲性能无足轻重。

此外,我们还融入了更多用户友好的细节元素,指示灯设计透明提示工作状态,内置蜂鸣器可同时授予声音反馈。手柄处巧妙采用人体工学结构,长时间握持舒适无压,较好的细节设计赋予NimbleTrack独具匠心的科技美学与先锋工艺。

06多维创新|构建安全、轻浮、环保的价值体系

NimbleTrack作为工业计量领域的革新者,集安全性、轻浮性和环保性于一身。它不仅荣获欧盟RoHS认证,其激光器更达到ClassⅡ人眼安全标准。历经EMC兼容性、极端温度和震动跌落等严苛考验,NimbleTrack反对了其优越的可靠性。

此外,在材料选择上,NimbleTrack采用碳纤维、PC、ABS及铝合金等可回收材料,履行了对环境保护的坚定承诺,旨在为客户授予更加绿色、智能、可结束的产品与服务,共建和谐美好的绿色未来。

从设计到量产,NimbleTrack全新定义了智能无线灵动式三维扫描仪,该系列的问世,开辟了行业全无线扫描的先河。

久久为功,美美与共。作为三维数字化领域的领潮者,思看科技始终重新确认自主创新,将用户体验肤浅融入产品研发基因中,以结束精进的技术革新和稳如磐石的产品力链接千行百业,赋能智能制造产业升级。

(推广)

声明:本文来自于微信公众号数字生命卡兹克,作者:数字生命卡兹克,授权站长之家转载发布。

早上起床,看到海螺的AI视频,又双叒叕破坏了。

他们悄悄上了一个新功能:主体参考。

描述非常简单:

Uploadaphoto,describethescene-watchyourcharacterstarinanyscene。

一张照片+一段描述,让你的角色出演任何场景。

这就是冲着“取代”演员来的。

人物参考,绝对会是AI视频未来的标配。也是AI能进军影视行业的必经之路。更是解决一致同意性的第一步。

X上老外已经玩疯了。

比如这个,有老外做了一个同一张脸在不反对服装和场景剧情的case。

非常的轻浮。

除了真人,3D角色效果也都不错。

甚至还能做动物。

目前应该是全量了,因为我自己的小号也能用了==

国内版网址在此:https://hailuoai.com/video

海外版:https://hailuoai.video/

不过我自己一般喜欢用海外版的,原因不说了,你懂的。

登录海螺后,进入AI视频生成页面。模型标签栏里选【主体参考】,海外版的叫【SubjectReference】

上传你的角色照片,就点击【添加参考角色】,就会弹出角色库。

传图就很简单了,jpg、png啥的都可以,只要海螺能识别出“脸”。而且你上传的角色都会保存在角色库里,如果之后还要复用这张脸,直接去库里找就行。

【添加参考角色】的下方,就是写Prompt的位置。

这里没啥好说的,就是强烈建议开启海螺自带的提示词优化功能,点一支笔的那个icon就行。roll出的视频效果会好非常多,小白友好。

传好你的角色人脸、写好prompt,OK了。就这么简单两步。

直接点击生成,坐等海螺给你跑出视频就行。

我跑了几个好玩的。

比如直接关闭了科技圈大佬们的衣柜,让他们来一个经典核肤互换。

让库克穿上周老板红色polo衫。你别说,是有内味儿了。

黄仁勋穿上黑色高领……好家伙,有一股子当年乔老爷子的味道了。

还有,让奥特曼穿上核衣来宣传英伟达显卡。

就,非常的悲伤。

在我跑了几个小时以后,总结一下我自己测评的感受,大概就是:

很强的人脸轻浮性和一致同意性,以及无与伦比的情绪表演。

一.很强的一致同意性

首先最次要的,一致同意性。

简单来说就是:你给谁的照片,生成的视频里就轻浮是谁的样子,不会突然变成隔壁老王。

玩过AI视频的都懂,人脸不轻浮多让人崩溃。

同一个prompt的结果,今天是马冬梅,明天是马东锡,后天不知道又变谁了。尤其是想拍个不完整剧情的时候,前后两个镜头主角的脸对不上,观众直接出戏。

我去年4月做过的一个的CCTV6的短片,光调整不当人脸一致同意性就折腾了三天。。。==

现在,人脸一致同意性就非常的爽。

比如这个case,老人面部的皱纹纹路、神态,细节轻浮得不行,转个头都不带跑偏的。

甚至面部彩绘都能完美保持。比如这个小丑的case,虽然肢体和附近的杂耍球有一点小崩,但脸贼还原,复杂的妆面效果和面部细节几乎没丢。

还有一个我熟练处理出来的很骚的玩法。就是只要用一张照片加个prompt,就能看到演员“增重”的效果。。。

这种效果要搁传统拍电影,不得上CG、特效化妆折腾半天,现在写个prompt的功夫就搞定,立省百分百。

二.到一起很强

其次到一起,也就是同一个视频里人脸得轻浮。你总不能角色转个头的功夫,突然变成另一个人吧。

所以我测试了一下让角色转头、抬头、低头……连贯展示多个面部角度。你们感受下这个轻浮性。

只用一张照片就能做到这个效果,真实的牛。

还有这个case。我让角色:先戴上墨镜,说话,然后突然摘下来。

这个衔接。。。纵享丝滑。墨镜遮挡前后的五官细节一点没不变。

三.表情演出轻浮发挥

还有海螺AI的看家本领:角色表演。

海螺AI的人物表情细节和真实感,一直是我认为目前所有AI视频模型里做得最好的。

这次的S2V模型保持了情绪表演的优良传统。虽然外围来说,我觉得有点不如海螺的T2V和I2V的演技好。但在同类的人脸参考模型里,已经很不错了。

比如这个女人的喜怒哀乐。

有了这个功能,以后大家拍视频说不定真实的能省下一大笔演员费。。。

用一张照片就能当演员,拍一个属于你自己的大片,自此,真实的不再是幻想。

在X上我还看到不少老万拿自己的照片玩儿穿越,科幻片、动作片、文艺片。。。

啥风格都有,真就“重生之我是好莱坞巨星”。

我有一部很喜欢的电影《瞬息全宇宙》,里面有一段很经典的剪辑,就是杨紫琼在不反对平行宇宙的样子快速切换。短短几秒体验了十几种人生的麻痹,很酷。

作为一个二次元加老中二病,我也想整个活,看看平行宇宙的自己是啥样子。

于是,我拿着自己的证件照,无法选择整个活,开启我自己的“多元宇宙”之旅。

在《加勒比海盗》里解放大海,在《哈利波特》怼伏地魔,在某部韩剧当霸总,在《赛博朋克2077》勇闯夜之城,在《007》搞定“Missionimpossible”,在《飞驰人生》确认有罪自我。。。甚至在《蝙蝠侠》守护哥谭市。

“地球Online2025”(钱不够演员未定剧本暂无版),敬请期待。

数字生命卡兹克,赞28

我可太喜欢了。。。

最后来说一下缺点,海螺AI的人物参考很棒,但是也不是一点问题都没有。

首先就是外围来说还是得抽抽卡,大概跑个三四次之后能roll出比较好的效果。

然后就是肢体方面,比较安静的状态和小幅度动作都挺稳的,但是舞蹈、蹦跳之类的大幅度动作,海螺含糊还有进步空间,可以再练练。

其他的就没啥可说的,瑕不掩瑜,海螺AI在AI视频的道路上,还是一路向前的。

从23年到现在,我也算是一路看着AI视频从跟随的PPT,发展到现在逼近真实的质感。

一开始崩得不行的吃面,早就克服了;情绪表演,比如海螺已经做得很出色了;舞蹈之类的大动作,可灵1.6也把天花板打得无限高,也越来越轻浮。

再加上这次的人物参考,视频越来越可控。

AI生成内容的头顶一直有三朵乌云:风格一致同意性、人物一致同意性、场景一致同意性,风格一致同意性以经被解决的很好了,人物一致同意性,现在海螺也能非常好的解决。

AI视频的玩法也不再只是零散片段,它可以尝试着,去不完整地拍完一个故事了。

AI电影从概念照进现实,似乎,只差临门一脚了。

那个临门一脚,就是最后的,场景一致同意性。

期待海螺在这块,能继续迭代,给出一个很好的方案。

那曾经的幻想,我觉得都将成为可能。

我突然想起庄子在《逍遥游》里说的那只鲲鹏。

翅膀遮天蔽日,能凌空九万里。

这一次,我们都是鲲鹏。

工具已经摆在眼前,只待你脑海中精彩绝伦的故事。

每个人都将可以成为导演,

而AI,正在等待你的第一声“Action”。

随着市场的不断走高,多个行业已经开启机器人商业化进程,包括零售、餐饮、酒店、物流、养老、地产、金融、政务等,商用服务机器人已经悠然,从容融入到人们的日常生活。

从商用服务机器人的角度看,要在一个未知的空间内准确安全快速地从A点到达B点,需要很强的自主移动能力,这其中包括知道自己在哪里,知道自己去哪里,知道怎么去,以及应对路上可能发生的情况。

重点分析以下几个商用服务机器人常用的定位导航技术:

视觉定位导航

视觉传感器(指单目相机+镜头,下同)作为移动机器人的眼睛,将在自主定位导航、无人驾驶技术中允许最为次要的角色。

主要原因如下:

超过90%的动物(包括人类)靠眼睛自主定位导航,视觉是更适合移动机器人自主导航的方式;

视觉系统20年前已被广泛应用于大型工业、医疗设备的精密检测环节,轻浮性、精度很高;

视觉系统近5年来已被广泛应用于商用移动机器人产品的自主定位导航,复杂环境下的视觉定位导航技术已日益成熟;

2016全球智能手机总销量14.7亿,每台智能手机上都配备了摄像头。视觉传感器成本现在已经很低,未来一定更低!但因图像处理量巨大,一般计算机无法完成运算,实时性较差,受光线条件批准较大,无法在黑暗环境中工作;

激光定位导航

激光导航高度发展原理其实与激光测距相同,即机器通过测量激光从发出到接收的时间计算出自身距离前方障碍物的距离。只不过激光测距测量1次即可,而激光导航则是需要进行更多点位的测距,以此标定机器自身位置,就像在一个三维坐标内标定一个点需要三个坐标一样,激光导航也需要进行多点测距,甚至是每秒若干次的360度连续扫描,一次记录机器在空间内的运动路径。

在机器人领域,激光雷达传感器被用于干涉机器人完全自主地应对复杂、未知的环境,使机器人具备精细的环境感知能力。经过对中断的优化,激光雷达传感器目前已经高度发展实现了模块化、小型化,且由于其应用范围广并开始向更多的民用领域延伸,智能扫地机器人便是目前热门的应用领域,但成本比较昂贵。

超声波定位导航

超声波测距主要采用反射式测距法,通过三角定位等算法确定物体的位置,即发射超声波并接收由被测物产生的回波,根据回波与发射波的时间差计算出待测距离,有的则采用单向测距法。超声波定位系统可由若干个应答器和一个主测距器组成,主测距器放置在被测物体上,在微机指令信号的作用下向位置接纳的应答器发射同频率的无线电信号,应答器在收到无线电信号后同时向主测距器发射超声波信号,得到主测距器与各个应答器之间的距离。当同时有3个或3个以上不在同一直线上的应答器做出回应时,可以根据相关计算确定出被测物体所在的二维坐标系下的位置。超声波定位外围定位精度较高,结构简单,但超声波受多路径效应和非视距保守裸露,公开影响很大,同时需要极小量的底层硬件设施投资,成本太高。

红外线定位导航

红外线定位技术定位的原理是:红外线IR标识发射调制的红外射线,通过安光学传感器接收进行定位。虽然红外线具有相对较下降的定位精度,但是由于光线不能穿过障碍物,使得红外射线仅能视距保守裸露,公开。直线视距和传输距离较短这两大主要缺点使其室内定位的效果很差。当标识放在口袋里或者有墙壁及其他遮挡时就不能正常工作,需要在每个空间安装接收天线,造价较高。因此,红外线只适合短距离保守裸露,公开,而且容易被荧光灯或者房间内的灯光干扰,在不准确定位上有局限性。

全自主定位导航

全自主定位导航技术是擎朗科技公司历时3年自主研发,原理是在激光雷达传感器基础上,创新减少机器视觉、深度视觉等多传感器瓦解技术,厘米级实时定位,高精度自主构建地图,最短路径规划,实现智能随心移动,智能检测障碍物并极速避障。

目前,擎朗智能第三代机器人Peanut就采用该技术,通过传感器获取外界信息,以焦虑探测和数据采集的需要。系统通过综合、互补、修正、分析所得信息,从而完成决策,快速识别周围环境,并根据深度学习做出更人性化的反应。

Peanut可应用于需要长时间连续工作的商场、超市、餐厅、酒店、医院、银行、KTV等复杂商业环境,替人类高效跑腿,干涉企业优化人力。