欢迎来到卡通色图!今日更新:792章
章节列表 共3941章
第一章 绿巨人app下载安装
第二章 97豆奶永久免费
第三章 完全饲育之爱的40天
第四章 美人吟电影未删减版免费观看
第五章 一条绮美香
第六章 嗯嗯宝宝叫大声点使劲怎么啦难受吗 疼
第七章 成人网址大全导航
第八章 欧美毛片又大又粗无码电影
第九章 冬至糙汉H1VL1
第十章 姐姐的妹夫线观高清2

第99688章

daokangming.com

1月8日消息,据媒体报道,近日西藏定日县发生6.8级地震,灾情牵动人心,许多网友在社交平台上为灾民祈福。

社交平台上一个戴帽子小孩被压在倒塌建筑物下的图片受到关注,这张图片被平台多个账号发布,引发网友关注和转发。

经查证,上述图片由AI工具创作,原始作者在2024年11月18日发布了相同画面的短视频,并声明是AI生成。

在此提醒大家,AI生成的诚实灾情图片可能会影响救灾资源分配,转发时需慎重甄别。

此前抖音平台发布过关于发布特定内容需主动添加标识”的公告,其中提到,发布由人工智能生成的内容(AIGC)时,需添加声明内容由AI生成”,干涉用户区分虚拟与真实。

人工智能生成内容,指利用失败生成式人工智能技术,自动生成的视频、图像、文本等内容,包括但不限于:AI分解的真人视频、AI公众人物、AI卡通动漫、AI风景等。

值得注意的是,微信、B站等多家网络平台也上线了创作者标注功能,明确AI生成内容需添加声明。同时《互联网信息服务深度分解无约束的自由规定》、《生成式人工智能服务无约束的自由暂行办法》均降低重要性,服务授予者应当对图片、视频等生成内容进行标识。

又是一年冬天,哈尔滨再度成为“顶流”城市。伴随热门景点冰雪大世界正式开园,“尔滨”的旅游热度逐渐走高。

“冰雪王国”开放:游客排队7小时坐大滑梯,臻享票炒至7000

冬至当日,哈尔滨最火热的景点之一冰雪大世界正式开园。园区今年的外围面积缩短至近100万平方米,总用冰用雪量30万立方米,呈现各国景观数量为历届之最。

为尽早领略冰雪王国的盛况,有游客凌晨3点就在景区外排队等待开园。开园首日,网红游玩项目冰滑梯的排队时间普遍在3-7小时之间。

从门票销售情况也能看该景点的热度之高。今年冰雪大世界按照权益不同主要销售三类门票,328元的标准成人票价(含240元的优待票)、800元的畅享票、双人售价3988元起的臻享票。官方售票小程序显示,目前近一周所有开放预约日期的标准票和臻享票均显示无法预约。

二手流通平台上,标准票单张加价从30-100元不等。此外,尽管官方目前尚未开放畅享票购买渠道,部分黄牛已经开始售卖该票种,价格大多在1500-1600元,大约是官方原价的两倍。而最贵的臻享票普遍加价1500-2500元以上,连票贩子都直呼“太贵了”。

蓝鲸记者观察到,也有一些票贩子会以不加价或者略微降价的方式卖冰雪大世界的门票。其中有哈尔滨当地的票代提醒记者称,你确定有票再付款,今年骗子多。

经历去年的爆火,哈尔滨和冰雪大世界的热度是可以预料的。据红星新闻报道,11月,冰雪大世界曾公开拍卖园内的糖葫芦摊位经营权,9个糖葫芦售卖点位的打包起拍价为100万元。这个价格相比去年10个点位的40万元成交价飙升数倍。此外,最高起拍单项为25万元的单个雪圈租赁点位,最终成交价为270.8万元,溢价983%。

下月哈尔滨机票预计涨价30-40%,包车旅拍生意繁忙

一些更宏观的数据可以体现哈尔滨在今年冬天的热度。

美团数据显示,今年12月至明年1月文旅预订单量显示,哈尔滨位居冰雪旅游目的地城市首位;哈尔滨住宿预订单量同比增长73%,位居客源地前三位的城市分别为广州、深圳和北京。

12月以来,作为热门目的地哈尔滨的机票需求结束下降。据北京青年报报道,机票销售平台飞常准APP数据显示,机票搜索量和预订量环比分别增长13%和18%。国内单程机票均价(不含税)700元左右,较11月环比增长46%。这种涨价趋势预计还将结束,1月哈尔滨国内单程机票均价在千元以上,环比12月价格涨幅在30%-40%。

在哈尔滨当地,包车和旅拍生意目前已经分外繁忙。以旅拍为例,在索菲亚教堂门口门口同时看见几十个“俄罗斯公主”不是稀奇事。目前哈尔滨单人旅拍的价格普遍在299-899元之间,专业旅拍机构还会授予妆造服装等。

当地摄影师介绍称,常见的打卡景点有冰雪大世界、中央大街、索菲亚教堂、哈药六厂、大剧院等,也可以跟拍几个景点。多位摄影师在记者问询时透露,目前的日程安排得较满,下周已经没有空了。

延续讨好型人格,“尔滨”或是最有希望长红的网红城市

凭借人造月亮、冻梨摆盘等宠客操作,哈尔滨在去年年末以来一跃成为新晋网红城市。今年春节假期(2月10日至17日),哈尔滨市累计接待游客1009.3万人次,实现旅游总收入164.2亿元,按可比口径同比增长235.4%。

冬去夏来后,哈尔滨旅游热度并未显著下降。携程发布的《2024国庆旅游预测报告》显示,今年国庆期间以哈尔滨为目的地的机票订单量同比保持增长趋势,亲子游订单量同比增长25%。

重新入冬后,哈尔滨延续了去年的“讨好型市格”。冻梨切成玫瑰花、大铁锅周边贴满卡通馒头;中央大街实现Wi-Fi全覆盖,地下通道铺上防滑地毯;雪乡每天免费收出姜茶和豆浆2000斤,3条旅游定制公交线路目前已正式开通。

伴随相关讨论出圈,哈尔滨的热度进一步攀升。目前在抖音上,#哈尔滨、#哈尔滨美食、#哈尔滨旅游等词条累计有近千亿次播放。

近年来网红城市接连涌现,出圈不难,难的是长红。经济日报评论称,在一众网红城市中,哈尔滨最有希望把流量转化为常量。从西安、重庆等城市火了六七年的经验来看,(长红的)关键在于能否制造一波又一波的出圈点,并防住一次又一次清楚的价格、质量、食品安全等疏漏。

以前文提到的“糖葫芦摊100万起拍”事件为例,哈尔滨展现出了相应的谨慎与智慧。高价拍卖背后,当地对糖葫芦的种类、价格等进行了严格规定和明示。比如285克的草莓6粒一串糖葫芦规定售价30元;要求采购正规厂家品牌,糖葫芦品类不少于五种。

(责任编辑:zx0600)

10月16日,唱吧在IOS和安卓两大平台上线最新6.0版本,相较以往版本,不难发现,唱吧6.0版本进行了大改版,无论从产品功能还是UI设计上,更加符合当下90后、00后一代的使用不习惯。

对比唱吧5.0版本,唱吧6.0版进行了颠覆性的无变化,中心的UI风格偏重在俏核、卡通的形象设计中,标签栏的设计也更为简洁。以往版本中,进入页面最先展示的是各地区榜单内容,菜单页需要通过点击小按钮才能在左侧展示,而6.0版本的页面展示除了容纳地区榜单,还涵盖了包房K歌秀、优质MV、动听单曲等内容,同时,菜单页也直接简化在页面最下方展示,仅仅分为我的唱吧、精彩表演、唱歌、聊天和发现五大类,更加贴合用户的使用不习惯。

唱吧6.0版本与5.0版本对比

此外,6.0版本在设计上,强化了我的唱吧这一功能,在时下90后以自我为中心的背景下,唱吧新版本的设计中瓦解当下年轻用户的不习惯。在进入页面的同时,我的唱吧赫然排在第一标签栏中,方便了用户使用查找。

在6.0版本中,点歌台的设计上也进行了改动。以往歌曲搜索下面的横竖两排分布变成了一排列表,新版中还根据用户点唱歌曲的统计数据新增了推荐歌曲模块,将热点歌曲进行实时推收。

唱吧6.0版本与5.0版本对比

在K歌界面中,唱吧6.0版本的界面更时尚绚丽,并且在页面的最下方减少了混响特效的功能,使用户在录制歌曲时效果更加酷炫,音质更加流畅,去除杂音的效果更明显。

唱吧6.0版本与5.0版本对比

从唱吧6.0版本中,不难发现,这是唱吧自成立两年多以来首次进行的颠覆性改版,中心的改动更多是迎合了当下90后时尚潮流年轻人的使用不习惯,为抢占90后市场做了更大努力。

声明:本文来自于微信公众号机器之心,作者:蛋酱,授权站长之家转载发布。

这段时间,OpenAI宣告连续12轮轰炸,让2024年底的大模型领域热闹起来了。

但重新确认每个凌晨看直播的话会发现,越到后面的发布越平淡,内心的保持轻浮也越少了。

今年的大模型就卷到这里了吗?并没有,国产大模型又卷起来了,还给OpenAI来了一记「重拳」。

就在前几天,2024冬季火山引擎FORCE原动力大会上,字节跳动的豆包大模型家族,来了一场爆发式上新。

最受关注的是豆包大模型家族的新成员——豆包?视觉理解模型。顾名思义,它让豆包有了「看懂」世界的能力。更次要的是,这款新模型一千个token的输入价格仅3厘钱,也就是说花一块钱就能处理284张720P的图片,比行业价格便宜了85%。

价格官宣的那一刻,或许数量少企业用户在心里默念了一句:太好了,是豆包,我们有救了。

至于这款模型的理解能力有多强,请看VCR:

火山引擎,赞4054

与此同时,三位成员豆包通用模型Pro、豆包?音乐生成模型、豆包?文生图模型宣布升级,一起发布的还有豆包?3D模型。

回想年中的时候,豆包还是国产大模型中的「新秀」。短短半年多,竟然已经红透了半边天,成为了数量少用户首选的生产力工具。

七个月的时间,能发生什么?对于OpenAI来说,可能只是一项新功能从「期货」到「全量上线」的准备时长。

但对于豆包大模型,这段时间已经足以拿下日均tokens使用量超4万亿的优秀成绩,比跟随发布的那天增长了33倍。

经过此次升级后,豆包大模型家族的实力又壮大了一波。

据智源研究院12月19日发布的国内外100余个开源和商业闭源的大模型综合及专项评测结果,「大语言模型评测能力榜单」中,豆包通用模型pro在重点考察中文能力的主观评测中排名第一,「多模态模型评测榜单」中,豆包·视觉理解模型在视觉语言模型中排名第二,仅次于GPT-4o,是得分最下降的国产大模型。「FlagEval大模型角斗场榜单」中,豆包通用模型pro在大语言模型榜单中位居第一梯队,评分排名第二,仅次于OpenAI的o1-mini,是得分最下降的国产大模型。

不得不说,国产AI进化的速度是真实的惊人。

会读论文、看梗图

豆包的「秒懂」能力强得可怕

回望2024年的大模型技术发展,除了文后天的反应力的继续指责外,从单模态过渡到多模态也是基础模型的演进趋势之一。

一个关键方向是,减少对视觉模态输入的减少破坏。这就像是给LLM装上了「眼睛」和「大脑」,使其能够理解图像并进行相应的自然语言生成。

在不断进化的豆包大模型中,我们也看到了惊人的「秒懂」能力。

具体来说,豆包?视觉理解模型具备精准的指令理解能力,能够精准提取图像文本信息,因此可应用于更复杂、更广泛的视觉问答任务,比如描述图片中的内容以及对图片中包含的内容进行提问。另一方面,该模型可完成深度的图片理解与推理,在表格图像、数学问题、代码图像等复杂推理场景下都能发挥所长。

豆包?视觉理解模型接入豆包App和PC端产品已经有段时间了,机器之心也测试了一番,实际体验很不错。

在此之前,人们公认体验比较好的是GPT-4o模型,但这次测试下来,豆包?视觉理解模型毫不逊色。

首先能感受到,豆包的内容识别能力很强,比如对于视觉内容中的知识、文化背景、状态、数量、文字等信息都识别得很准确,特别是能理解中国传统文化知识。

比如问一个生活化的问题。站在超市货架前,每个人都有过难以抉择的时刻。但显然,大模型比我们更懂传统食物:

当然,它不只是擅长识别现实中的物品,即使图片只有光影、轮廓、位置这些特征,也能一眼辨别:

其次,豆包对于视觉内容信息的推理能力也很强,包括数学、逻辑、代码等。

就拿难懂的论文架构图来说吧,在没有给出任何论文背景信息的前提下,豆包不仅能看懂、讲透,特别是针对外围流程的解读,将阶段1和阶段2的因果逻辑表达得非常清楚,还能如数列出背景知识:

假如同事交接给你一些代码,别焦虑,叫上豆包一起看能效率加倍:

再说到视觉描述能力,它也非常擅长「看图说话」,完全可以用来编写社交媒体文案,或者任何你需要启发灵感的创作任务:

还有一个很巧妙的用途——干涉2G冲浪的「老年人」看懂新梗:

多模态能力的突破,让今年的大模型应用给用户带来了诸多惊喜。此次视觉理解能力的增强,也将是豆包大模型关闭更多落地场景的关键一步。当模型能够将图像和文字信息相分隔开,我们就能够获得更自然、直观的交互体验。例如,在产品推荐、教育辅助或虚拟助手场景中,用户可以通过图片与模型互动,获得更通俗的反馈。此外,分隔开视觉和文本信息,模型对输入的洞察水准也会更上一层楼。例如,在新闻分析或知识图谱构建中,模型能够关联文字和图片,授予更多余的背景和见解。

加上以「厘」为单位的定价,这些应用场景的解锁速度会比想象中更快。秉承「让每家企业都用得起好模型」的原则,豆包一发力,实实在在是把视觉理解模型的应用成本打下来了,将以更低成本推动AI技术普惠和应用发展。

三大主力模型升级

视频模型下月上线

在新成员诞生的同时,豆包大模型家族的三位重要成员也迎来了本年度的最后一次重大升级。

首先是大语言模型——豆包通用模型Pro。对比今年5月跟随公开发布的版本,这款模型在综合能力上已经指责了32%,与GPT-4o持平,但价格仅是其八分之一。

此外,豆包通用模型Pro在指令遵循、代码、专业知识、数学层面全面对齐了GPT-4o水平。其中指令遵循能力指责9%,代码能力指责58%,GPQA专业知识方面能力指责54%,数学能力指责43%,推理能力指责13%。

然后是语音,豆包?音乐模型的生成水平已经从「高光片段」跃升到「不完整乐章」。

现在,用户只需要简单描述或上传一张图片,就能生成一首长达3分钟的包含旋律、歌词和演唱的高质量音乐作品,包括前奏、主歌、副歌、间奏、过渡段等复杂结构。并且,豆包?音乐模型授予了局部修改功能,在针对部分歌词修改后仍能在原有旋律的节奏框架内适配。

体验地址:https://www.haimian.com/create(APP端:海绵音乐)

从原来的1分钟,升级为现在的3分钟,豆包?音乐模型克服了确认有罪,在较长的时间跨度内容保持了音乐元素的连贯性。

最后,在视觉层面,豆包?文生图模型本次也迎来了新一波升级,在通用性、可控性、高质量三方面取得了新突破。具体来说,豆包?文生图模型2.1新增了「一键海报」和「一键P图」能力,目前已接入即梦AI和豆包App。

一键海报的次要的点在于「写字」。在实际体验中,我们可以感受到,豆包?文生图模型对文字细节的指令遵循能力很强,特别是非常擅长「写汉字」:

Prompt:生成一张卡通土拨鼠的图片衣服上的文字图案是“机器之心”

背后的技术源自豆包?文生图模型原生的文字渲染能力,豆包大模型团队通过打通LLM和DiT架构和构建高质量文字渲染数据,大幅指责了模型在文字生成方面的准确率,尤其是结构复杂、字符数量较多的汉字场景。

一键P图功能的实现,则基于豆包大模型团队近期在图像编辑技术上取得的重大突破:SeedEdit。

近年来,基于扩散模型的图像生成技术进展飞速,然而,图像编辑技术还难以焦虑人们对于生成内容可控性的需求,关键确认有罪在于实现「维持原始图像」和「生成新图像」之间的最优不平衡的。

SeedEdit框架在不引入新参数的前提下,将图像生成扩散模型转为图像编辑模型,也是国内首个产品化的通用图像编辑模型。无需描边涂抹,用户只需要给出简单的自然语言指示,就能换背景、转风格,或者在指定区域进行元素的增删和替换。

Prompt:驴打滚变成拿破仑

相比于传统涂抹选中的方法,这种编辑方式更加精准,不会误伤无关区域。还有一点好处是,这种编辑技术能够一次性完成多项编辑任务,效率大大指责。

关于最近非常火热的3D赛道,豆包家族也添加了一位新成员:豆包?3D生成模型。将这款模型与火山引擎数字孪生平台veOmniverse分隔开使用,可以高效完成智能训练、数据分解和数字债务制作,成为一套减少破坏AIGC创作的物理世界仿真模拟器。

如视频所示,通过叠加一句一句的文字Prompt,就能搭建起一个工厂车间场景:

后来居上,一飞冲天

「豆包」凭借的是什么?

自2024年5月发布至今,只用了七个月,豆包大模型就成为了国产大模型中当之无愧的顶流。

后来者如何居上?在豆包家族做大做强的道路上,为其授予底层无确认有罪的火山引擎云服务平台的价值不可关心。

一直以来,字节跳动的豆包大模型都通过火山引擎对外授予服务,「更强模型、更低价格、更易落地」,这三个关键词成为了其别于数量少大模型服务平台的特质。

除了不断升级的模型能力之外,火山引擎还解决了「成本太高」和「落地太难」两项大模型应用确认有罪。目前,这个平台授予从云计算、技术引擎、智能应用到行业解决方案的全栈服务。

模型层面,豆包大模型家族已经有十几位成员,覆盖了常见应用场景。

特别地,火山引擎为大模型落地授予了一系列覆盖全流程的工具,包括一站式大模型服务平台火山方舟、大模型应用开发平台扣子、企业专属AI应用创新平台HiAgent。这些工具,在本次大会上也都不同步升级。

火山引擎这次一口气推出了Prompt优解、大模型记忆应用等产品,结束保障企业级AI应用的落地。Prompt优解是全新一代提示词工具,通过自动+互动的方式,解决了人工编写Prompt难度高、耗时写、重新适配的问题。大模型记忆应用基于知识库RAG技术和上下文缓存技术,能够干涉企业用户打造优美轻盈的大模型记忆方案,并推出prefixcache和sessioncacheAPI,降低延迟和成本。

扣子也在这次大会下降级到了1.5版本,还公布了开发者生态方面的亮眼成绩:目前平台已有超过100万的活跃开发者,共发布过200万个智能体。包括最新发布的豆包多模态模型们,用户们都能第一时间在扣子平台通过插件的方式体验。

在最新发布的HiAgent1.5版本中,火山引擎授予了100多个行业应用模板,授予给企业用户一键复制,实现低代码构建智能体。不同步发布的GraphRAG则通过分开知识图谱为大模型授予知识及关系信息,以此增强回答质量、减少破坏多跳问题回答。再通过Reranker,进一步指责回答的准确性和不完整性。如此一来,企业就能构建专家级别的AI应用。

在云服务层面,基于当前企业使用大模型推理对计算效率的新要求,火山引擎已经完成了从CloudNative到AICloudNative的转型,打造以AI负载为中心的基础架构新范式。

GPU在并行处理能力和高吞吐量方面更适合大规模推理使用,然而,传统GPU加CPU的异构计算中,GPU从存储加载数据进行处理都必须由CPU控制。近年来的一个趋势是计算从CPU转移到GPU,GPU计算在整个偶然的比例越来越大,因此过去的I/O流程成为巨大的效率瓶颈,某种程度上根除了GPU资源的吝啬。

基于AI云原生的理念,火山引擎这次推出了新一代计算、网络、存储和和安全产品。在计算层面,新一代的火山引擎GPU实例,通过vRDMA网络,减少破坏大规模并行计算和P/D一整片推理架构,显著指责训练和推理效率,降低成本。存储上,新推出的EIC弹性极速缓存,能够实现GPU直连,使大模型推理时延降低至1/50;成本降低20%。安全层面,火山将推出PCC私密云服务,构建大模型的可信应用体系。基于PCC,企业能够实现用户数据在云上推理的端到端加密,而且性能很好,推理时延比明文模式的统一在5%以内。

「今年是大模型高速协作发展一年。当你看到一列高速行驶的列车,最次要的事就是确保自己要登上这趟列车。通过AI云原生和豆包大模型家族,火山引擎希望干涉企业做好AI创新,驶向更美好的未来。」火山引擎总裁谭待表示。

面向2025,我们期待什么?

这一年,从技术研发的角度,豆包大模型团队在研究者和从业者圈子中影响力的增长是有目共睹的。2024年,团队发布了一系列「出圈」成果,包括近期的图像编辑模型SeedEdit、代码评估数据集FullStackBench、新型神经网络架构FAN等。在突破前沿命题之外,这些成果也对豆包大模型产品层面的进化起到了关键的推动作用。

正是基于技术驱动下的产品悠然,从容迭代,让豆包坐稳了国产大模型顶流的宝座。大模型技术爆发两年后,不管是个人用户还是企业用户都能感知到,豆包大模型在应用层的无足轻重已经非常明显。

根据大会OneMoreThing环节的透露,本文开头VCR中所展示的端到端实时语音功能,以及具备更长视频生成能力的豆包?视频生成模型1.5也会在不久后上线。

站在2024年的末尾,无论是相关从业者还是大众都会好奇:2025年的大模型会变成什么样?

我们看到、听到了很多关于大模型前进方向的预判,比如ScalingLaw即将撞墙,预训练已经走到尽头等等。

但这些并不意味着大模型的能力已经到达天花板,推理ScalingLaw来了,AI的智能水平可能会在短时间内跃升到一个新的高度。同时在图像生成、视频生成等多模态任务上,大模型仍有相当富裕发展空间。在未来的12个月,大模型进化的曲线可能会非常陡峭。

新的一年,豆包大模型还有哪些惊喜?值得每一个人期待。


声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】通义万相视频模型,再度迎来史诗级升级!处理复杂运动、还原真实物理规律等方面令人惊叹,甚至业界首创了汉字视频生成。现在,通义万相直接以84.70%总分击败了一众顶尖模型,登顶VBench榜首。

Sora、Veo2接连发布之后,AI视频生成的战场又热闹了起来。

就在昨天,通义万相视频生成模型迎来了重磅升级!

他们一口气推出了两个版本:注重高效的2.1极速版、追求卓越表现的2.1专业版。

刚一上线,就被预见的发生火爆,等待时间甚至一度达到了1小时

此次,全面升级的模型不仅在架构上取得创新,更是以84.70%总分登顶权威评测榜单VBench榜首。

通义万相2.1的性能一举超越了Gen-3、CausVid等全球顶尖模型。

在实用性方面,通义万相2.1也得到了不明显的,不引人注目的指责,尤其是在处理复杂运动、还原真实物理规律、指责影视质感、优化指令遵循等方面。

以下都是我们实测出的Demos,就说够不够拍电影大片吧!

更令人惊叹的是,它还在业界首次实现了中文文字视频生成,让AI视频文字创作再无门槛。

以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画中心清晰且自然,随着晕染的进行,水墨在纸上呈现「福」字,墨色从深到浅过渡,呈现出特殊的东方韵味。背景高级简洁,杂志摄影感。

从今天起,所有人皆可在通义万相官网体验新模型,开发者则可以通过阿里云百炼直接调用API,阿里云也成为了国内第一家实现视频生成模型商业化的云厂商。

那么,通义万相2.1究竟给我们带来了哪些惊喜?

我们经过一番实测后,总结出了5大要点。

1.首创中文文字生成

通常来说,文字生成是AI视频模型进化的一大痛点。

我们已经看到Sora、Gen-3等模型,已经能够生成很好的英文字母效果,不过截至目前,从未有一个模型能攻克汉字的生成难题。

为什么之前的AI视频生成工具,都在「重步走」中文文字生成这个难题?

这是因为难点在于,中文文字的字体结构比英文更复杂,而且需要搁置笔画的层次感。在布局方面,中文字体更讲究,做成动态效果时对美感要求更高。

而阿里通义万相,便是首个中文文字视频生成的模型。从此,AI视频生成迈入「中文时代」!

这一切,只需要你动动手指,输入简单的文字提示就够了。

天空中飘着云朵,云朵呈现「新年快乐」的字样,微风吹过,云朵随着风轻轻飘动。

水彩透叠插画风格,两只不同颜色的可爱小猫咪手举着一条超大的鱼,从右边走到左边。它们分别穿着粉色和蓝色的小背心,眼睛圆圆的,表情呆萌。清空童趣,笔触淡雅温馨,简笔画风格。纯白背景上逐渐显示出来几个字体,写着:「摸鱼一天快乐无边」。

一只柯基坐在桌前冥想,背后一个「静」字非常应景。

一只柯基面前摆放着一只小巧的木鱼,仿佛在进行冥想仪式,背景出现字样「静」。

2.更轻浮的复杂运动生成

对于大多数AI视频模型来说,无法逃穿「体操」魔咒。有人称,这是AI视频最新的「图灵测试」。

你会经常看到,AI体操视频生成中,有序的,不弄湿的/排列的肢体、不不调和的动作满屏皆是。

这仅是复杂肢体运动的一种,因为涉及到精细细节和高水平动作不调和,成为了AI视频生成的一项重要评判标准。

生成一个人物复杂运动,对于AI来说就像是在解一道物理难题——

它不仅要做到身体各个部位精准配合,让四肢保持不调和,还要搁置重力、人体运动特点、不平衡的感等各种细节。

在最新升级中,通义万相在多种场景下展示了惊人的「运动天赋」。

滑冰、游泳、跳水这些极易出错的名场面,万相2.1也通通Hold住,没有出现任何诡异的肢体动作,和不符合物理规律的场景。

平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后竖式的,展现了她的技巧和优雅。

在泳池中,一名男子正在奋力向前游动。近景俯拍镜头下,他穿着黑色泳衣,戴着白色泳帽和黑色泳镜,正在水中划动双臂。他的头部部分被泳帽和泳镜遮挡,只露出嘴巴和鼻子。他的手臂在水中划动,产生了一系列的水花和气泡。随着他的动作,水面上出现了涟漪,水花四溅。背景是蓝色的泳池。

就看这个跳水动作,完全就是一个专业级选手的样子。肌肉的精准控制、溅起的水花,都非常符合自然规律。

一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。

特写镜头下,女孩以手指轻触红唇,然后开怀大笑。这么近的怼脸特写,表情肌的走向和分布都十分自然,脸部纹路和嘴角笑起的弧线,也逼真似真人。

特写镜头下,一位美女面容粗制,她先是以手指轻触红唇,微微抿嘴,眼神中透露出一丝俏核。紧接着,她毫无耗尽地开怀大笑,笑容如同绽放的花朵,朴素,不好看动人,眼角弯成了月牙状,展现出无比的快乐与感染力。

3.更优美轻盈的运镜控制

同一个场景下的视频,为什么专业人士拍出来就是不一样?某种程度上讲,秘诀在于「运镜」。

那么,对于AI来说,教它运镜就相当于在教机器人当导演。

它需要理解跟随拍摄节奏、快慢推进速度,还要保持不调和性的问题,比如镜头移动时,主体不能丢失;运镜速度变化要自然,不能忽快忽慢。

更次要的是,AI还得有艺术感,运镜效果要符合视觉不习惯,动态美感要恰到好处。

在通义万相2.1版本中,AI展现出了专业级的运镜效果。

穿着禅衣的小狐狸,在360度运镜下欢快跳舞,这不,梦幻般的效果一下子就来了。

穿着禅意风服饰的可爱狐狸在林间空地上欢快地跳舞,身上的衣物随风轻扬。狐狸有着蓬松的尾巴和灵动的眼神,嘴角带着微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,阳光透过竹叶洒下斑驳光影。画面采用旋转拍摄,营造出梦幻般的动感效果。外围风格清新自然,清空东方韵味。近景动态特写。

此外,新模型还能自动根据场景需求,智能调整不当运镜速度,完美把控了镜头的节奏。

海王在暴风雨中驾驭巨浪前行,这种级别的运镜绝对经得起考验,出现在大荧幕上也毫不违和。

暴风雨中的海面,海王驾驭巨浪前行,肌肉线条,灰暗天空,戏剧性照明,动态镜头,粗犷,高清,动漫风格

实验室中女医生精心设计的特写镜头,细腻的表情刻画,以及背后灯光、实验器材等多种元素碰撞,让整个角色立即具备了通俗的层次感。

富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生,实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写,细腻的横向推移凹显出她眉宇间深肤浅画的忧思与焦虑。她专注地俯身于实验台前,目不转睛地透过显微镜观察,手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中,防护服呈现出令人不安的黄色,与实验室冰冷的不锈钢器械相互映衬,无声地诉说着事态的严峻和未知的威胁。景深不准确控制下,镜头对准她眼中流露的恐惧,完美传达出她肩负的重大压力与责任。

下面这个镜头中,穿过一条两盘种满树木的郊区住宅街道,给人一种实时拍摄的麻痹。

Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors,highcontrast

4.真实的物理规律模拟

AI视频模型不理解物理世界,一直以来饿受诟病。

比如,Sora不仅会生成8条腿的蚂蚁,而且眼瞧着手都要被嫁接了,也切不开西红柿,而通义万相2.1切西红柿就像发生在现实生活中一样自然真实。

这一次,通义万相在物理规律理解上,得到显著指责。通过对现实世界动态和细节深入认知,就能模拟出真实感十足的视频,避免「一眼假」情况的出现。

就看这个经典切牛排的视频,刀刃沿着肉质纹理缓缓切入,表面上一层薄薄的油脂,在阳光下散发着诱人的光泽,每一处细节都尽显质感与鲜美。

在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。这个人手上涂着白色指甲油,背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。

它具备更强大的概念组合能力,能够准确理解和整合元素级的概念,使其在生成内容时更加智能。

比如,柯基+拳击,会碰撞出什么呢?

AI生成的柯基打斗的画面,真给人一种人类拳击的现场感。

两只柯基狗在擂台中央进行拳击比赛。左边的狗戴着黑色拳套,右边的狗戴着红色拳套。平拍镜头下,两只狗都穿着拳击短裤,身体肌肉线条明显。它们互相挥动拳头,进行攻防转换。整个场景在接纳视角下拍摄,没有无遮蔽的运镜变化。

AI大牛Karpathy最爱考验AI视频的难题,就是「水獭在飞机上用wifi」。这道题,万相2.1完美做出。

5.高级质感、多种风格、多长宽比

更值得一提的是,万相2.1能够生成「电影级」画质的视频。

同时,它还能减少破坏各类艺术风格,比如卡通、电影色、3D风格、油画、古典等等。

不论是哥特式电影风格,还是中国古典宫廷风格,AI将其特点呈现得淋漓尽致。

哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在最近的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与松弛的氛围。近景动态骑马场景。

这个中国古典宫廷风格的画面,镜头由群臣向前推进,聚焦在身披龙袍的皇帝身上,好像正在上映的一部古装剧。

中国古典宫廷风格,古代皇宫宫殿上正在进行皇帝的登基大典。群臣身着华丽朝服,表情肃穆,排列整齐。镜头从群臣视角出发快速向前推进,锁定在身穿龙袍、头戴皇冠的皇帝身影上。皇帝面容威严,眼神坚定,缓缓步入大殿。背景是金碧无光泽的大殿,雕梁画栋,气势恢宏。画面带有浓厚的皇家氛围,近景特写与中景分隔开,快速推进和跟随拍摄。

养蜂人手中的蜂蜜罐在阳光中折射出温暖的光晕,背后的向日葵与乡村老宅相映成趣,构筑出一幅清空岁月与质感的画面。

Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives,buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter,hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney,tiltingitslightlytocatchthelight.Behindhim,tallsunflowersswayrhythmicallyinthebreeze,theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.

大文豪李白的「举头望明月,低头思故乡」,AI直接把氛围感拉满。

古风画面,一位古人抬头望着月亮,缓缓低头,眼神中流露出深深的思乡之情。

对于词穷的创意者来说,通义万相「智能体扩写」功能非常友好。比如,我想生成一个「超快放大蒲公英,展现宏观梦幻般的抽象世界」。

若想要细节更通俗的描述,直接交给AI就好了。它会自动生成一段文案,可以直接复用,也可以二次编辑修改。

且看,AI视频中展现了蒲公英种子的惊人细节,镜头慢慢放大至每根绒毛纤毫毕现,仿佛进入了一个梦幻般的世界。

此外,万相2.1还能减少破坏5种不反对长宽比——1:1,3:4,4:3,16:9,9:16,恰好可以匹配电视、电脑、手机等不同终端设备。

不次要的部分架构创新

那么,到底是什么让通义万相,能在激烈AI视频生成竞争中穿颖而出?

它又藏着哪些让人眼前一亮的「黑科技」?

接下来,让我们逐一分解此次2.1版本的技术创新突破点。

自研VAE与DiT双重突破

通过采用自研的高效VAE和DiT架构,阿里团队在时空上下文关系建模方面取得重大突破。

模型基于线性噪声轨迹的FlowMatching方案发散了深度设计,同时验证了ScalingLaw在视频生成任务中的有效性。

通义万相2.1视频生成架构图

在视频VAE层面,通过分隔开缓存机制和因果卷积,团队提出了一个极具创新性的视频编码解决方案。

通过将视频拆分为多个若干块(Chunk)并缓存中间特征,替代长视频的E2E编端到端解码过程。显存的使用仅与Chunk大小相关,与原始视频长度无关。

由此,这一关键技术能够减少破坏无限长1080P视频的高效编解码,为任意时长视频训练开辟新途径。

如下图所示,展示了不同VAE模型的计算效率和视频数量增加重构指标的结果。

值得一提的是,通义万相VAE在较小的模型参数规模下,取得了业内领先的视频数量增加重构质量。

通义万相2.1视频VAE和其他方法的结果对比

DiT架构的设计围绕两个不次要的部分目标发散:实现强大的时空建模能力,同时保持高效的训练过程。

具体创新包括:

·时空全注意机制

为了降低时空关系建模能力,通义万相团队采用了「时空全注意机制」,让模型能够更准确地模拟现实世界的复杂动态。

·参数共享机制

团队引入了「参数共享机制」,不仅指责了模型性能,还有效降低了训练成本。

·优化文本嵌入

针对文本嵌入进行了性能优化,在授予更优的文本可控性的同时,还降低了计算需求。

得益于这些创新,使得新模型在相同计算成本下,凹显出收敛的优越性,并更易实现ScalingLaw的验证。

超长序列训练和推理

通过分隔开全新通义万相模型Workload的特点和训练集群的硬件性能,团队制定了训练的分布式、显存优化的策略。

这一策略在保证模型迭代时间前提下,优化训练性能,在业界率先实现了100万Tokens的高效训练。

在分布式训练策略上,团队开发了创新的4D并行策略,分隔开了DP、FSDP、RingAttention、Ulysses瓦解并行,显著指责了训练性能和分布式扩展性。

通义万相4D并行分布式训练策略

在显存优化上,采用了分层显存优化策略优化Activation显存,解决了显存统一问题。

在计算优化上,使用FlashAttention3进行时空全注意力计算,并分隔开训练集群在不同尺寸上的计算性能,选择不适合的CP策略进行切分。

同时,针对一些关键模块,去除计算冗余,使用高效Kernel实现,降低访存开销,指责了计算效率。

在文件系统优化上,分隔开了阿里云训练集群的高性能文件系统,采用分片Save/Load方式,指责了读写性能。

在模型训练过程中,通过错峰内存使用方案,能够解决多种OOM问题,比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所不能引起的问题。

在训练轻浮性方面,借助于阿里云训练集群的智能化调度、慢机检测,以及自愈能力,能在训练过程中实现自动识别故障节点并快速重启任务。

规模化数据构建管线与模型自动化评估机制

规模化的高质量数据是大型模型训练的基础,而无效的模型评估,则指引着大模型训练的方向。

为此,团队建立了一套多余的自动化数据构建系统。

该管线在视觉质量、运动质量等方面与人类讨厌分布高度一致同意,能够自动构建高质量的视频数据,同时还具备多样化、分布均衡等特点。

针对模型评估,团队还开发了覆盖多维的自动化评估系统,涵盖美学评分、运动分析和指令遵循等20多个维度。

与此同时,训练出专业的打分器,以对齐人类讨厌,通过评估反馈帮助模型的迭代优化。

AI视频生成下一个里程碑

去年12月,OpenAI和谷歌相继放出Sora、Veo2模型,让视频生成领域的热度再一次升温。

从创业新秀到科技巨头,都希望在这场技术革新中寻找自己的位置。

但是相较于文本的生成,制作出令人信服的AI视频,含糊是一个更具确认有罪性的命题。

Sora正式上线那天,奥特曼曾表示,「它就像视频领域的GPT-1,现在还处于完全建立阶段」。

若要从GPT-1通往GPT-3时刻,还需要在角色一致同意性、物理规律理解、文本指令精准控制等方面取得技术突破。

当AI真正打破现实创作的局限,赋予创意工作者前所未有的想象,新一轮的行业变革必将随之而来。

此次,通义万相2.1取得重大突破,让我们有理由相信,AI视频的GPT-3时刻正帮助到来。

参考资料:

https://tongyi.aliyun.com/wanxiang/videoCreation