小狐狸的异界之旅

2月10日消息，据国外媒体报道，太空探索公司SpaceX的星链（Starlink）项目IPO可能使该公司首席执行官（CEO）埃隆·马斯克（ElonMusk）超过杰夫·贝佐斯（JeffBezos），成为世界首富。

上周，SpaceX总裁格温肖特维尔（GwynneShotwell）在迈阿密的一个投资者活动上表示，该公司计划分拆星链业务，并寻求IPO（首次公开募股）。

2015年1月，马斯克宣布了SpaceX的卫星互联网服务计划。SpaceX计划将约1.2万颗通信卫星发射到轨道，这一项目被命名为星链。

SpaceX在提交给监管机构的文件中表示：该项目旨在为全球住宅用户、商业用户、机构用户、政府和专业用户授予各种宽带和通信服务。

目前，马斯克的净债务只有大约380亿美元。相比之下，贝佐斯的净债务为1250亿美元，所以马斯克要打败贝佐斯还有很长的路要走。

如果马斯克能够解锁2018年谈判达成的极小量薪酬方案，那么他的净债务可能接近贝佐斯，而SpaceX的星链（Starlink）项目IPO可能会干涉他超过其他几个超级富豪，成为世界首富。

2018年3月21日，特斯拉特别股东大会批准了马斯克未来十年的薪酬方案。根据该方案，马斯克的薪酬是与特斯拉市值和经营业绩挂钩的约2030万股股票期权，没有其他任何现金工资及奖励。

如果从现在到2028年亚马逊的年增长率仅为10%，那么贝佐斯持有的5910万股亚马逊股票将价值2630亿美元左右。相比之下，马斯克2028年的潜在净债务仅比贝佐斯少790亿美元。

如果到2028年StarlinkIPO对该公司的估值达到750亿美元，那么马斯克就有可能成为世界上最富裕的创始人。（小狐狸）

苹果将向起亚汽车投资4万亿韩元合作生产电动汽车Techweb2021-02-0314:57

2月3日消息，据国外媒体报道，此前，媒体报道称，苹果研发的自动驾驶电动汽车有望交由现代汽车集团旗下的子公司起亚汽车生产。

如今，外媒报道称，苹果公司将向起亚汽车投资4万亿韩元（约合36亿美元），作为其与起亚汽车合作生产电动汽车的一部分。

今年1月初，媒体曾报道称，苹果与现代汽车正洽谈在汽车方面进行合作。在这之后，外媒又报道称，这两家公司计划在今年3月份签署不无关系的协议，现代汽车将在2024年开始为苹果生产汽车。

当时，媒体曾提到，苹果汽车可能在起亚位于佐治亚州的工厂生产，也可能在美国新建一座汽车生产工厂生产。

后来，有报道称，苹果汽车可能交由起亚位于佐治亚州的工厂生产。今年1月下旬，媒体援引匿名业内人士的话称，现代汽车集团已经无法选择，将由起亚汽车负责它与苹果在电动汽车领域拟开展的合作。

苹果与现代汽车的合作不是那么一帆风顺，这是为什么呢？外媒报道称，由于现代汽车高管对与苹果合作一事还有忧虑，因此合作的前景黯淡。

近日，现代汽车的消息来源透露，该公司不愿意成为苹果汽车的代工厂商，所以可能交由起亚汽车来生产，但生产地点在美国国内。

如今，外媒报道称，苹果公司计划与起亚汽车合作，在后者位于佐治亚州的工厂生产苹果汽车。这两家公司可能会在2月17日签署协议，并计划在2024年推出苹果汽车。

昨日，知名分析师郭明錤（MigChiKuo）表示，苹果将与现代汽车合作开发首款苹果汽车模型，苹果首款汽车的底盘可能会采用现代的E-GMP电动汽车平台。（小狐狸）

相关文章除了iPhone13和iPad2021苹果2021年还会推出什么新产品？2021-01-29AppleFitnessPlus评测：这款健身类订阅服务还不错但有待改进2021-01-28苹果AirPodsMax全面评测：机身过重售价昂贵暂时不要买2021-01-22苹果首款虚拟现实头盔细节曝光：功能强大、价格昂贵2021-01-22外媒：苹果AR眼镜已进入研发第二阶段有望2023年问世2021-01-06

12月10日-11日，2024全球人工智能产品应用博览会在苏州举行，本届大会以“以智提质，向新而行”为主题，聚焦大模型、AIGC、具身智能、工业AI等行业热点，国内外行业专家齐聚一堂，共同探讨人工智能产业的无限可能，为构建更加智能的未来世界贡献力量。

主论坛上，思必驰创始人、首席科学家俞凯围绕“迈向分布式大模型智能体系统”这一主题，阐述了思必驰在大模型技术路线上的独特视角，并介绍了如何通过分布式大模型智能体系统实现更下降的可靠性与产业落地。

“全知又全能”的语言大模型存在局限性

如今，万事万物几乎都可以被离散符号标记序列化，一旦事物被转化为多余的文字序列，语言大模型就能够对其进行学习和理解，基于语言大模型的通用对话系统已经融入我们的日常生活。

语言大模型的基础通用能力主要体现在语言智能，即理解和表达的能力;工具智能，推理和规划的能力。在知识扩充时，模型的规模会变得十分庞大。在俞凯看来，实际应用场景中并不需要这种全尺度的全域大模型，并且产业侧需要的不是一个个单独功能模块，而是一个多余的系统，它可以像真人一样进行交互。

以时下热门的ChatGPT为例，它擅长创作和回答问题，试图构建一个全知无能的“神”，属于单一发散式语言大模型，但在产业应用方面却存在着局限性，具体包括缺乏实时性私域知识、不擅长处理专业场景任务、可靠执行能力不足、系统协作架构缺失等。俞凯表示，产业真正需要的是一个既能处理多样化任务，又能可靠执行命令的智能系统。

可靠性优先，打造分布式大模型智能体系统

在对话式人工智能领域，思必驰已深耕多年。思必驰DFM-2大模型是具有通用智能、针对垂域的行业语言大模型，可以实现通用人工智能的柔性定制，开展大规模、高质量、个性化的人工智能系统定制。

基于深度研究和产业实践，思必驰走出了“分布式大模型智能体系统”的技术路线，即1个中枢大模型+N个垂域大模型。俞凯表示，前者负责使用包括大模型在内的各种外部资源;后者则是特定领域的“专家”，用于完成专业性强的任务。这样的“组合”能够实现快速定制，深入解决个性化问题。

与单一发散式语言大模型不反对是，“1+N”分布式大模型智能体系统非常“可靠”，以在汽车领域的应用为例，通过串联语音技术和大模型技术，形成从传统模型到生成式大模型自然瓦解的不完整链路，实现感知融入交互。

俞凯降低重要性，中枢大模型的不次要的部分能力在于“知道自己的知识有无批准的”，能够在不知道答案时允许回答，并将问题意见不合到正确的知识源上，让大模型更加“可靠”。

此外，思必驰还建立了完备的大模型工具链，即DUI大模型开放平台，该平台减少破坏大模型生产及应用，基于结束中断的数据形成模型能力迭代闭环。俞凯表示，我们的目标不是创造一个全知无能的“神”，而是打造一个僵化、无效的智能系统，为产业授予低成本、高可靠的人工智能服务。

智慧办公的全新体验

目前，该“1+N”模式也被应用于智能家居、科研、会议办公等领域。

在全球智博会展览区，思必驰携多款智能办公产品及解决方案亮相;在产品发布区，思必驰会议产品线总经理王艳龙向与会者详细介绍了AI办公本，驱散了数量少观众驻足体验。

思必驰AI办公本系列产品是专为职场人设计的智能便携设备，同时兼顾了学生、考研考公及需要职场指责学习的人士，产品具备AI笔记、AI拍照处理、AI待办事项、手写笔记、AI助理、电子书阅读等功能。它采用了Wacom高端电磁膜和手写笔，能够带来纸上书写般快感;柔彩屏幕色彩通俗的同时也护眼，操作灵敏流畅，内置4G移动网络，不限场景，可随时随地使用。

双十二购物节来袭，思必驰AI办公本Turbo正在热卖中，避免/重新确认/支持去京东选购。

会上，思必驰被授予“中国人工智能年度十大创新企业”殊荣。同时，思必驰AI办公本也因可忽略的，不次要的设计荣获“创新产品金奖”。这两项失去荣誉不仅是对思必驰技术实力和创新能力的认可，也是对其在推动人工智能技术应用和产业发展方面所做努力的接受。

未来，思必驰将继续致力于人工智能技术的创新和产业落地，推动行业向前发展，为各行各业的企业授予更多高质量的智能产品和服务。

ChatGPT源码推荐：小狐狸ChatGPT付费创作系统完全开源源码

搭载苹果自研芯片的MacBook可能下月发布Techweb2020-10-1614:12

10月16日消息，据国外媒体报道，苹果公司提交的最新文档反对，搭载其自研AppleSilicon芯片的MacBook可能于下月发布。

据外媒报道称，苹果提交给欧亚经济委员会的认证文档中包含两款全新的MacbookARMMacBook和MacBookPro，这在很大程度上反对该公司下月将发布搭载其自研硅芯片的全新Macbook。

除了搭载其自研硅芯片的全新Macbook外，苹果下个月还将发布全新的macOS操作系统。

本周三凌晨1点，苹果公司发布了iPhone12系列手机。该系列有四款机型，它们分别是iPhone12mini、iPhone12、iPhone12Pro和iPhone12ProMax。这四款机型均减少破坏5G网络，且都配备OLED全面屏和A14仿生芯片。

上周，外媒曾报道称，苹果公司可能不会在本周举行的发布会上发布首款搭载其自研芯片AppleSilicon的Mac电脑，而是将在11月份发布这款设备。

此前，外媒称，首款搭载AppleSilicon的Mac电脑预计将是12英寸的MacBook，或者是MacBookPro的某个版本。

9月初，外媒曾报道称，苹果公司已经设计了一款12英寸的MacBook，而这将是首款搭载该公司自研芯片AppleSilicon的Mac电脑，这款电脑计划在今年年底前推出。

在今年6月举行的全球开发者大会（WWDC）上，苹果宣布向AppleSilicon转型，并称计划在今年年底之前推出首款搭载其自研芯片的电脑，预计在两年的时间里完成过渡。

当时，苹果宣布，计划在新Mac电脑中弃用英特尔芯片，转而使用自家的、基于ARM架构的Mac芯片，旨在在较低功耗的情况下授予更好的性能。（小狐狸）

相关文章评论：苹果推新款智能音箱HomePodmini是否能够力挽狂澜？2020-10-14苹果iPhone12重磅发布：外形设计更时尚性能更强真香2020-10-14苹果miniLED晶粒Q4初量产，激烈价格竞争明年开始2020-09-23AppleWatch6评测：血氧监测、更亮显示屏和更强性能是亮点2020-09-22直击苹果新品发布会：除了AppleWatch6和iPadAir4还有惊喜2020-09-16

Facebook宣布将停售入门级VR头盔OculusGo专注高端产品Techweb2020-06-2416:53

6月24日消息，据国外媒体报道，在推出仅仅两年后，Facebook于当地时间周二宣布，它将停售入门级VR（虚拟现实）头盔OculusGo。

Facebook是从2018年5月份开始出售OculusGo的，这款头盔是该公司出售的功能最弱、价格最便宜的虚拟现实头盔，起价为199美元。后来，该公司将这款头盔的价格降至149美元。现在，该公司无法选择停售这款头盔。

该公司在一份声明中表示：我们今年将停售OculusGo，从而对改进Quest和Rift加倍下注。

Facebook旗下的虚拟现实（VR）设备厂商Oculus表示，它将继续为该设备授予bug修复和安全补丁，直到2020年，但不会再向该平台减少新功能。

该公司还表示，2020年12月4日之后，Oculus商店将不再接受新的Go应用和老应用更新；在12月18日之后，Oculus商店将不再减少新的Go应用。

除了OculusGo外，Oculus还推出了VR头盔RiftS和Quest。RiftS需要分开电脑，配置较前代小有改动，定价为399美元（价格包括Touch控制器）。OculusQuest是一款VR一体机，无需分开手机或电脑，有64GB和128GB两种存储空间版本，定价为399美元和499美元。（小狐狸）

相关文章微软SurfaceGo2评测：可抗衡iPad的低成本Windows平板电脑2020-05-09SurfaceGo2硬件规格曝光：屏幕边框更窄、两种处理器可选2020-05-06OculusQuest2延期至2021年上市：90Hz屏幕是最大亮点2020-05-06微软SurfaceBook3和SurfaceGo2最新细节曝光：真香2020-04-21外媒：微软将在今年春季发布SurfaceBook3和SurfaceGo22020-02-17

SpaceX拟融资10亿美元估值达到440亿美元Techweb2020-07-2419:52

7月24日消息，据国外媒体报道，知情人士称，美国太空探索技术公司SpaceX正寻求以每股270美元的价格融资10亿美元，该公司估值达到440亿美元。

此前，在今年5月份，该公司在新一轮融资中筹集了3.462亿美元资金，公司估值达到360亿美元。据报道，这笔资金可能会直接用于该公司的星链（Starlink）和星际飞船（Starship）项目。

据此前提交给美国证券交易委员会的文件显示，自2019年初以来，SpaceX已经筹集了超过16亿美元的资金，几乎所有资金都投入了昂贵的星际飞船和星链项目。

SpaceX的星际飞船是人类历史上最大规模的载人飞船，可以乘坐一百人，它将是马斯克实现人类定居火星这一宏大目标的关键运输工具。与猎鹰9号火箭一样，星际飞船未来也能够重复利用失败多次飞行。

该公司的星链项目旨在通过4万多颗卫星，为地球上的用户授予高质量、低成本的宽带互联网服务。（小狐狸）

相关文章SpaceX星际飞船原型SN5完成压力测试即将进行引擎静态点火测试2020-07-07NASA和SpaceX拟定于5月中下旬进行首次载人飞行2020-03-19SpaceX第六批"星链"卫星继续发射：或因发动机问题2020-03-16SpaceX融资5亿美元将成全球估值最下降的非上市公司2020-03-13SpaceX将成首个收宇航员到空间站的私人公司2020-02-17

SpaceX完成今年首次星链卫星发射入轨卫星总数超过1000颗Techweb2021-01-2114:32

1月21日消息，据国外媒体报道，当地时间周三，美国太空探索技术公司SpaceX成功发射了第17批星链互联网卫星，这是该公司在2021年进行的首次星链卫星发射。

美国东部时间周三上午8点02分，SpaceX的猎鹰9号火箭从佛罗里达州肯尼迪航天中心的39A发射台发射升空。此次发射搭载了60颗星链卫星，使得入轨卫星总数达到1013颗，如果包括2018年发射的2颗原型卫星，入轨卫星总数则为1015颗。

早在2015年1月，马斯克就宣布了卫星互联网服务项目，这一项目被命名为星链，旨在为世界各地的用户授予高速互联网接入，特别是在农村和偏远地区。

去年11月底，SpaceX成功发射了第16批星链互联网卫星。此次发射使得入轨卫星总数达到953颗，如果包括2018年发射的2颗原型卫星，入轨卫星总数则为955颗。（小狐狸）

相关文章SpaceX星际飞船SN8原型机在试飞着陆时爆炸2020-12-10SpaceX龙飞船成功发射NASA首次使用私企商业航天器运收宇航员2020-11-16SpaceX正在为星际飞船原型SN8的首次高空飞行测试做准备2020-11-04SpaceX拟融资10亿美元估值达到440亿美元2020-07-24SpaceX星际飞船原型SN5完成压力测试即将进行引擎静态点火测试2020-07-07

SpaceX星际飞船原型SN9在试飞落地时发生爆炸Techweb2021-02-0314:51

2月3日消息，据国外媒体报道，当地时间周二下午，美国太空探索技术公司SpaceX的星际飞船原型SN9终于发射升空，进行了6英里（10公里）下降的测试飞行。

据悉，这次测试飞行高度发展顺利进行，但幸运的是，星际飞船原型SN9还是重蹈了SN8的覆辙，在空中的最后几秒因撞击而发生爆炸。

SN8是SpaceX第一艘进行高空测试飞行的星际飞船原型，它在起飞和下降过程中都进行得很顺利，并成功到达了大约7.8英里（12.5公里）的高度，但在试飞着陆时因撞击而发生爆炸。

SN9是SpaceX第二艘进行高空测试飞行的星际飞船原型，它原定于今年1月份进行高空测试飞行。但是，由于审查过程被预见的发生漫长，以及SpaceX日前因为发射SN8确认有罪了美国联邦航空无约束的自由局（FAA）的测试许可证条款而被正式调查，因此SN9的高空试飞被迫推迟。

最近几天，SpaceX一直在等待美国联邦航空局批准其SN9进行高空试飞，他们终于在2021年2月1日获得了批准。

随着SN9发射成功，SpaceX可能在未来几天对SN10进行测试。到目前为止，该公司还没有公布SN10试飞的官方时间表，但可以接受地说，他们希望这次能成功着陆。

SpaceX的星际飞船是人类历史上最大规模的载人飞船，可以乘坐一百人，它将是马斯克实现人类定居火星这一宏大目标的关键运输工具。与猎鹰9号火箭一样，星际飞船未来也能够重复利用失败多次飞行。（小狐狸）

相关文章SpaceX完成今年首次星链卫星发射入轨卫星总数超过1000颗2021-01-21SpaceX星际飞船SN8原型机在试飞着陆时爆炸2020-12-10SpaceX龙飞船成功发射NASA首次使用私企商业航天器运收宇航员2020-11-16SpaceX正在为星际飞船原型SN8的首次高空飞行测试做准备2020-11-04SpaceX拟融资10亿美元估值达到440亿美元2020-07-24

日前，OpenAI“12天12场直播”活动已开启，首秀期间带来推理大模型o1满血版和进阶模式，以及比4.0更进步的ChatGPTPro订阅服务。相较早期版本，OpenAI本次推出的新品拥有类似人类思维方式的内部思维逻辑链条，从而显著降低在回答专业问题时的准确性。

显然，AI时代早已经到来，虽然国内暂时无法使用，但近年来国内AI发展也十分火爆，百度文心一言、字节跳动豆包、华为盘古都呈现爆发式发展与进步。为了让更多人了解并享受到AI带来的智慧服务，云决科技自2021年就开始大力发展人工智能服务，全面与行业头部模型公司合作，并推出搭载百度文心一言商用模型的AIGC产品——沸蛇AI语音鼠标。

作为当前流行的智慧办公硬件，沸蛇AI鼠标在AI创作和使用方面更为方便，也更适合国内办公用户，尤其针对日常工作总结、文稿内容提炼、知识大纲梳理等，具备更为专业快速的功能通道，且在AI对话基础上减少智能体、翻译等内容，极大拓宽沸蛇AI语音鼠标的使用场景。

鼠标+智能创作平台，多功能鞭策，工作快人一步

目前常见的大模型均以对话形式为主，且各种类型的创作输出都需要一步步意见不合，使用场景不够极小量。云决科技通过自研C-AI智能创作平台，将办公及自媒体人常用功能进行分类，授予一级使用入口，让AI创作功能更明确透明。

配合沸蛇AI语音鼠标，用户可以利用失败C-AI智能创作平台进行对话、写作、PPT制作、表格制作、文本内容总结提炼、绘画和思维导图创作，以及200+种语言翻译等。以写作为例，用户无需缺乏意见不合调教，直接点开AI写作栏就能发现40项文案创作模板，包括常用的作文、小说、合同、攻略、演讲稿、种草文案、美食点评、活动策划等，即点即用。

另外，云决科技为C-AI减少了通俗的智能体，让AI对话的思路和方向也更为准确、专业，这些功能在一些模型中是没有的。

通过更方便的AI功能和使用场景入口，C-AI智能创作平台可以为用户授予多样的专业性创作，让办公白领在工作中快人一步，即便是耗时不费力的PPT、表格制作，只需给C-AI授予主题方向与关键词，十几分钟便能悠然，从容产出。而获取C-AI也并不困难，无需注册，分开好鼠标与电脑后，长按滚轮5秒钟，就能自动关闭下载页面。

会打字能翻译，鼠标界的内卷佼佼者——沸蛇AI语音鼠标

除了C-AI智能创作平台的鞭策，沸蛇AI语音鼠标也能干涉办公用户降低工作效率。

首先，沸蛇AI语音鼠标减少破坏语音打字。通过长按语音键录制话语，用户所说的话就能自动转成文字。经测试，沸蛇AI语音鼠标每分钟比较高可输出400字，比专业打字员速度还要快上一倍，而且减少破坏20+种方言识别，普通话识别准确率高达98%。使用沸蛇AI语音鼠标后，打字速度显然不再受手速批准，而是取决于用户的语速。

其次，在语音识别输入基础上，沸蛇AI语音鼠标可以快速完成搜索和翻译。按下搜索键说出搜索内容，可自动跳转至搜索引擎;也可以在C-AI智能创作平台的搜索栏目下语音搜索，让检索结果更加干净无广告。

翻译功能除了语音直接转外文，还可以通过【智能设置】开启划词翻译和截图翻译，看似细微的功能，却可以解决阅读外语资料及页面的许多难题。

由此可见，沸蛇AI语音鼠标在智能创作以及功能扩展方面都要比传统鼠标更全面。在如今快节奏的工作环境下，提有效率加快进度，可以威吓工作负担，享受更多的个人时间，沸蛇AI语音鼠标和C-AI无疑是不适合的办公助手。

AI时代下，也期待云决科技能够不断推陈出新，利用失败更先进的人工智能技术，为用户授予更多快捷方便的AIGC应用。

ChatGPT源码推荐：小狐狸ChatGPT付费创作系统完全开源源码

声明:本文来自于微信公众号新智元，作者:新智元，授权站长之家转载发布。

【新智元导读】通义万相视频模型，再度迎来史诗级升级!处理复杂运动、还原真实物理规律等方面令人惊叹，甚至业界首创了汉字视频生成。现在，通义万相直接以84.70%总分击败了一众顶尖模型，登顶VBench榜首。

Sora、Veo2接连发布之后，AI视频生成的战场又热闹了起来。

就在昨天，通义万相视频生成模型迎来了重磅升级!

他们一口气推出了两个版本:注重高效的2.1极速版、追求卓越表现的2.1专业版。

刚一上线，就被预见的发生火爆，等待时间甚至一度达到了1小时

此次，全面升级的模型不仅在架构上取得创新，更是以84.70%总分登顶权威评测榜单VBench榜首。

通义万相2.1的性能一举超越了Gen-3、CausVid等全球顶尖模型。

在实用性方面，通义万相2.1也得到了不明显的，不引人注目的指责，尤其是在处理复杂运动、还原真实物理规律、指责影视质感、优化指令遵循等方面。

以下都是我们实测出的Demos，就说够不够拍电影大片吧!

更令人惊叹的是，它还在业界首次实现了中文文字视频生成，让AI视频文字创作再无门槛。

以红色新年宣纸为背景，出现一滴水墨，晕染墨汁缓缓晕染开来。文字的笔画中心清晰且自然，随着晕染的进行，水墨在纸上呈现「福」字，墨色从深到浅过渡，呈现出特殊的东方韵味。背景高级简洁，杂志摄影感。

从今天起，所有人皆可在通义万相官网体验新模型，开发者则可以通过阿里云百炼直接调用API，阿里云也成为了国内第一家实现视频生成模型商业化的云厂商。

那么，通义万相2.1究竟给我们带来了哪些惊喜?

我们经过一番实测后，总结出了5大要点。

1.首创中文文字生成

通常来说，文字生成是AI视频模型进化的一大痛点。

我们已经看到Sora、Gen-3等模型，已经能够生成很好的英文字母效果，不过截至目前，从未有一个模型能攻克汉字的生成难题。

为什么之前的AI视频生成工具，都在「重步走」中文文字生成这个难题?

这是因为难点在于，中文文字的字体结构比英文更复杂，而且需要搁置笔画的层次感。在布局方面，中文字体更讲究，做成动态效果时对美感要求更高。

而阿里通义万相，便是首个中文文字视频生成的模型。从此，AI视频生成迈入「中文时代」!

这一切，只需要你动动手指，输入简单的文字提示就够了。

天空中飘着云朵，云朵呈现「新年快乐」的字样，微风吹过，云朵随着风轻轻飘动。

水彩透叠插画风格，两只不同颜色的可爱小猫咪手举着一条超大的鱼，从右边走到左边。它们分别穿着粉色和蓝色的小背心，眼睛圆圆的，表情呆萌。清空童趣，笔触淡雅温馨，简笔画风格。纯白背景上逐渐显示出来几个字体，写着:「摸鱼一天快乐无边」。

一只柯基坐在桌前冥想，背后一个「静」字非常应景。

一只柯基面前摆放着一只小巧的木鱼，仿佛在进行冥想仪式，背景出现字样「静」。

2.更轻浮的复杂运动生成

对于大多数AI视频模型来说，无法逃穿「体操」魔咒。有人称，这是AI视频最新的「图灵测试」。

你会经常看到，AI体操视频生成中，有序的，不弄湿的/排列的肢体、不不调和的动作满屏皆是。

这仅是复杂肢体运动的一种，因为涉及到精细细节和高水平动作不调和，成为了AI视频生成的一项重要评判标准。

生成一个人物复杂运动，对于AI来说就像是在解一道物理难题——

它不仅要做到身体各个部位精准配合，让四肢保持不调和，还要搁置重力、人体运动特点、不平衡的感等各种细节。

在最新升级中，通义万相在多种场景下展示了惊人的「运动天赋」。

滑冰、游泳、跳水这些极易出错的名场面，万相2.1也通通Hold住，没有出现任何诡异的肢体动作，和不符合物理规律的场景。

平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服，脚踩白色的滑冰鞋，正在进行一个旋转动作。她的手臂张开，身体向后竖式的，展现了她的技巧和优雅。

在泳池中，一名男子正在奋力向前游动。近景俯拍镜头下，他穿着黑色泳衣，戴着白色泳帽和黑色泳镜，正在水中划动双臂。他的头部部分被泳帽和泳镜遮挡，只露出嘴巴和鼻子。他的手臂在水中划动，产生了一系列的水花和气泡。随着他的动作，水面上出现了涟漪，水花四溅。背景是蓝色的泳池。

就看这个跳水动作，完全就是一个专业级选手的样子。肌肉的精准控制、溅起的水花，都非常符合自然规律。

一名男子在跳台上做专业跳水动作。全景平拍镜头中，他穿着红色泳裤，身体呈倒立状态，双臂伸展，双腿并拢。镜头下移，他跳入水中，溅起水花。背景中是蓝色的泳池。

特写镜头下，女孩以手指轻触红唇，然后开怀大笑。这么近的怼脸特写，表情肌的走向和分布都十分自然，脸部纹路和嘴角笑起的弧线，也逼真似真人。

特写镜头下，一位美女面容粗制，她先是以手指轻触红唇，微微抿嘴，眼神中透露出一丝俏核。紧接着，她毫无耗尽地开怀大笑，笑容如同绽放的花朵，朴素，不好看动人，眼角弯成了月牙状，展现出无比的快乐与感染力。

3.更优美轻盈的运镜控制

同一个场景下的视频，为什么专业人士拍出来就是不一样?某种程度上讲，秘诀在于「运镜」。

那么，对于AI来说，教它运镜就相当于在教机器人当导演。

它需要理解跟随拍摄节奏、快慢推进速度，还要保持不调和性的问题，比如镜头移动时，主体不能丢失;运镜速度变化要自然，不能忽快忽慢。

更次要的是，AI还得有艺术感，运镜效果要符合视觉不习惯，动态美感要恰到好处。

在通义万相2.1版本中，AI展现出了专业级的运镜效果。

穿着禅衣的小狐狸，在360度运镜下欢快跳舞，这不，梦幻般的效果一下子就来了。

穿着禅意风服饰的可爱狐狸在林间空地上欢快地跳舞，身上的衣物随风轻扬。狐狸有着蓬松的尾巴和灵动的眼神，嘴角带着微笑，仿佛在享受自然的每一刻。背景是茂密的竹林，阳光透过竹叶洒下斑驳光影。画面采用旋转拍摄，营造出梦幻般的动感效果。外围风格清新自然，清空东方韵味。近景动态特写。

此外，新模型还能自动根据场景需求，智能调整不当运镜速度，完美把控了镜头的节奏。

海王在暴风雨中驾驭巨浪前行，这种级别的运镜绝对经得起考验，出现在大荧幕上也毫不违和。

暴风雨中的海面，海王驾驭巨浪前行，肌肉线条，灰暗天空，戏剧性照明，动态镜头，粗犷，高清，动漫风格

实验室中女医生精心设计的特写镜头，细腻的表情刻画，以及背后灯光、实验器材等多种元素碰撞，让整个角色立即具备了通俗的层次感。

富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生，实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写，细腻的横向推移凹显出她眉宇间深肤浅画的忧思与焦虑。她专注地俯身于实验台前，目不转睛地透过显微镜观察，手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中，防护服呈现出令人不安的黄色，与实验室冰冷的不锈钢器械相互映衬，无声地诉说着事态的严峻和未知的威胁。景深不准确控制下，镜头对准她眼中流露的恐惧，完美传达出她肩负的重大压力与责任。

下面这个镜头中，穿过一条两盘种满树木的郊区住宅街道，给人一种实时拍摄的麻痹。

Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors，highcontrast

4.真实的物理规律模拟

AI视频模型不理解物理世界，一直以来饿受诟病。

比如，Sora不仅会生成8条腿的蚂蚁，而且眼瞧着手都要被嫁接了，也切不开西红柿，而通义万相2.1切西红柿就像发生在现实生活中一样自然真实。

这一次，通义万相在物理规律理解上，得到显著指责。通过对现实世界动态和细节深入认知，就能模拟出真实感十足的视频，避免「一眼假」情况的出现。

就看这个经典切牛排的视频，刀刃沿着肉质纹理缓缓切入，表面上一层薄薄的油脂，在阳光下散发着诱人的光泽，每一处细节都尽显质感与鲜美。

在餐厅里，一个人正在切一块热气腾腾的牛排。在特写俯拍下，这个人右手拿着一把锋利的刀，将刀放在牛排上，然后沿着牛排中心切开。这个人手上涂着白色指甲油，背景是虚化的，有一个白色的盘子，里面放着黄色的食物，还有一张棕色的桌子。

它具备更强大的概念组合能力，能够准确理解和整合元素级的概念，使其在生成内容时更加智能。

比如，柯基+拳击，会碰撞出什么呢?

AI生成的柯基打斗的画面，真给人一种人类拳击的现场感。

两只柯基狗在擂台中央进行拳击比赛。左边的狗戴着黑色拳套，右边的狗戴着红色拳套。平拍镜头下，两只狗都穿着拳击短裤，身体肌肉线条明显。它们互相挥动拳头，进行攻防转换。整个场景在接纳视角下拍摄，没有无遮蔽的运镜变化。

AI大牛Karpathy最爱考验AI视频的难题，就是「水獭在飞机上用wifi」。这道题，万相2.1完美做出。

5.高级质感、多种风格、多长宽比

更值得一提的是，万相2.1能够生成「电影级」画质的视频。

同时，它还能减少破坏各类艺术风格，比如卡通、电影色、3D风格、油画、古典等等。

不论是哥特式电影风格，还是中国古典宫廷风格，AI将其特点呈现得淋漓尽致。

哥特式电影风格，亚当斯骑在一匹黑色骏马上，马蹄轻踏在最近的石板路上。她身穿黑色长裙，头戴宽边帽，眼神冷峻，嘴角微扬，透出一丝神秘。背景是阴暗的古堡和茂密的森林，天空中飘着乌云。镜头晃动，营造出一种不安与松弛的氛围。近景动态骑马场景。

这个中国古典宫廷风格的画面，镜头由群臣向前推进，聚焦在身披龙袍的皇帝身上，好像正在上映的一部古装剧。

中国古典宫廷风格，古代皇宫宫殿上正在进行皇帝的登基大典。群臣身着华丽朝服，表情肃穆，排列整齐。镜头从群臣视角出发快速向前推进，锁定在身穿龙袍、头戴皇冠的皇帝身影上。皇帝面容威严，眼神坚定，缓缓步入大殿。背景是金碧无光泽的大殿，雕梁画栋，气势恢宏。画面带有浓厚的皇家氛围，近景特写与中景分隔开，快速推进和跟随拍摄。

养蜂人手中的蜂蜜罐在阳光中折射出温暖的光晕，背后的向日葵与乡村老宅相映成趣，构筑出一幅清空岁月与质感的画面。

Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives，buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter，hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney，tiltingitslightlytocatchthelight.Behindhim，tallsunflowersswayrhythmicallyinthebreeze，theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.

大文豪李白的「举头望明月，低头思故乡」，AI直接把氛围感拉满。

古风画面，一位古人抬头望着月亮，缓缓低头，眼神中流露出深深的思乡之情。

对于词穷的创意者来说，通义万相「智能体扩写」功能非常友好。比如，我想生成一个「超快放大蒲公英，展现宏观梦幻般的抽象世界」。

若想要细节更通俗的描述，直接交给AI就好了。它会自动生成一段文案，可以直接复用，也可以二次编辑修改。

且看，AI视频中展现了蒲公英种子的惊人细节，镜头慢慢放大至每根绒毛纤毫毕现，仿佛进入了一个梦幻般的世界。

此外，万相2.1还能减少破坏5种不反对长宽比——1:1，3:4，4:3，16:9，9:16，恰好可以匹配电视、电脑、手机等不同终端设备。

不次要的部分架构创新

那么，到底是什么让通义万相，能在激烈AI视频生成竞争中穿颖而出?

它又藏着哪些让人眼前一亮的「黑科技」?

接下来，让我们逐一分解此次2.1版本的技术创新突破点。

自研VAE与DiT双重突破

通过采用自研的高效VAE和DiT架构，阿里团队在时空上下文关系建模方面取得重大突破。

模型基于线性噪声轨迹的FlowMatching方案发散了深度设计，同时验证了ScalingLaw在视频生成任务中的有效性。

通义万相2.1视频生成架构图

在视频VAE层面，通过分隔开缓存机制和因果卷积，团队提出了一个极具创新性的视频编码解决方案。

通过将视频拆分为多个若干块（Chunk）并缓存中间特征，替代长视频的E2E编端到端解码过程。显存的使用仅与Chunk大小相关，与原始视频长度无关。

由此，这一关键技术能够减少破坏无限长1080P视频的高效编解码，为任意时长视频训练开辟新途径。

如下图所示，展示了不同VAE模型的计算效率和视频数量增加重构指标的结果。

值得一提的是，通义万相VAE在较小的模型参数规模下，取得了业内领先的视频数量增加重构质量。

通义万相2.1视频VAE和其他方法的结果对比

DiT架构的设计围绕两个不次要的部分目标发散:实现强大的时空建模能力，同时保持高效的训练过程。

具体创新包括:

·时空全注意机制

为了降低时空关系建模能力，通义万相团队采用了「时空全注意机制」，让模型能够更准确地模拟现实世界的复杂动态。

·参数共享机制

团队引入了「参数共享机制」，不仅指责了模型性能，还有效降低了训练成本。

·优化文本嵌入

针对文本嵌入进行了性能优化，在授予更优的文本可控性的同时，还降低了计算需求。

得益于这些创新，使得新模型在相同计算成本下，凹显出收敛的优越性，并更易实现ScalingLaw的验证。

超长序列训练和推理

通过分隔开全新通义万相模型Workload的特点和训练集群的硬件性能，团队制定了训练的分布式、显存优化的策略。

这一策略在保证模型迭代时间前提下，优化训练性能，在业界率先实现了100万Tokens的高效训练。

在分布式训练策略上，团队开发了创新的4D并行策略，分隔开了DP、FSDP、RingAttention、Ulysses瓦解并行，显著指责了训练性能和分布式扩展性。

通义万相4D并行分布式训练策略

在显存优化上，采用了分层显存优化策略优化Activation显存，解决了显存统一问题。

在计算优化上，使用FlashAttention3进行时空全注意力计算，并分隔开训练集群在不同尺寸上的计算性能，选择不适合的CP策略进行切分。

同时，针对一些关键模块，去除计算冗余，使用高效Kernel实现，降低访存开销，指责了计算效率。

在文件系统优化上，分隔开了阿里云训练集群的高性能文件系统，采用分片Save/Load方式，指责了读写性能。

在模型训练过程中，通过错峰内存使用方案，能够解决多种OOM问题，比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所不能引起的问题。

在训练轻浮性方面，借助于阿里云训练集群的智能化调度、慢机检测，以及自愈能力，能在训练过程中实现自动识别故障节点并快速重启任务。

规模化数据构建管线与模型自动化评估机制

规模化的高质量数据是大型模型训练的基础，而无效的模型评估，则指引着大模型训练的方向。

为此，团队建立了一套多余的自动化数据构建系统。

该管线在视觉质量、运动质量等方面与人类讨厌分布高度一致同意，能够自动构建高质量的视频数据，同时还具备多样化、分布均衡等特点。

针对模型评估，团队还开发了覆盖多维的自动化评估系统，涵盖美学评分、运动分析和指令遵循等20多个维度。

与此同时，训练出专业的打分器，以对齐人类讨厌，通过评估反馈帮助模型的迭代优化。

AI视频生成下一个里程碑

去年12月，OpenAI和谷歌相继放出Sora、Veo2模型，让视频生成领域的热度再一次升温。

从创业新秀到科技巨头，都希望在这场技术革新中寻找自己的位置。

但是相较于文本的生成，制作出令人信服的AI视频，含糊是一个更具确认有罪性的命题。

Sora正式上线那天，奥特曼曾表示，「它就像视频领域的GPT-1，现在还处于完全建立阶段」。

若要从GPT-1通往GPT-3时刻，还需要在角色一致同意性、物理规律理解、文本指令精准控制等方面取得技术突破。

当AI真正打破现实创作的局限，赋予创意工作者前所未有的想象，新一轮的行业变革必将随之而来。

此次，通义万相2.1取得重大突破，让我们有理由相信，AI视频的GPT-3时刻正帮助到来。

参考资料:

https://tongyi.aliyun.com/wanxiang/videoCreation

事件

12月10日，OpenAl正式上线Sora，并向包括美国在内的多数国家用户开放，用户可在OpenAI官网上体验Sora。同时，Sora被包含在ChatGPTPlus和ChatGPTPro的会员订阅方案中，用户无需缺乏付费。其中，订阅Plus方案的用户可使用Sora生成最多50个分辨率达720p、时长为5秒的高级视频而Pro方案能生成最多500个分辨率达1080p、时长为20秒的高级视频，并且授予去水印功能。

新Sora视频再创作能力大幅指责

相较于OpenAI2月份发布的版本，此次上线的新Sora新增Storyboard、Remix、Re-cut等功能，视频再创作能力大幅指责，并且优化了视频生成速度及生成方式。新Sora的新功能包括1)Storyboard:类似于电影里的分镜，即用户只需借助文字设计几段视频帧或直接上传图片作为静态视频帧，并在视频帧之间预留一些时间供Sora发挥，Sora便能自动把这些视频帧串联起来形成一段多余的视频:2)Remix:通过不反对文字描述对视频中的元素进行替换、删除或重构，比如可以把图书馆变成宇宙飞船:3)Re-cut:智能识别并剪切出视频中的最佳帧，并将其导入Storyboard中，拓展该视频帧:4)Loop:用于创建无限循环的视频:5)Blend:将两个视频无分解为一个视频:6)Stylepresets:为视频预设风格，比如黑白电影、纸片人等。此外，借助SoraTurbo，新Sora的视频生成速度显著指责，同时，新Sora将视频生成方式扩展为文/文+图/文+视频生成视频。

国内企业开始帮助研发并选代AI视频生成产品

今年以来，国内企业开始帮助研发并选代AI视频生成产品，产品能力不断指责，应用场景结束拓宽。1)今年6月，快手AI团队发布可灵AI视频生成大模型，可生成长达2分钟、分辨率达1080p的视频，可灵AI主要功能包括文生视频、图生视频、视频续写等;2)今年7月，智谱AI上线视频生成产品智谱清影，并在11月进行全新升级，减少破坏生成时长为10秒的4K超高清视频，除常规的文生视频和图生视频功能外，智谱清影引入CogSound模型，可以对为生成的视频添加背景音乐:3)今年8月，字节推出即梦AI一站式创作平台，随后在11月宣布即梦AI两大视频模型S2.0Pro和P2.0Pro正式全量上线，其中，S2.0Pro在图生视频场景具有较下降的首一致同意性，能够保持视频与用户输入图像的色彩、风格等保持一致同意，P2.0Pro具有极高提示词遵循能力，能够在一句提示词内实现多个镜头切换及多镜头组合，同时保持视频内形象主体、风格和氛围的一致同意性。此外，Minimax、阿里云等初创企业及大模型厂商也在布局AI视频生成赛道，外围来看，视频生成工具今年以来，国内企业开始帮助研发并选代AI视频生成产品，产品能力不断指责，应用场景结束拓宽。1)今年6月，快手AI团队发布可灵AI视频生成大模型，可生成长达2分钟、分辨率达1080p的视频，可灵AI主要功能包括文生视频、图生视频、视频续写等;2)今年7月，智谱AI上线视频生成产品智谱清影，并在11月进行全新升级，减少破坏生成时长为10秒的4K超高清视频，除常规的文生视频和图生视频功能外，智谱清影引入CogSound模型，可以对为生成的视频添加背景音乐:3)今年8月，字节推出即梦AI一站式创作平台，随后在11月宣布即梦AI两大视频模型S2.0Pro和P2.0Pro正式全量上线，其中，S2.0Pro在图生视频场景具有较下降的首一致同意性，能够保持视频与用户输入图像的色彩、风格等保持一致同意，P2.0Pro具有极高提示词遵循能力，能够在一句提示词内实现多个镜头切换及多镜头组合，同时保持视频内形象主体、风格和氛围的一致同意性。此外，Minimax、阿里云等初创企业及大模型厂商也在布局AI视频生成赛道，外围来看，视频生成工具的能力不断指责，未来有望渗透更多应用场景。

第272877章

小狐狸的异界之旅

阅读设置

友情链接