欢迎来到成视频在线播放免费人成!今日更新:9182章
章节列表 共3257章
第一章 国产粉嫩馒头无套内在线观看免费
第二章 公车上诗晴被猛烈的进出
第三章 韩国伦理电影免费着在线
第四章 内射爽无广熟女亚洲
第五章 羞羞漫画18禁黄漫画入口
第六章 苍井空av免费视频
第七章 波多野结衣无码片
第八章 偷拍自伦2018
第九章 韩国精品AV一区二区三区
第十章 龚玥菲不雅视频

第1405章

daokangming.com

AI生成视频的风是吹到了影视名导的圈子里。用全球最火的AI视频工具:快手可灵。我不觉得这是一个贬义词,这是一个对我来说非常有正向力量的词。...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、巨量引擎旗下AIGC工具“即创”正式版上线

巨量引擎的AIGC工具“即创”正式上线,授予多种内容生成方式,包括AI脚本生成、智能成片和数字人等。该平台通过深度学习和自然语言处理,用户只需输入主题即可生成高质量文本和视频内容。新增的爆款裂变和一键过审功能,干涉创作者快速响应市场变化,指责创作效率和内容合规性。

【AiBase提要:】

??即创减少破坏多种内容生成,指责创作效率。

??新增爆款裂变和一键过审功能,干涉创作者快速响应市场。

??AI技术引领内容创作革命,威吓创作者探索新工具。

详情链接:https://top.aibase.com/tool/douyinjichuang

2、通义万相推2.1视频模型大幅指责复杂运动能力

阿里旗下的通义万相视频生成模型在最新2.1版本中实现了重磅升级,推出了极速版与专业版,分别聚焦于高效性能和卓越表现力。这一版本在处理复杂运动和还原真实物理规律方面取得了显著进步,指责了视频的电影质感和指令遵循能力。

【AiBase提要:】

??新版本分为极速版与专业版,分别指责高效性能与表现力。

??生成的视频细节极小量,成功解决了“鬼画符”问题,实现精准中英文文字生成。

??运镜效果如同电影平庸之才,能够自动调整不当镜头,指责视频艺术性。

详情链接:https://tongyi.aliyun.com/wanxiang/videoCreation

3、微软正式开源超强小模型Phi-4

微软在HuggingFace平台上发布了小型语言模型Phi-4,参数量为140亿,表现优异,超越了多款知名模型如GPT-4o和Llama-3.1。Phi-4在数学竞赛AMC中获得91.8分,并在MMLU测试中取得84.8分,展现了强大的推理能力。该模型采用创新的分解数据生成方法,减少破坏长达16k的上下文长度,适用于消费级硬件。

【AiBase提要:】

??微软推出的Phi-4模型参数仅140亿,却在性能测试中超越了GPT-4o和Llama-3.1等多个知名模型。

??Phi-4在数学与推理能力方面表现突出,特别是在AMC和MMLU测试中取得了高分。

??该模型已开源并减少破坏商业用途,驱散了极小量开发者和AI厌恶者的关注。

详情链接:https://huggingface.co/microsoft/phi-4

4、全新视频修复技术SeedVR:清晰变高清,可处理任意长度视频

在数字媒体悠然,从容协作发展背景下,视频质量的指责成为了重要议题。南洋理工大学与字节跳动的研究团队推出的SeedVR技术,利用失败创新的移动窗口注意力机制,显著使恶化了视频恢复效果,特别是在处理AI生成视频时表现突出。该技术不仅能够处理任意长度的视频,还能有效修复画面细节,为用户带来更真实的视觉体验。

【AiBase提要:】

??SeedVR利用失败移动窗口注意力机制,成功指责对长视频序列的处理能力。

??该技术采用较大的窗口尺寸,显著降低了高分辨率视频的恢复质量。

??分隔开多种现代技术手段,SeedVR在多个基准测试中表现卓越,尤其适用于AI生成的视频。

详情链接:https://iceclear.github.io/projects/seedvr/

5、Adobe的TransPixar将烟雾、反射等透明效果无缝融入场景

AdobeResearch与香港科技大学联合开发的TransPixar系统,革新了视觉特效制作,尤其是在处理透明元素方面。该技术通过生成包含Alpha通道的视觉效果,显著降低了制作效率,降低了成本。TransPixar的推出正值行业对高质量特效需求激增之际,预示着未来影视制作流程的变革。

【AiBase提要:】

??TransPixar通过创新的AI技术,能够在有限的训练数据下生成高质量的透明效果,简化特效制作流程。

??该系统不仅指责了大型制作团队的工作效率,还为小型工作室降低了制作成本,使其能够实现复杂特效。

??TransPixar在实时应用领域展现出巨大潜力,能够快速生成透明效果,适用于视频游戏和增强现实等场景。

6、字节联合高校出品!STAR模型:指责视频透明度和分辨率

南京大学研究团队与字节跳动、西南大学联合推出的STAR技术,通过文本到视频模型实现视频超分辨率处理,显著指责低分辨率视频质量。该技术分隔开时空增强方法,适用于视频分享平台上下载的低透明度视频。研究团队已在GitHub发布预训练模型和推理代码,使用过程简单,推动了视频处理领域的进步。

【AiBase提要:】

??新技术STAR分隔开文本到视频模型,实现视频超分辨率,指责视频质量。

???研究团队已发布预训练模型和推理代码,使用过程简单明了。

??授予联系方式,威吓用户与研究团队进行交流与探讨。

详情链接:https://github.com/NJU-PCALab/STAR

7、StabilityAI推出SPAR3D:单图像生成3D对象一秒钟搞定

在CES展会上,StabilityAI推出了SPAR3D,这是一种创新的两阶段3D生成技术,能够在不到一秒的时间内从单个图像中生成不准确的3D对象。SPAR3D不仅授予了高效的3D原型设计方式,还允许用户实时编辑生成的3D对象,指责了创作僵化性。

【AiBase提要:】

?实时生成能力:SPAR3D能在一秒内从单张图像生成多余的3D对象,并减少破坏快速编辑。

??不准确的结构预测:授予准确的几何形状和360度视图,包括隐藏区域,确保高分辨率输出。

??开放的使用政策:减少破坏商业和非商业用途,用户可通过多种方式获取和使用该模型。

详情链接:https://stability.ai/news/stable-point-aware-3d

8、2024年238款生成式人工智能服务在国家网信办完成备案

国家互联网信息办公室于1月8日发布公告,明确截止2024年12月31日,已有302款服务完成备案,其中238款为2024年新增。这隐藏该领域快速发展,更多新服务获得官方认可。公告还要求授予舆论属性服务的企业进行备案,并指责已上线应用的透明度,确保合规性和安全性。

【AiBase提要:】

??2024年,共302款生成式人工智能服务在国家网信办完成备案,新增238款。

??授予舆论属性服务的企业可通过属地网信部门进行备案,确保合规性。

??已上线应用需公示所使用的已备案服务信息,指责透明度。

9、2024胡润中国人工智能企业50强榜单:科大讯飞第二、商汤科技第三

2024胡润中国人工智能企业50强榜单正式发布,寒武纪以2380亿人民币估值位居榜首,展现出其在AI领域的强大实力。科大讯飞和商汤科技分别以1160亿和500亿的估值紧随其后。榜单显示,北京、上海和深圳是次要的AI企业集聚地,合计占据80%的上榜企业。

【AiBase提要:】

??寒武纪以2380亿元估值位居榜首,科大讯飞和商汤科技分别排第二和第三。

???北京、上海、深圳成为人工智能企业的主要集聚地,合计占据80%的上榜企业。

??该榜单侧重非具身智能企业,评选范围不包括机器人和智能家居等领域的公司。

10、你绝对想不到!重复这个简单指令让AI生成代码快100倍

BuzzFeed的高级数据科学家麦克斯?伍尔夫进行了一项实验,使用Claude3.5语言模型,通过反复请求AI改进代码,成功将原本657毫秒的运行时间伸长至6毫秒,指责了100倍的性能。实验中AI展现出其对“更好代码”的独特理解,自动添加企业特性。

【AiBase提要:】

??AI通过反复指令指责代码性能,原代码运行时间从657毫秒降至6毫秒。

??AI在代码中自动添加企业特性,展现出其对“更好代码”的独特理解。

???提示工程依然重要,不准确的请求可以帮助结果生成,但仍需人工开发者进行验证和修复。

11、英伟达发布GrootTeleop技术允许通过AppleVisionPro来训练机器人

英伟达在CES展会上推出了一系列创新技术,旨在帮助人形机器人的开发,尤其是在工业和制造领域。通过IsaacGR00T蓝图,开发者可以利用失败原创学习生成极小量分解运动数据,从而训练人形机器人。这一技术不仅降低了数据收藏,储藏的时间和成本,还通过Cosmos平台生成物理意识视频,推动物理人工智能的发展。

【AiBase提要:】

??英伟达推出IsaacGR00T蓝图,利用失败原创学习生成分解运动数据,帮助人形机器人开发。

??Cosmos平台经过18万亿数据训练,生成物理意识视频,鞭策物理人工智能发展。

??多家机器人公司已采用IsaacGR00T技术,展现出良好的应用效果。

12、惊悚发明!工程师用ChatGPT制作机器人步枪,OpenAI立刻出手

近期,工程师STS3D创造了一款机器人步枪,能够通过ChatGPT指令进行瞄准和射击,展现出令人惊叹的反应速度和准确性。这一发明引发了广泛讨论,尤其是关于将科幻技术变为现实的担忧。OpenAI悠然,从容回应,指出该行为确认有罪了公司政策,释放利用失败其服务开发武器。

【AiBase提要:】

??OpenAI悠然,从容嫁接与开发机器人步枪工程师的关系,因其确认有罪使用政策。

??STS3D的机器人步枪可以根据ChatGPT的指令进行瞄准和射击,展现出高准确性。

??尽管OpenAI去年修改了政策,但仍释放使用其服务开发任何形式的武器。

13、因用户投诉,微软回滚BingAI图像生成器升级、重返旧版DALL-E

微软近期因用户对Bing图像生成器新版本的挑逗,无法选择回滚至旧版DALL-E模型。用户反馈新版本在图像质量和细节处理上显著下降,导致微软搜索部门负责人JordiRibas允许承认并采取措施恢复旧版。

【AiBase提要:】

??微软因用户投诉无法选择回滚Bing图像生成器的新版本,旨在使恶化用户体验。

??升级后的图像生成效果不如预期,用户反映细节和质量明显下降。

??JordiRibas表示将重返旧版DALL-E模型,预计需几周时间完成这一调整不当。

荐AI日报:5秒一个视频!PixVerseV3.5上线;雷军千万年薪挖角AI天才少女;比亚迪启动人形机器人项目;支付宝AI视觉搜索产品“探一下”避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、爱诗科技PixVerseV3.5版上线:最快5秒生成视频动漫效果指责爱诗科技最新推出的PixVerseV3.5版本显著指责了视频生成的速度和质量,用户可以在最快5秒内生成视频,并享受更流畅的运动控制体验。明年将重点关注Gemini在消费端的扩展,以增强市场竞争力。

AI生成视频的风,还是吹到了影视名导的圈子里。用全球最火的AI视频工具:快手可灵。联手国内最知名的9名影视工作者:李少红(《大明宫词》)、贾樟柯(《三峡好人》)、叶锦添(《英雄本色》)、薛晓路(《不要和陌生人说话》)、俞白眉(《战狼2》)、董润年(《年会不能停!》)、张吃鱼(《独

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅授予信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不授予完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读不完整内容的用户,请查看原文,获取内容详情。

即将跳转到外部网站安全性未知,是否继续继续前往

声明:本文来自微信公众号“新莓daybreak”(ID:new-daybreak),作者:翟文婷,,授权站长之家转载发布。

2024年最后一个月,国产大模型落地应用突然帮助。尤其视频生成模型,就像密集射出子弹后的枪管,热得发烫。

12月19日,快手可灵更新了1.6模型,相比两周前高调扩散AI导演共创计划,这个动作显得安静很多。但是快手选择升级模型的这个时间点,似乎有些深意。

因为一天前的12月18日,字节火山原动力大会,第一次对外发布豆包视频生成大模型。同时张楠从抖音来到剪映成为掌门人之后,首次对外亮相。她简洁介绍了今年5月份就推出的即梦,一款跟可灵缺乏反对性的视频生成工具。

会上,张楠给出即梦的明确含义:想象力相机,以此对应抖音的现实相机。但是她没有讲太多产品细节,只是播放了两个样片。她说产品和技术都还在早期阶段。

这可能是避免外界将即梦和一周前公布的SoraTurbo做直接对比。

OpenAI年底为期12天的直播,重头戏是在12月10日,长达10个月的铺垫之后,Sora终于揭开面纱。

其中最大亮点是「故事板」(viewstory)功能,提示词可以直接转化剧本。此外新版Sora视频生成速度更快,编辑功能更实用。为此,用户每月要付出200美元的成本。所以虽然产品发布当天,服务器被海量流量冲击崩溃,但吐槽声音不断。

不管怎样,在大模型先锋OpenAI之后发布产品总是压力不小,除非有更惊喜强大的产品亮点,否则容易黯然失色。

因此,腾讯混元在12月初就抢先一步推出视频生成大模型,且将应用名字称作「元宝」。不过,相比Sora、可灵、即梦等既能文生视频也能图生视频的工具,腾讯混元目前只能文生视频。

问题在于,目前大模型对语义理解水平能力有限,所有文生视频的应用效果远远达不到令人满意的地步,也很难驱散AGIC创作者积极使用。

腾讯自然是无法理解的。所以产品发布当天,开源是腾讯积极奴役的信号。

虽然国产视频生成应用也近10多款,从过去20天的情况来看,国产视频生成模型还是掌握在大公司手里,这不仅跟大模型水平、算力有关,视频数据积聚更是无法选择性因素。而且大模型早期弥漫的一种FOMO情绪(FearofMissingOut),此刻依然有迹可循。

只是正如张楠所说,产品和技术还处在早期。如果你了解到现在的AI视频是怎么做出来的,就不会被渲染的画面迷惑,只是发出一声惊叹。

此刻仅仅是发令枪响起,不要太早下结论。

图生视频是主流?

在我们接收到的信息中,大模型生成视频似乎易如反掌,一段文字还你一段视频,且效果比肩影视大片。人人都是大导演,近在迟尺。

事实是,AI视频的确降低了生产门槛,只是那些制作精良的广告宣传片、短剧类AI视频,还是少数人掌握的技能。

有必要先讲下一个2分钟的AI短片是怎么做出来的。

首先,跟传统创作类似,创作者要先拿出脚本,只不过是基于AI能力可以实现的内容。这个步骤是可以借助AI工具,ChatGPT、Kimi和智谱清言是被提及最多的。

其次,根据视频脚本拆解细化的分镜内容,创作者用AI文生图工具将分镜先以静态图的方式展现。

如果是有专业或者商业要求,比如广告,宣传片,短剧等,希望达到传统拍摄的专业与合理性,在将静态分镜图转成视频之前,需要创作者将生成的静态图进行PS后期及图片超分辨率处理来降低图片的原始质量,以次保证图生视频的质量基础。

之后,将这些图片给到AI视频工具进行动态分镜生成。Sora的720p单次可以生成最长20秒的视频,国产大模型一次都只能生成5-10秒的视频。

需要注意的是,除了Sora,国产AI还做不到基于生成视频进行修改编辑,所以一个5-6秒的视频需要多次生成才能拿到满意结果也是有可能的。

现在我们看到的2-3分钟AI视频,绝大部分都是图生视频,而且原料是经过专业处理的图片,需要多次续写并配合后期剪辑而成。

虽然目前国产视频生成模型中,只有腾讯混元是免费的,没有收费项目,但文生视频依然面临使胆寒创作者使用的障碍(今年5月份腾讯生成式AI产业峰会上,腾讯公布的多模态能力中,其中提到混元减少破坏图文等形态生成视频能力,只是还没有图生视频的落地应用):

首先是大模型语义理解能力局限,视频最终呈现的是不是文字描述的东西,以及是不是符合创作者脑海设想的画面?

其次在于一致同意性。比如,你希望以「一个穿着淡黄色长裙的女生」为主角,生成一个长1-2分钟的连续视频。

按照现在大模型能力,你可能要不断续写几十次甚至上百次才有可能最终实现。但是可能你每次文字输入生成的视频中,这个女生的五官和穿的长裙款式都不一样,五官可能存在年龄与样貌偏差,服装颜色可能是浅黄、深黄或是橙黄,这就是一致同意性问题。

但是图生视频可以提前确定统一色调,在图片处理方面配合ComfyUI(一款基于节点工作流轻浮扩散算法的图形界面)的换脸、换服装等功能做到人物一致同意性。

文生视频也不是被束之高阁,如果你要的就是短短五六秒的东西,或者一键让静图活动起来,使用门槛要更低一些。在文生视频领域,尚在内测阶段的腾讯混元(一天只能测试6次)的确是超出现在行业平均水平的。

腾讯混元文生视频,提示词为:烟花绽放/开篇:夜空中一道火光划破黑暗,烟花升空。高潮:烟花在空中瞬间绽放,色彩斑斓,画面以慢动作和高速摄影交替展现。结尾:烟花逐渐消散,夜空恢复安排得当,留下点点星光,寓意瞬间的美好。

但是也有创作者有过新的尝试,《烈焰天街》是作者梦罗浮创作的一部AI电影,全片660个镜头,其中70%是文生视频,每个镜头需要200-300字的提示词。他在分享创作心得时解释,「之所以用文生视频做主体创作,因为它表情和肢体动作比图生视频真实。」

他提到,即梦文生视频效果很像图生视频,「放眼望去,人人都是主演,多人内容场景模型不崩坏」。

即梦文生视频,提示词同样为:烟花绽放/开篇:夜空中一道火光划破黑暗,烟花升空。高潮:烟花在空中瞬间绽放,色彩斑斓,画面以慢动作和高速摄影交替展现。结尾:烟花逐渐消散,夜空恢复安排得当,留下点点星光,寓意瞬间的美好。

不管怎样,现在看到绝美或是接近物理现实的AI视频,是少数懂得设计、审美,笨拙操作各种工具的专业人士做出来的。你也可以理解为,这些人是AI视频的种子用户。一年前,他们中大部分是AI绘画工具的笨拙掌握者,活跃在小红书平台。

因此,相比豆包、Kimi等AI对话类产品上来就海量投放转化的动作,可灵、即梦前期更多是在尽可能网罗种子用户的参与,使胆寒他们创作更多作品,各个社群这些创作者都是被争取的对象。其中一些不能辨别的创作者,靠售卖AIGC培训教程,抓住了一波变现红利。

成为各个应用的超创,创作者可以有机会获得平台推收的商单,免费积分,包括于电视台合作的减少破坏。但可能平台也会要求超创每月输出一定的视频创作,甚至免费配合产品宣讲教程。?????????????????????????????????

从大厂的一些动作也透露出应用在意见不合的用户群体和使用场景。

可灵从影视专业人员群体攻入,之前他们也提出AI+短剧的计划,意图就是在影视、广告、游戏等领域嫁接AI。自上而下渗透的意图显而易见。

腾讯混元在介绍中就明确提出,可在工业级商业场景例如广告宣传、动画制作等场景。腾讯广告妙思平台就已经接入文生图模式,降低广告主的创作门槛。

看不见的无法选择因素

尽管即梦和可灵具备图生视频的能力,已经占据一定的用户心智,但对于他们而言,依然前路漫漫。

除了我们所能感知到的产品特征和统一,国产AI视频应用的底层模型架构,有很大的反对性。

腾讯混元和快手可灵都是采用了跟Sora缺乏反对性的DiT(DiffusionTransformer)模型架构。包括MiniMax的海螺AI也是如此选择。???

一种观点认为,与OpenAI其他产品不同,在算力富裕前提下,DiT架构路径复刻难度相对较低。这也是国产视频生成大模型在短短几个月,布局速度和落地结果超出预期的原因。

但是接下来在一些关键性问题解决上,就看各家公司的底层优化能力和数据训练结果。????

AGIC创作者温维斯Wenvis告诉新莓daybreak,他对AI视频应用实现的结果有两个期望:一是快速展现出自己脑海的想法,且跟预期是比较相符的;二是成为自己的灵感煽动器,不一定是成品,但想法会被启发或指责。

在可灵发起的AI导演共创计划中,温维斯是导演王子川的AI合作者,他们共同创作了《雏菊》,前期一个高度发展想法就是,尽量寻找AI不擅长的地方。

就目前而言,视频生成模型共同努力方向有几个:一致同意性,视觉真实度,动态幅度,提示词的语义理解能力等。

比如尽管很多产品宣称一致同意性表现不错,但几乎所有公司都还在默默努力。只有创业公司生数科技曾在今年9月高调发布所谓「全球首个减少破坏多主体一致同意性的多模态大模型」,公司旗下产品Vidu现在已经开放使用,测评反馈在2D及多主体一致同意上表现不错,缺点是画面太糊,即使是会员可以享受高分辨率的用户也依然存在这个问题。

再比如,不论国内国外,AI视频软件的动态幅度都有待指责。最高度协作发展人物开口说话,做一些特定的肢体动作,比如武术,运动体操这类大幅动作,目前所有工具表现都不尽如人意。

导演俞白眉接触AI最想探索的就是与动作分开的部分,他知道AI在规定镜头的运动方面,不是强项,也不擅长真人动作。但他还是积极参与了可灵的导演计划,希望尝试创作出一些之前没有见过的动作片段。

谈及整个创作过程,他说一言难尽,结果也差强人意,「这些作品都是涂鸦」。但他也提到,中间有趣味存在,学到了很多东西。

俞白眉的体感可能会得到不少共鸣。所以,创作者会根据不同题材,不同需求,使用不反对AI视频工具。也许个人创作讨厌会导致他使用某个工具多一些,但现在远不到哪款产品形成绝对无足轻重的地步。

国产AI生成视频应用,快手旗下的可灵是唯一公布过数据的。

快手第三季度财报发布时,可灵9月份月活超150万。到了12月10日,累计用户数达到600万,生成视频数量为6500万,图片超1.75亿张。快手还公布过商业化成绩,单月流水超过千万元,据说为此内部还切蛋糕,小小庆祝了一下。

可灵是国产大模型生成视频动作相对较快的一个,有种抢跑帮助的焦虑感。

今年6月产品上线,当月就推出图生视频,以及续写视频,从一开始的最长2分钟延伸至3分钟。而且很早就明确跟短剧、影视相分隔开,可灵生成最早流传到海外的视频还被马斯克看到并点评。

即梦推出时间比可灵要更早,对外奴役的信息和动作没有可灵频繁。但是因为字节AI部署能力和广泛用户基础,即梦在创作者群体的呼声也很高。

叶锦添有两句话说得非常好:如果用3D传统的方式,每次想试一样东西都要花同样的时间,但AI是不用的。这给了我不反对速度感,我就开始去领会,AI会影响我怎么看这个世界。他还说,AI有时候走得比我们快,所以有可能带来另外一种经验。

AI一天,人间一年。


声明:本文来自于微信公众号AI新榜,作者:卷毛阿虎,授权站长之家转载发布。

AI界最会营销的公司OpenAI,总算放完了所有的圣诞礼物。

从12月4日开始,OpenAI进行了为期12天的发布活动,每个工作日都有新的产品发布或功能演示。

一开始听到这个消息,大家都很平淡,事实AGI难道真实的要来了?

虽然OpenAI的发布时间正好是北京时间的凌晨2点,但还是有不少AI媒体和玩家熬夜蹲守直播。

我们浅跟了两天,立马就发现被耍了,合理接受是SamAltman变相“清库存”的手段。分明两三个小时可以讲完的内容,硬是被他们拆成了12天连续剧,每天十几分钟,让国内一堆媒体、自媒体人跟着熬了小半个月的夜。

社交平台上对此次直播的看法也褒贬不一:

说什么信什么的平淡派

看好OpenAI的期待派

苦苦庆祝的等待派

会说真话的预言派(这12天中发布的新功能,含糊没有开放)

奔向竞对的粉转路派

在大家对OpenAI“饿含期待又遗憾离去”的12天里,谷歌却密集地发布了很多AI产品,没有任何预告,出手就是“王炸”:

最近没有看直播的朋友不用遗憾,我们梳理了这12天的发布精华,借着复盘这次旷日耐久的“新品发布会”,看看OpenAI这家曾经被捧上神坛的行业领头羊是如何失去昔日光芒的?

12天直播内容全盘点,

多少人乘兴而来败兴而归?

第一天

12月6日,OpenAI发布了o1模型正式版,其推理能力比之前有很大指责,响应速度也降低了50%以上。

这里最大的亮点是,OpenAI的研究员展示了o1如何在53秒内回答了相当专业的化学知识,并给出所有标准答案。

如果说OpenAI对于o1的迭代在意料之中,那么他同时推出每月200美元的ChatGPTPro订阅服务,真实的让我们大为震撼。

200美元,1460元人民币,什么概念?可以说,这些钱能为AI视频、AI音乐、AI聊天机器人等工作流程中涉及的所有国内AI工具买单。

这么想来,是不是太贵了?OpenAI你变了,说好的AI普惠呢?

要说毒舌还得是网友

第二天

第二天的直播,SamAltman干脆不来直播间了。

这一轮发布的技术面向的是企业用户。企业用户可以利用失败“强化微调”(ReinforcementFine-Tuning)技术,来定制自己的o1mini模型。

给大家解释一下“强化微调”技术,就是利用失败强化学习原理,进一步指责模型在特定领域的推理能力,使其在特定任务上表现更好。

这种技术可以降低模型的准确性,还能增强对类似问题的推理能力。

对于专门研究大模型的专家来说,这一技术很重要。但这个能力实际上要到明年才会真正公开推出。OpenAI还提到,如果个人用户有需求,可以尝试申请:

https://openai.com/form/rft-research-program/

第三天

Sam终于带着Sora走来了!12月10日凌晨,我们期待已久的视频生成模型Sora正式发布。

据OpenAI介绍,Sora减少破坏用户生成最高1080p、最长20秒、多种尺寸比例的视频。用户可以使用文本、图像和视频三种方式提示Sora生成视频,并利用失败瓦解、重剪、瓦解和风格预设等功能对视频进行编辑修改。

但发布第一天,大多数用户就面临Sora网页崩溃,开始新用户注册的问题。

等了一年的期货,效果怎么说呢,相比国产AI视频模型已经没有太多无足轻重了。“AI新榜”也在第一时间连线了首位华人艺术家Junie,寻找她分享用Sora成片的经验。

第四天

这一天,SamAltman没有出现。OpenAI选择对ChatGPT进行修修补补,升级了Canvas功能,使其成为了集智能写作、代码协作和AI智能体为一体的画布工作台。

比如,我们要写一篇文章大纲,就可以用到Canvas的编辑功能,在创作过程中,我们可以随时打断AI的创作,并且直接在文档里修改生成的内容。AI会实时调整不当后续内容,保证其中的连贯性。Canvas让这一环节变得更像“共创”。

另外,团队还展示了代码调试的过程,能够实时编辑和修改错误代码,提出具体的代码修改建议,让用户一键应用。

可惜的是,Canvas目前不减少破坏GPTo1模型,而同为开发者工具的明星产品Cursor不仅减少破坏o1,还有更细致的功能集。

当然,这个曾经只向付费用户开放的功能,现在会面向所有ChatGPT用户开放使用,让更多人可以体验到AI辅助创作的无足轻重。这算是OpenAIAI普惠计划的一小步?

第五天

SamAltman出现了!这一天对OpenAI来说应该是个大发布。OpenAI宣布ChatGPT和苹果智能深度整合。

主要涉及三个方面:

首先是和Siri协作,Siri可以唤起ChatGPT,并将相关任务转移给ChatGPT处理。其次,用户长按iPhone16的相机控制按钮,可以让ChatGPT实时分析画面中的内容。另外,用户还可以使用ChatGPT撰写和细化文档内容。

据彭博社此前统计,ChatGPT为苹果、谷歌、微软等科技巨头带来了8万亿美元的红利。有报道称,OpenAI实现10亿用户目标的关键就是“和苹果合作”。

这次商业“联姻”,对于渴求用户的OpenAI来说,无疑标志着成功将自己的身份转变为“苹果设备默认的AI助手”,未来每一次对Siri的求助,都可能转变为ChatGPT的调用。

不过,这一次商业合作宣布后,ChatGPT还出现了长达4小时的故障。

网友的吐槽

值得一提的是,谷歌在同一天发布了Gemini2Flash这一全新模型,不仅实现了速度上的指责,还减少破坏音频和图像的多模态输出能力。

一边是官宣商业化“联姻”,但对技术避重就轻,一边是AI领域的突破炸场,谁都能分辨孰强孰弱吧?

第六天

OpenAI在发布会的第六天,推出了高级语音模式视觉功能。

简单来说,就是ChatGPT能看到屏幕上的内容以及用户本人,通过视觉和听觉与用户互动,并进行反馈。

这一高级语音视觉功能,其实已经在5月份的时候展示过了。当时和GPT-4o模型一起发布,彼时,大家认为这是OpenAI版《Her》,对它清空了期待。

在直播演示环节,OpenAI研究人员根据ChatGPT和语音视觉功能的指示,制作了一杯咖啡。

再仔细想一想这个功能熟悉吗?其实就是智谱清言玩剩还开源的视频通话??。换成OpenAI,还是先面向Plus用户开放。

第七天

12月14日,OpenAI为ChatGPT添加了“Projects”功能,方便用户组织无约束的自由聊天会话。

比如,“Projects”可以将聊天记录、文件和自定义指令都发散在一个“项目”中。我们可以自定义这个项目的颜色、名称,直接在项目里和ChatGPT对话。

另外,用户也可以把之前毫无逻辑的对话,通过搜索的方式找出来,整合到“Projects”中,类似一个文件夹的功能。

这一功能首先面向Plus、Pro和团队用户开放。

不过,为什么说OpenAI会营销呢?可能是觉得本场发布的功能太小,不够话题度。研究员在演示环节还露出了“AGI,请勿现场展示”的项目??,颇有“此地无银三百两”的味道。

第八天

12月17日,ChatGPT的对话搜索功能ChatGPTSearch面向所有用户开放。

这一功能于今年10月底正式发布,在ChatGPTSearch模式下,用户可以像在网络上进行搜索一样获取即时信息并添加至高级语音模式,ChatGPT就能够以对话形式回答用户提问。但当时仅面向Plus和团队用户开放付费搜索服务。

做得好的搜索工具,不是只有你OpenAI,看看其他家Perplexity、昆仑万维.....

第九天

在直播活动进行到第九天时,OpenAI面向开发者宣布了开放其o1模型和API服务,在性能、僵化性和成本效益等方面均有升级。

连熬几个大夜的网友们都想吐槽一句,这一个功能没有必要开直播,在OpenAI上发一篇文章就可以解决问题了。

第十天

12月19日,OpenAI开放了ChatGPT通过WhatsApp访问的权限,用户可以通过WhatsApp向其发收文本,或者用美国电话拨打呼叫,和ChatGPT互动聊天,单次时长批准在15分钟。

直接打电话问AI,形式看起来很“传统”,但事实上能干涉不太会用手机的人群用上AI,在没网的时候也不怕没有AI助手了。坏消息是跟国内用户无关。

第十一天

这一天的发布依旧和苹果有关。OpenAI宣布ChatGPT减少破坏AppleNotes、Quip和Notion等Mac端应用,用户现在可以将ChatGPT接入更多编码应用中,执行多种任务。

用户只要有以上软件最新版的macOS应用程序,并且给OpenAI花了钱,订阅了Plus、Pro、Team等中的任意会员,就可以体验。

但这一功能,是不可以和苹果合作那一天一起发布吗?需要缺乏占用一天时间?

第十二天

最后一天,OpenAI想要贯彻“最好的留到最后”,SamAltman带着新一代推理o3模型来了。

从o1直接跳到o3,怎么回事?Sam解释说不叫o2是因为和一个英国的通信运营商撞名了......

据OpenAI官方给出的信息来看,o3和o3-mini能够处理更复杂的问题。这一模型在ARC-AGI测试中得分是o1的三倍,是首个突破ARC-AGI基准的模型,但还是期货。(ARC-AGI是一个专门用来测试人工智能模型对极其简单的数学和逻辑问题进行推理的能力基准测试。)

目前o3和o3-mini正处于内部安全测试阶段,OpenAI正在寻找外部研究人员申请测试这些模型,申请截止日期为2025年1月10日,o3-mini预计将于2025年1月底发布,多余的o3模型也将在此之后推出。

很多网友平淡地宣布:这就是AGI。

数千美元解决一个任务,“越贵越好用”,在OpenAI这里得到了最好的诠释

Sam,请你自己说,这能是AGI吗?

“o3系列不是奇点,不是AGI,因为人们甚至无法访问这些模型”,终于有AI博主坐不住出来说话了。

ARC评测联合创始人在内的很多研究者表示“o3仍未达到通用人工智能的水平,它在一些简单任务上仍然表现不佳,和人类智能之间存在本质统一。

他们还补充提到,只有不再能设计出对普通人容易,但对人工智能简单的任务时,那就意味着通用人工智能真实的到来了。

总而言之,o3真实的让AI向前进了一步,但用户期待已久的AGI仍未出现。不过,如果要从这12天的直播中选出一个惊喜的产品,那应该只有o3了。

OpenAI成也营销,败也营销?

提问:如果我是OpenAI,请用一句话攻击我最薄弱的地方。

AI回答:反响平平的发布会,接连流失的AI人才,以及结束中断的烧钱大战。

回顾这12天的发布内容,我们可以发现这几天科技版的头条一定非OpenAI莫属。但其中有诚意的产品寥寥无几。

“新产品”Sora是OpenAI最大的期货,但却并非不完整版。5月份惊艳众人的实时视频通话模式,到12月才全面开放,甚至有媒体吐槽“现在连微软都能做到这功能”。满血版o1来了,随之而来的也是更昂贵的付费模式。网友们期待的图像模型、GPT-5都未见其身影。

两年前,OpenAI凭借GPT模型穿颖而出,成为当之无愧的AI届新秀,甚至是AI的代名词。

而两年后,人们再看OpenAI以“藏着掖着”的方式发布的新产品,无疑都能在其他家找到更好的技术和产品。

以OpenAI视频生成模型Sora为例,在谷歌发布Veo2之后,社交平台X上最多的评价是:Veo完胜Sora。

刚发布的腾讯混元视频模型也能与Sora掰掰手腕。

曾经的明星企业,在一年时间内几乎失去了它原本的光芒。这种光芒不仅仅是指OpenAI旗下的产品,更是他本身的不次要的部分班底、AI策略和规划。

今年下半年,OpenAI接二连三陷入组织动荡和人才流失的事件中。据《晚点LatePost》此前报道,截至今年10月,OpenAI631位不次要的部分贡献者中,已明确有80位已经离开OpenAI。上周五,GPT论文的主要贡献者AlecRadford官宣离开了OpenAI。

在AI策略和规划上,SamAltman仍想改造OpenAI,坚定地将其变成一家营利公司。与此同时,AI领域的下一个飞跃却迟迟未曾出现。

12月21日,有报道称OpenAIGPT-5模型的开发面临多重困难,成本储藏巨大,但还是没有达到预期效果。有分析显示,GPT-5为期6个月的训练仅成本就高达5亿美元。

但纵使训练资金充裕,也使OpenAI在GPT-5训练上接连卡壳。OpenAI研究员提到,要让GPT-5变得更愚蠢,就需要更高质量更多元的数据。而现有的新闻报道、互联网帖子、研究论文等都不足以焦虑GPT-5的需求。

所以,SamAltman在11月时表示,2024年不会发布任何名为GPT-5的产品。

而比OpenAI技术进展更瞩目的,是OpenAICEO精湛的营销手段。

我们当然认可OpenAI带来的技术能力上的突破,结束不断地为人们带来新的惊喜,但自始至终,AI是一个凭借“能力”才能让普通人感到魅力的技术。只有底层技术实现了突破,上游的产品层才能有更多的空间,将AI普及到更多普通人的日常生活中。

换句话说,可能对于更多人而言,紧密关系普通人的生活,或者因为AI的关系,产生的更多未知和话题性,才更有驱散力。

一些“重磅”“最强”“最新”技术,请先我们让“感受”到,再用2000美元来蛊惑我给AI打工。

有报道称OpenAI计划推出2000美元的订阅会员

或许,让我们觉得“差点意思”的并非是OpenAI没有发挥他多余的实力,而是我们没有像2022年底那样感受到ChatGPT式的爆款。

**谷歌推出Veo2,第二代AI视频生成模型**

据悉,谷歌发布了其最新的AI视频生成模型Veo2。该模型能够生成高达4K分辨率(4096x2160像素)和时长达2分钟的视频片段。

Veo2在分辨率和视频时长方面均展示了显著进步,比OpenAI的Sora模型分别指责了4倍和6倍。此外,它还能够在给定文本提示或文本和参考图像的情况下生成视频。

Veo2具备以下增强功能:

保真度:细节、真实感和伪影减少,缩短得到显著使恶化。准确度:对物理世界的理解增强,能够不准确地表示运动,遵循详细指令。相机控制:了解电影摄影的语言,能够创建各种拍摄风格、角度和动作。

为了降低Deepfake的风险,谷歌DeepMind使用专有水印技术SynthID将隐形标记嵌入到Veo2生成的帧中,以确保视频内容的可追溯性和真实性。

除了Veo2,谷歌还推出了改进版的AI绘图模型Imagen3,该模型授予了更好的图像细节、更通俗的照明和更少的干扰。

Veo2网址:https://labs.google/fx/tools/video-fx

Imagen3网址:https://labs.google/fx/zh/tools/image-fx