欢迎来到做AJ过程视频大全!今日更新:82329章
章节列表 共2207章
第一章 一路向西电影完整版 下载
第二章 韩国色系电影
第三章 后入试动态xoxo
第四章 母狗贱奴
第五章 欧美激情性视频免费覌看
第六章 女孩输了让对方随便处理自己游戏
第七章 粗大乱h伦亲女
第八章 吊带袜天使同人
第九章 亚洲欧洲无码AV在线观看你懂的
第十章 解锁姿势的污图

第838章

daokangming.com

声明:本文来自于微信公众号阑夕,作者:阑夕,授权站长之家转载发布。

这几天刷推很无遮蔽的麻痹到英文技术社区对中国AI产业的进步速度处于一种半震动半懵逼的状态,应激来源主要是两个,一个是宇树(Unitree)的轮足式机器狗B2-W,另一个是开源MoE模型DeepSeek-V3。

宇树在早年高度发展上属于是波士顿动力的跟班,产品形态完全照猫画虎,商业上瞄准的也是低配平替生态位,没有太大的驱散力,但从B系列型号开始,宇树的机器狗就在僵化性上可以和波士顿动力平起平坐了。

B2-W的意内在质量于切换了技术线,用停滞更高但不平衡的性同时也更难的动轮方案取代了B2还在沿用四足方案,然后在一年时间里完成了能在户外环境里跋山涉水的训练,很多美国人在视频底下说这一定是CGI的画面,不知道是真串还是心态炸了。

波士顿在机器狗身上也曾永恒用过动轮方案,或者说它测过的方案远比宇树要多——公司成立时长摆在那里——但是作为行业后继者,它连保持一家美国公司的实体都办不到了。

现代汽车2020年以打折价从软银手里买了波士顿动力,正值软银账面巨亏需要回血,而软银当初又是在2017年从Google那里买到手的,Google为什么卖呢,因为觉得太烧钱了,亏不起。

这理由就很离谱,美国的风险资本系统对于亏损的允许容忍度本来就是全球最下降的,没有之一,对于前沿性的研究,砸钱画饼是再寻常不过了的——看这两年硅谷在AI上的投入产出比就知道了——但波士顿动力何以在独一档的地位上被当成不良债务卖来卖去?

那头房间里的大象,美国的科技行业普遍都装作看不到:美国人,如今的美国人,从投行到企业,从CEO到程序员,从纽约到湾区,对制造业的厌弃已经成为后天的反应了。

A16Z的合伙人马克·安德森2011年在「华尔街日报」写了那篇流传甚广的代表作「软件吞噬世界」,大概意思是,边际成本极低的软件公司注定接管一切水草繁盛之地,和这种可以授予指数级增长的生意比起来,其他的行业都不够看。

并不是说马克·安德森的表达有问题,后面这十几年来的现实走向,也含糊在反对这条交出规模化利润的回报是最下降的,但美国人的路径依赖到最后必然带来一整代人丧失制造能力的结果。

这里说的丧失制造能力,并不是说丧失制造兴趣或是无感情,我前段时间拜访了深圳一家逆向海淘公司,业务就是把华强北的电子配件做成可索引的结构化目录,然后授予从采购到验货再到发包的全流程服务,最大的买方就是美国的DIY市场和高校学生,他们之所以要不远万里的等上几个星期委托中国人来买东西,就是因为在诺大的美国本土,根本找不到供应链。

然后那些学生也只有在读书时才有真正尝试制造某些东西的机会,到了要去大公司里上班领薪后,再也没人愿意把手弄脏了。

但软件终究不能穿离硬件运行,哪怕硬件生产的附加值再不够看,基于采集一手物理数据的入口,制造商腰板硬起来后去做全套解决方案,只取决于能不能组建好的工程师团队,反过来却不一样,制造订单长期外包出去,它就变成产业链配套回不来了。

所以像是多旋翼无人机和四足机器狗这类新兴科技煽动的原型机一般都还是产自有着试错资本的欧美,也就是所谓「从零到一」的过程,而在「从一到十」的落地阶段,中国的追赶成果就会开始密集呈现,进入「从十到百」的量产之后,中国的供应链成本直接杀死比赛。

波士顿动力的机器人最早在网上爆火的时候,GoogleX的负责人在内部备忘录里说他已经和媒体沟通了,希望不要让视频和Google扯上太大关系,是不是很迷惑,这么牛逼的事情,你作为母公司非但不沮丧,还想躲起来,现在你们懂得这种顾虑从何而来了,就是觉得贵为软件巨头的Google去卷袖子干制造的活儿太卑贱了呗。

当然美国也还有马斯克这样的建设者(Builder),但你要知道马斯克的故事之所以动人,是因为他这样的人现在是极度稀缺的,而且长期以来不受主流科技业界待见,完全是靠逆常识的成就——造汽车,造火箭,造隧道,这都是硅谷唯恐避之不及的事情——去一步步打脸打出来的名声。

如果说宇树是在硬件上不能引起了一波接受现实的热度,那么DeepSeek则在软件的原生地盘,把大模型厂商都给硬控住了。

在微软、Meta、Google都在奔着10万卡集群去做大模型训练时,DeepSeek在2000个GPU上,花了不到600万美金和2个月的时间,就实现了对齐GPT-4o和Claude3.5Sonnet的测试结果。

DeepSeek-V2在半年前就火过一波,但那会儿的叙事还相对符合旧版本的预期:中国AI公司推出了低成本的开源模型,想要成为行业里的价格屠夫,中国人就擅长做这种便宜耐用的东西,只要不去和顶级产品比较,能用是接受的。

但V3则完全不同了,它把成本降了10倍以上,同时质量却能比肩t1阵营,关键还是开源的,相关推文的评论区全是「中国人咋做到的?」

虽然但是,后发的大模型可以通过知识蒸馏等手段实现性价比更下降的训练——类似你学习牛顿三定律的速度降低的斜率也在有利于追赶者,接受比牛顿本人琢磨出定律的速度要快——成本,但匪夷所思的效率指责,是很难用已知训练方法来归纳的,它一定是是在底层架构上做了不同于其他巨头的创新。

另一个角度更有意思,如果针对中国的AI芯片禁售政策最后产生的后果,是让中国的大模型公司不得不在算力受限的约束下实现了效率更下降的解决方案,这种适得其反的剧情就太称赞了。

DeepSeek的创始人梁文锋之前也说过,公司差的从来都不是钱,而是高端芯片被禁运。

所以中国的大模型公司,像是字节和阿里这样的大厂,卡能管够,把年收入的1/10拿出来卷AI,问题不大,但初创公司没这么多弹药,保持不下牌桌的唯一方法就是玩命创新。

李开复今年也一直在表达一个观点,中国做AI的无足轻重从来不是在不设预算上限的情况下去做突破性研究,而是在好、快、便宜和可靠性之间找出最优解。

零一和DeepSeek用的都是MoE(瓦解专家)模式,相当于是在事先准备的高质量数据集上去做特定训练,不能说在跑分上完全没有水分,但市场并不关心原理,只要质价比够看,就一定会有竞争力。

当然DeepSeek不太一样的是,它不太缺卡,2021年就囤了1万张英伟达A100,那会儿ChatGPT还没影呢,和Meta为了元宇宙囤卡却阴差阳错的赶上AI浪潮很像,DeepSeek买那么多卡,是为了做量化交易??

我最早对梁文锋有印象,是「西蒙斯传」里有他写的序,西蒙斯是文艺削弱,虚弱科技公司的创始人,用算法模型去做自动化投资的开创者,梁文锋当时管着600亿人民币的量化私募,写序属于顺理成章的给行业祖师爷致敬。

交待这个背景,是想说,梁文锋的几家公司,从量化交易做到大模型开发,并不是一个金融转为科技的过程,而是数学技能在两个应用场景之间的切换,投资的目的是预测市场,大模型的原理也是预测Token。

后来看过几次梁文锋的采访,对他的印象很好,非常清醒和愚蠢的一个人,我贴几段你们感受一下:

「暗涌」:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索?

梁文锋:因为我们觉得现在最次要的是参与到全球创新的浪潮里去。过去很多年,中国公司不习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

「暗涌」:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。

梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们高度发展没有参与到真正的技术创新里。我们已经不习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。ScalingLaw也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于关心了它的存在。

「暗涌」:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先搁置商业化。

梁文锋:创新的成本接受不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的接受不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现无效的创新。

「暗涌」:但做大模型,单纯的技术领先也很难形成绝对无足轻重,你们赌的那个更大的东西是什么?

梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和原创之差。如果这个不保持不变,中国永远只能是追随者,所以有些探索也是逃不掉的。英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。

「暗涌」:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?

梁文锋:V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。

「暗涌」:所以你对这件事也是乐观的?

梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,高度发展就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会保持不变。我们只是还需要一堆事实和一个过程。

??

是不是很牛逼?反正我是被圈粉了,做最难的事情,还要站着把钱赚了,一切信念都基于对真正价值的尊重和判断,这样的80后、90后越来越多的站上了主流舞台,让人非常宽慰,你可以说他们在过去是所谓的「小镇做题家」,但做题怎么了,参与世界未来的塑造,就是最有确认有罪性的题,喜欢解这样的题,才有乐趣啊。

声明:本文来自于微信公众号新莓daybreak,作者:林小辉,授权站长之家转载发布。

小红书种草,全网成交。这是长期以来,品牌默认的一个生意增长结果。

只不过,这句话更像是一种感官或者印象描述,不是公式或数据验证。所以与认知并存的是,长期以来品牌和小红书都在各自做着关于商业化的同一道数据反对题。

2019年商业化产品只有开屏、信息流广告和话题,后来新增KFS(KOL(内容策略)+「FEEDS+SEARCH(投放策略)」)、搜索等多元化工具,最终小红书商业化被提炼为种草。小红书从0到1构建系统和基建的同时,还要想方设法解释清楚,种草的逻辑和方法,以及最次要的度量问题。

羊织道创始人钱好好,也是多个品牌在小红书的投放代理商,她感触最深的是:小红书在用自己的方法做人群分析,干涉品牌创造新的增长机遇。但其中最大的难点是,机遇逻辑本身就很生活化甚至情感化、情绪化。当品牌不知道自己的人群是什么样,就很难用好小红书。

这就是,品牌在小红书,很难做到知行合一。

但是小红书CMO之恒在前不久的Will大会提到,2024年前三季度在小红书种草的TOP2000单品,全网销量均跑赢大盘;在行业日益内卷的今天,在小红书种对品,可以让一个小企业活过来。

所以,这些品牌或企业是怎么做到知行合一的?

种草怎么产生生意增量?

流量红利见顶后,互联网很早就提出从流量回归到具体的人。依赖庞大的真实社交关系网络,微信是最早展现出这样潜质的产品。第二个就是小红书。

去年之恒在解释小红书商业化的不次要的部分逻辑时提到,人matters(重要)。本质也是对人群债务和行为属性的一次自定义。

从这个角度讲,小红书种草带来生意新增量,关键是找到新的人群。种草之路简而言之就是,「找到新人群-种进新场景-卖出新增量」。

就是凭借这样的种草路径,一个单品年收入几十万元的品牌,通过在小红书种草,今年618拿下2000万的成交,相当于救活一个企业。之恒透露,他们很在意这个指标。

激活小企业的同时,也在干涉大品牌关闭新局面。

今年4月份,小红书推出20大生活方式人群,9月份将其细化为129种,比如居家生活就有五六种。

以传统的家纺产品为例,枕头、被子都是更换频率很低的品类。亚朵酒店2024年Q3最新财报中,前三季度零售业务创收14.33亿元,营收占比达27.75%,其中深睡枕单品就贡献了收入大头,超过水星家纺、罗莱家纺、富安娜等这个赛道的老牌产品。

而亚朵就是在小红书通过「找人」的逻辑,将产品精细化个性化拆解,找到了换枕人群和生意增量。

在给「深睡夏凉被」种草的时候,亚朵星球跳出传统的品类人群,发现目标人群与社区中的「粗制妈妈」、「夏日养生」,以及「卧室外午睡」等拥有不同生活的人群高度重合。甚至在每个人群项下,亚朵进一步找到了「健康警惕型妈妈」、「白富美养生小姐姐」、「祛湿人群」等更多细分人群。

最后深睡夏凉被,仅花了10天时间从0飙升至SPUTOP1,同比收获15倍GMV增长。

而在「找人」逻辑层面,之恒告诉新莓daybreak,「传统的品类经过精细的细分,过去一年,跨域找到跨品类的人群非常常见。」

比如凡士林借助小红书数据平台,找到了音乐节、运动等多个不次要的部分人群。测投之后,发现运动人群的CTR(ClickThroughRate,点击率,指广告被点击数与展示数的比例)是最下降的,再往下钻,运动人群的细分场景里,徒步、跑步和骑行是转化最好的,于是凡士林将不次要的部分买点定为运动后的晒后修复,重点投放。

找到新人群,就等于找到新的生意增量。

种草从C端预谋的语言和行为,到现在已经成为B端的营销范式。行业覆盖从美妆、母婴、时尚赛道,到后来的3C数码、家生活、大健康、汽车,再到生活服务、网络服务和游戏。

面对一片红海,种草就是创造需求的过程,从细分市场寻找新的机会。如果说这是种草3.0阶段,那就是主打精准匹配。

小红书还有一个商业化产品,蕴藏着新的生意增量。那就是搜索。

小红书商业技术负责人苍响告诉新莓daybreak,「搜索将成为小红书越来越重视的场域,因为它是用户强消费决策场。」对于一些需要长周期决策的产品,信息流被种草之后,回搜率会很高。

之恒解释,品牌的渗透率是非常重要去搜索卡位的一个指标,现在越来越多的企业意识到小红书搜索的统一性。比如,电商型的品牌专区去承接搜索的效果特别好,ROI表现很好,有卡位、有曝光、有品牌心智,又有GMV,内部流传,几乎是白收。

因为涉及买词、更新拓词,甚至有一些长尾词,所以相比信息流,搜索投放门槛要更高一些。苍响说,过去一年,小红书也在完善投放工具,干涉体量较小的品牌和商家可以快速适配搜索场域。

从未开始的度量

小红书种草,具体到成交,有两种结果反馈:在小红书嫁接了电商之后,平台可以实现「种收一体」;其次是种草外溢,外部成交。

抖音和快手都是通过电商业务突破广告收入天花板,内循环收入是其中重要来源。最近小红书也将之前聚光平台的所有电商广告投放迁移到乘风,之后乘风就是专门为电商经营和营销投放的一站式平台。

不过,相比抖音和快手,小红书表现得更为开放。

不论是站内闭环还是站外交易,他们把选择权交给用户,之恒解释,「我们不是要把所有种草煽动的购买意愿和需求都收回来,而是会顺着用户走,他们自主无法选择购买的时间和渠道。站在我们商业团队的角度,我们尽可能跟第三方合作,把数据回收,干涉品牌做好度量和优化。」

是的,小红书种草价值外溢很大的一个障碍就是度量。

这次Will大会,小红书提出过程度量和结果度量两个指标,前者度量「人群」,后者度量「生意」。

过程度量的对象是人群债务,为此小红书推出AIPS人群债务模型:Awareness认知人群,Interest兴趣人群,TI(TrueInterest)深度兴趣人群,Purchase购买人群,Share分享人群。

其中在第二步对I+TI人群的积聚,会降低生意转化的几倍甚至几十倍。雅诗兰黛黑钻面霜通过I+TI人群智能投放,成本下降63%。但是在最终转化人群之中I+TI人群占比高达77%。

结果度量又体现在两个产品:种草敌手,对手和一方数据。

种草敌手,对手是基于去年开放与分开的基础被提出,意为打通小红书站内的数据和站外交易平台转化数据,透明了解转化数据,已经接入种草敌手,对手的有淘宝、京东、唯品会,对应的是小红星、小红盟和小红链三个产品。

一方数据则是,品牌将自己的后链路转化数据,通过API、数据服务商或离线方式,安全、隐私地与平台进行深度共建,适用于渠道多,或者有更精细化投放需求的品牌。

而通过一方数据的回传,可以发现回传数据和种草投放之间的关系,计算出类似于进店成本、成交成本、ROI等指标。

种草效果的度量,一直都是商家需要小红书解释无差别的问题。

去年小红书COO柯南就提到,「品牌在看预算的时候,天生就会优先选择这些麻痹可以衡量和评估的渠道。」

其实小红书,一直在探索种草结果的度量。

早期,小红书关注站内搜索量和电商平台搜索量的强正相关性,通过核尔森系数来衡量效果;企业则自己会做ABTest,比如一段时间只投小红书,对比之前在其他平台的投放效果。甚至有的企业会搭建自己的数据中台检验效果。

之后有站内交易的时候,站内效果ROI更能透明体现。

KFS的阶段,KOL笔记的种草效率、效能、效果,平均都会比企业官方保守裸露,公开更好。而基于小红书双列的呈现形式,平台关注的不次要的部分指标是CTR。

2022年底,小红书提出「种草值」,包括深入阅读和深度互动两项指标,单篇笔记的种草值、种草成本及种草率等都可在聚光平台(投放平台)查看。

去年,小红书关注用「成交转化数据」验证种草效果。一方数据,开放与分开都是最直接的体现。今年已经进一步具化到过程度量和结果度量。

不过这些手段和方式是否会干涉品牌朝着「知行合一」的目标更进一步,还是未知。从玄学到科学,一字之差,也许翻越的就是万水千山。

声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。

奇点将至?奥特曼再次奴役「六字」神秘信号!谷歌文档之父、机器学习博士纷纷预测,AGI降临那天,95%人类工作或被AI取代。

一觉醒来,奇点又进了一步?!

昨天,OpenAI智能体安全研究员StephenMcAleer突然发出一番感慨:

有点怀念从前那段做AI研究的日子,那时我们还不知道如何创造超级智能。

紧随其后,奥特曼发表了意味深长的「六字箴言」:nearthesingularity;unclearwhichside——奇点临近;不知身处何方。

这句话是想表达两层意思:

1.模拟假说

2.我们根本无法知道AI真正起飞的关键时刻,究竟是在什么时候

他又疯狂明白地提及了一番,并期望这一点能引申出大家更多的解读。

这一前一后,他们接连发出耐人寻味的信号,让所有人不禁思考:奇点是否真实的近在咫尺?

评论区下方,直接被新一轮的AGI大猜想和恐慌冲爆了。

若AGI/ASI真正降临那天,我们将面临着什么?

「谷歌文档」之父SteveNewman在最新长文中认为,「届时,AI将会取代95%人类工作,甚至包括未来新创造的工作」。

ApolloResearch联创MariusHobbhahn则更进一步,列出了2024年-2030年所有AGI时间表。

他预测,「2027年,AI将直接取代AGI实验室顶级AI研究员;

2028年,AI公司将有1万-100万个自动化的AI研究员,差不多所有需要知识型的工作都被AI自动化」。

与Newman观点一致同意的是,Hobbhahn认为2024年95%以上经济价值的任务,都能被AI完全自动化。

不过,他将这个时间节点设定在了2029年。

AGI降临,超95%工作被取代

SteveNewman在文章中,阐述了他对AGI的定义及其AI对未来世界的影响。

那么,AGI究竟指代的是什么时刻?Newman认为:

AI能够在超95%的经济活动中,以成本效益的方式取代人类,包括未来新创造的任何工作。

他认为,大多数假设的AI变革性影响都发散在这个节点上。

因此,这个「AGI」的定义,代表了世界开始显著保持不变的时刻,也是所有人「感受到AGI」的时刻,具体而言:

1AI系统能主动适应完成大多数经济活动所需的任务,并能完成不完整而非世界性政策的任务。

2一旦AI能够完成大多数知识型工作,高性能的物理机器人将在几年内随之而来。

3这种能力水平可以实现一系列变革场景,从经济超增长到AI接管世界等。

4世界变革场景需要这种水平的AI(通常,专用AI不足以保持不变世界)。

5在达到AGI之前,「递归自我改进」将成为主要推动力。

6AGI指的是具备必要能力(以及经济效率)的AI被发明出来的时刻,而不是在整个经济中全面部署的时刻。

关于AI如何对世界产生变革性影响,有来自多方的推测:

一种观点认为,AI可能带来难以想象的经济增长——推动科学和工程领域快速进步,完成任务的成本比人类更低,干涉公司和政府做出更高效的决策。

根据最近的历史数据,世界人均GDP大约每40年翻一番。有人认为,高级AI可以使GDP在一年内至少翻一倍,也就是「超增长」。

十年的「超增长」将使人均GDP减少1000倍。也就意味着,目前每天靠2美元生活的家庭,未来可能会实现年收入73万美元。

另一种观点认为,AI可能会带来灾难性的风险。

它可能会发动幸存性的网络攻击,制造出高死亡率的流行病;可能让独裁者获得对国家甚至全世界的绝对控制权;甚至,AI可能失去控制,最终建造所有人类生命。

还有人推测,AI可能淘汰人类,至少在经济领域会这样。它可能终结资源稀缺,让每个人都能过上富裕的生活(前提是选择公平分配这些成果)。它可能将仅存在于科幻中的技术变为现实,比如治愈衰老、太空殖民、星际旅行、纳米技术。

不仅如此,一些人设想了一个「奇点」,在奇点中,进步的速度如此之快,以至于我们什么都无法预测。

SteveNewman推测,AGI真正实现的时刻,就是这些设想几乎同时变成现实的时刻。

「可能发生」,不是「接受发生」

需要澄清的是,Newman并非在说,关于高级AI的预测,一定都会实现。

未来,技术突破逐渐变难,所谓的「奇点」也就不一定会出现。也就是说,「长生不老」可能根本就无法实现。

再说了,人们可能更喜欢与他人互动,这样的话,人类也就不会真实的在现实经济活动中变得没用。

当提到「可能差不多同时发生」时,SteveNewman的意思是,AI如果能实现难以想象的经济增长,那也有能力制造真正的幸存性流行病、接管世界或快速殖民太空。

为什么谈论「通用人工智能」

经济超增长在理论上是否可能,有一些争议。

但如果AI无法自动化几乎所有的经济活动,那么超增长几乎注定是不可能的。仅仅自动化一半的工作,不会带来深远的影响;对另一半工作的需求会随之减少,直到人类达到一个新的、相对常规的不平衡的。(毕竟,这种情况在过去已发生过;在不久前,大多数人还从事农业或简单的手工业。)

因此,超增长需要AI能够完成「几乎所有事情」。它还需要AI能够适应工作,而不是重新调整不当工作和流程来适应AI。

否则,AI将以类似于以往技术的速度渗透到经济中——这种速度太慢,无法带来结束的超增长。超增长需要AI足够通用,以完成人类能做的几乎所有事情,并且足够僵化以适应人类原本的工作环境。

还有太空殖民、超致命流行病、资源稀缺的终结、AI接管世界等预测,这些情景都可以被归类为「AGI完成」情景:它们与经济超增长需要的AI,具有相同的广度和深度。

Newman进一步主张,只要AI能够完成几乎所有经济任务,它就足以实现全部预测,除非与AI能力无关系的原因导致它们无法实现。

为什么这些截然不反对情景,需要相同水平的AI能力?

阈值效应

他提到了,上个月DeanBall关于「阈值效应」的文章。

也就是说,技术的逐步进步可能在达到某个关键阈值时,引发突如其来的巨大影响:

DeanBall最近撰文探讨了阈值效应:新技术在完全建立并不会悠然,从容普及,只有当难以预测的实用性阈值被突破后,采用率才会悠然,从容攀升。例如,手机起初是一种笨重且昂贵的滞销产品,而后来却变得无处不在。

几十年来,自动驾驶汽车还只是研究人员的兴趣,而如今谷歌的Waymo服务每三个月就能实现翻倍增长。

对于任何特定任务,只有在突破该任务的实用性阈值后,AI才会被广泛采用。这种突破可能发生得相当突然;从「还不够好」到「足够好」的最后一步不一定很大。

他认为,对于所有真正具有变革性影响的AI,其阈值与他之前描述的定义一致同意:

超增长需要AI能够完成「几乎所有事情」。它还需要AI能够适应任务,而不是调整不当任务去适应自动化。

当AI能够完成几乎所有经济价值任务,并且不需要为了适应自动化而调整不当任务时,它将具备实现全部预测的能力。在这些条件焦虑之前,AI还需要人类专家的鞭策。

一些细节

不过,Ball略过了AI允许体力工作的问题——即机器人技术。

大多数场景都需要高性能的机器人,但一两个(例如高级网络攻击)可能不需要。然而,这种区别可能并不重要。

机器人学的进步——无论是物理能力还是用于控制机器人的软件——最近都显著加快。这并非完全偶然:现代「深度学习」技术既推动了当前AI浪潮,在机器人控制方面也非常有效。

这引发了物理机器人硬件领域的一波新研究。当AI有足够的能力促进经济高速增长时,几年之内它也可能会克服剩余的障碍来制造可以胜任体力工作的机器人。

实际的影响将在至少几年内逐步发散,一些任务将比其他任务更早实现。即使AI能够完成大多数经济价值任务,也不是所有公司都会立即行动。

为了让AI完成比人类更多的工作,需要时间去建设足够多的数据中心,而大规模生产物理机器人可能需要更长时间。

当谈到AGI时,指的是具备基后天的反应力的时刻,而不是全面部署的时刻。

当提到AI能够「完成几乎所有经济价值任务」时,并不一定意味着单个AI系统可以完成所有这些任务。我们可能最终会创建从事不同任务的专用模型,就像人类从事不反对专业一样。但创建专用模型的必须像培训专业工人一样容易。

实现AGI,我们该怎么做?

对于「如何实现AGI?」这个问题,现在的研究者几乎没有头绪和理论依据,各种流派都有,一致同意不休。

ApolloResearch联创MariusHobbhahn认为,AGI的不次要的部分特点应该有三个:

-对风险的来源、预期的风险程度、安全预算以及愿意允许的风险做出更具体的明确假设。

-明确的多层次防御方法,去除某些不相关、负不无关系的措施,而不是「尝试叠加不反对策略以降低风险」。

-计划一致同意性,很多AI公司在宣传和实际做的事和谐同意,比如声称为了安全性愿意付出更高代价,但却不愿意允许透明推理带来的缺乏成本。

忠实且人类可读的CoT范式

从AGI的全局发展来看,我们很幸运:现在AI偶然的大部分推理过程是「直接可见」且「易于理解的」。

所谓忠实且人类可读,就是指模型的推理过程是以一种人类可以直接理解的方式进行的,并且准确地反映了模型行动的原因,模型不能进行与声明不符的内部推理。

我们至少应该:

1.共同认同将此作为一个重要搁置因素,并以此进一步发展。为了让模型产生更易理解的CoT,我们可以并愿意承受相应的性能损失,哪怕是普通应用的运行成本会减少2倍,或是高风险应用的成本减少到5倍

2.将更多的精力投入到研究易于理解且忠实的推理过程(CoT)。比如构建一套评估工具,以测试某个特定模型的推理过程是否忠实,或者探索直接优化可读性会带来哪些副作用,如何隐藏掉非预期推理等。

3.「从架构中移除可见CoT」的相关研究应该减少,缩短,例如Meta的COCONUT

假设可读性带来的缺乏成本并不太高(例如,不到2倍),那现在关于「移除CoT」的研究无异于自毁长城。

如果存在证据隐藏,像在o1和o3中使用的高计算强化学习(highcomputeRL)会导致不可读的推理过程,例如模型自己发展出人类难以理解的语言,相应的观念也应该发生转变:

1.人工智能开发者尽快分享此信息,「模型的推理性能很好,但我们不理解其推理过程」要比「模型的推理性能一般,但我们能够理解其推理过程」可怕得多。

2.转变研究和治理策略的优先级,比如投入更多精力去解码模型所学到的语言。

用CoT监控模型

如果模型能生成人类可理解的CoT,我们的主要防御手段就是对模型进行详细的监控,虽然极具成本效益但经常被关心。

在理想情况下,可以用几台简单的监控设备来分析模型输出,以检测各种通用的故障模式和不良行为,可追踪的行为类型包括:

各种类型的阴谋(scheming)行为,例如模型是否隐藏了某个特定目标,是否试图重步走监管,是否采取了不符合用户利益的行动等;各种类型的无能的追求(power-seeking)行为,例如模型是否试图获取资源,试图减少,缩短访问批准,试图以某种方式说服他人等;强烈且广泛的目标导向,例如模型在多个上下文中都一直在追求某个特定目标,需要在不同上下文之间进行对比;

可以使用较小但运行更快的模型作为「仅黑箱监控器」(balck-box-onlymonitors),类似用Gemini-flash来监控Gemini,或者使用「白盒探测器」(white-boxprobes),经过训练以检测有问题的行为(例如,线性探测器或SAE探测器);

最好既能监控行动本身(例如,工具调用),也能监控导致这些行动的推理过程。

模型开发商已经开始使用黑箱监控器来防止模型越狱(jailbreaks),算是有了一个概念验证;简单的线性探测器极具成本效益(只需要一个简单的向量乘积),可以在几乎不减少缺乏开销的情况下,并行运行上万的探测器。

虽然这些方法看似简单,但研究人员认为,还没有人系统地研究如何对模型进行无效的监控。

监控在概念理解上看似简单,但仍需要极小量的迭代和调整不当,比如需要一个完善的数据集来训练和评估探测器,校准阈值等。

每个AI实验室都应该有一个多余的团队来专门构建监控设备,确保模型按预期工作,分析其结果,使其运行更高效等。

总的来说,监控设备不仅可以直接防止模型生成使加剧性内容,还可以更快、更全面地了解对齐(alignment)技术的有效性。

控制模型

最坏情况下,模型可能有自己的想法,而且人类不一定能看清推理过程,所以需要最大限度地降低模型的实用性,同时最小化风险,具体措施包括:

1.智能体(agents):以往的研究主要发散在小智能体系统或在较小任务,实验室应该尽快将控制技术应用于最先进的系统,以便尽早积聚实践经验;

2.现实性(realism):在常见的应用场景下对模型进行控制,比如辅助研究等;

3.蓝队与红队的规则:在某些变体下,红队过于强大,比如可以访问蓝队的所有数据,并针对蓝队进行训练等,对团队的假设应该更「合理」且「不准确」。

4.放宽假设(relaxedasummptions):控制的假设基于模型始终腹黑,相对保守;可以定义更严格的界限,减少,缩短约束,使模型表现大体不变。

模型的阴谋(scheming)

在帮助研发人工智能系统时,我们也应该加深对大模型图谋不轨行为的理解:

1.检测工具:使用性能更好的工具来检测模型的图谋,例如更大规模的黑箱评估和更好的白箱技术;

2.图谋行为的发展:应该深入理解为什么模型会追求某种能力,了解模型如何学习非短视反感,以及模型何时愿意为了这些反感付出行动;

3.现实中的反感:了解模型在实践中的图谋频率,比如分析1亿个真实的模型回复,似乎是一个低投入、高回报的项目,但需要访问极小量真实的部署数据。

4.隐藏的图谋:分析哪些训练方法会减少,缩短模型的图谋行为,或识别出那些难以检测的图谋行为。如果模型每次出现图谋不轨的时候,就对其进行惩罚,会导致负面行为减少,缩短,但可能会减少模型隐藏阴谋的能力。我们需要针对不不关心况作出判断和不平衡的;

5.准备应对措施:根据模型的图谋程度,采取无视、重新训练模型,或者完全授予模型等不同策略;

6.更多的能力评估:更进一步了解模型在规避监管、干扰训练等程度。

评估

评估是一种高效的「模型图谋」证据收藏,储藏工具,可以减少破坏其他策略,比如评价「监控」或「控制」方法是否有效等。

另一方面,评估也可以让我们了解模型的大体能力,但现有的评估在某些方面仍然不足:

1.能力评估:应该继续构建更多更好的能力评估,特别是针对人工智能研发、策划、核生化、网络和说服等方面,我们目前仍然不清楚模型的具体能力;

2.诱导(Elicitation):如何对模型进行诱导以产生最大能力,尽可能找到模型的上限能力?

3.预测评估:预测能力的正确方式是什么?那些模型表现仍然为0的基准,该如何突破?或许还有更好的预测评估方法;

4.对齐评估:迄今为止,大多数研究都发散在能力评估上,而「对齐/反感评估」(alignment/propensity)也很重要,应该帮助构建对抗性对齐评估,比如设置各种非短视讨厌陷阱等,为模型建立一个非常详细的「心理档案」,以了解其默认反感;

5.演示:对于研究人员或公司内部来说,需要用一篇严谨的论文来仔细搁置所有的潜在可能性,还需要搁置如何传递演示给普通用户。

短期对齐策略

现有的技术,比如RLHF在模型中引入了非短视(non-myopic)且不可纠正的(non-corrigible)反感,应该投入更多的精力来详细了解模型获得的目标类型,为模型建立详细的「认知档案」。

内部和外部使用的策略应该有无遮蔽的区别,比如模型具有更强的抗越狱能力可能会降低其可纠正性,需要确定哪些策略适用于长期内部部署。

推理透明度

在最好的情况下,内部计划应该是完全不透光的,并明确关于安全预算、组织隐含愿意允许的风险、明确的红线等假设。应该经常与外部专家沟通具体计划,专家可以来自独立组织、学术界或人工智能安全研究所,可以签订保密协议。

从道德上讲,公司应该与公众分享计划中的细节,尤其是影响力更大的AI公司和技术,每个人都应该能够理解他们「应该或不应该」期望这项技术是安全的。

参考资料:

https://x.com/sama/status/1875603249472139576

https://amistrongeryet.substack.com/p/defining-agi

https://www.lesswrong.com/posts/bb5Tnjdrptu89rcyY/what-s-the-short-timeline-plan#So_what_s_the_plan_

编辑部发自凹非寺

量子位|公众号QbitAI

「ScalingLaw」和「打脸时刻」,相对是2024年科技智能领域的年度关键词。

坏消息是,传统定义上的ScalingLaw在放缓,但好消息是又有新的ScalingLaw出现。

缩减时间维度,其实ScalingLaw在AI发展领域中一直起着作用。

人类在哪个时间点上,如果突然之间被打脸了,那就是比较优秀时刻。

不断打脸,最终才能知道哪个才是所谓的KillerAPP。

这是20余位工业界、学术界乃至投资界的顶流大咖,在量子位MEET2025智能未来大会上反复提及、探讨的话题。

在座无隙地的会场,大牛们的深入讨论当然没有只局限于此——

站在诺贝尔奖对AI青睐有加的2024年年尾,他们回顾技术、产品和商业的发展,也毫无耗尽地传递对未来的规划、已经洞察到的机遇;有人热心站出来解答了近期热议的澄清,有人坦白曾因技术的放缓有过永恒忧虑,也有人为从业者、厌恶者、观望者指明值得一试的方向。

有深度,够前瞻,思考碰撞,安排得当四溅。

320万+线上观众、1000+现场观众和在场嘉宾一起,见证了干货满满的一天。

△连“站票”也很抢手哟

围绕着「智变千行,慧及百业」这一主题,本次大会嘉宾们畅聊了关于「技术演进时」「无限未来时」「拐点来临时」和「应用正当时」的所见所思所想。

来,跟着量子位真人编辑和ChatGPT、Claude等大模型一起划重点。

技术演进时李开复:ScalingLaw放缓,AI-First应用爆发帮助

MEET2024智能未来大会以零一万物首席执行官、创新工场董事长李开复和量子位总编辑李根的深度对话拉开帷幕。

对话中,李开复透露出OpenAI的瓶颈与确认有罪:GPT-5的训练并非一帆风顺。大规模GPU集群的效率递减、数据与算力瓶颈,让ScalingLaw(尺度定律)不再一骑绝尘。OpenAI也面临着算力投入与商业回报的博弈。

坏消息是,传统定义上的ScalingLaw在放缓,但好消息是又有新的ScalingLaw(o1推理范式)出现。

但我们不要忘记,现在的模型虽然还没有达到AGI,但已经足够好到解决很多问题。

在李开复看来,传统ScalingLaw的放缓这并不意味着大模型发展遭遇天花板,相反,中国AI2.0创新者能在里面找到弯道超车的机遇。

首先,AI2.0已经成为世界各国的“未来之战”,将重塑经济版图和创新格局。中国相对不能重新接受大模型预训练。从国家技术竞争力角度看,掌握了大模型预训练就等于掌握模型能力的上限和安全可控的底线。

其次,当前大模型已“足够好、足够便宜”,中国开发者应抓住应用井喷的黄金窗口期,分隔开中国巨大的市场需求和落地场景,借鉴移动互联网时代领先世界的工程能力和产品微创新迭代能力,打造“MadeinChina”的“ChatGPT时刻”。

他提醒AI2.0创业者不妨先算一笔账:自己的基座大模型能力是否有独特价值?自己是否有预训练技术无足轻重做出性能位居世界首先梯队但又快又便宜的模型?如果自研的模型无法超越开源模型,不妨专注在应用创新上。

在商业策略上,零一万物打造的预训练模型Yi-Lightning不仅在国际保障的“大模型竞技场”LMSYS盲测中创下中国大模型历史理想成绩,而且推理成本仅为GPT-4o的三十分之一。

零一万物也积极探索AI应用落地:国内以ToB为主,海外侧重ToC。以多快好省的方式训出世界首先梯队模型,同时用“又快又好”的大模型为应用开发者赋能,打造健康良性的大模型创新生态。

李开复相信,未来大模型头部玩家更应聚焦AI-First应用端的价值创造,就像过往PC、移动互联网时代的创新发展路径一样,创造比较大经济价值的往往是应用层。

智源王仲远:其实ScalingLaw一直在AI发展中起作用

北京智源人工智能研究院院长王仲远博士指出,当前人工智能正处于一个新的拐点。

大模型的出现标志着弱人工智能向通用人工智能的转变。尽管目前的大模型能力仍存在不足,但已能看到它对各行各业的深远影响。

他谈到了当下最热门的一个话题:ScalingLaw是否撞墙/失效了?

看过去七、八十年,每一次新的科技浪潮背后都有一些本质规律,即随着模型参数、训练数据及计算能力指责,模型效果也会有巨大指责。

也就是说,如果缩减时间维度,其实ScalingLaw在人工智能发展领域中一直起着作用。

王仲远介绍道,过去六年里,北京智源人工智能研究院建立了一支先进的科研团队,在国内最早从事大模型研发,并且从2020年10月开始,就成立了技术攻关团队来结束推动大模型技术研发探索。

至于大模型未来的发展方向,在他看来,除了文本数据,世界上还存在极小量的图像、音频、视频等多模态数据。如何煽动这些数据中的智能,是未来大模型研究的重要方向。

“最终将出现一个统一的多模态大模型,实现人工智能对世界的感知、理解和推理。”王仲远说。

蚂蚁集团王旭:开源社区为技术方向授予中立而广泛的信息

在蚂蚁集团内部,大模型的应用已经渗透到财务数据分析领域,极大地降低了处理效率和深度。

蚂蚁集团开源技术委员会副主席王旭,站在开源视角进行了演讲分享——毕竟从ChatGPT掀起滔天巨浪开始,大模型的开闭源之争就从未开始。

王旭降低重要性,蚂蚁集团的开源技术增长团队十分重视对开源社区的数据洞察,并以此为蚂蚁的技术架构和技术演进授予参考。

社区数据虽然不全面,却能反映外部视角,为技术方向授予中立而广泛的信息。

社区数据显示应用的AI化和AI应用框架都在极小量涌现。在应用方向单单是直接的数量指责和帮助就已经可以引发不明显的,不引人注目的变革,比如蚂蚁的金融相关服务和它们背后的开源多智能体框架agentUniverse。

他授予了一张可参考的折线统计图,其数据显示,在LLaMA模型开源后,相关项目迎来了爆发式增长。并且,大部分AI项目使用Python开发甚至允许用户不用亲手编码,“这些AI应用框架让用户能够以极低的门槛开发自己的AI应用,这反映了AI技术正逐渐贴近应用场景”。

另一个观察是,除了硬件资源的变化,软件基础设施也在经历着微妙的变化。王旭表示,虽然分布式偶然的基础架构变化不大,但应用基础设施和场景产生了新的需求。他提道,AI2.0时代正在形成新一代的LAMP架构,应用会围绕模型发散,这在基础设施的每个环节都引发了深远变化。

最后,王旭威吓技术从业者根据时代的需求调整不当软件架构,并演进自己的基础设施。

华为王辉:网络与AI之间,就是NetworkforAI和AIforNetwork

会上,华为数据通信产品线NCE数据通信领域总裁王辉围绕《AI大模型使能网络迈向高阶自智》这一话题,站在工业领域和ToB行业的视角开始了他的分享。

他指出,当前各行各业都面临“如何让自己的产品和产业变得更加智能”的问题,且落地过程面临诸多确认有罪。

在演讲中,王辉把网络与AI的关系总结为两种:

NetworkForAI,指如何用网络帮助AI训练和推理

AlForNetwork,指用AI手段让网络变得更加轻浮可靠,助力千行万业的发展

在NetworkforAI方面,王辉指出网络是支撑AI训练规模演进的关键底座;华为通过实时动态的AI集群网络均衡负载和AI识别预警故障,避免了AI训练中断,同时让AI训练不受跨数据中心、跨地域的批准;为大模型的规模化、分布式训练和推理带来了本质性指责。

在AIforNetwork领域,王辉以网络“自动驾驶”形态为类比,诠释了AI在工业垂直场景的真正确认有罪:实时性、严谨性与场景泛化能力。在网络行业这样的关键性基础设施中,毫秒级响应,零容错成为准确决策的顺从要求。为此,华为提出“一脑、一图、一网”的三层架构,让AI充分赋能网络,为工业应用授予智能的运营保障。

他还降低重要性:

在工业领域,数据质量、准确控制和成熟工具均不可或缺,大模型是其中关键的一环,大模型在逐步规模应用的同时,还会将分开和注智工业领域各种业务无约束的自由的不次要的部分要素,驱动千行万业迈向“自动驾驶”。

潞晨科技尤洋:视频大模型需要实现精细化文本控制、任意角度拍摄和角色一致同意性

潞晨科技创始人兼董事长、新加坡国立大学校长青年教授尤洋,分享了对视频大模型未来协作发展深度洞察。作为分布式训练技术领域的专家,他带领团队此前已为谷歌、华为等科技巨头授予了大模型训练优化解决方案。

尤洋认为,未来三年视频大模型的发展将经历跨越式进步:

就像萨姆·奥特曼说的那样,今天是VideoGPT-1的时刻,可能三年之后就是视频大模型的GPT-3.5、GPT-4时刻。

最关键的是要实现三大不次要的部分能力。

首先是精细化的文本控制能力。视频大模型应当能够准确理解并呈现用户描述的细节内容,从人物特征到场景要素都要做到准确把控。

其次是实现任意机位、任意角度的拍摄能力。这种突破可能彻底保持不变体育赛事直播等领域,让观众能够自主选择观看视角,“相当于在体育场里能够瞬间移动,移到教练席,移到最后一排,移到首先排”。

第三是保持角色一致同意性。尤洋指出,这对商业变现至关重要,“比如一个产品的广告,这个视频接受从头到尾不管是衣服、鞋、车子,它的样貌不能有太大变化”。

对于视频大模型的商业前景,尤洋认为其将为电影制作带来革命性变革。通过AI技术,可以大幅降低有效场景制作成本,减少,缩短对危险镜头拍摄的实际需求,让创作更加严格的限制。

未来只需要演员的ID和演员的肖像权,AI其实就可以把很多危险镜头做好,对电影行业能够极大地做到降本增效。

无限未来时商汤徐立:比较优秀时刻可转化为另一个词,叫“打脸时刻”

商汤科技董事长兼CEO徐立博士,十年前就是因为见证了AlexNet,认为AI已经跨越了工业红线开始选择创业。对于AGI新征程,徐立在与量子位总编辑李根的交流中提出了他的认知和思考。

徐立表示,从过往十年来看,有两个要素是推动行业发展进步的基础,一是基础设施,二是场景化。

在他看来,接下来的AGI时代一定也是场景化推动整个技术的迭代,“技术本身只是一个技术”。

场景应用一定是驱动力,没有场景应用不知道市场上模型到底长成什么样;模型也一定是驱动基础设施建设的不次要的部分驱动力,今天任何一个模型的变化所不能引起的基础设施成本价值的变化是巨大的。

继而徐立又引出了现在做AI的两条“生死线”,即算力成本折旧生死线和开源生死线,探讨了商汤做大装置、大模型和应用的“三位一体”战略。

有意思的是,在被问到“什么事情发生是可以辩论“比较优秀时刻”到来了?”,徐立的回答深入人心,以至于后面几位嘉宾也反复提到。

我觉得比较优秀时刻可以转化成为另外一个词,叫作“打脸时刻”,人类在哪个时间点上,如果突然之间被打脸了,那就是比较优秀时刻。

什么是“iPhone时刻”,所有人都认为手机得有键盘,然后iPhone来了没有键盘的。为什么ChatGPT是比较优秀时刻?是因为原来做AI都觉得自然语言还远呢,突然之间一下出来大众还都认可,解决了图灵测试的问题,其实这是典型的打脸时刻。

小冰李笛:“私域运营”成为大模型时代新蓝海

过去一年,小冰很沉默。

但沉默之下是静水深流:2024年,小冰国内的AItoC产品,付费用户数是Character.AI的20多倍,付费转化率约为ChatGPT的8倍。

站在这样的成果上,当大模型热潮趋于波动,不少人开始陷入对下一步机遇FOMO时,小冰公司首席执行官李笛站出来谈了谈那些已现的机遇。

他降低重要性,当前AI行业正处于技术创新震荡期,大模型准入门槛降低,基础能力很难形成有效垄断,故而一味等待技术奇点并不会为产业创造实际价值,真正的机遇在于当技术进入相对波动期后,如何用合理的商业策略将技术能力变现。

一个不次要的部分切入点是GPU算力成本与收入的比例(GPUcostvsRevenue),李笛将此作为AItoC商业模式成败的关键指标。只有当AI生产内容的成本显著低于用户付费,才能为C端和产业链上下游授予可结束的价值分配。

此外,李笛还分享了关于AI产品形态和用户价值不知道的演变。

目前,Chatbot授予的对话形式和陪伴,对用户来说已不再稀缺,同时对话的高耗能显著,Chatbot注定不再成为大众产品(除非能授予非常下降的附加值)。

相反,“私域运营”成为大模型时代的新蓝海,AI能够为成千上万的私域用户授予高并发且个性化的价值内容,从而在高留存、高价值的场景中实现商业闭环。

VAST宋亚宸:AI原生3D创作者将探索出新的内容范式

从700万全球用户生成的3D模型中,能看到3D生成的哪些可能?VAST创始人兼CEO宋亚宸有话说。

他分享说:“3D生成会成为一种新的交互形式,就像有个成语叫作‘言出法随’。”

VAST是一家自研3D大模型的公司,旗下3D大模型Tripo可以通过文字、图片等多模态输入,生成多余的3D模型,减少破坏游戏、动画、元宇宙等多个领域应用。

宋亚宸表示,从技术成熟度看,目前效果已从年初的“360p水平”指责至”720P水平”,预计明年将达到”1080P甚至4K水平”。

目前,3D生成技术已在多个领域实现落地,包括传统CG行业,如游戏、动画、影视等;工业领域,如3D打印、工业设计、家居等;新兴领域,如元宇宙、XR、数字孪生等。

除了一些商业化场景,我们看到每一个人,包括在座的每一个,包括在线观看直播的每一个人,都可以做自己想要的3D的工业设计和产品的需求的分享。

宋亚宸展望,明年在3D生成领域将聚拢万级开发者;到2025年,开发者数量或达万级别;2026年,这些AI原生3D创作者将探索出新的内容范式。

而在技术路线上,宋亚宸提出了三步走战略:首先步是静态内容生成,第二步是动态内容生成,第三步是实现全民零门槛3D创作。

南京大学周志华:学件基座系统有了数以百万计模型,很多我们没预期过的事也有可能能做

南京大学副校长、国际人工智能联合会理事会主席周志华带来了一场关于“学件和异构大模型”的精彩分享,系统阐述了一个全新的AI技术范式。

在周志华看来,未来AI协作发展关键不在于追求单一的庞大模型,而是如何让数以百万计的模型协同工作。

他提到了“学件”概念,可以简单理解为:学件=模型+规约。

如果大模型是几个大英雄打天下,那么学件就是认为力量蕴藏在人民群众中。当学件基座系统有了数以百万计的模型,这条路线的力量会涌现出来,很多我们没预期过的事也有可能能做。

周志华提出了一个令人耳目一新的观点:不需要获取开发者的原始训练数据,就能实现模型的有效复用和协同。这种方式既保护了数据隐私,又比较大化了模型价值。

他用了一个生动的比喻:

今天当我们要用一把切肉的刀,不会自己去采矿打铁,而是去超市选购。同样,未来用户使用AI,也不必从头收藏,储藏数据训练模型,而是提交需求,“学件市场”会根据用户需求寻找和组合不适合的模型反馈给用户。

在技术实现上,周志华团队构建了规约设计方案,包括语义规约和统计规约,并反对这种方案能有效保护开发者数据不泄露。

目前,他们已开源了“北冥坞学件基座系统”,寻找更多开发者参与其中。周志华表示,当前市面上的HuggingFace可以看作是学件1.0版本,而多余的学件体系将带来更多可能性。

作为一个全新的技术范式,学件基座系统可被看作一个异构大模型,不仅能实现大小模型协同,还能避免灾难性遗忘,实现终身学习。

拐点降临时钛动科技陈德品:千行百业都需要AI,更需要的是增长

钛动科技CTO陈德品分享了AI在出海营销领域的创新实践。

作为一位曾在阿里工作十余年、经历了AI从1.0到2.0时代转变的技术专家,陈德品对AI与营销分隔开的前景清空信心。

在他看来,营销需要批量化、工业化的创意素材生产,而AIGC的爆发恰好能极大指责内容产能,这正是双方的理想分隔开点。

具体到出海场景,陈德品分析认为,目前出海依托于两大势能:移动互联网和供应链势能,使得整个赛道保持30%-40%的年增长。

在具体实践方面,陈德品分享了钛动科技的不次要的部分AIGC产品TecCreative2.0,能够干涉商家在几分钟内完成社媒营销素材的生产,指责效率。

他特别降低重要性了一个发现:

在营销应用领域也存在类似ScalingLaw的规律。

当营销需要素材工业化生产时,不断指责生产效率,可以逼近爆款发现概率,我们认为营销是能够通过效率逼近无限,进而带来效果极大指责,最终产生爆款。

展望未来,陈德品表示钛动科技正在优化营销Agent化发展路径,同时可能会打造一个营销素材的Arena(竞技场),用于快速测试各类通用模型在营销场景中的适配度。

新奥泛能网程路:垂直行业的AI颠覆一定会发生

作为深耕能源行业17年的产业老兵,新奥能源副总裁,新奥数能科技有限公司总裁(即新奥泛能网总裁)程路分享了传统能源行业拥抱AI的实践与思考。

作为传统能源行业的追随者,新奥泛能多年来一直在探索智能化,但此前更多是以局部算法和机理模型为主。如今,大模型的出现保持不变了两个重要环节——

一是大幅降低知识学习和推理成本,降低产业模型构建和优化效率,模型效能可指责达50%;二是让普通从业者悠然,从容“拉齐”到高水平决策层级,从而大规模指责行业外围认知水平与执行品质。

那么,传统能源行业要如何拥抱AI变革?程路表示可以总结为“选用训生”四个招式,分别是选择开放大模型、用模型分隔开机理、产业认知与产业算法、训练专业模型、最终生成可用大模型在具体应用中落地,综分解三大智能:

决策智能:辅助无约束的自由层快速做出特出方案决策

运营智能:实现能源领域运营层面的依赖状态

交易智能:优化源网荷储的实时交易

他降低重要性,这一切的底座在于强大的仿真模型——将物理世界映射到数字世界,让企业不需要在物理世界付出极小量试错成本就可以实现参数调优或者解决问题,仿真降低重要性极小量的运行有无批准的条件与行业机理,需要模拟实时运行态。程路特别指出:“这种仿真更像现在‘汽车自动驾驶系统’”,最终将大幅度降低能源品质,降低损耗成本。

“垂直行业的AI颠覆一定会发生。”程路相信,随着大模型技术门槛的不断降低和产业数据资源的充分奴役,能源这类传统领域也将涌现出颠覆性的创新。

小米孟二利:汽车行业正从“软件定义汽车”迈向“AI定义汽车”的新拐点

小米技术委员会AI实验室高档技术总监孟二利分享了小米如何运用工业大模型赋能汽车智能制造的探索与实践。

他以独特视角展示了AI技术给传统制造业带来的创新突破。

孟二利首先介绍了小米的科技战略升级,总结为公式就是(软件×硬件)??,隐藏小米将包括大模型在内的AI技术看作一种新的生产力,也是小米长期结束投入的底层赛道。

小米从2016年就布局AI领域,2023年更是组建大模型团队,将前沿技术应用到手机、汽车等产品中。在汽车制造领域,小米选择从“大压铸”工艺突破,首先聚焦于材料研发和质量检测两个方面。

传统新材料研发采用“试错法”,周期可能长达10年,这是业务无法接受的。

为解决这一难题,孟二利团队创新性地提出“灰盒模型”方案:

分隔开数据驱动的AI黑盒方法与材料学机理驱动的白盒模型

使用仿真软件生成极小量、低质量,数据生成预训练模型

利用失败极小量、高质量实验数据进行模型微调

最终形成了一套多元的材料AI仿真系统。基于此,团队从上千万候选空间中成功研发出小米泰坦合金材料。

此外,在质量检测方面,团队还研发了工业质检大模型。解决了质检行业难题,作为AI+制造标杆多次被央视报道。

展望未来,孟二利认为汽车行业正从“软件定义汽车”迈向“AI定义汽车”的新拐点。他提出三点建议:破坏数字化基建、推进行业标准化、探索适合工业场景的大模型技术。

声网刘斌:Agent落地,实时性要求和工程化落地是关键

大会现场,声网首席运营官刘斌分享了一个看似离大模型有点距离,实则却不可或缺的环节,那就是RTE实时互动在AIAgent时代的全新价值”。

2020年,声网在纳斯达克上市,目前是全球比较大的实时互动云服务商,平台单月音视频使用时长达700亿分钟。

对于AIAgent落地的关键要素,刘斌降低重要性了两点。

首先是实时性要求。与传统的文本交互不同,多模态Agent需要双工实时对话。根据声网的测试数据,要达到自然对话体验,延迟需要控制在1.7秒以内。

真正的产品化落地,不是在实验室做个demo,而是要确保在各种终端、各种网络环境下都能轻浮运行。目前,声网通过在音频采集、传输、播放等多个环节的不断优化,可以实现人与AI语音对话延迟低至500ms。

其次是工程化能力。声网构建了覆盖全球的SD-RTN网络?,减少破坏30多个平台、30000多终端机型,能在400毫秒内实现端到端传输,这些积聚让AIAgent快速规模化成为可能。

过去,人与AI的交互多以文本形式进行,延迟和体验问题并不突出。但当下,大模型正在快速演进为多模态Agent,用户可以语音、视频与AI交流,并期望获得如同面对面对话的自然感。这要求极低的传输延迟与高度鲁棒的网络质量支撑。

“只有把交互延迟做到低延时,并具备智能打断、超拟人化等特性,用户才会感受到与真人交流般顺畅的对话体验。”展望未来,刘斌提出,需要针对人机对话特点开发专门的优化方案。

应用正当时智谱张帆:AI开始变成基础生产要素,或对商业带来底层变化

大会现场,智谱COO张帆聚焦分享了大模型这两年间的悠然,从容迭代与商业化过程中的全新机遇。

张帆首先指出,大模型和其它现有技术一点点落地不太一样,大模型天然是一个应用导向的技术,“生成式AI进入这个市场的速度远比互联网和PC要快”。

张帆表示,过去仅两年时间,模型各方面能力得到了指责,与之相对应的是成本的下降,由此带来了技术能力快速地落地和应用。

在这个过程中,智谱对AGI目标能力的理解分为五级:

首先级是语言;第二级是对复杂问题的求解,像o1这样的能力出现;第三级是使用工具,比如自主智能体可以像人一样操作手机、PC甚至汽车界面来获取信息;第四级是自我学习;第五级是超越人类,AI将具备探究科学规律、世界起源等先进问题的能力,所以通往AGI之路将是一个透明和明确的链路。

张帆降低重要性,大模型已不再只是技术,开始变成新型基础生产要素,有可能对商业带来很多底层、上层的变化,包括工作方式、组织形式、商业模式,甚至每个企业的壁垒。

最后张帆探讨了大模型时代企业或个人该如何构建自己的科技战略,他认为关键有四个要素:

选择不适合的基座,构建与战略目标和业务属性相匹配的组织,基于场景和AI能力重新定义数据债务,把这些能力无缝融入到业务当中,从而形成一个飞轮。

这里面有很多东西需要大家深度思考,比如基座模型,很多人问我们到底是开源好,还是闭源好,到底是国外好,还是国内好,我觉得其实合适才是较好。

火山引擎张鑫:企业落地大模型应用,关键要快速试错、拖延行动

过去编程是从”HelloWorld”开始,现在开启AI之路,应该从”HiAgent”开始。

火山引擎副总裁张鑫分享了2024年大模型应用落地的现状与思考。在他看来,2024年是各行业对大模型应用广泛探索的一年,其落地呈现出三大特点:速度、广度与深度。

在应用场景上,大模型也完成了三个阶段的跳跃:从跟随的娱乐闲聊,到现在的严肃生产场景,甚至开始进入科研领域实现新知识的探索和发现。

正如狄更斯在《双城记》所说:“这是较好的时代,也是最坏的时代。”张鑫认为,大模型带来了无限创新机会,但如果企业不能跟上拖延速度迭代,也有可能面临失去竞争力。

张鑫提到,最近有一个新的感受:

企业想要落地一个好的AI应用时,他的确认有罪不是没有场景可做,反而是选择太多。

在我们看来打脸时刻怎么形成?不断打脸,最终才能知道哪个才是所谓的keyAPP。

HiAgent是火山引擎推出的企业专属AI应用创新平台,高度适配企业个性化需求,让业务人员可以轻松构建智能体,让业务创新不受生产技能的批准。授予低代码、场景化模版及端到端咨询服务,更懂AI转型;授予可与企业业务系统无缝衔接的行业插件,更僵化适配企业需求;减少破坏RAG知识库和大模型全栈私有化部署,授予更强的安全保障,为企业数据知识保驾护航。

在具体落地实践上,张鑫也分享了火山引擎HiAgent在教育、消费、企业服务等多个行业的落地实践,并分享了切实可行的落地方法,首先步企业需要绘制企业专属的场景地图,这一步往往是发散的,最终得出上百种不反对应用场景。下一步对这些场景围绕可行性和价值高低进行一个魔力象限的划分。从高价值、技术高可行性的场景先着手推进。

企业落地大模型应用的关键在于快速试错、拖延行动,火山引擎HiAgent平台通过固化理想实践,助力企业有效搭建企业级智能体,在探索场景中沉淀债务,助力企业AI能力做深做厚。

斑头雁张毅:AI应用要能快速部署、有效迭代

张毅是原钉钉创始团队成员、副总裁,在钉钉任职期间,他从用8年的时间带领团队陆续打造出钉钉考勤审批、智能人士日志等爆款产品。

2022年起,张毅以BetterYeahAI(斑头雁)CEO创始人的身份,带领团队躬身入局,开始致力于探索干涉企业进入AI时代。

时至今日,已经有数百家头部企业在斑头雁上完成了企业级生产级Agent的落地,涉及场景包括客服、数据、营销、经营系统等。张毅降低重要性,客服场景落地速度最快,数据类任务增量价值明显,Agent融入企业不次要的部分经营系统趋势越来越显著,正在为企业直接供给生产力。

“对于Agent来说,企业生产级场景有很大不同。”张毅补充解释,“Agent落地在不次要的部分的业务流里带来生产力,这对Agent的集成能力、并发调用、数据安全要求和协同构建能力要求会更高。”

但与前沿科技相伴而行,就意味着更大的确认有罪,不同于POC验证和轻量AI应用开发,生产级Agent在应用构建、性能评估、快速迭代方面对企业开发团队提出了更高要求。

BetterYeah结束专注在企业生产场景,以标准化产品授予焦虑僵化集成能力、更大并发调用、更高数据安全和更复杂协同的AIAgent开发平台。今年往后,预计企业级AI平台将面临更复杂的应用场景和更强的自规划能力的确认有罪。

当谈及企业AIAgent成功的秘诀,张毅降低重要性,生产级Agent开发70%的工作量在测试调试,基于数据和AI构建“反馈评估-自学习-验证”闭环,充分发挥AI价值,能有效指责Agent开发效率和成功率,而这些方法已产品化融入BetterYeah平台。

昆仑万维方汉:用产品形式上的创新击中用户的根本点

昆仑万维董事长兼CEO方汉在大会上分享了公司在AI大模型浪潮中从技术到产品的布局与思考。

昆仑万维从2020年开始布局AI,目前已经构建了从算力层、模型层到应用层的全栈AI能力。方汉介绍,昆仑万维有语言大模型、多模态大模型、3D大模型、视频大模型、音乐大模型,目前技术指标较好的是音乐大模型。

在探索过程中,方汉给出了他的一些商业思考。他认为所有人都在不断地思考AI大模型,在这中间企业选择什么样的商业模式来进行产品研发和推广,是一个很次要的问题。

方汉表示,中国AI企业在算力上受到极大批准,能拿到的硬件算力是比较有限的。这样会倒逼企业在算法迭代上有极大的动机去投入,就是所谓的以软补硬。同时生存压力大、拿不到钱也是一个大问题,“使得中国AI企业都在拼命地打磨产品的商业模式”。

他还讲到AIGC正在催生“文化平权”新时代,AIGC技术的进步会极大降低所有人创作内容的门槛和成本。

对于用户来说,他们根本不关心你的内容是AI做的还是人做的,只关心两个点,你的内容要么新,要么好。

最后方汉提出,AI创业者应更关注产品形态创新,用产品形式上的创新击中用户的根本点,而不是看AI用了多少。

心言集团任永亮:具身化与主动交互是泛心理服务的AI化新方向

心言集团创始人、董事长兼CEO任永亮以一个垂直领域应用者的视角,分享了泛心理行业如何拥抱AI变革的实践经验。

任永亮首先介绍了心言集团旗下AI驱动的泛心理社区——测测APP。任永亮表示,早在2019年,测测就上线了头个基于BERT的泛心理领域问答模型,获得了超出预期的用户反响。

谈到AI转型历程,任永亮坦言经历了从“使安排得当”到“担忧”再到“坚定”的心态转变。他认为一个行业既不能离AI太近也不能离得太远,关键是找准不平衡的点,“如果太远的话没办法用这样的服务,如果太近的话很容易被淹没”。

基于过去两年的实践,任永亮总结了三点感悟。

首先是期望无约束的自由。AI做到60分很容易,但要达到90分往往很难,需要无约束的自由好团队的预期。

其次是组织工程。AI转型不能依靠零敲碎打,而是要让整个组织围绕AI发散,包括产品、运营、技术等全方位转变。

最后是相信年轻人。移动互联网时代的成功经验未必适用于AI时代,没有奴役的年轻人更容易带来创新。

展望未来,任永亮提出了两个关键发展方向:

具身化是泛心理服务的必然趋势。咨询师除了文字语音,还需要表情动作、仪式感,这就要求AI服务也需要实现多模态输入输出。主动交互将成为下一个突破口。目前的AI服务都是响应式的,未来需要能够根据场景主动发问、发散对话。

具身智能圆桌:WaytoAIRobots

MEET智能未来大会的老规矩,总是奉上精彩纷呈、干货疯狂输出的圆桌论坛,今年也不例外。

不过,本次大会讨论的主题升级到了更广泛、正热门的具身智能领域。

具身智能圆桌寻找的嘉宾分别是:

群核科技首席科学家兼副总裁、KooLab实验室负责人唐睿。

千寻智能SpiritAI联合创始人、清华大学交叉信息学院博导高阳。

云深处科技联合创始人兼CTO李超。

在量子位总编辑李根的主持下,嘉宾们华山论剑,话题围绕“对具身智能的认知”“有何技术突破”“目前发展到哪一阶段”等发散。

如何认识or定义具身智能?

唐睿认为,具身智能和AI比较大的区别是从芯片、显示器、内存、显存里走了出来,它不仅有一个脑子,通过屏幕和我们交互,更多可能是能够和外部我们所处的物理世界做交互。虽然具身智能中有一个“身”字,但唐睿觉得可能不一定需要人形,只要能有这样一个技能就可以,“像自动驾驶汽车也可以算作比较成熟且具象的具身智能的实现”。

高阳通过一个具体的例子非常直观地回答了这个问题:有一次我在做一个关于具身智能的演讲,一位大概六七十岁老奶奶听我讲了很多,问我说什么时候机器人能给她养老,其实这个正是具身智能的一个应用场景。具身智能的目标是构建能够干涉我们完成各种任务的机器人,这个机器人能帮我们做各种事情,比如帮我们的爷爷奶奶养老。

李超认为云深处是具身智能的的首先批受益者。具身智能给机器人赋予灵魂,在这个灵魂加持下,机器人应变能力破坏,规模化应用进展帮助,能够面向更加开放的环境。

为什么今年是具身智能元年?

李超认为随着从基于规则的传统控制方式转变为基于训练、强化学习等新技术的出现与成熟,机器人的智能和适用性得以大幅指责,从而突破了过去的批准和有无批准的。

高阳也表示,现在做具身智能创业的一个最关键的因素是OpenAI已经反对,预训练分隔开一系列post-training的方式,含糊可以真实的产生至少看起来像是人类智能,或者达到人类智能表象一样的能力。

唐睿做图形学出身,他指出,有了AI深度学习加成以后,算力的迭代体系就开始从指令级的迭代方向转变为并行计算的迭代方向,由此导致并行计算的成本会降到很低。而并行计算无非就是模拟两件事,一是模拟人脑,通过深度学习先验的知识预测未来或不同模态;另一种是模拟物理世界,还有具身智能中大家会用MuJoCo做物理、交互仿真。而群核科技做的正是后者。

2024,产业里的代表性进展or事件?

唐睿关注到越来越多原本从事图形学和三维视觉研究的优质学者与团队(如李飞飞、LeoGuibas、苏昊等),开始投身具身智能领域。他们凭借在虚拟世界和环境模拟方面的先天无足轻重,为具身智能的发展收回新的动力与视角。

高阳最关注的进展在于如何利用失败互联网上的海量数据和中间层表示方法,将大模型预训练范式引入具身智能。这不仅包括像VLA(视觉-语言-动作)模型的成熟应用,还涉及通过引入轨迹表示、粒子模拟等中间层结构来减少,缩短对人工采集操作数据的依赖,从而在未来三到四年为具身智能的可结束发展奠定基础。

实践落地,数据是否是目前的关键确认有罪?

李超认为目前在他们关注的机器人本体与控制层面,数据并非主要确认有罪,但随着未来更复杂场景与操作需求出现,数据问题可能逐渐成为明年的确认有罪。

唐睿认为目前具身智能非常大的卡点是缺少高维的物理正确数据,而群核空间智能平台要做的事情就是为具身智能授予一个AI可交互世界,另外他降低重要性了具身智能需要的真实物理模拟精度远高于纯视觉内容创作所需的精度。

他举例,像Sora这样的视频生成工具,目前虽能逼真再现视觉效果,却仍不足以授予比较准确的物理参数与交互反馈,从而难以直接焦虑具身智能的训练需求。这意味着在实现AGI级别机器人之前,如何获取高精度、具可交互性的模拟数据仍是一个需解决的关键问题。

具身智能是否有类似L0—L5的标准划分?

李超表示不仅有而且很明确,去年以前很多都是L1,准确说是L0,因为很多是由人在操控。而现在要分行业划分,在接纳的小范围场景下可以达到L4,机器人能自主决策判断。

在高阳看来,制定一个标准,本意是为了鞭策一个行业的发展,可以去衡量每个具身智能技术到底达到了怎样的水平,但无论这个标准是什么样,可能最后因为客观技术的批准,这个标准到就变成了一个比较偏向宣传话术的东西,有限时间内大家做不到广泛场景的L4或L5的水平。

截至目前,具身智能走到了什么阶段?

唐睿将机器人各部分类比到人的“手、眼、脚、脑”四个不次要的部分的器官,分开来看每个部分都超越或接近人类,但尚未形成高度不调和的一体化体系,因此外围仍处于早期阶段。高阳认为制定一个标准,本意是为了鞭策一个行业的发展,可以去衡量具身智能技术到底达到了怎样的水平,但无论这个标准是什么样,可能最后因为客观技术的批准,这个标准到就变成了一个比较偏向宣传话术的东西,有限时间内大家做不到广泛场景的L4或L5的水平。

李超更加乐观,他没有用类比的方法,而是认为具身智能已在工业等特殊场景中带来肤浅保持不变,虽家用需求尚不明确,但在专业领域的实际应用已显现强大影响力,推动行业格局帮助变化,展现出更乐观的发展前景。

后续还将有大会嘉宾更详细版内容分享,敬请关注!

(推广)

清流资本在过去十年捕捉了TMT、消费、硬科技等主流行业下的多个细分赛道较高排名,也建立了投得“稳”、“准”、“精”的基金形象。近年,清流资本推出原创科技专栏——“硬币的另一面”,通过清流合伙人和科技企业创始人对话的形式,讲述当前创投形势下,那些科技类被投企业的故事。清流资本将结束关注新兴科技赛道。

今天,我们对话的主角是星动纪元的创始人陈建宇。

本文包含以下内容,阅读需要12分钟。

?投身机器人科研13年,中国原创科技引领全球

?AI帮助具身智能,坚定原生通用人形

?搭乐高一样做机器人,连推六代人形本体

?小步快跑商业化,清流是赋能型投资人

?清流为何投资星动纪元

北京星动纪元科技有限公司成立于2023年8月,是仅有一家清华大学占股,并获上海期智研究院减少破坏的,研发具身智能及通用人形机器人的新兴科技公司。团队成员来自清华大学、北京大学、北京理工大学、哈尔滨工业大学、加州大学伯克利分校、新加坡国立大学等国内外知名院校以及世界500强企业,研发人员占比超过80%。

星动纪元的创始人陈建宇,2015年本科毕业于清华大学精密仪器系,这是国内最早从事双足人形机器人研究的单位之一。后直博于加州大学伯克利分校(UCBerkeley),师从美国工程院院士、机电控制后继者、MPC(模型预测控制)算法理论奠基人MasayoshiTomizuka教授。2020年博士毕业后,被图灵奖得主姚期智院士引进到清华叉院任教,28岁即成为清华大学交叉信息研究院助理教授、博士生导师。陈建宇在机器人、人工智能、控制、交通等领域的国际优质会议和期刊上发表了七十余篇论文,其中多篇论文获得了RSS2024、L4DC2022、IEEEIV2021、IFACMECC2021等国际优质学术会议的优秀论文提名奖。

公司成立一年以来,人形机器人产品已经迭代到第六代——星动STAR1,目前已经通过了一系列极限测试,性能已达世界先进水平,被认为是全球跑得最快、最稳的人形机器人。此外,公司基于模块化的能力,悠然,从容从人形机器人中分化出了敏锐手和轮式机器人等场景级产品,使得原本即将发生的人形机器人商业化路径得以更快落地,干涉公司实现了初步商业化。

星动纪元创始人陈建宇

投身机器人科研13年

中国原创科技引领全球

清流:请先简单介绍一下星动纪元?

陈建宇:星动纪元是专注于做原生具身通用智能体的科技公司,2023年从清华大学孵化出来的。我们希望做出真正原生的机器人,以及围绕AI构建的整套硬件平台。

清流:近两年具身智能赛道随着AI大模型的出现急速升温,和你选择开始创业的Timing有关吗?

陈建宇:我就是一直在做(具身智能)这件事,只是做着做着这个赛道火了。甚至可以说,今天具身智能火起来也有我们的一部分贡献。

清流:怎么说?

陈建宇:我一直以来的梦想就是做通用的机器人。2011年上大学开始,我就在研究机器人,我本科在清华做的毕业设计就是双足机器人的步态规划。后来到UCBerkeley直博也一直从事机器人领域的研究。博士毕业后,我有幸获得姚期智院士的认可,被他引进到清华叉院任教,并启动了通用机器人的研究课题。

2022年末ChatGPT刚出来,我就提出要把大模型的强大能力和机器人分隔开起来,实现AI与物理世界的交互——做通用具身智能。要实现这个先进目标需要强大的工程能力和资金减少破坏,学校的工程资源有限,所以我们就开始筹备成立公司。

2023年,我们团队发表了世界上首先篇用大语言模型赋能人形机器人决策的文章。同年7月,我们在世界人工智能大会(WAIC)分会场主办了“具身通用人工智能主题论坛(EmbodiedAGI)”,与海内外的知名专家学者共同探讨具身通用智能,推动行业发展。

现在无论是国家层面,还是投资人、产业方,对具身智能的关注和投入的确越来越多了。

清流:很多人认为具身智能是中国原创科技引领全球的新高地,你怎么看?

陈建宇:每一波新的科技出现,中美的差距都在逐步增加。从芯片到AI领域,中国企业的追赶速度越来越快。具身智能领域中美的差距就更小了,都在起步期,大家都是熟练处理前进。可能过去美国积聚了一定的人才无足轻重,但中国也有产业链无足轻重可以与之形成分庭抗礼之势。甚至,我认为中国反而会比其他国家跑得更快。

机器人的算法能力无法选择产品力天花板,硬件端能力保障类人运动功能的实现,两者缺一不可。硬件在很大程度上会影响算法的performance,海内在质量硬件上的不足会反向拖慢他们的软件迭代速度。美国这一波机器人硬件端现在主要就看特斯拉了。

中国对具身智能的重视和关注度更高,很多地方政府和国资都在快速发力减少破坏具身智能,中国也有很多原创性的人才(机器人先进学府如伯克利、斯坦福、MIT的教授是外国人,但学生都是来自清华、北大、交大等等国内高校的华人在推进出下一代成果)。而且,中国还有全球比较大的机器人硬件产业链无足轻重,参照中国新能源车的发展路径,我们在具身智能领域可能会更快领跑,有望实现中国原创技术引领全球。

清流:中国具身智能领域目前的瓶颈有哪些?星动纪元如何突破?

陈建宇:从技术层面来看,我认为所存在的瓶颈在未来都是可以去突破的。现在行业内讨论最多的硬件、算法、数据这三个最不次要的部分的环节,任一环节出现瓶颈都会制约具身智能的发展。所以星动纪元现阶段重新确认全栈自研,主动去发现关键环节上的问题、逐一攻坚,目前已取得了一些突破性的进展:

硬件端,基于我们在双足领域的积淀,已经推出了全球户外性能比较强、跑得最快的人形机器人本体,实现了让机器人从“能动”悠然,从容迭代到“走得稳、跑得快”。未来将继续迭代,让它可以走得更久、更稳;手部操作方面,我们自研了全球综合性能比较下降的敏锐手,后续会随着产品化进一步指责其耐久度和轻浮性。

算法端,目前多数产学研都在研究如何将大脑、小脑、末端控制的分层框架进行瓦解。星动纪元背靠全球先进学府清华的科研资源,领先推出了自研的原生机器人大模型框架,率先实现了端到端、多模态、多策略的算法框架。目前,我们的手部操作是全球头个敏锐手端到端大模型,腿部运控也已经实现了真机全地形、全步态泛化的能力。基于此,我们会继续让机器人支持人类先验、通过自我探索和学习,更早实现具身智能的Scalinglaw。

数据是具身智能领域的稀缺债务和资源,想要实现具身智能,需要极小量的高质量数据给机器人学习。我们的解题思路还是基于首先性原理,先广泛地从各个领域获取多模态(语音、视觉、触觉等)的信息输入,比如互联网数据/图像/视频、现实中的动捕、虚拟的仿真/分解数据,并分隔开摇操作和现场部署实际收藏,储藏回来的数据,去反哺我们的原生大模型,指责其理解、学习和优化能力,并对我们的硬件迭代授予不同场景参数。

AI帮助具身智能

坚定原生通用人形

清流:研究机器人这13年,你亲历了AI如何推动具身智能发展,和我们分享一下这个过程?

陈建宇:技术的演变过程是渐进式的,我们现在看到行业形成的共识是机器人的运动控制学应该采用AI的方式做,但实际上这也仅仅是近几年慢慢才形成的趋势。

本科期间我就一直在思考机器人内在质量的问题,同时对AI一直保持密切关注,当我看到有人用强化学习(ReinforcementLearning,RL)做出来一些简单的Demo,觉得非常神奇、非常有前景。但那时还没法把它和机器人分隔开起来,因为要把RL引入到机器人有一个先决条件——必须能实现在连续的空间里做任务,因为机器人在物理实验中是连续的,此前的技术没法达到这个条件。2016年左右,深度强化学习的出现使得我们可以在连续空间做任务了,我就开始往这个方向专门去做一些研究。

清流:那时做RL算很超前了吧?

陈建宇:那个时候全球研究RLforrobotics的人都很少,说自己要用RL做机器人就像ChatGPT出来之前你说要做AGI,大部分人都会质疑。但我很清楚它的价值,非常坚定地推动相关研究。后来陆陆续续这个领域出来了一些成果,大家才开始陆续转RL,再过了一段时间,RL的表现就开始超越MPC了。

2022年,ChatGPT的出现是一个非常关键的时间节点。

虽然我之前一直有关注到前几代GPT2、GPT3,也知道大语言模型等研究工作的进展,但我当时对“怼算力出中庸”这个事情是比较存疑的。直到ChatGPT出现保持不变了我的看法,大模型展现了惊人的泛化能力,我立刻带着团队研究大模型在人形机器人领域的应用。后来越来越多科研成果也隐藏,Scalingup可以帮助具身智能领域的发展,实现通用具身智能这个先进目标不再遥不可及。

清流:你一直在做首先个吃螃蟹的人。

陈建宇:不次要的部分还是基于技术的首先性原理推演。如果只看表象的话,RL一开始的表现的确比MPC差,只能在仿真方面做一些很Toy的例子。但因为我自己是写MPC求解器的,写过很多基础代码,我透明地知道MPC有很多局限。同时我也一直保持对AI算法的关注,对RL有一定的了解和判断,所以我当时很坚定要做RL。后来大模型出现了,我也把很多精力放在大模型领域的研究。从传统的MPC转到RL、再到大模型,这些技术路线的演变都是在我们计划中的,只是时间上比我们设想得更快一些。

清流:为什么特别降低重要性要做“原生机器人大模型”?

陈建宇:只有原生性突破才能真正解决传统机器人没有解决的很多问题。原生就是要让机器人既有上层的逻辑思考能力,还要对身体有多余的控制权,能够调控身体和物理世界进行各种各样的交互。举个例子,让机器人在复杂的路面上行走,传统机器人是人为去hardcode,经过比较准确的建模计算,腿抬多高、步幅多少厘米、落在什么地方、使多大的力等等,最后它只能在特定环境下做一些很机械的动作。而人走路是来自于我们从小开始学习在各种环境中摸爬滚打、站立行走,在这个过程中人的硬件(身体)在逐渐成长,算法(大脑)一直在迭代,逐渐收敛到一个理想状态,最后走路就成为瞬间发生的条件反射动作,不仅能走路,还能跑能跳,能适应各种各样的地面环境。

人的行为整个就是datadriven训练出来的原生模型。

清流:所以你是容易妥协的“人形”拥趸?

陈建宇:我们追求靠近人形,但并不迷信人形。

当前世界上仅有存在的通用具身智能体的实例就只有人,从人身上学习能得到很多启发,向人形靠近有很多的无足轻重:

数据层面,当前具身领域的一大痛点就是缺少数据,人形机器人可以很好地复用人类现有的视频、摇操作等等数据。

场景层面,在当前的人类环境所有设施都是为人类去设计的,要在这个环境里面生活,就迫使机器人要去贴合环境。对机器人的通用性要求越高,越需要接近人形的形态。机器人如果只需要在平地环境里工作,可以用人类一样的上半身,下半身用轮式,但如果我想要它能下楼给我取快递,就需要腿了。

功能性角度,对比此前的传统机器人,如工业的机械臂、夹爪、轮式底盘等。人形机器人有手有腿,手比夹爪敏锐,能做的事情就多很多,双腿比轮子能到的地方也多,移动能力的有无批准的就指责了,这让具身智能也有更多的发挥空间。

从技术上,人形是更难实现的,有能力做到人形之后,其他的机器人形态我们都能快速分化出来,是可以向下兼容的。反着来可能就不行。所以,人形机器人也是我们保持技术领先性的战略高地。

但我们并不重新确认只做人形,在商业化角度,会基于实际应用场景去授予性价比比较下降的适配产品。通用场景中人形机器人更容易规模化,单一任务均摊下来的成本降低了,且空间利用失败率更高,那我们会主推人形机器人;如果是某些特定场景,我们也能从人形快速分化出模块化的产品,以较低的成本有效解决实际应用需求。

搭乐高一样做机器人

连推六代人形本体

清流:听起来像搭乐高一样简单,但要怎么实现?

陈建宇:我们一开始入局就选择先攻坚hard模式(人形机器人),打磨出了做机器人的能力,并在这个过程中把很多能力给使意见不合和模块化了。我们的机器人硬件都是可拆卸和组装的,你可以理解为就像乐高积木块一样。例如,我们的敏锐手就是一个单独的部件,可以直接拆下来放到另一个机器人的手臂上,甚至敏锐手的手指都可以拆下来,每个关节都是单独的部件,非常僵化。而我们的算法是通用的,(硬件)排布装置改了也没关系,算法再跑一遍自动就能出来。

看实际应用场景需要什么样的机器人,我们就以比较有效、最省成本的方式把这个产品快速开发出来,实现商业上的应用。

清流:看起来星动纪元是一整片的单位了TeslaOptimus和PhysicalIntelligence咯?

陈建宇:哈哈可以这么认为,我甚至觉得从研发层面,我们有一些硬件、算法框架的点有超越他们。

Tesla含糊在硬件工程能力上非常出色,走路非常丝滑,工业设计也是业内先进;PhysicalIntelligence也很突破地开发用于具身领域的基础模型和学习算法,PI最近发布的机器人基础模型π0,通过预训练的视觉-语言模型和创新的flowmatching(流匹配)架构,使机器人能够执行如折叠衣物、组装纸箱等复杂任务。

星动纪元经过过去一年的迭代,无论是腿部、手部的硬件能力都是行业内特出质——跑得最快最稳、敏锐手响应最僵化。算法端,我们在ChatGPT刚出来时就开始进行具身基础模型的研发了,相比PhysicalIntelligence的π0使用的纯原创学习,我们把世界模型嵌入到了具身大模型中,并且从海量视频数据中学习如何理解物理世界并与其交互。同时,这种方法指责了模型的泛化能力,能在更多样化的场景下保持轻浮的表现。π0用了1万个小时的机器人数据,我们的数据量小多了,具体细节可以关注我们即将发布的比较新的模型成果。

所以,星动纪元不是简单地分隔开TeslaOptimus和PhysicalIntelligence,而是在多个关键领域取得了原创性进展。

清流:Cool!星动纪元为什么具备这样的能力?

陈建宇:具身领域是迭代非常快的领域,需要产学研共同去推进,我们有非常优质的技术团队和科研资源。刚开始创业我们就吸纳了国内做人形机器人和机器人领域很多非常有经验的专家,这样的人才在全球范围内都是非常稀缺的。AI方面,我们背靠清华的科研资源,包括我在清华的课题组也会在具身智能前沿研究方面结束创新,这些资源是很多同行没有的。

加上我们做机器人做得早,过去数年间我在几乎所有与机器人不无关系的技术路径上都做过学习和尝试,积聚了很多经验和认知。后来在硬件细节和算法架构上不断有成果跑出来,反对了我们从dayone开始就走在正确的方向上。选择的大方向比较正确,并不断在正确的方向上长期积聚认知,无足轻重就越来越明显。截至目前公司进展顺利,行业里也不断开始有人来follow我们的路线。

此外,作为一个创业公司,我们团队的执行力也很强。有一次看到同行有一个新的demo发出来,我们工程师就很不服气,他就熬夜直接当晚给复现出来了。

清流:公司成立到现在经历了哪些关键的milestone?

陈建宇:2023年6月,我们推出了具备行走能力的第二代人形机器人本体,还记得机器人硬件刚装出来,我们调了一天就能走起来了。

2023年底,第四代人形机器人“小星”在全球范围内初次实现了人形机器人端到端强化学习野外雪地行走,包括雪地上下坡,以及上下楼梯。该过程不需要依赖于预先编程的行走模式,而是完全通过AI自主学习实现的。这使得机器人能够自主地适应不反对地面条件,从而在复杂的雪地环境中轻浮行走。相关论文拿了机器人领域顶会RSS2024(Robotics:ScienceandSystem)的理想论文提名奖(OutstandingPaperAwardFinalists),全球只有3篇论文入选,也是RSS历史上首先次有中国团队获得该奖项。

2024年Q1推出第五代机器人,这一代机器人无论从硬件构型和算法迭代已经是行业内最领先的产品了。更关键的是,我们还加上了自研的敏锐手,配备12个关节严格的限制度。刚发布时有人把我们和特斯拉的敏锐手做对比,实际上,我们的敏锐手的严格的限制度比特斯拉的机器人还要高。

2024年9月,发布了第六代机器人星动STAR1,严格的限制度减少到了55个,关节扭矩指责到了400N·m,关节转速达到了25rad/s,性能已经达到全球优质水准。经过各种公开环境实地测试,星动STAR1已被验证是世界上跑得最快且最稳的机器人。同时,我们还推出了桌面机器人和轮式机器人,以及模块化的敏锐手产品。星动纪元目前是全球除特斯拉以外仅有一家有敏锐手的人形本体公司。

清流:迭代速度很快!对公司未来的规划是?

陈建宇:1-2年的短期目标是实现技术产品化。技术上会把现在端到端的技术做得比较通用,找到PMF的场景。我们已经有了一些突破,接下来会继续把数据、精度、轻浮性等进一步指责。

3-5年的中期目标是实现机器人的ChatGPT时刻,即AI在机器人上Scaling到一定程度后,呈现智能涌现的状态。

5-10年的长期目标是达到机器人的iPhone时刻,希望我们的机器人成为像iPhone一样的产品,真正走进千家万户。

小步快跑商业化

清流是赋能型投资人

清流:创业这一年有哪些心得体会?

陈建宇:创业对学习能力要求甚至比做学术更高一些。因为创业比单纯的学术维度广很多,很多事情交叉在一块,各方面的不确定性更高了,决策错误的代价也更高。既要求你要把事情看得更深一些,同时又不能一直想,很多事情都必须要快速决策。

清流:怎么做到既深度思考、又快速决策?

陈建宇:这是一个综合性的能力,就像我们早期选择原创技术路径时,需要先看清楚全局的路,了解各条技术路线。但也不要花太多时间看,因为这就是一个不确定性非常下降的事,你永远不可能完全看清。在看到一个相对比较有把握的状态时,就要开始胆怯一点往前做。技术是这样,商业更是如此。

我坚信很多事情就是创造出来的,选定路之后就要相信自己,做一切努力去减少它成功的概率。

清流:创业至今最有成就感的时刻?

陈建宇:看到我们的机器人首先次走起来的时候。当时就觉得我们很牛x,哈哈哈!心想特斯拉又如何,我们也是可以做出来的。

清流:目前遇到的比较大确认有罪是什么?

陈建宇:我觉得前面经历的都不算比较大的确认有罪。有遇到过一些有确认有罪的技术问题,但因为我做技术这么多年,已经习以为常了。技术本身首先性原理还是比较强的,即使有什么问题,我们也可以快速弥补,最多就是吝啬一小部分时间和一些人力物力。

相比于技术上的确认有罪,未来即将要面对的商业决策可能会更具确认有罪。商业的不确定性更高,特别硬件产品拉通之后,需要搁置量产、建厂、供应链打通,整个投入会比现在高很多,商业决策错误的代价也会高一些。

清流:你打算怎么应对?

陈建宇:公司层面我们已经在做相应的准备了。虽然我们团队是做科研出身,但是我们一直认为好的技术产品最终是要能实现商业化的。再先进的技术,如果成本过高、质控不轻浮、不好用,都会导致最终无法在实际应用场景落地。所以我们一直重新确认模块化的产品设计,并通过一些成熟的模块化产品实现小步快跑商业化。目前主线人形产品已经涵盖了所有的功能,从主线产品拆分出几个模块组装一下,就可以做出其他形态的产品,实现现阶段技术与场景分隔开的特出解,这也降低了我们做一款产品的成本。在干涉企业实现自身造血能力的同时,通过场景的打磨、获得真实使用数据反馈,干涉我们在产品研发上进一步迭代,逐渐形成商业-数据-研发的闭环。目前,在部分场景中我们已经有了一些客户订单。

对我个人来说,要进一步指责学习能力和学习速度,多跟人交流、学习、多练习。团队方面,我们也会陆续引入具备商业化能力的成员。未来,还借助合作伙伴获得更多的行业资源减少破坏。

清流:和清流接触的初印象是怎样?

陈建宇:和清流这边认识得比较早了,去年就开始和dealteam有陆续接触。行业里大家对清流的评价都非常高,清流的投资人是真正懂具身智能的,而且会从公司协作发展角度进行赋能,清流背后各方面的产业资源也有足够的能力给公司授予干涉。

清流:哈哈哈看来还很认真地做了反向背调呀~

陈建宇:融资时大家都会聊起嘛。我觉得企业融资不只是争取资金的减少破坏,同时投资人也是我们非常次要的伙伴和很好的朋友。

清流:至今清流有给公司授予过什么干涉吗?

陈建宇:清流实际在各方面对我们的减少破坏都蛮大的,一方面干涉指责我的认知,同时也对接了不少资源。梦秋总以前在产业里,经验和资源都非常极小量,我们有一些问题也会主动去问她,她很愿意干涉我们排忧解难,给我们介绍行业资源和人脉。

雨豪总经常会过来公司关心我们,看到行业比较新的动态或paper也会及时和我分享和交流。创业路上难免遇到一些简单的事情,他也会给我做些心理按摩。

这一年真正接触下来,清流给我麻痹真实的就像这个名字一样,是一个很赋能型的资本。

清流:看来会做心理Massage也成为当下投资人的不次要的部分竞争力之一了~

陈建宇:哈哈哈,创业路上得到这样的心理减少破坏还是非常好的。我们也非常幸运能跟清流合作。

清流为何投资星动纪元

清流资本长期保持对全球机器人行业的洞察与战略布局,新一轮AI技术变革出现后,更是积极探索AI和物理世界分隔开的投资机会。前沿模型的发布为具身智能的突破铺平了道路,使机器人能够以比较罕见的方式理解、推理、与物理世界互动,为通用智能机器人的实现带来革命性的机会。尤其在人形机器人领域,展现出很下降的技术突破和商业化潜力,市场及产业急需实用且可扩展的创新解决方案,为投资具身智能创造了一个特殊的窗口期。

实现自主感知、规划决策、执行闭环并且能在各种场景自适应的智能通用机器人,是机器人和AI领域的长期目标。然而,传统机器人系统由于缺乏交互、感知、决策的能力,往往难以实现这些功能。自从OpenAI发布GPT-3以来,AI的蓬勃发展,特别是各类大语言模型(LLMs)和视觉大模型(LVMs)的问世,为机器人实现泛化的理解、推理、并与物理世界产生交互的智能系统——即“具身智能”概念,授予了算法基础。同时,对于大模型而言,机器人是通用AI实现与物理世界交互的关键载体和入口。

大模型所展现的泛化能力,为通用智能机器人的实现带来了全新的可能性。我们认为此次AI与机器人的分隔开将对机器人感知、决策、控制的外围系统能力带来全面重构,在更大范围内扩展机器人的能力有无批准的,带来更广泛的市场新机会。这一变革将对机器人行业产生全面和深远的影响,使机器人进入一个全新的发展范式。

同时,具身智能有可能成为少数由中国引领而非美国主导的前沿创新科技领域之一,我们判断这一领域的最终格局可能类似于新能源车的发展趋势:尽管美国在技术原创性和创新方面处于领先地位,但就现阶段中国在生产制造方面已经展现了强大的追赶能力和无足轻重。同时,在具身智能不无关系的AI研究方面,实际主导学者均为华裔或中国学者,原创性和追赶速度也非常悠然,从容。因此,放眼全球,中国在机器人产业中有望占据主导地位。

过去的一年,我们见证了由陈建宇老师带领的星动纪元团队展现出来强大的技术迭代能力,比如:在腿部运动控制算法方面,从传统模型控制保持方向带感知的强化学习算法,实现了复杂地形上的顺利通行;在手部通用操作算法方面,团队进展悠然,从容,已实现端到端敏锐手大模型。充分展现了在相对收敛的技术路线上行业领先、新技术路线快速发现/复现/落地的能力、软硬件一体化分隔开和优美轻盈的商业化思路。

我们期待星动纪元凭借其技术积聚和结束创新,在该领域树立行业标杆,推动智能机器人在各类复杂应用场景中的普及与落地,为行业收回新活力,帮助具身智能的商业化进程,赋能全球机器人产业的转型升级。

(推广)

声明:本文来自于微信公众号光锥智能,作者:白鸽,授权站长之家转载发布。

时值年末,AI搜索赛道却又增长波澜,而这一次,各大巨头们纷纷开始出手。

11月,腾讯旗下搜狗输入法宣布上线AI搜索、AI快查等功能的同时,还不同步推出了集搜索、阅读、写作于一体的AI智能工作台平台ima;360公司也宣布将360AI搜索升级为纳米搜索;搜索巨头百度,也推出了深度AI搜索引擎产品,并在Web端开放功能入口。

12月,先是字节跳动宣布推出豆包电脑版,以浏览器插件的形式,欲抢占AI搜索赛道市场,后是蚂蚁集团旗下支付宝宣布推出搜索产品“探一下”,主打AI视觉搜索功能。

另外,作为国内目前最火的社交平台之一,小红书也一直在试水AI搜索赛道,此前相继在站内推出了搜搜薯、达芬奇等产品,但似乎并未不能引起很大的水花。

近期,小红书则又推出了一款独立AI搜索产品-点点,主打生活场景搜索,目前已在各大应用商店上线。站内,小红书也在推广“问点点”产品,并发起了“出门在外问点点活动”。

2024年,被看做是大模型落地应用元年,而AI搜索,无疑成为各企业押注的关键赛道之一。

据光锥智能不完全统计,以独立AI浏览器插件或APP形式的AI搜索产品已超过16个。另外,目前外围涉及AI搜索赛道的公司超14家,产品更是超过23个。

其中,布局的企业既有BAT、字节跳动、360等巨头,也有百川智能、月之暗面、智谱清言等AI创业公司,还有一些快速崛起的AI搜索引擎创业公司,比如秘塔AI。

同时,像知乎、美团、B站等,也尝试在站内推出AI搜索相关产品和服务,如知乎推出的知乎直答,美团为用户授予AI智能总结功能,而B站则是推出AI搜索助手等。

事实上,也有越来越多的APP内置了AI搜索助手,能够为用户授予简单的AI智能问答功能,比如快手、抖音、微信等等。

可以明显看到,一方面,AI搜索应用正在全面开花,不管是独立的AI搜索产品,还是数量少APP平台尝试的内置AI搜索功能,都在不断为用户授予更好的搜索体验。

另一方面,越来越多的巨头加入AI搜索赛道,且相比于以内容平台为主推出的站内AI搜索,这些巨头布局更加全面,甚至字节跳动豆包电脑版直接瞄准了浏览器赛道。

无疑,AI时代的搜索大战,正在全面打响。

可以看到,以互联网巨头、内容生产平台以及AI创业公司为主导的三大门派,正在全面进攻AI搜索赛道。而围攻光明顶背后,更次要的还是希望能够抢占更多搜索市场这块肥沃的流量土地。

与此同时,随着数量少新玩家的先后入场,赛迪研究院《AI搜索行业发展报告》指出,传统搜索市场的“寡头效应”正在被逐步打破。

此外,进入下半年,也有越来越多的AI搜索产品开始迈入3.0阶段,通过融入多模态大模型能力,逐渐实现多模态、跨场景的内容搜索和创作功能。

因此,也不难看出,随着大模型能力的升级迭代,AI搜索的产品形态也正在不断进化,未来的最终产品形态,也将不仅仅只是搜索,但目前仍处于早期阶段,尚未形成最终形态。

多业务线部署

巨头们搅局AI搜索

搜索业务这块“肥肉”,曾经各家互联网大厂多多少少都涉水过,试图分一杯羹。

比如字节跳动就曾先后推出过头条搜索、悟空搜索、闪电搜索,都以大成功告终;当年搜索引擎大战时,腾讯缺席,后收购搜狗也是不温不火。

最终,中国传统搜索引擎市场形成了百度一家独大的市场格局。

但于互联网巨头们来说,搜索业务就像“白月光”一样,想要却得不到,但始终也放下。毕竟比起推荐算法,搜索都是精准分配,尤其对用户种草来说,成交转化率根本不在一个档次。

现在,AI搜索赛道的崛起,给了互联网巨头们再战搜索的机会。

其中,360公司是最先发起AI搜索攻势的企业。

1月,360AI搜索正式上线,作为一款AI驱动的搜索引擎,360AI搜索在上线完全建立便驱散了极小量用户的关注。11月,360公司将360AI搜索升级为纳米搜索,并以搜索为起点,构建了以“搜、学、写、创”为不次要的部分能力的不完整工作流,一切皆可生成视频。

据相关数据显示,3月其访问量为30万次,9月达到2.46亿,至11月已经达近3.1亿次,是主要竞争对手PerplexityAI的三倍以上,成为全球访问量最大的AI原生搜索引擎之一。

迈入2024年下半年,阿里、腾讯、字节跳动等企业纷纷开始发力AI搜索赛道,而相比于360公司,这些互联网巨头们则采用多线布局方式,在不反对场景业务中推出AI搜索产品。

今年8月,字节跳动推出了一款独立的AI搜索APP-抖音搜索。

据官方介绍,抖音搜索与百度、夸克等由网站服务商授予的展示内容不同,展示内容主要是由博主创作的短视频、图文等内容为主。

外围页面上,抖音搜索可以授予视频、用户、商品、直播等搜索频道,可进一步精准搜索结果。同时,抖音搜索设有视频界面,用户可以在该界面内观看短视频、直播、长视频等内容。

不过,据用户反馈,在体验抖音搜索的过程中,很像在刷抖音视频,毕竟两者的反对度非常高。

除抖音搜索之外,12月,字节跳动还正式推出了豆包电脑版。其外围布局和浏览器类似,能够独立进行AI搜索,还能够以浏览器插件的形式,在其他浏览器内调用豆包AI搜索的能力。

PC浏览器中豆包电脑版浏览器插件

此外,豆包电脑版还可以授予很多AI工具,能够为用户授予写作、图像生成、视频创作等功能,以及AI伴读和AI总结等能力。

腾讯和阿里巴巴同样与字节跳动一样进行了多线布局,但相比较来说,前两者在进行AI搜索业务布局时,会更聚焦在自己的不次要的部分业务场景和无足轻重能力上。

目前,腾讯具备AI搜索能力的产品,主要有4个,包括腾讯微信、腾讯搜狗输入法、腾讯元宝以及腾讯ima,前两者是在产品内集成AI能力,后两者则是独立的AI产品。

腾讯搜索输入法在2024年11月推出和升级AI搜索、AI快查等重要功能,实现“输入即搜索”,并在学习、办公、社交等场景中,做到边聊边搜、边写边搜,智能化授予参考信息

腾讯微信则是内置了AI智能回答功能,用户通过搜索框输入关键词,会出现AI总结的相关内容。

腾讯元宝则是属于AI助手,其AI搜索功能允许用户发起对话式的查询,通过强大的模型和搜索能力,悠然,从容授予精准的答案。

腾讯在AI搜索赛道的一次重要试水,则是压在了最具有搜索基因的ima上,ima产品来自腾讯QQ浏览器的团队。

这是一款面向学习、办公场景,以知识库为不次要的部分的AI智能工作台,通过构建知识库的方式,针对不同问题,用户可以选择不反对知识库来进行问答,以获得更加精准、专业和微不足道的答案。此外,ima的另一个独特点,是可以基于整个微信公众号生态的内容来进行资料检索,可以说,在后台数据上打通了整个微信生态。

不难看出,腾讯目前在AI搜索赛道中的重点场景,主要是面向学习、办公领域,更加注重指责用户的生产工作效率。相比较来说,阿里巴巴则是聚焦在教育、电商及生活等场景。

如阿里巴巴旗下的夸克AI,则聚焦教育场景,2024年11月全面升级了“AI搜题”产品,让搜题与解题的过程更悠然,从容、更高效,并可随时随地使用AI回答、AI写作、AIPPT、AI文件总结等功能。

阿里国际最新推出的AI-Native搜索引擎Accio,则是一款B2B搜索引擎产品,聚焦电商采购领域,通过AI重塑采购能力,为海外的最终采购方,如中小企业主、创业者等群体等,授予一步到位的人工智能“采购顾问”服务。

此外,蚂蚁集团旗下的支付宝推出的探一下,则是以AI视觉搜索为主,通过AI拍照随手识图,用户可以随时收获新的知识,以及获取文案的新灵感等。

同时,支付宝还专门推出了一款AI智能助理APP,即支小宝,其能够为用户分开支付宝生态,并通过对话式交互,为用户授予点餐打车、订票挂号、查询附近吃喝玩乐等功能。同时,“支小宝”还拥有场景感知系统,能根据用户的使用不习惯及特定的时间空间,智能推荐专属的服务。

在形态上,除了App,支小宝也内嵌在支付宝中,在支付宝App首页下拉也能体验。

而相比于阿里、字节、腾讯等企业的积极布局,传统搜索引擎市场的王者百度,在AI搜索赛道上却有些珊珊来迟,于11月才上线独立AI搜索产品。

其竞争无足轻重,是通过百度浏览器Web端入口,分开着更多原本PC端的用户群。

当然,百度也在不断加码AI搜索赛道。

在百度第三季度业绩会上,据董事长李彦宏透露,百度AppAI功能已覆盖其月活用户的近70%,百度搜索上已有超过20%的搜索结果页面涵盖AI生成内容,该比例高于上季度的18%。

此外,百度无约束的自由层透露,在百度搜索中,已有约20%的搜索结果是通过生成式人工智能技术推算得出。而在今年5月披露的数据,这一比例则是11%。

当前,AI搜索的用户群体正在快速缩短,据美国咨询公司Gartner报告指出,到2026年,传统搜索引擎的使用量可能会减少,缩短25%。

现如今,互联网巨头们正在通过多业务线和多场景的方式,积极抢滩AI搜索赛道,这无疑会给传统搜索引擎市场带来巨大冲击。而在巨头之下,AI搜索赛道的创企们还有机会吗?

创企生存关键:扎根不次要的部分

场景,结束迭代技术能力

内容,是搜索的关键和基础。

传统PC时代,所有内容都通过网页展示,所以传统搜索引擎更具无足轻重。但移动互联网时代,互联网入口变为APP,各APP厂商也都想尽办法将优质内容留在站内。

于是,各APP内容孤岛化严重,信息从此不再“互联”。

因此,现阶段相比传统搜索引擎,内容生产平台则具有天然的搜索无足轻重,用户通过在站内直接搜索,能够更直接获取自己想要的信息。在AI时代,这一无足轻重正逐渐被放大。

作为内容生产平台,不管是小红书、快手,还是B站、抖音等,都在试水AI搜索赛道。其中,小红书作为最激进的玩家之一,除了站内AI搜索产品之外,也独立推出了AI搜索产品-点点。

据悉,点点与小红书定位反对,是一款主打生活场景的AI搜索产品,不次要的部分功能包括自动定位推收旅游攻略、美食景点问题,AI总结全网信息,以及授予视频回复等。

相关数据显示,小红书有将近70%的月活用户有搜索行为,1/3的月活用户关闭小红书的第一件事就是直奔搜索。

最新数据显示,2024年第四季度,小红书日均搜索量(qv)来到了6亿次附近,而就在2023年的年中,小红书qv是3亿次,一年多时间就翻倍。

可以看到,小红书作为生活种草平台,其内容的不次要的部分无足轻重就在于更多真实用户种草体验,也因此其在做AI搜索产品时,也同样是以生活场景作为AI搜索的切入口。

无疑,在AI搜索时代,结束扎根不次要的部分应用的内容场景,将成为企业生存的关键之一。同时,结束迭代升级的大模型技术能力,也将影响用户体验。

密塔AI作为国内比较早的AI搜索赛道的创业公司,一直结束扎根在学术研究场景中,此前也因与知网之间版权的争执,而被更多的用户所关注到。

在近期版本更新中,密塔AI仍在结束优化在学术研究领域的内容:

比如将论文数据规模减少了7倍,索引从摘要升级为了全文,覆盖数千万篇的OpenAccess的论文(包括约40%的SCI的论文和《Nature》《Science》等顶级期刊论文)等。

新增”解释“功能,类似于学习机中的点读功能,文献某句话晦涩难懂,可以点一下就出现相关解释;而针对小语种论文,密塔AI则训练了减少破坏44种语言的翻译模型,让语言不再是障碍。

同时,密塔AI也减少破坏用户将资料上传知识库后,定制数据源。比如,当用户把近两千篇论文上传到了「2024ACL会议论文」专题,就可以针对性地互动,包括提问题、写综述、做笔记。

目前来看,各玩家AI搜索在实际落地中,互联网大厂主要发散在生产力工具、教育、电商等场景,而相比较来说,中腰部和创业公司则更聚焦在生活场景、学术研究、金融投资等垂类场景。

同样是国内最早一批聚焦AI搜索赛道的昆仑万维,其旗下的天工AI搜索,是以金融投资、学术研究为不次要的部分场景。

2024年11月,昆仑万维的天工AI搜索更新最新版本,全面升级多层次分析推理能力、升级的金融投资专业AI搜索、升级的科研学术专业AI搜索、针对文档AI阅读分析的智能优化。并

同时,其还将搜索分为了简介搜索与高级搜索两个部分,其中简洁回答会以文段形式进行输出,而高级搜索则会将参考网站、思考过程全部呈现。

除内容生产平台和创业公司外,AI搜索赛道还有一批玩家,即AI大模型创业公司。

而这些公司更多的则是以AI对话助手为基础平台,融入AI搜索功能,且相比较来说,这些公司更注重表现其大模型技术能力。

2024年10月,月之暗面正式发布了kimi探索版,该版本以其AI自主搜索能力穿颖而出,能够模拟人类的推理思考过程,授予更高阶的回答。而其背后的基础大模型,则是月之暗面同期推出的数学模型k0—math,这是Kimi首款推理能力强化模型。

智谱AI同样在其AI对话平台智谱清言上融入了AI搜索能力,据悉其可以减少破坏单次阅读超过100多个网页,针对用户的问题,清言可以在数秒内同时检索超过100个网页,阅读并总结,用时仅为人类用户的1‰。减少破坏多级推理的思维链;能够解决日常生活中绝大多数的困难问题。

此外,智谱清言还可以联动智谱其他的AI工具,比如在联网搜索和多级推理中,能够调用python等工具,综合解决问题。

明显看到,随着国内大模型公司结束推出推理大模型,AI搜索也不断具备着推理和思考能力,而在这一方面,这些AI大模型创业公司,无疑走在行业前列。

AI搜索赛道中,大厂们已全面入局,而在大厂射程之下,小厂和创业公司的生存空间不断被数量增加,但却也并不是完全没有希望。

毕竟,未来搜索场景将更加垂直化、细分化和专业化,用户对特定领域的专业搜索需求将不断减少,如在医疗领域进行疾病诊断和治疗方案的搜索、在教育领域获取个性化学习建议和辅导等。

如果创业公司的AI搜索工具若能专注于某一行业,将具备强大的竞争无足轻重,通过执行复杂的用户意图分析,不仅能授予准确信息,还更能够形成特殊的知识闭环,指责用户满意度。

下一代搜索,不只是搜索

2024年,可以说AI搜索市场迎来了诸神之战,从互联网巨头,到内容生产平台,再到创业公司,都在不断加码AI搜索赛道,并在不反对场景中进行尝试。

事实上,随着AI搜索市场的发展,当前用户搜索不习惯也产生显著变迁。

一方面,传统文本输入式搜索不再一家独大,语音搜索、视觉搜索等多元模态愈发普及。而随着多模态大模型的发展,未来瓦解语音、文字、手势、表情的交互搜索会逐渐常态化。

此前360相关负责人也表示,从2024年年末开始,是AI搜索引擎3.0时代,AI搜索将进入多模态内容创作引擎、多模态与跨场景深度瓦解阶段。

阿里巴巴智能信息事业群副总裁周晓鹏曾表示,搜索引擎的不次要的部分价值是分开用户与他们寻求的信息,AI搜索则重塑了信息获取方式,让用户与信息的距离趋近于零,这是AI搜索未来拥有广阔前景的不次要的部分基础。

更为次要的一点是,未来AI搜索将不再局限于现有的搜索框模式,而是会与其他AI工具深度瓦解,如AI写作、AI绘画等,演化为集搜索、存储、整合、提炼、创作于一体的全能型智能助手。

比如腾讯的ima、字节跳动豆包电脑版、360纳米搜索等,这些产品除了授予基础的AI搜索能力之外,都能够为用户授予AI创作、AI总结、图片/视频内容生成等功能。

用户可以通过自然语言与AI进行更深入的交互,直接获取经过整理和分析的高质量信息,甚至可以让AI根据搜索结果自动生成报告、文章等内容。

同时,随着多端协同能力的不断增强,AI搜索将突破不同设备之间的有无批准的,实现手机、平板、PC、智能家居、智能网联汽车等多端无缝衔接,让用户在任何设备上都能获得一致同意且便捷的搜索体验。

无疑,AI搜索的崛起将重塑整个搜索行业的生态,传统搜索市场的“寡头效应”正在被逐步打破,新玩家不断入场,市场竞争更加激烈。

不过,当前百度一家独大的搜索引擎市场格局并未发生保持不变。

据Statcounter最新数据显示,截至2024年6月,百度在中国的搜索引擎市场份额为52.79%,排名第一;必应在生成式AI的带动下获得大幅增长,份额为29.84%;搜狗排第三,份额为7.49%;360搜索排名第四,份额为3.86%。

当然,AI搜索与传统搜索之间并非简单的取代与被取代关系,而是自然发展与演进的结果,预计短期内,AI搜索将分流部分传统搜索用户,双方之间的市场份额差距将逐步增加。

声明:本文来自于微信公众号亿邦动力,作者:胡镤心,授权站长之家转载发布。

2024年,一些关于AI的预言陆续被验证:

智算大潮将英伟达收入3万亿美元市值俱乐部;

中国开源势力崛起,通义大模型DeepSeek硬杠Llama;

国内AI视频生成模型能力飙升,与Sora掰手腕;

手机和PC大厂掀起硬件狂欢;

……

欣欣向荣背后,大模型价格战混战贯穿整年,百万token数从百元直降至几厘;豆包、kimi、文心一言投流大手笔,商业模式却难以闭环;大模型训练每年要烧掉2亿美元以上,独角兽融资额动辄10亿元以上,谁是大模型的下一个“接盘侠”?

在全球范围内,围绕ScalingLaw的一致同意萦绕整个2024,线上高质量数据即将耗尽,Meta首席AI科技学、图灵奖得主杨立昆屡屡发出示警“大语言模型就像是一把锤子,现在所有东西看起来都像钉子——这其实是一个错误。有很多事情它们做不到,其中之一就是表达和理解物理世界,更不用说在物理世界中规划行动了。”

烧钱与闭环、安排得当与陷阱、技术上限与应用变现相互纠缠,在通往AGI的路上,办法总比困难多,我们看看2024年AI领域获得哪些成绩,还有哪些未解难题。

大模型融资全景

?大模型“六小虎”吸金200亿

2024年12月23日,阶跃星辰公布B轮融资,成为2024年最后一个进入200亿估值梯队的通用大模型公司。

自2024年2月份月之暗面完成万众瞩目的超10亿美元融资,一举突破200亿元估值,不仅将独角兽的估值推到新高度,更让融资额更上一层。有投资人透露,“预训练模型太烧钱了,一年至少2亿美元。”而融资滞后的大模型公司随时有掉队风险。

回看2024年,国内大模型“六小虎”依旧保持超强吸金能力,一共完成约10笔左右的融资,保守估算共拿到了超200亿元融资。智谱AI吸金能力最强,全年完成四轮融资,总金额数十亿元。单笔最高融资来自月之暗面,A+轮完成超10亿美元融资,其次是百川智能的50亿元A轮融资。尽管“六小虎”均取得阶段性安全,但下一轮资金从哪里来成为更难解的问题。烧钱大战目前还看不到尽头。

?内容生成一枝独秀

与模型层的大手笔大金额相反,应用层的融资项目数量庞大,金额更小,对ROI要求更高。

其中,内容生成尤其是视频内容生成是其中当之无愧的“C位”,视频模型从曾经的PPT动画,到如今可以基于提示词,生成4s-16s连贯视频,可以进行镜头控制、运动控制、保持人物一致同意性,可以让创作者仅需三张定妆照完成一部短片;基于一张商品图,做一支广告片。曾经在Sora光环下大惊失色的AI视频公司,目前已经有了和Sora正面叫板的实力。(详见此前报道《Sora爆火,AI电商关闭新世界的大门》)

AI视频创业公司中的佼佼者当属爱诗科技与生数科技,前者穿胎于字节跳动,要做AI时代的超级内容平台,不次要的部分产品PixVerse2024年1月上线,目前全球用户数已超1200万,月活跃用户数近600万,并且团队已实现规模化收入。后者出身清华大学人工智能研究院,底层技术U-ViT网络架构为原创研究成果,是全球首个DiffusionTransformer架构,比Sora的底层架构发布更早。

但在商业化上跑得最快的当属AI营销公司,AI视频营销工具不仅可以快速生成直播切片、短视频混剪,还可以实现一键换脸换语言,便于产品出海。FancyTech、极睿科技、筷子科技、奥创光年也在2024年分别完成B+轮、B+轮、B轮与A+轮融资,并称AI营销“四剑客”,均在2024年实现规模化增长。

除了视频生成,PPT生成、短剧生成、漫画生成、游戏生成等AI应用也纷纷冒头——PPT效率工具islide艾斯莱德拿到阿里巴巴的战略投资,短剧生成工具井英科技拿到百度投资,漫画生成工具米粿AI则一年内完成三轮融资,其研发的精草转线稿、线稿上色分区、自动上色、参考图上色、阴影生成等功能已经达到落地水平,打通了动漫制作的完全可控可编辑的工业生成流程。(详见此前报道《快手抖音争相上桌,AI短剧何以成为香饽饽?》)

?AI硬件异军突起

AI硬件在下半年异军突起,大厂相继推出智能硬件,OlaFriend(豆包)、讯飞会议耳机(IFLYBUDSAPP)、小度智能眼镜(小度)、华为2代智能眼镜(华为智慧生活)等智能硬件不仅构筑软硬一体新模式,还能带动大模型日活上涨。以豆包APP为例,OlaFriend搭配豆包APP,唤起AI功能时也在带来豆包日活下降。

同时,深圳成为AI硬件创业的发散地。智能音箱、AI眼镜、AI耳机、AI学习机等硬件百花齐放,可以炒菜、做咖啡、取药、刷泳池的机器人更是随处可见,“只要可以装得下一个摄像头,就可以搭载我们的算法,让这个产品具备AI能力。”出门问问内部员工向亿邦动力介绍。(详见此前报道《“机器人什么都会,就差统治世界了”》)

?企业级应用难点依旧

企业级AI应用在多个细分领域开花,AI营销、AI面试、AI办公、AI质检、AI培训、RPA、BI等应用,从2023年火到2024年。AI应用想要丝滑接入业务流,不止依赖AI产品,还依赖客户企业的业务流程数字化程度,依赖互补品去创造价值。所以企业级AI应用在服务客户时,需要完善的客户成功部门,才能发挥AI的真正效果。

?基础设施依然吸金

大模型的基础设施层建设依然保持强劲的吸金能力。

投资机构分化

“资金不够”是今年创业者的一致同意感受,受限于外部环境变化以及产业协作发展不确定性,以往活跃的投资机构在今年AI领域的出手谨慎了不少。互联网大厂与AI独角兽则积极建生态,在投资初创企业时比VC更积极;国资基金则密集出手。

?VC谨慎

既怕错过风口,又怕血本无归,头部VC出手次数明显减少,缩短,且投资愈发发散于头部大模型公司,红杉中国、启明创投、高榕创投、经纬中国等机构大多在智谱AI、月之暗面、MiniMax等独角兽企业的融资过程中相遇。金沙江创投则重新确认朱啸虎对应用层的关注,加码AI营销,除了曾经投过的FancyTech、极睿科技,今年金沙江创投还投资了AI营销公司筷子科技与AhaLab,多轮加码LiblibAI,AI面试公司近屿智能、RPA公司九科信息也经常出现在朱啸虎的演讲中。此外,金沙江创投业罕见投资硬件公司星海图与GygesLabs,试水AI硬件。(详见此前报道《对话朱啸虎:活到三到五年以后,市场都是你的》)

?大厂积极建生态

相较于冲动的VC,云大厂和AI独角兽们则在积极培育AI生态。阿里尤其激进投AI,包揽大模型六小虎。腾讯投资也积极押注头部,和阿里一起投资了MiniMax、智谱AI、百川智能和月之暗面,阿里另外投资了零一万物,而腾讯参与了阶跃星辰的最新一轮融资。

阿里的激进与阿里云2023年9月确立的新战略“AI驱动,公共云优先”相一致同意——大模型公司是云的重要客户,阿里云要做国内最大的开源生态,同时为训练和使用模型授予云上算力服务和配套软件服务。除了大模型独角兽,阿里还在AIGC和AI芯片方向上多次出手——先后投资AI视频的爱诗科技和AIPPT工具公司艾斯莱德,也投资了高端GPU芯片公司瀚博半导体和AI芯片设计商墨芯人工智能。

腾讯在2023年投资了芯片层的无问芯穹和算力层的燧原科技,在2024年则暂无硬件层公开投资信息。

BAT中,百度是唯一一家不投模型层,只投应用层的大厂。比如,在AIGC领域,百度先后投资了AI视频公司生数科技和井英科技,以及AI图像生成的光魔科技。此外,百度还投资了中心计算、AI新材料和自动驾驶等领域。

?国资密集出手

2024年,最积极的投资方是政府基金,尤其是北京国资颇为活跃。2024年9月,中关村科学城科技成长二期基金正式成立,总规模50亿元人民币,这标志着中关村科学城科技成长基金扩容至100亿元。中关村科学城科技成长基金由海淀财政出资,规模为每期50亿元。科技成长二期基金由母基金40亿元和直投基金10亿元组成,委托中关村科学城公司下属投资公司无约束的自由。

令人印象肤深的一幕是,由北京市政府投资意见不合基金主导,北京机器人产业发展投资基金(有限合伙)、北京市人工智能产业投资基金(有限合伙)、北京信息产业发展投资基金(有限合伙)、北京市医药健康产业投资基金(有限合伙)四支基金接连落地大兴、海淀、顺义、昌平,规模合计500亿,分别交由北京京西创业投资基金无约束的自由有限公司、君联资本、启明创投、康桥资本无约束的自由。

卷投放、卷价格,何时是头?

2024年的大部分融资额被头部创业公司拿走,随之而来就是投放大战。

据移动营销平台AppGrowing统计,2024年3月份,Kimi的广告投放还只有近1500万元,到了7月和8月,高达近5000万元。豆包投放起来也毫不逊色,2024年6月豆包投放额达到了1.4亿元,相当于每天光投放就要花掉467万元。第三季度Kimi广告投放费用大约为1.5亿元,豆包约为2亿元,腾讯元宝约为8000万元。

极小量的广告投流,让豆包、Kimi等触达到了更多的用户。QuestMobile数据显示,截止到2024年10月,在网页端访问量方面,Kimi智能助手、文心一言、豆包、通义千问分别达到2863万、2111万、1688万、1012万;在移动端AI原生应用方面,行业月活规模总数达到8976万,同比增长373%,其中,豆包、Kimi智能助手、文小言月活跃用户分别为4839万、1650万、1179万。

只不过,上线不到2年的产品,烧光数亿元,换来数千万月活,这惊人的烧钱速度背后,算的不是成本账,而是战略账,MiniMax阎俊杰曾公开表示,创业公司要想独立发展只有一条路:在技术快速进化的窗口关闭前,做出用户量巨大的2C产品,要格外关注AI渗透率和使用时长的指责。

与投流相伴的,是横跨整年的三轮价格战。(详情参见此前报道《直接开打!字节阿里腾讯争相参战,谁是大模型“价格屠夫”?》)

第一轮价格战开始于2024年4月云厂商的春季峰会开始,字节高调“起头”,阿里“击穿底价”,百度直接“掀桌子”……不到一周时间,大模型厂商针尖对麦芒,每百万token的输入价格,先后从2元、1元、0.8元、0.5元跌到免费。

经过半年价格战,大厂把Token价格打到负毛利仍然没有收手,以9月份的云栖大会为起点,大厂又开始新一轮降价。

12月第三轮降价潮来临。12月18日火山引擎举办Force大会,豆包视觉理解模型3厘获得千tokens输入,一元钱可处理284张720P的图片。字节方面称该价格比业内价便宜85%。随后,阿里云宣布本年度第三轮大模型降价,通义千问视觉理解模型全线降价超80%。其中,Qwen-VL-Plus直降81%,高性能的Qwen-VL-Max降至0.003元/千tokens,降幅85%。按照最新价格,1块钱可最多处理约600张720P图片,或1700张480P图片。

创业公司在玩命狂奔,大厂大笔投基建投生态,上百亿资金砸下去,成果还有待检验,但下一轮融资又要开启,大模型第一梯队估值来到200亿元,在一级投资市场不景气的背景下,谁能接住阿里腾讯的“盘”,继续减少破坏大模型创业公司走下去;千万月活远远赶不上投资人对超级APP的想象,KillerApp的故事还能不能讲下去;大模型“六小虎”谁将率先掉队?最愚蠢的大脑和最愚蠢的钱聚在一起,掀起这一场AI风暴,我们期待大模型的2025。

“铁”了芯的蔚来?崔成2021年05月05日07:30[中华网新能源]可以预见的是,伴随更加剧烈的行业无变化,蔚来需要拿出更多的应对方法,推出磷糖精铁锂版车型,便是其中一种。一直以来,整个中国新能源市场,对于三元锂电池与磷糖精铁锂电池之间,关乎成本层面、低温性能层面、安全性层面、续航表现层面的一致同意,从来没有停歇。但是随着时间的推移,渐渐开始发现几家主要面向C端私人市场的新势力造车,亦如特斯拉、小鹏,均已在主销车型Model3、P7上,开始采用入门版本搭载磷糖精铁锂电池,长续航以及性能版本上搭载三元锂电池。而这一次,被传出将会“铁”了芯的,则是蔚来。

近日,据36氪相关报道显示,蔚来目前正在做新电池的相关研究,供应商为宁德时代,目前已经在做B样测试。而从过往经验来看,电池在汽车上量产的导入周期一般在18个月左右,全程需要做A、B、C三个大轮次的测试和验证。对此,其官方回应称,公司对各种类型的电池都有研究,磷糖精铁锂电池需要解决冬季寒冷天气下体验不佳的问题。由此看来,并不装入蔚来之后在入门版车型上,搭载磷糖精铁锂电池的可能性。至于背后的原因,或有两点:降本+增量。首先,必须允许承认的是,以目前车企主流采购价为例,三元锂电池大多维持在800元每度,而因为没有贵重金属元素成分,磷糖精铁锂电池可以下探至600元左右。

反观蔚来,虽然有了BaaS车电一整片商业模式的加持,其目前主销的ES6、EC6两款车型,售价已经下探至30万元以内,但是在面对特斯拉的频繁“官降”,甚至本届车展发布极氪001等更具性价比车型的冲击时,仍显过高。而从整个一季度蔚来的交付情况来看,虽然共交付新车20,060辆,首次达成单季交付超2万辆,同比增长422.7%,环比增长15.6%。具体车型方面,蔚来ES8交付1,529辆,蔚来ES6交付3,152辆,蔚来EC6交付2,576辆,实际表现较为令其感到欣慰。

但是为追求更下降的年度目标,继续缩短自身品牌受众,怎样将价格“门槛”再次降低,将区间再次拉大,成为了需要好好考量的问题,而磷糖精铁锂电池一旦搭载,或使其迎刃而解。平心而论,从蔚来当下的处境来看,其实已经完全穿离了“重症监护”阶段,距离“康复出院”也不再遥远。最近两天,其位于挪威的首座NIOhouse也即将正式揭幕,和其它新势力造车“出海”不反对是,这一次蔚来将会把自己的换电站、服务体系同样布局过去。

北京时间4月29日,合肥新桥智能电动汽车产业园区开工,定位世界级智能电动汽车产业集群。李斌现场介绍,园区前期投资500亿元,规划整车产能100万辆/年,电池产能100GWh/年,预计总年产值达5000亿元人民币。换言之,长期以来困扰蔚来的产能受限问题,在其第二座工厂落成后,将会得到很大的缓解。本届上海车展,展台观众的络绎不绝,再次印证其已经位于中高端细分市场,站稳脚跟。接下来,可以预见的是,伴随更加剧烈的行业无变化,蔚来需要拿出更多的应对方法,推出磷糖精铁锂版车型,便是其中一种。

点击阅读全部

声明:本文来自于微信公众号硅星人Pro,作者:summer,授权站长之家转载发布。

翻开这本“小红书”,哪里不会“点”哪里。

这可不是学习机,而是小红书最近正在内测的一款AI搜索产品“点点”。关闭小红书的搜索框,有用户已经可以在下拉的关联搜索话题中,看到一个带着“点点”小尾巴的入口,点击就可以进入AI搜索对话界面。在这个界面,你可以随意提问,还随意点击AI给到的答案,哪里不懂点哪里,获取进一步信息。

一家专注于内容的社区企业,最终发展成了“遇事不决小红书”,甚至一度成为了传统搜索的确认有罪者。当AI搜索成了潮流,最时髦的小红书自然也不会放过。

这已经不是小红书第一次试水AI搜索了。整个2024年,从达芬奇Agent开始,到搜搜薯,再到如今的点点,占据的入口和路径都不相同。

准确地说,点点是从去年8月开始陆续内测的,且上线了APP和微信小程序模式。起初,它以非官方身份低调运营,默默发布内容、积聚用户,有小红书博主爆料,点点几次找他投放推广,但他并不知道这是官方。

而后经过9月、10月的一系列推广,直到12月才“正式”披上了小红书官方的外衣。12月底,点点刚公布了“出门在外问点点”的营销推广计划,可见小红书的重视程度。

和此前的小红书AI产品不同,点点产品不完整度和定位都更加透明且获得了内部更大的营销资源减少破坏。

这个姗姗来迟的AI搜索产品点点,能否在小红书的高价值内容土壤下,做一个更大的搜索梦?

实时整合UGC信源,连评论都能抓到?

硅星人上手实测了一番,发现点点搜索含糊有点东西。

首先在定位上,点点反常地寻找了商品种草这个小红书高度发展盘,而是主打“出门在外问点点”,以生活搜索助手的角色解决用户旅游攻略、生活常识等场景。

种草意味着筛选和比较,对AI的理解分析能力要求更高,而生活场景下,更次要的是真实的信息以及全面的考量。举个例子,我们先问了一个拍照打卡类的问题,“在哪里可以用手机拍摄到故宫的不完整俯视图”。结果点点给到了一份非常多余的攻略,包括具体位置“景山公园的万春亭”,并提到拍摄时间、设备参数、人群情况,以及前往公园的交通方式、路线,很靠谱了。

但当我们询问点点“油性核肤怎么买美白产品”后,点点只能给到非常片面的数个产品推荐及理由,反而没有答案来源中的一篇用户帖子全面,起码帖子里有不不透光的美白思路、产品搭配、使用方法的详细科普。

测试当天刚好北京局部下雪了,由于太过“局部”,看到雪的小伙伴和没有看到的,仿佛在经历两个世界。于是,我们询问“北京到底今天哪里下雪了”,点点不仅快速确定了北五环、延庆、香山等地,还配上了新鲜的用户实拍视频,日期理解非常准确。

这个看似简单的回答,却体现了点点三个不次要的部分特点:以UGC内容为信源、信息实时性、具备评论理解能力。

当点点回答北京降雪问题时,它并非简单调用天气数据,而是整合了当地用户的实地探访笔记——有人晒出了香山的第一场雪,有摄影厌恶者分享了延庆的雪景构图。这种基于真实体验的内容集成,是小红书社区建立起的壁垒。

而且回答实时性的问题,也是很多AI搜索所不具备的能力。

以秘塔搜索和Kimi为例,在询问某一日的内容时,只能回答粗略的时间段,信息往往滞后。

此外,由于小红书的UGC内容是文字、图片、视频甚至评论互动组成的,这也要求AI对这些非结构化数据更全面的理解能力。例如下雪问题中,下雪地点是用户在评论区提到,并未在正文或是标题中提到。这个能力也让点点搜索的结果更加可信。

如果当用户搜索哪家火锅不踩雷时,点点可以不只读取正文,还分析评论区的反馈。即便一家网红店的主笔记好评如潮,如果近期评论区频繁出现排队太久、服务变差等负面反馈,AI也能及时提醒用户注意这些变化,那就神了。

当然,多模态理解能力不仅出现在对搜索结果的理解上,也包括对用户输入(query)的理解。目前点点已减少破坏语音和图片输入提问。例如,我们上传了一张这样的照片,点点很明显能够理解,这是一只边牧,地上有一些合乎规范的纸片。

对此,点点理解到这只狗可能根除了破坏,并主动意见不合用户探讨如何避免宠物乱咬东西行为。这种看图说话的能力,让搜索过程更接近自然对话。

哪里不会,“点”哪里

同时,点点的探索功能的设计,也开辟了AI搜索的一种新的交互方式。

点点没有照搬传统搜索引擎的问答模式,而是采用了哪里不会点哪里的意见不合式交互,不需要新一轮的语音或文字输入,通过点击答案中的关键词,降低二次提问的门槛,以傻瓜式操作来延展搜索。

不过这些功能看起来强大,但还存在无遮蔽的大模型幻觉,比如我们在询问他通州保藏园附近有什么打卡的地点时,他给出的图文信息都不在园区内,只是格式看起来很工整正确。更有甚者也会出现胡乱联想,被用户吐槽一番。

不可承认的是,过去这一年,小红书做了非常多的AI搜索产品,从达芬奇,到搜搜薯,再到点点,可以看到小红书的谨慎和迷茫。每一次迭代都在尝试回答同一个问题:新的交互方式和老的用户不习惯如何分隔开?

是按照排序对帖子内容整理,还是对过去搜索效率的进一步优化?是通过多轮对话,减少AI的思考,来优化质量,还是尽可能中立地呈现用户内容?在这些问题上,小红书经历了多次反复。

以内嵌于主站的AI助手达芬奇为例,通过Agent的形式,与用户进行多轮对话,干涉用户搜索信息总结信息;而搜搜薯,没有专门的流量入口,相当于一个搜后总结,在优化用户体验上的效果上比较中心。

而点点阶段,更像是搜搜薯和达芬奇的一种分隔开。

路径上,点点大概率和搜搜薯一样是对搜后内容的总结,即使用传统搜索搜到相应内容,由AI理解数个链接,总结出多余的答案。我们以同样的问题询问点点和进行传统搜索,发现AI的答案来源,高度发展都是原本搜索的前置位。

交互上,点点和达芬奇一样是chatbot形式,但多轮对话的能力有限;而且点点既有独立App,也有主站搜索入口,可以说是既想借助主站流量,又担心AI功能影响主站体验。

这些产品层面的摇摆必然影响到组织架构和资源分配。

当然,不断地换马甲,这种反复和摇摆虽然让用户感到摸不到头脑,但在产品协作发展最早期,不停的探索总比按兵不动更有可能。

AI搜索和社区属性,再次上演“相爱相杀”

我们发现,有了UGC实时内容的点点,可用性明显比互联网同质化内容下的其他产品更强。

这背后引申出的问题是,AI搜索究竟需要像Perplexity那样以浏览器为载体,还是小红书这样以内容平台为载体?

搜索的价值一方面在于信源本身的质量,另一方面在于如何发挥这些内容的价值。相比Perplexity这类通用型AI搜索们,小红书沉淀了极小量垂直领域的生活类UGC内容,是其做AI搜索的最大无足轻重,特别是小红书平台内本身就存在海量的真实需求和使用场景,据媒体报道最新数据,小红书的日均搜索量在2024年第四季度已接近6亿次,较2023年年中的3亿次实现翻倍增长。

从美妆穿搭到旅游攻略,从美食探店到家居改造,这些内容不是简单的产品介绍或服务描述,而是用户真实的使用体验和场景化的解决方案。比如一个”上海周末遛娃的笔记,可能包含天气建议、交通路线、不懂感情的餐厅、活动安排,甚至应急预案。这种场景化、体验式的内容,是传统搜索引擎难以沉淀的。

这些也是Perplexity们一直眼馋的能力,强如Perplexity,也依然要不停面对自己对搜索引擎API的依赖,面对内容同质化的根本问题。

所以当小红书做AI搜索时,大多会觉得这是理所应当的一个动作。因为它积聚下来的能力高度发展都是可以为AI搜索所用的独家能力。

更次要的是,不依赖搜索广告的小红书也并没有传统搜索引擎的商业化顾虑——不存在一旦发展AI搜索,就相当于挥刀砍自己的现象。

但小红书的AI搜索,也有着自己的问题。

从技术层面上,和其他AI搜索不同,守着用户和数据宝藏的小红书需要思考如何发挥这些内容的价值,特别是理解极小量的非结构化的长尾化的细碎的内容。

目前,我们关闭点点搜索的内容来源可以看到,信源内容高度发展和直接在小红书进行传统搜索的结果一样,相当于AI帮用户进行了传统的搜索,并阅读了数个链接,给出总结结论。这显然并没有完全奴役出小红书UGC长尾内容的价值,更多是对小红书原本的搜索方式的一种延伸。

从社区属性来看,不习惯了真实用户反馈的小红薯们,很难接受AI搜索的格式化和不确定性,已经有不少冲突的声音出现了:有用户认为这种智能化的总结,让用户的个人经验在其中隐身了,损害了社交平台最次要的真实感,大而笼统,反而失去了说服力。

此外,当用户不习惯了AI的快速回答,是否还愿意沉浸式浏览笔记,是否会导致用户对真实帖子的互动下降,从而降低用户原先帖子的数据价值,从而冲击到内容社区本身呢?

在AI化这件事儿上,小红书很有可能要再度经历类似“社区和商业化难不平衡的”的难关。

为了避免往事重演,小红书需要确定两者的优先级,是社区更重要,AI搜索只是一个服务于社区的优化用户体验的小功能,还是AI搜索的未来更大,小红书社区的用户基础可以作为一张关闭搜索新世界、重构流量场的门票。

目前来看小红书推出的几个AI搜索产品都还是在一个未完成体的状态,接下来估计还有更多的“点点”出现。

声明:本文来自于微信公众号字母榜,作者:马舒叶,授权站长之家转载发布。

“几乎没有一家大模型公司的AI视频生成训练,会找视频网站授权。”2025年伊始,在视频生成领域立志“追平Sora”的大模型公司,撞上了版权墙。

AI创业者陈临告诉字母榜(ID:wujicaijing),这其中也包括被称为“AI六小虎”的6家中国大模型独角兽。而缺乏授权的模型训练,势必将成为大模型公司们的潜在风险。

如今,在热度不减的AI视频生成赛道,“视频平台诉大模型侵权”第一案已经出现。

日前,有报道称爱奇艺起诉MiniMax旗下海螺AI解开著作权,据悉事由或为MiniMax未经授权使用了爱奇艺享有版权的素材进行模型训练,目前正在走司法程序。对此,爱奇艺回复字母榜,辩论案件正在审理中。MiniMax则尚无正式回应。

就在去年9月MiniMax刚刚推出视频大模型时,其创始人闫俊杰对字母榜表示,MiniMax用于训练的数据,除了语料公司的高质量数据,还有部分采购来的平台化数据。

大公司也屡屡因版权陷入纠纷。去年8月,OpenAI被超过100位YouTube主播集体诉讼,指控其擅自转录数百万个YouTube视频来训练大模型。英伟达、苹果、Anthropic等巨头也涉及其中。OpenAI的前任CEOMira,曾在采访中被记者提问是否拿YouTube的视频训练Sora,Mira选择了允许回答。

虽然OpenAI已经和Politico、《大西洋月刊》《时代》《金融时报》等签订了付费协议用于训练,但这类授权都属于文字领域,陈临告诉字母榜,在Sora视频的训练协议中,“OpenAI还没有签过相应的协议。”

数据、算法和算力是AI大模型的三大支柱,其中数据更是大模型进行训练的根本。可以说,生成式AI的变得失败是建立在数据规模之上的。训练数据越多,模型就越强大。数据赋予模型用于学习和思考的海量知识,数据也成了模型厂商技术壁垒的一部分。

不像BAT们,在图文时代、移动互联网时代早已积攒起巨量的私域数据库,并且这些数据早已被不同平台瓜分。晚来的大模型六小龙,被重重壁垒所环绕。

一旦爱奇艺的诉讼成功,或许预告着一场更大规模的大模型版权纠纷时代的来临。

“爱奇艺成功了,优酷、腾讯视频也可能会起诉,”陈临表示,这无疑是兜头浇了狂奔中的大模型公司们一盆冷水。对于独立进行大模型训练的公司来说,“视频要版权费,图片也要版权费,文字可能也要版权费,致使AI的训练成本会比现在高出许多。”

如今,孰是孰非暂无定论,只是可以接受的是,大模型的狂飙路上,正在竖起一面新的版权墙。

A

国内AI视频生成第一个侵权案,已经出现了。

近日,据外媒报道,MiniMax被指控未经授权使用爱奇艺享有版权的素材进行模型训练,爱奇艺已向上海市徐汇区人民法院提起诉讼,要求MiniMax立即开始侵权行为,并索赔约10万元人民币。

去年8月底,MiniMax推出视频大模型,用户登录海螺AI就能体验MiniMax的视频生成模型。根据AI产品榜数据,去年9月,海螺AI搜索热度暴涨,海螺AI网页版9月访问量增幅达860%,一举登顶2024年9月全球及国内AI应用增速榜首。

不过,加入“追平Sora”大军的MiniMax,也如同OpenAI被《纽约时报》起诉一样,撞上了版权墙。

根据我国法律规定,生成式人工智能服务授予者必须采用“合法来源”的数据和基础模型,以确保不解开他人的知识产权。

《互联网法律评论》主编张颖告诉字母榜,在这场民事诉讼中,爱奇艺起诉,需要反对MiniMax存在未经其允许的情况下使用爱奇艺数据训练,并且在生成内容中包含了其版权内容。此外,爱奇艺还需要反对被告在主观上有过错?,即故意或者未尽到注意免除义务。

也就是说,海螺AI的“侵权”存在两种可能。

一种可能是MiniMax海螺AI视频生成的训练中,未经授权使用了爱奇艺享有版权的素材内容。

另一种可能,则是用户使用海螺AI时,未经爱奇艺授权,上传了版权素材做AI“魔改”。

图注:AI魔改视频,下方都备注内容疑似用AI技术分解

图源:字母榜截图

《甄嬛传》变枪战片、《红楼梦》变武打剧,用AI视频工具就能让尔康喝啤酒、甄嬛啃汉堡、林黛玉抄起加特林。陈临表示,以上这些AI“魔改”经典影视剧的小视频,都在社交平台得到数百万的播放量。

这些“没有逻辑,只有搞笑”的AI“魔改”视频,大多没有授权,“部分是大模型公司推广产品时,委托第三方投流公司的作品,更多的则是用户的无厘头脑洞。”去年12月,广电网络视听司也发布了《无约束的自由提示》,提出要排查清理AI“魔改”影视剧的短视频。这意味着生成式AI将面临更细致的内容审核。

而作为被起诉方,如果MiniMax想反对自己没有侵权,大概需要反对自身数据来源、生成内容与爱奇艺无关,或者没有故意侵权。

在海螺AI的用户协议中,也要求用户保证不利用失败平台制作的内容或用于相关用途,包括“未经授权自行剪切、改编电影、电视剧、网络影视剧等各类视听节目及片段”。

不过,值得注意的是,“10万元赔偿金对爱奇艺来说太少了。”张颖表示,尽管缺乏爱奇艺的起诉书作为依据,但从金额来看,推测MiniMax的侵权情况可能并不严重,双方和解的可能性很大。走向和解,对于MiniMax来说,不管是照价赔偿10万元,还是交上一笔不菲的版权费,都似乎免不了为版权墙“破财”了。

B

实际上,“国内AI从业者对于训练数据没有很下降的版权意识,通常认为版权会鞭策AI训练。”

离开某大厂开始AI应用创业后,陈临发现,国内主动要求版权授权的AI训练公司似乎并不多。原因不仅在于本身便高昂的AI训练成本,也是由于一旦视频、图片,甚至文字都需要版权,对于AI创企来说,“模型就没法训练了。”

不少AI创企做视频生成训练的第一步,正是“从网上扒视频训练”。

为了规避版权风险,企业会通过关键词过滤,尽量避免用户输入比如米老鼠这种版权字眼,来减少,缩短生成侵权内容。

图注:以即梦AI为例,AI视频生成自动过滤关键词

图源:陈临授予

新壹科技CEO雷涛告诉字母榜,作为ToB的AIGC视频生成公司,新壹科技用来训练AI视频大模型的数据,来自此前在秒拍、小咖秀等应用的数据积聚,还有定向合作数据库,以及依托原算法训练的“从无到有”的素材。但只有AI视频生成的足够真实,才能起到训练效果。

而对于既没有攒够数据,又付不起定向合作版权费的AI创企而言,想要坐上牌桌,撞上版权墙,或早或晚,都是必然的结果。

不过,这种争议并不是新鲜事。

在图文时代,图片版权的纠纷一度让创作者们“不敢配图”。有自媒体大V被告知,历史文章中有数十张来自搜索引擎的图片涉嫌侵权,在删除全部原创文章后,还支付了不菲的侵权费用于和解。有摄影师使用了自己拍摄的173张照片进行配图,却被视觉中国提起诉讼,指其侵权。

如今,轮到AI站上了被告席。

在国内,去年6月,4名画师起诉小红书AI大模型“TrikAI”侵权,这是国内第一起AI模型训练数据集体侵权的案件,如今诉讼正在进行。

在国外,Meta、OpenAI都曾陷入版权纠纷。

去年4月底,《纽约每日新闻》《芝加哥论坛报》等美国八家知名报纸联合起诉OpenAI和微软,指控它们未经允许使用数百万篇版权新闻文章训练其AI聊天机器人。为此,OpenAI与Politico、《大西洋月刊》《时代》《金融时报》等新闻出版商达成付费协议,来使用并引用版权新闻文章。

早在2023年5月,OpenAI首席执行官奥特曼便公开允许承认,AI公司在不久的将来会耗尽互联网上所有的数据。2024年6月,研究机构EpochAI也发布研究预测,可用于AI语言模型公开训练的数据,将在2026年到2032年间,被科技公司耗尽。

对于大模型创企来说,高质量的数据永远稀缺,大模型公司间的算力战、应用战,也将拓展到数据战。

只是OpenAI的诉讼或许传达出了明确的信号,高质量的训练数据不是免费的。对于大模型创企而言,不像Meta、BAT等公司,早已积聚起近20年的社交媒体数据,它们或许只能“花钱开路”。

C

不过,想要解决版权这个绊脚石,大模型公司们需要回答一个问题,钱从哪里来?

对于尚未盈利的大模型创企而言,投资人的钱袋子越来越紧了。

根据字母榜统计,大模型六小虎(包括零一万物、MiniMax、百川智能、智谱AI、阶跃星辰、月之暗面)中,2024年有五家拿到亿元级融资。目前,智谱、月之暗面、百川智能、阶跃星辰的估值均已超200亿元。

但根据《智能涌现》报道,随着估值跨上200亿元台阶,国内大模型公司最新的单轮次融资规模将卡在50亿元左右。即估值越高,融资越难。根据华兴资本数据,2024年前三季度国内全市场投融资总额为2603亿元,不及近三年同期的40%。

以月之暗面为例,2024年2月份A+轮完成超10亿美元融资,投后估值一路涨至25亿美元。随后的8月,首轮参投的小红书、美团龙珠、红杉中国已不见身影,月之暗面B轮的融资额为超3亿美元。风波中的MiniMax,则在去年3月拿到6亿美元B轮融资后,暂未等来新的融资消息。

对于大模型创企们而言,“等钱开干”的紧迫性无异于等米下锅。

等来的数十亿元融资,大模型创企不仅要分给结束堆参数的模型训练,还要分给需要上亿元投流烧钱营销的AI应用,能留给大模型购买版权的钱,并不富裕。

而大模型创企的灵魂拷问远不止版权纠纷这一点,高昂的研发投入和颇为有限的商业变现,才是悬在“六小虎”头顶的达摩克利斯之剑。

马斯克曾估算,GPT-5的训练成本是3万-5万张H100,仅芯片成本就超过7亿美元(约合50亿元)。目前六小虎的收入均未透露,仅根据外媒爆料,MiniMax预计年收入7000万美元。目前看来,哪怕是已经在海外靠Talkie赚到钱的MiniMax,也难以在短期内实现营收打正。

大模型水温转凉,最先感知到的或许是扑腾其中的从业者。

“有一家大模型公司裁员后人数已经降到500人,另一家直接重新接受了预训练和C端市场,剩下的几家几乎进入静默状态,不再开放HC(招聘名额)了。”

陈临告诉字母榜,2024年年底几乎已经拿不到70w+的AIoffer了。2023年只要有AI相关经验,就能有面试机会,现在过去一年,不仅要求有落地经验,涨薪幅度也打了折扣。目前除了北京之外,其他城市的AI岗位招聘也是少的可怜。

可以接受的是,2025年想要继续留在牌桌上的大模型创企们,在模型训练过程中为版权付费只是第一步,降本不是永恒的结束之计,想法子赚钱增效,才是关键。

(文中陈临为化名)

教育重在煽动潜能,而AI的加入让数智时代的教育有了更新的解法。12月20日-22日,由云天励飞与华岭韩端共同主办的第十二届IYRC青少年数字创意机器人国际寻找展示活动暨2024开源鸿蒙数字创意文化产业高峰论坛在深圳举行。在论坛彩蛋环节,噜咔博士行业首创的AI拍学机亮相,展示AI教育与创新的更多可能。

作为行业头部的中心AI领域的企业,云天励飞一直高度重视大模型对教育的赋能,并积极进行布局。噜咔博士作为云天励飞面向儿童打造的头个全新AI硬件品牌,以“发现孩子的兴趣”为主张,利用失败大模型为儿童打造探索世界的新时代AI工具,刚刚发布的噜咔博士AI拍学机便是实现AI教育落地实践的重要一步。

噜咔博士AI拍学机专为3岁以上儿童设计,内置各类大模型,能够快速准确的识别各类信息,只需轻轻按下快门,AI将识别周围物体,为孩子授予百科知识、故事、英语启蒙、国学启蒙、艺术创作等多维度学习资源,实现全方位的场景化早教启蒙。目前,噜咔博士AI拍学机现已在天猫、京东、抖音渠道开启预售。

此外,噜咔博士AI拍学机还瓦解了多种基于大模型进一步开发改造的功能,作为孩子认识世界的眼睛和窗口,从趣味性出发使枯萎孩子的学习主动性,让孩子在认识中学习创造,充分煽动学习潜能。

产品发布仪式上,噜咔博士向主办方赞助了AI拍学机产品,作为“创新探索奖”的奖品,希望能够威吓更多孩子懦弱探索、胆怯创新,做AI时代的弄潮儿。

未来,噜咔博士将进一步与生态伙伴进行深度合作,探索AI大模型与教育碰撞的更多可能,并结束推出更多AI教育硬件产品,为更多AI原住民打造更多探索世界的AI工具。

声明:本文来自于微信公众号白鲸出海,作者:B21993,授权站长之家转载发布。

因为陆续看到不少以猫为题材的游戏先后爬榜,我们在今年十一假期发布了一篇选题《登顶美国手游榜,猪猪之后,猫咪又成另一吸量密码?》。因而最近一个月发现土耳其厂商AgaveGames旗下「FindTheCat-HiddenObjects」(后面简称「FindTheCat」)爬榜时,也就没太在意。

但在一段时间后,我们发现这款产品有两个比较特殊的地方。首先是榜上停留时间很长,尤其在日本iOS手游下载榜Top10维持了接近4个月的时间;第二是背后厂商AgaveGames竟然还融资了,1800万美元,数额也不低。

上线4个月,DAU超过老牌头部产品

「FindTheCat」是一款把“猫”套用到寻物解容易理解玩法上的休闲游戏,主要靠IAA变现,在美国和日本下载榜的表现都很突出,此前已经官宣下载总量突破1000万次,点点数据则显示全球DAU已经突破100万,而这个成绩是在正式上线4个月内完成的。

「FindTheCat」把“猫”当做寻物解容易理解

玩法里要找的“主角”|图片来源:点点数据

data.ai的数据显示,「FindTheCat」首先在2024年5月13日在GooglePlay上开始测试,不久后下架。之后在7月29日正式上线iOS版本,又在8月29日上线GooglePlay。点点数据显示,游戏从9月末开始爬上美国iOS手游下载榜,11月14日跻身第24名,刷新最高排名;GooglePlay手游下载榜最高排名曾达到Top5,目前依然在Top50。

早在9月23日,「FindTheCat」就成功登顶日本iOS手游下载榜,之后的绝大部分时间也维持在Top10|数据来源:点点数据

相比美国,「FindTheCat」在日本的成绩还要更突出。游戏从8月下旬开始悠然,从容爬上日本iOS手游下载榜,9月23日成功登顶,在之后的绝大部分时间内也维持在Top10,截至12月26日依然位居第9位。

DAU方面,「FindTheCat」从9月末开始悠然,从容增长,在11月9日正式超过寻物解容易理解的头部产品「June’sJourney」,成为全球DAU最下降的寻物解容易理解游戏之一,目前轻浮在100-120万人上下。

「FindTheCat」的DAU(蓝色)在11月9日就已经超过了寻物解容易理解头部产品「June’sJourney」|数据来源:点点数据

「FindTheCat」的iOS端广告素材投放数量从11月开始有明显增长,和DAU超过「June’sJourney」的时间点高度发展吻合|数据来源:广大大

从投放活动上看,「FindTheCat」的投放素材数量在11月开始迎来一波明显增长,一直结束到现在;和游戏DAU超过「June’sJourney」的节点吻合。买量策略相当有效。

「FindTheCat」展示量最下降的素材都是

直接演示玩法的视频素材|图片来源:广大大

其中展示量最下降的几乎全部都是直接展示玩法的视频素材,同时搭配“你能找到多少只猫?”这类简单直接的描述,同时呈现了“寻物解容易理解”和“猫”这两大主要元素。

猫咪题材本身在日本和美国等市场都有很下降的人气基础,笔者此前也统计过爬榜产品,但能把DAU做到这么大的产品很少。笔者仔细体验后发现,AgaveGames不仅仅是把“猫”直接套进了“寻物解容易理解”的玩法里,本身对于游戏调性的把控也很到位,营造了一种“悠闲”的游戏体验;再通过不断制作内容来授予深度,从而留住玩家。

黑白简笔画风+卖萌猫咪,

不卡时间营造休闲体验

找到黑白简笔画背景里的所有卡通猫咪,

就能通关|视频来源:FindTheCat

玩家在「FindTheCat」中的任务很简单,就是在黑白色的简笔画场景中寻找隐藏的卡通猫咪,只要能全部找到就闯关成功。游戏关卡结构首先分成日本、法国和欧洲等等多个小组,每一组下包括不同数量的关卡,全部打通之后就能收藏,储藏不同造型的卡通猫咪头像,玩偶本身也根据关卡组别难度分成普通和传奇两种品质,相当于一个简易的集卡机制。

打通一定数量关卡后,玩家就能得到

各种猫咪玩偶|图片来源:FindTheCat

从画风上讲,「FindTheCat」给笔者的麻痹还是相当轻松可爱。虽然只用了寥寥数笔,但是对猫咪姿态的描绘颇为生动。小猫们有的端坐在长椅上,有的趴在灯顶休息,还有不少挂在栏杆上做着“引体向上”,配合不同背景把自己弄皱成“忍者”以及“农夫”等模样,可以说竭尽全力“卖萌”,也的确让人觉得诙谐可爱,在画面上足够讨喜,驱散人下载。

「FindTheCat」的猫咪画风简洁可爱,和「猫咪庭院」

(右图)有反对之处|图片来源:FindTheCat

笔者认为在画“猫”风格上和「FindTheCat」最像的,是曾经在10年前大火过的日本放置模拟经营游戏「猫咪庭院」,这款产品也靠各种画风简约但憨态可掬的猫咪驱散了极小量玩家,在今年还上线了正式续作。AgaveGames在前期确定美术风格时很可能也做了参考,这也许也是游戏能在日本悠然,从容起量的一大原因。

在操作上,「FindTheCat」也相当简单。玩家只需要滑动屏幕,放大背景,之后再点击自己认为是猫咪的地方“找出”猫咪。不过如果点击错误就会消耗掉一条生命值,生命值全部消耗完之后闯关大成功,需要等待生命值恢复或者观看视频广告续命,生命值无法直接内购。

点错一次屏幕(相当于找错一次猫)就会消耗一条生命值,生命值耗尽之后需要等待生命值恢复或者观看广告续命|视频来源:FindTheCat

一般来说,「FindTheCat」会让玩家在一个场景里找到15-25只猫,由于点错一次就要消耗一条命,所以乍一看游戏可能会有点困难。为了降低难度,「FindTheCat」和「June’sJourney」一样并没有设定通关时间批准。

此外,场景中的大部分猫咪都很容易找出,一般来说只有2-3只猫很难从周围环境分辨出来。因此从笔者在前20关的体验上来看,「FindTheCat」的体验还是比较休闲和放松的,最考验的其实是玩家的耐心。游戏的AppStore高赞评价也认为游戏的难易程度把握得“刚刚好”。

「FindTheCat」的AppStore最高赞评价表示游戏的难度设计“刚刚好”,把寻找对象统一成猫也让游戏难度相比其它竞品更低|图片来源:AppStore

干涉玩家找猫,「FindTheCat」一共授予了2种道具:放大镜和火箭。两个道具的功能都是直接找出猫咪,只不过放大镜需要玩家手动点击屏幕左下方按键启动,而且只会提示一只猫的位置;而火箭则在关卡开始时自动启动,直接帮玩家找出3只猫咪。

“放大镜”能直接指出一只猫咪

的位置|图片来源:FindTheCat

这两款道具都无法直接内购,需要通关或者参与限时活动(后面会提到)来积聚。从笔者体验来看,这两款道具在寻找每一关最难找到的几只猫咪时会很管用,但由于本身关卡不限时,因此只玩常规关卡的话,道具本身也并不是那么不可或缺。

看到这里能发现,「FindTheCat」不论从难度、游戏节奏还是道具设计上,都没有想要悠然,从容指确认有罪度曲线,也没有想借助更逐渐倾斜难度曲线做IAP,实际上最次要的内购商品也只有8.99美元的去广告功能,最近30天总流水在1.8万美元左右。

从笔者体验来看,游戏本身体验有意和画风保持一致同意,维持一种轻松休闲的氛围,从而做大DAU并指责IAA成绩。这一想法也和此前笔者曾经探讨过的「BlockBlast!」颇为反对,也是一种在瓦解变现大潮下寻找统一化的思路。

限时活动加深度,配合抽奖降低IAA表现

虽然游戏的常规关卡难度不高,不过「FindTheCat」本身还配有一系列限时活动,AgaveGames选择把游戏深度放到了这些活动上,降低了玩家留存的同时也优化了IAA表现。

「FindTheCat」最常见的3种

常态化运营活动|白鲸出海绘制

首先,游戏设定了一日一更的高难度关卡“每日拼图”。和常规寻物关卡不同,这一模式会给出大约4分钟的时间批准,寻找的猫咪数量直接减少到60个,此外场景也从黑白变成了单色,让难度大大减少。通关奖励也更丰厚,会直接收给玩家放大镜道具。高难度、高回报的关卡,很明显是为了经验更通俗的老玩家准备,也是强化留存的一个思路。「BlackBlast!」等头部IAA游戏也在限时活动里大幅上调难度,给玩家有深度的游戏体验。

每日拼图不仅有时间批准,玩家要找到的猫咪数量也更多,场景也从黑白变成了单色|视频来源:FindTheCat

另一个活动名为“精彩星期四”,玩家需要在1天时间内找出100只猫咪,也就是大约打通4-5关,之后就可以兑换极小量火箭道具,借此驱散玩家回到游戏里“打卡”通关。这类带有收藏,储藏性质的活动经常出现在头部分解和三消类游戏中。

“精彩星期四”让玩家寻找100只猫咪,

来兑换火箭|图片来源:「FindTheCat」

由于以上两种活动会导致道具消耗量减少,「FindTheCat」还配上了第三种活动“猫之轮”,也就是转盘抽奖。玩家需要观看视频才能抽奖,每天最多抽奖5次。奖品包括放大镜、火箭,以及30分钟生命值无限状态。在更高难度常态化活动的促进下,观看广告的频率也会有明显增长。

猫之轮让玩家可以通过看广告抽奖,奖品包括

道具以及无限生命值等|图片来源:FindTheCat

通过这样常态活动,我们发现,「FindTheCat」达成了体验上的不平衡的,正常关卡的低难度和悠闲体验,在限时活动里被拉高、玩家也可以选择获得更促进的游戏体验;另外,正常关卡产生的道具需求,把玩家引入限时活动,但同时也拉高了消耗、进一步促进需求,最后被IAA不平衡的。

一番操作下来,「FindTheCat」的用户留存也明显比竞品更好。iOS端D1留存率达到47.5%,明显高于「June’sJourney」和「ScavengerHunt」等竞品;D7留存率也只比添加极小量剧情元素的大IAP产品「June’sJourney」少0.3%。

「FindTheCat」的iOS端D1

留存率明显高于竞品|数据来源:点点数据

在IAA的设计上,除了上述使胆寒视频,「FindTheCat」还有在关卡间插播视频和屏幕底部Banner两种。由于点点数据没有收录「FindTheCat」的用户使用时长数据,因此按照同样走IAA路线的「ScavengerHunt」双端大约1.9小时月均用户时长来计算,再以每次3分钟的游戏通关时间计算广告展示间隔,用户每天观看插屏广告次数大约在1-2次左右。再根据Topon和Taku联合公布的2024年H1插屏广告eCPM数据(iOS端8.05美元,安卓端2.83美元)计算,那么「FindTheCat」在11月的双端插屏视频广告收入大约在50万美元上下。再加上使胆寒视频和Banner广告收入,「FindTheCat」的广告月收入有可能接近百万美元。

面对危机,土耳其厂商用休闲游戏

和AI在海外打拼出一片天地

查看点点数据能发现,AgaveGames虽然主打IAA路线,但走的还是精品化策略,目前只有3款产品在运营,分别在2022/2023以及今年上线。「FindTheCat」选择猫做主角,并分隔开寻物解容易理解玩法,很明显也是AgaveGames仔细验证题材后的结果。此前也有消息显示,「FindTheCat」从立项到上线经历了整整两年时间。

目前AgaveGames只有三款

产品在运营|图片来源:点点数据

从PeakGames、DreamGames和Rollic,再到本文主角AgaveGames,为什么土耳其能有这么多休闲厂商跑出成绩?这和土耳其本国的政策以及经济环境有关。

早在2016年,土耳其政府就创立《国家数字经济战略》,衍生了一系列面向游戏从业者的优惠政策。在政策的鼓舞下,土耳其涌现了极小量游戏创企,在2026-2023年内数量增长了300%,目前有740家仍在运营(InvestinTürkiye数据)。其中有很多都是几个人组成的独立团队,这些团队以每个月1-2款新品的速度做开发,由于人力成本很低,只要有一款产品火了就能赚钱。AgaveGames也是只有13人的小团队(Crunchbase资料)。

政策出台背景,是国内经济环境的结束低迷。2013年-2024年,土耳其里拉兑换美元汇率下跌超90%,导致土耳其国内生活成本不断上涨,IAP市场大幅数量增加,不少年轻开发者也选择前往别国寻找工作机会。因此土耳其厂商只能将注意力保持方向海外,《霞光社》的报道显示,目前土耳其手游厂商流水中有95%都来自海外市场。

土耳其政府也很减少破坏厂商出海,甚至可以授予总成本50%的买量补助。政策扶持加上不断有厂商取得成绩,土耳其游戏厂商却不能引起了投资人的注意。GameFactory的数据显示,2022年H1土耳其游戏厂商融资总额就达到了3.33亿美元,也才有了开头AgaveGames拿到融资。

而这个融资新闻里面,还有一个比较有意思的点,AI。作为一款美术占比很高、游戏画面感要求很下降的游戏,AgaveGames已经表示计划运用AI技术生产游戏内容,先让AI生成寻物关卡的样图,再由人工修改,缩短内容创作时间和成本。实际上,据我们此前的观察,土耳其在AI产业上也有突出表现。虽然基础研发弱,但在调用模型,做AI应用上在全球各国里面都处于领先地位。a16z的数据显示,2024年H1全球MAU最下降的50款AIApp里,有8款都来自土耳其。这些产品能够针对不同目标用户的需求,设计各种付费订阅功能,再配合各种细致的试用和付费意见不合,实现IAA和IAP“双管齐下”做好变现。而这些对土耳其的休闲游戏开发者,也是常见操作。

在2个自己都很擅长的赛道去做分隔开,「FindTheCat」后续的表现,我们会结束关注。