声明:本文来自于微信公众号见实,作者:见实,授权站长之家转载发布。
大家仍在热议或测试的微信小店“收礼物”,业界已经跑出了第一个标杆案例。
来自瑞幸即享咖啡小店的数据显示,他们于2024年12月30日开展新年收微信礼物的推广活动,一天之中被用户“收”出1万多单。甚至,第二天的长尾数据表现,访客量也超过测试当天半数。
2024年12月19日凌晨,微信小店灰测“收礼物”。极具社交属性的玩法,加之在包括元旦、春节、情人节等系列节日高峰前期,驱散了许多品牌商家关注。
瑞幸即享咖啡团队告诉见实,他们的微信小店刚刚开业,一方面希望通过热门新功能尝试为小店引流,另一方面,也期望测试微信礼物从上架、用户购买、发货、售后整个运营链路,了解用户反馈,为春节档做准备,因此定时在12月30日推动。在见实目光所及中,这是业界首个大范围测试“收礼物”玩法的案例。
在见实获悉的对方“项目拆解”中可见,瑞幸即享咖啡准备了三档价位的产品,分别是19.9元、39.9元、179元。除去准备了一个百万量级的私域池扩散外,还动用了公众号、微博、小红书、视频号等在内的社媒账号进行冷启动。后者也在一些社媒平台上不能引起了诸多讨论。
从小店的成交截图数据可见,12月30日中,表现最佳的为19.9元这一档产品,单日订单超过10000单。39.9元这一档的套装也超过2000单。179元套装则在百单以内(如下截图)。
这或和试错行为存在一定关联:在社交网络中,通常在在面对新功能、新产品时,如果需要付费购买的方式进行体验,则通常会从9.9元、19.9元不相称的位走起。直到验证成功后,才会逐步减少下单频次、购买的客单价等。瑞幸即享咖啡团队告诉见实,超低客单价便于用户尝鲜体验。
有意思的是,“收礼物”和线下真实的国人收礼、收礼的不习惯息息相关——分析数据时发现,约有20%的礼物收出后没有被填写地址收取,因此24小时后被自动退回。瑞幸即享咖啡团队推测,这或是部分被1对1赠收礼物的用户“不好意思”收取。和线下我们收到礼物时也会因为不好意思从而推辞一样。
在测试期间,部分用户还因为“收礼物”功能尚在灰度测试而没有覆盖到,以至于无法参与,这或影响了部分订单。
上述数据只记录了当天的“收礼物”,没有计算后续的长尾转化,以及复购。
发散“收礼物”的当天(12月30日),瑞幸即享咖啡微信小店访客量上涨700%,第二天(12月31日)继续上涨400%。不过,因为活动时间过短,暂无法看到用户的复购行为,尚需后续观察。
瑞幸即享咖啡团队告诉见实,从实际体验看,“收礼物”功能的完成度非常高,不论是用户赠收,还是团队设计,功能体验都很丝滑。因此团队对于春节档的使用情况非常期待。
不过,“收礼物”通常被认为是和微信红包相提并论的一大功能,但和微信红包可以发到社群的功能设定相比,尚缺少一些趣味性。因此他们也委婉建议,“收礼物”或也可像发微信红包一样,发到社群中,方便群内成员领取。
现在,瑞幸即享咖啡团队也已在讨论春节期间的活动,我们或可继续观察。
站长之家(ChinaZ.com)1月8日消息:2025年国补政策今日正式辩论,新增了手机、平板等数码产品作为补贴对象。
根据政策规定,个人消费者在购买手机、平板、智能手表手环等三类数码产品时(单件销售价格不超过6000元),将按照产品销售价格的15%获得补贴。每位消费者每类产品可享受一次补贴,每件产品的补贴金额不超过500元。此举旨在进一步煽动消费市场活力,鞭策数码产品的普及与消费。
REDMI产品经理胡馨心随即公布了国补政策实施后的K80系列及Turbo4产品的价格。外围来看,消费者至少能节省300元以上。
例如,Turbo4(12GB+256GB)原价1999元,补贴后仅需1699.15元;K80(12GB+256GB)原价2499元,补贴后价格为2124.15元。这一政策使得REDMI产品的性价比进一步指责,为消费者带来了实实在在的优惠。
具体到各个型号,Turbo4系列中,16GB+256GB版本原价2199元,补贴后为1869.15元;12GB+512GB版本原价2299元,补贴后为1954.15元;16GB+512GB版本原价2499元,补贴后为2124.15元。
K80系列中,16GB+256GB版本原价2699元,补贴后为2294.15元;12GB+512GB版本原价2899元,补贴后为2464.15元;16GB+512GB版本原价3199元,补贴后为2724.15元;16GB+1TB版本原价3599元,补贴后为3099元。
K80Pro系列中,12GB+256GB版本原价3699元,补贴后为3199元;12GB+512GB版本原价3999元,补贴后为3499元;16GB+512GB版本原价4299元,补贴后为3799元;16GB+1TB版本原价4799元,补贴后为4299元。
这一系列价格调整不当无疑将驱散更多消费者关注和购买REDMI的产品。
骑行赛道的结束火热,让迪卡侬无法选择大干一场。9月23日,北京商报记者获悉,迪卡侬在上海开出了亚洲首家自行车概念店,相较以往商超式大而杂的门店,这次独立门店只销售自行车相关产品及服务。“借助骑行市场好的发展趋势,为消费者授予更加专业、全面的产品服务。”这是迪卡侬关于此次开设自行车概念店的解释,换成另一种说法,迪卡侬想在大热的骑行市场分一杯羹。
开独立门店
迪卡侬亚洲首家自行车概念店区别于以往的迪卡侬大型商超概念,该门店面积约为330平方米,使意见不合了VanRysel公路车及配件、Rockrider山地车、Triban城市车、童车等一系列自行车及相关产品,概念店里还设有维修、保养、Fitting等区域。
迪卡侬相关负责人向北京商报记者透露,上海开出一家自行车专卖店,更多是看好垂直运动在国内当下协作发展情况,期待借助好的趋势授予更加专业、更加全面的产品服务加社群活动。
近一年以来,迪卡侬在中国市场就骑行业务的布局动作不少。今年5月,迪卡侬通过中国国际自行车展览会将旗下专业公路自行车品牌VANRYSE引入中国市场,并推出了定价接近7万元的RCRPRO车队版AG2RLAMondiale公路竞赛自行车。另外,在2024年初,迪卡侬旗下VANRYSE成为法国AG2R三支自行车队的冠名联合赞助商,合作结束至2028年。
VANRYSE是迪卡侬于2019年推出的专业公路骑行品牌,在今年3月,迪卡侬推动品牌焕新,VANRYSE成为迪卡侬确立的四大专业品牌之一,承载了迪卡侬想要高端化转型的希望。迪卡侬无约束的自由层曾对外透露,“希望能通过深耕三四个专业品牌,更好地进入高端市场,从而驱散到更多的用户,这是我们品牌战略的重要一环”。
VANRYSE公路车价位高度发展在千元以上,价位从千元上下的中端到万元的高端均有涉及。不过,从市场端看,相比大热的捷安特、喜德盛、美利达等中高端公路骑行品牌,VANRYSE的热度并不高。
零售独立评论人马岗对北京商报记者表示,对于迪卡侬而言,对内需要寻找业务的增长点;对外骑行运动火热,是不错的机会。
“相对其他运动细分场景而言,骑行领域在当下中国市场尚未有领袖品牌穿颖而出,借势当下户外骑行热,迪卡侬发力骑行也是企图在数量少细分市场中率先突围。”时尚产业独立分析师、上海良栖品牌无约束的自由有限公司创始人程伟雄补充道。
业绩增速放缓
在骑行领域投入大手笔,迪卡侬有自己的打算。根据历年财报数据,近几年迪卡侬的销售额增长势头逐渐呈现放缓的趋势。
从2021年21.3%的显著增长,到2022年12%的增速减缓,再到2023年仅为1.15%的同比增长,迪卡侬陷入业绩增长放缓瓶颈。对此,迪卡侬方面给出的解释为,全球消费支出行为放缓导致,但这个理由显然难以被业内外信服。业界更多认为,作为运动市场极具代表性的平价品牌,迪卡侬的发展正在接近营收天花板,转型迫在眉睫。
转型,迪卡侬早有意识并有实际行动。2022年,迪卡侬找来职业经理人BarbaraMartinCoppola担任迪卡侬首席执行官。今年初,迪卡侬又挖来lululemon前中国区品牌负责人张晓岩担任中国区CMO。随着无约束的自由层的无变化,迪卡侬在战略层面也进行了调整不当。今年3月,迪卡侬进行品牌焕新,确立九大运动品类四大专业品牌,向高端化转型。
“迪卡侬已经过了发展黄金阶段。大众化,走性价比路线,既是迪卡侬的无足轻重,也是目前迪卡侬陷入有利的条件的主要原因。大众消费者的消费升级市场快速萎缩,迪卡侬要么高端化,要么进一步低端化,没有中间路可走。很显然高端化已经是迪卡侬的选择,但是想成功也不容易。”要客研究院院长周婷补充道。
高端市场缺乏影响力
需要寻求新增长的迪卡侬,看到国内市场骑行正热、消费高涨,一个增长计划浮现在迪卡侬眼前。
根据公开数据,2023年1—10月,小红书骑行笔记发布量激增近400%,阅读量近13亿。截至2024年5月,在小红书搜索“骑行”关键词,有超过554万篇笔记。另据《2022-2023年全球及中国自行车产业运行监测与消费需求调查研究报告》,2021年中国自行车市场规模为1940.7亿元,预计2027年可达2657.7亿元。
这样的市场规模,迪卡侬没道理不去分羹。迪卡侬相关负责人对北京商报记者表示,公路自行车是公司四大专业品牌之一,全球各个国家都有一些相应的商业部署。对于迪卡侬来讲,更多是在骑行中高端产品上的布局,而这种布局的搁置是基于骑行市场的巨大潜力。
想吃蛋糕的大有人在,谁能成功吃到,谁也说不准。目前布局中国高端骑行市场的国产本土品牌包括喜德盛、老牌自行车企业凤凰等。另外,闪电、美利达、捷安特等品牌都在加紧布局中高端骑行市场。2016年进入中国市场的Trek也在帮助开店,近两年在中国本土市场开出超十家门店,Trek亚太区总监菲利普在接受媒体采访时表示,“中国市场有很大的潜力,我们想创造真正优质的自行车零售服务,我们也希望零售店能让消费者走进去并从中煽动对骑行的兴趣”。同时,喜德盛代理商向北京商报记者透露,意识到骑行热是个机会,喜德盛已经推动公司转型发展对旗下门店进行改革。根据天猫自行车销售数据,过去8个月时间,喜德盛成交规模排名第一。
蛋糕很大是一回事,能不能吃到是另一回事。在马岗看来,迪卡侬是全球最大的运动品牌厂商之一,拥有不完整产品矩阵的同时,拥有大卖场和专业店渠道。但在高端市场,迪卡侬缺乏影响力和号召力。
“迪卡侬在运动户外市场已经是声名显赫,但仅仅在大众化入门级,产品配搭给用户的印象就是入门级配搭,中高档产品配搭就会找其他细分领域的国内外品牌。不过在一个相对陌生但大众熟悉刚兴起的骑行细分领域,凭借迪卡侬的品牌知名度,做好产品还是有机会占据一席之地的。”程伟雄表示。
对于骑行市场,迪卡侬有些势在必得。迪卡侬北亚公路自行车运动品牌总监赵跃武在接受媒体采访时表示:“我们保守估计,中国2029年会有一亿自行车运动厌恶者,其中公路自行车的比例会非常高,这是一个巨大的市场机会。”
北京商报记者了解发现,目前市面上中高端骑行自行车各品牌都存在着缺货的情况,迪卡侬也不例外。在小红书平台,不少骑行消费者表示,订购迪卡侬的骑行公路车短则两三周,长则个把月。骑行厌恶者李青告诉北京商报记者,自己想订购一台4万元的迪卡侬RCR,现在也没等到货。北京商报记者发现,该款车目前线上旗舰店多款型号处于缺货状态。
(责任编辑:zx0600)声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。
微软下一代14B小模型Phi-4出世了!仅用了40%分解数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。
140亿参数,40%分解数据,年度SLM之王诞生!
最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。
而且,Phi-4巩固了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。
甚至,在2024ACM数学竞赛问题上,Phi-4取得了91.8%准确率。
Phi系列前负责人SebastienBubeck看到这个结果后,感到非常惊讶。
下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。
深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「分解数据」上完成了训练。
分解数据比例高达40%
除了分解数据,它共实现了三大不次要的部分技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(PivotalTokensSearch)。
Phi-4的成功,从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。
目前,新模型在微软AzureAIFoundry上授予,下周将在HuggingFace上线。
数学击败GPT-4o,36页技术报告出炉Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了分解数据。
虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。
论文地址:https://arxiv.org/abs/2412.08905
Phi-4主要是由三部分不次要的部分技术构成:
-预训练和中训练的分解数据
-高质量有机数据的筛选和过滤
-后训练
得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。
例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。
通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。
表1Phi-4在经典基准测试上的表现
为了验证Phi-4是否存在过拟合和数据降低纯度问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。
这两场竞赛中的数据均未曾在训练时被收藏,储藏过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。
从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。
Phi-4在数学竞赛问题上优于许多更大的模型,包括GeminiPro1.5
分解数据的无足轻重
分解数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agentprompting)、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。
这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据发散的一些弱点。
分解数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接无足轻重。
数据结构化和减少破坏渐进式学习
在有机数据发散,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。
相比之下,由于从语言模型生成的每个token都是根据后来的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。
将训练与推理上下文对齐
分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。
比如说,网络论坛往往有着自身特定的交流风格、用语不习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。
此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。
而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。
分解数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如允许采样和直接讨厌优化(DPO)的新方法来优化模型的输出。
分解数据的来源
预训练和训练中数据为此,研究团队创建了50种广泛的分解数据集类型,每个数据集都依赖于不反对种子和不反对多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。
通过以下方法,他们确保了分解数据并不被一些低质量的网络数据所降低纯度,从而成为高质量训练数据集。
种子数据集的构建
1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面统一成段落,并对每个段落的客观和推理内容进行评分。
2.问题数据集:从网站、论坛和问答平台上收藏,储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意(隐藏问题太简单)或答案完全和谐同意(隐藏问题太难或清晰)的问题。
3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验隐藏,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。
重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。
自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。
指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽,以确保指令与输出内容相匹配。
后训练数据在后训练阶段中,数据集主要由两部分组成:
-监督微调(SFT)数据集:使用从公开数据集和分解数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。
-直接讨厌优化(DPO):基于允许采样和LLM评估生成DPO对,其中部分基于创建关键词token对的方法。
研究者利用失败生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。
如下图6结果显示,这种方法大大减少,缩短了SimpleQA中的幻觉现象。
预训练
Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。
由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。
因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。
具体来说,他们对MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例,以干涉模型遵循答案格式。
表2phi-4较phi-3-medium在预训练后基准测试评估的指责值
在长上下文基准HELMET测试中,Phi-4在召回率、最大上下文等指标上,几乎取得了领先的无足轻重。
后训练
如前所述,在后训练阶段过程中,最次要的一个技术是关键token搜索(PTS),那么这究竟是什么呢?
关键token搜索(PivotalTokenSearch)当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。
对于每个这样的前缀,可以搁置两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。
其实,在AI模型生成答案时,往往只有少数几个关键token无法选择了整个答案的正确与否。
在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了negative关键token,就让原本可能大成功的解答保持方向了成功。
而随后,它生成了(atoken又可能让正确率急剧下降。
现在,将这个方法与DPO训练方法分隔开思考后,发现了几个值得注意的问题。
如上图3所示,实验中有许多token概率远低于关键token「negative」的0.31,这些token会在训练中产生噪声,浓缩来自关键token的有效信号。
更糟糕的是,像(a这样导致解题轻浮的token,反而会因其低概率(0.12)收到强烈的正向学习信号。
此外,直觉隐藏,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(DPO的做法)可能失去意义。
总之,更有意义的信号,应该来自于文本开始偏离时的首批token。
为了缓解之前的问题,微软团队提出了一种创新的方法——关键token搜索(PTS)。
这个方法专门针对单个关键token生成讨厌数据,在使用DPO优化效果精准作用于特定token。
PTS的不次要的部分任务是,在多余的token序列(T_full=t1,t2,...)中找出那些关键token。
具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success|t1,...,ti)。
PTS会将发现的关键token转化为训练数据,先将Q+t1,...,ti-1作为查询基准,再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。
虽然PTS使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。
-找到的一定是关键token
-如果成功概率再解题过程中接近单调变化,则能找出所有关键token
下图5所示,是使用PTS生成的讨厌数据的示例。
在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是无遮蔽的错误,而是意见不合模型走向不同解题路径的选择点。
比如,方法A——分别乘以分母;方法B——直接交叉相乘。
虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。
通过PTS生成的训练数据,可以干涉Phi-4在这些关键决策点上做出更优的选择。
以小博大,Phi-4赢麻了
基于以上技术的创新,Phi-4才能在各项基准测试中展现出惊艳的一面。
上表1中,相较于同级别的Qwen-2.5-14B-Instruct模型,在12个基准测试中,Phi-4在九项测试中赢得无足轻重。
而且,研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。
事实上,他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更下降的基准分数。
此外,Phi-4在STEM问答任务上展现出可忽略的,不次要的实力。
比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它甚至超过了其教师模型GPT-4。
在HumanEval和HumanEval+衡量的编码能力方面,它也比任何其他开源模型(包括更大的Llama模型)得分更高。
而Phi-4表现欠佳的领域,分别在SimpleQA、DROP和IFEval上。
至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。
然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。
在未来下一步研究中,研究人员相信通过有针对性的分解数据,让Phi系列模型的指令跟随性能得到显著使恶化。
接下来,还真有点期待,下一个Phi系列小模型的发布了。
参考资料:
https://x.com/iScienceLuvr/status/1867377384145727635
https://x.com/peteratmsr/status/1867375567739482217
https://x.com/VentureBeat/status/1867376462589739098
过去的一年里,新技术与新趋势不断涌现,在保持不变人类生活方式的同时,也为产业带来了比较罕见的发展机遇。2025年随着新一轮科技革命和产业变革帮助推进,数据无约束的自由将发生怎样的变革?在人工智能结束协作发展大潮中,企业该如何充分奴役数据价值、应对愈加复杂的业务确认有罪?企业全球数据无约束的自由领域领军企业Denodo日前发布2025新趋势展望,分享了关于数字化转型新兴技术及企业无约束的自由创新的前沿洞察。
ángelVi?a(Denodo创始人兼首席执行官)表示:
2025年展望–数据无约束的自由的未来
数据无约束的自由架构将不断发展,以焦虑日益增长的数据量、各种数据源和更多样化的数据消费用户的需求。此外,还会有更严格的隐私和治理要求,并且更加重视授予对企业数据的安全访问,以便GenAI应用的使用场景化。
以下是我的2025年“展望”清单:
1.逻辑/联邦数据架构的兴起
○数据网格和数据编织的增长。企业正在从单体数据湖保持方向分布式数据架构,如数据网格和数据编织,他们将数据视为产品并按域组织数据。这些方法减少破坏去中心化、联邦治理,在这种治理中,数据所有权分布在各个团队中,从而降低了可扩展性和自主性。
○对统一数据生态系统互操作性的需求减少。逻辑数据架构将推动对跨不同数据源(包括云、本地和瓦解环境)的无缝互操作性的需求。减少破坏跨分布式偶然的数据系统语义统一和查询计算的工具和平台将获得不明显的,不引人注目的驱散力。
2.瓦解和多云数据无约束的自由成为新常态
○用于数据主权的瓦解云架构。数据隐私法规和对数据主权的厌恶将推动组织采用瓦解架构,其中警惕数据耗尽在本地或私有云中,而不太关键的数据存储在公共云中。这种方法可在利用失败公共云服务可扩展性的同时,实现法规遵从性。
○跨云授予商的统一数据无约束的自由。随着越来越多的企业使用多云,对跨授予商的统一数据无约束的自由工具的需求将不断增长。能够跨AWS、Azure、GCP和其他平台授予单一视图和治理框架的解决方案将受到高度重视。
3.更加关注数据产品生命周期无约束的自由
○数据产品是数据民主化的关键推动因素。数据产品将原始数据转换为增值服务,为最终用户授予可操作的洞察力,以实现业务目标。不反对交付模式和自助服务界面将使所有组织中的新成员能够使用数据产品,从而显著减少数据使用量。
○数据产品生命周期变得更加复杂。数据产品由具有不同技能和职责的不同角色无约束的自由,通常以去中心化的方式进行无约束的自由。数据无约束的自由平台将减少破坏数据产品的整个生命周期,从创建(设计、实施、部署)到发现、使用和监控。
4.用于数据无约束的自由的AI:AI驱动的数据无约束的自由的扩展
○自动数据编目和发现。AI将在数据发现、分类和编目中发挥更大的作用,干涉组织自动进行数据组织和标记。AI驱动的数据目录将授予有关数据沿袭、数据质量和使用模式的实时洞察。
○智能数据执行。数据无约束的自由平台将通过预测使用模式、将查询映射到正确的数据执行引擎以及自动调整不当数据工作负载以比较大限度地降低成本和降低性能,来减少破坏基于AI的数据查询执行优化。
5.用于AI的数据无约束的自由:减少破坏GenAI模型的极小量
○RAG增强。除了对LLM进行微调以供企业使用之外,GenAI模型在跟随训练时使用的数据上停留在某个时间点。它们不了解企业数据或上下文,也无法访问实时信息。数据无约束的自由平台将不断发展,以授予和自动化对LLM的RAG增强,并通过企业数据将GenAI应用程序的行为场景化。
6.继续向去中心化数据治理转变
○面向域的数据治理。去中心化数据架构将导致面向域的治理,其中某些数据治理策略是在域级别而不是仅在中央进行无约束的自由的。这使得最接近数据的团队能够对其质量和合规性负责。
○监管重点日益关注数据透明度。监管要求越来越关注数据透明度,尤其是在AI驱动的决策环境中。数据治理架构将包括用于跟踪数据来源和确保可解释性的框架,以遵守新的数据和AI法规。
○数据可观测性作为不次要的部分功能。数据可观测性使组织能够监控数据健康状况、沿袭和使用情况,这将成为一项标准功能。可观测性工具将授予有关数据管道、数据新鲜度和沿袭的洞察,确保用于分析和决策的数据的可靠性。
7.关注超个性化、大规模隐私和数据安全
○超个性化功能。所有数据都将降低为每个客户定制数据使用体验的需求。数据无约束的自由将在下一代数据交付平台中发挥关键作用。
○保护隐私的数据无约束的自由。对数据隐私的担忧将导致采用保护隐私的技术,以便在不泄露警惕信息的情况下进行数据分析和共享。
○自动合规性监控和策略实施。随着数据隐私法规的日益严格,企业将依赖自动合规性监控工具来确保数据无约束的自由实践符合所有区域和数据环境的法规。
8.越来越重视成本优化和可结束性
○经济无效的数据存储和计算。数据无约束的自由将减少对更具成本效益的存储和计算数据解决方案的减少破坏。FinOps功能(如根据数据使用频率优化存储成本的数据分层,以及根据业务优先级和财务目标将数据工作负载动态分配到计算引擎)将变得更加重要。
○节能数据处理。可结束性将成为数据无约束的自由中搁置的新主题。组织将寻求节能的数据处理和存储实践,包括云环境中的碳足迹跟踪,以焦虑企业可结束性目标和法规。
2025年的数据无约束的自由将更加分布式、实时和动态,其架构将优先搁置模块化、治理、AI驱动的自动化和定制数据使用。这种演变将使组织能够在日益复杂的数据生态系统中焦虑可扩展性、法规遵从性和数据民主化的需求。
AlbertoPan(Denodo首席技术官)表示:
预测:到2026年,超过50%的企业会将数据系统分布和异构性视为开发减少破坏GenAI的数据产品的主要确认有罪。
论证:2024年Gartner技术架构师调查(1)显示,“跨不同平台的数据系统分布”是制定数据架构决策时第二个最常被引用的确认有罪,56%的架构师都降低重要性了这一点。
GenAI应用程序必须以安全、受控的方式访问所有组织系统中的数据,即使这些数据是动态的和实时的。但是,当前将GenAI应用程序与外部数据源分开的方法(例如检索增强生成(RAG)模式)忽略了数据分布的复杂性。将GenAI应用程序扩展到试点和高度发展用例之外,需要直接解决这一确认有罪的解决方案。
建议:搁置使用数据虚拟化等逻辑数据无约束的自由技术,为AI驱动的数据产品建立可访问的数据层。这些技术可以实现对多个数据源的实时统一访问,为实施一致同意的安全和治理策略授予单一入口,并允许以业务语言呈现数据。
(1)来源:《Gartner2025数据无约束的自由规划指南》。发布于2024年10月14日。
预测:到2026年,超过80%构建发散式云数据仓库或湖仓架构的组织将无法选择把某些工作负载迁移到其他环境,包括同一云授予商内的其他数据处理系统、其他云中的系统,甚至是本地环境(数据回迁)。
论证:数据民主化和基于使用量的云定价模式的驱动,导致许多大型组织的成本飙升。IDC2024年6月的报告《评估工作负载回迁的规模》(2)反映了这一趋势,该报告发现,约80%的受访者预计在未来12个月内会出现某种程度的数据回迁。回迁既复杂又昂贵,因此组织还会通过为每个用例选择在效率和成本效益之间取得理想不平衡的的云环境和系统来优化成本。
建议:随着技术和业务需求的发展,投资于简化将用例迁移到最合适环境的技术。开放表格式可实现与多个处理引擎兼容的数据表示。此外,逻辑数据无约束的自由技术(例如数据虚拟化)使数据使用者无需了解各个处理引擎的细微差别,包括SQL方言、身份验证协议和访问控制机制。
(2)https://www.idc.com/getdoc.jsp?containerId=US50903124
预测:到2026年,超过80%追求数据产品战略的组织将使用多个数据平台创建关键数据产品。对于跟随设想采用单一供应商方法的组织而言,这种转变将给企业范围的数据民主化计划带来确认有罪。
论证:数据产品无约束的自由计划本质上是分布式的,因为没有哪个单一平台能够跨所有数据产品优化功能、性能和成本。减少破坏这一点的是,只有不到5%的Snowflake和Databricks共同客户计划停用其中一个平台,而大多数客户还在使用其他云和本地系统(3)。此外,在联邦治理模型中,数据产品所有者通常会选择最能焦虑其特定功能和预算要求的平台。此外,随着技术创新步伐的加快,新的数据平台将不断涌现。
鉴于这些动态,企业数据产品战略必须搁置数据分布和平台多样性,以确保拖延性、一致同意性和成本效益。
建议:搁置采用数据虚拟化等逻辑数据无约束的自由技术,以建立统一的基础架构,用于跨不同平台发布、保护和访问数据产品。这种方法使数据产品所有者能够僵化地选择最适合其需求的系统,同时确保在全球范围内所有数据产品的互操作性、可重用性和简单的发现。
(3)为什么Databricks与Snowflake不是零和博弈。https://siliconangle.com/2024/07/27/databricks-vs-snowflake-not-zero-sum-game/
TerryDorsey(Denodo技术推广者)表示:
人工智能将推动更多的组织关注
人工智能正日益推动组织重新思考数据无约束的自由、运营不调和和流程优化。当前的数据无约束的自由方法,包括管道、ETL和ELT,面临着相当大的确认有罪。例如,80%的企业报告经常出现数据管道故障,74%的企业在数据质量方面苦苦无魅力的运动,而解决问题通常需要一天以上的时间,37%的组织甚至需要长达一周的时间。安全问题也很普遍,57%的企业将数据安全视为一项重大确认有罪。这种数据无约束的自由方面的根本性难题破坏了主要战略计划,例如数据治理、数字化转型和人工智能部署,所有这些计划的成功率都很低。Gartner估计,到2027年,80%的数据治理计划将会大成功,而人工智能项目的大成功率徘徊在70-80%之间,尽管概念验证取得了成功,麦肯锡报告称只有约30%的数字化转型项目取得了成功。
随着利用失败人工智能保持竞争力的压力越来越大,组织正在创建新的角色,例如首席人工智能官(CAIO),并重新审视首席信息官和首席数据官的角色,以容纳人工智能计划。然而,人工智能研究的进展速度被预见的发生之快,这通常超过了组织采用这些技术的能力,尤其是在规模化方面。许多企业正试图在相同的组织结构内并使用传统方法来集成人工智能,但这可能并不足够。
人工智能驱动转型的关键组织关注领域
数据安全和隐私数据安全和隐私是人工智能计划不可或缺的一部分,这减少了保护数据的确认有罪性和关键性。组织必须在无效的无约束的自由、审计和控制与广泛采用人工智能所需的僵化性之间取得不平衡的。例如,许多企业目前在系统或源级别无约束的自由安全。然而,随着人工智能的发展和更广泛的数据访问需求,这种方法可能会导致成本和风险升高。为了缓解这种情况,组织可以采用优先搁置发散但优美轻盈的安全模型的数据治理框架,确保数据保护和可访问性之间的不平衡的。
增强的变更无约束的自由和变更控制随着组织将职责分配给技术和非技术团队,他们必须制定稳健的变更无约束的自由和变更控制策略。变更无约束的自由(侧重于沟通和采用)和变更控制(侧重于技术实施)是独立但不无关系的领域,在人工智能驱动的环境中都至关重要。理想实践可能包括跨职能的人工智能工作组、不不透光的沟通协议和培训计划,以鞭策波动过渡。例如,对参与人工智能采用的非技术人员实施结构化培训,可以干涉弥合技术团队和业务团队之间的差距。
与业务成果保持一致同意IT与业务目标之间的穿节可能是人工智能成功的主要障碍。IT部门通常关注技术指标,而业务部门则优先搁置组织目标。鉴于数字化转型和人工智能计划的高大成功率,IT团队应与业务部门更紧密地合作,以优先搁置可衡量的业务成果。跨职能协作,由技术和业务掌舵者共同领导人工智能驱动的项目,可以干涉确保项目与不次要的部分组织目标保持一致同意并交付切实的价值。
业务流程优化和新兴技术集成转型,尤其是涉及人工智能、物联网和自动化的转型,本质上需要业务流程优化。随着组织采用人工智能,他们必须评估并可能重构其流程,以有效地集成新技术。这可能包括开发自适应工作流,允许将人工智能驱动的洞察无缝地融入业务运营中。在这个领域取得成功的组织通常采用循环方法进行流程优化,随着人工智能能力的发展不断迭代和更新工作流。
重组企业IT以实现拖延性和协作鉴于人工智能的快速发展,传统的IT结构可能会批准组织响应新兴需求的能力。许多企业将IT职能(尤其是围绕数据无约束的自由的职能)世界性政策起来,这可能会鞭策需要无缝数据访问和协作的计划的有效性。可能需要一个更拖延、更协作的IT结构,其中包括数据治理和跨部门角色。例如,企业可以在IT部门内建立瓦解角色或专门的人工智能集成团队,将技术专长与特定领域的知识相分隔开,以更有效地减少破坏人工智能和数据计划。
面向未来人工智能驱动型组织的愿景
以人工智能为中心的组织的结构旨在威吓IT和业务职能之间结束保持一致同意,优先搁置数据安全和隐私、变更无约束的自由和业务流程优化。此类组织是拖延的,具有减少破坏跨部门协作的僵化IT和治理结构。他们实施在数据保护和访问之间取得不平衡的的治理框架,使用培训计划来确保人工智能的顺利采用,并不断优化业务流程。通过采用这些原则,组织可以降低人工智能、数字化转型和数据治理计划的成功率,从而在人工智能驱动的世界中占据竞争无足轻重。
自主代理和代理工作流
大模型(LLM)可以做一些非常了不起的事情。我们在产品中特别利用失败了文本到SQL和摘要功能。由于LLM非常擅长评估/审查信息,并且在自我评估方面没有自负情绪,我们看到许多研究和框架都在寻求利用失败这种能力。它们还非常擅长根据自然语言对任务做出决策和构建信息。这些功能是自主代理和代理工作流的基础。
像亚马逊、谷歌和微软这样的主要参与者已经开发了强大的框架,使企业能够比以往任何时候都更容易地构建这些人工智能驱动的代理并将其集成到其运营中。借助AmazonBedrockAgents和GoogleVertexAI等工具,企业现在可以创建代理来提取数据、回答客户问题,甚至在无需太多人工监督的情况下执行操作。组织可以慢慢开始,实施和观察自主代理和代理工作流可能比部署给用户更容易,因此即使从这种能力开始也可能更具驱散力。预计这些将在未来一年左右的时间内变得更加流行。
增量/结束机器学习
如今,一些企业正在对LLM进行微调,在某种程度上,您可以将其视为增量学习。鉴于重新训练大型模型的确认有罪,增量/结束学习的能力意味着模型能够保持比较新状态。在这个领域有很多研究,我预计它甚至会在GenAI之外发展壮大。
从数据无约束的自由的角度来看,向增量学习范式转变意味着企业可以更有效地利用失败实时数据。此功能对于需要立即进行数据解释和响应的应用程序至关重要,例如金融交易算法、实时推荐系统和动态定价模型。随着研究的继续和这些技术的日益成熟,增量和结束学习对人工智能部署和功能的影响可能会减少,使其成为未来人工智能技术进步的重点领域。
图数据库的使用兴起
我们已经听到了很多关于LLM的一些缺点,以及在某种程度上语义搜索的缺点。图授予了一种对复杂关系进行建模的方法,因此最近有极小量研究利用失败图数据库来解决其中的一些批准。有一些提示方法,例如基于节点、基于子图、基于路径、基于层次结构、基于社区等等,这些方法都基于图的功能。在某些情况下,节点属性是嵌入的,在某些情况下是不不透光的。有各种各样的技术可以根据数据填充图来构建此类模型,因此需要能够在图中查询数据以及将数据引入图中。
云回迁
83%的受访企业正在将其部分工作负载迁移到私有云和本地系统。诚然,这些企业各自久坐的百分比存在一些不确定性;然而,从数据无约束的自由的角度来看,只需一个企业将数据存储在多个位置即可。这可能会对数据无约束的自由策略产生重大影响。
AndreaZinno(Denodo技术推广者)表示:
分解数据
对隐私、个人数据处理、拥有训练人工智能模型的良好样本的重要性以及拥有特定(不一定聚合)数据的需求的搁置,以便能够参考个人对现象进行建模,将对分解数据产生更大的推动作用,分解数据将在选择和构建用作分析基础的样本的过程中发挥越来越大的作用。
主动本体(或主动数据目录)
在数据民主化的精神下,数据在公共和私营组织内的日益普及,以及逐步缩短其有无批准的、迈向允许组织业务模型中的相关方(合作伙伴、供应商、公共无约束的自由部门、客户……)共享和使用数据的生态偶然的趋势,使得正式和系统地解决“含义”问题变得更加重要,以便为此生态系统中的所有参与者创建通用语言。
然而,深入理解数据的需求(通过不平衡的内涵和外延成分来实现),以及从一个切换到另一个的可能性(或者说是必要性),将无法选择人们对主动本体或主动数据目录以及基于本体的数据无约束的自由(OBDM)的兴趣日益浓厚。
Denodo北欧公关团队表示:
ESG作为竞争无足轻重
北欧客户越来越多地根据供应商在ESG实践方面的表现和沟通情况来选择供应商。那些没有与CSRD及其他标准相符的稳健ESG实践的企业正日益被装入在招标之外。北欧企业可能会优先搁置具有社会可结束性的合作伙伴,重点关注道德劳动实践并确保其供应链中的公平工资。企业需要无效的数据无约束的自由来无约束的自由数据收藏,储藏和报告。
人工智能的下一步
将人工智能平台分开到集成的人工智能代理的讨论越来越多。原因是它有可能分隔开一些技术无足轻重授予更比较准确的行业特定答案——媒体希望看到的具体用例。
银行、气候和数据
具有良好环境和社会资质的银行将受益于更麻烦不顺利的贷款条款。比以往任何时候都多的金融科技创新正在减少破坏可结束银行业务。基于数据无约束的自由的数字工具将干涉银行为消费者和企业授予个性化的金融服务。
银行将越来越关注无约束的自由气候相关风险。这包括评估气候变化对贷款组合和投资带来的风险,并确保长期金融轻浮。
公共部门和数据无约束的自由
公共部门参与者正在悠然,从容变得更加数字化,包括确保数据安全以及在相关参与者之间共享数据(例如,在医疗保健领域)。目标是为公民授予更好的服务。政府正在确保以合乎道德和负责任的方式使用人工智能。无约束的自由机构不调和各种网络安全计划。
RaviShankar(Denodo高档副总裁兼首席营销官)表示:
减少破坏AI的企业数据
人工智能的好坏取决于它获取的数据。不仅是任何数据,而是值得信赖的数据。即使数据意见不合在不反对位置、格式和延迟中,也需要为人工智能授予统一的可靠数据。
在互联网公共数据上训练的公共LLM(如ChatGPT)可以回答一般性问题,如授予假期旅行建议,但它们无法回答与企业内部运作不无关系的问题(如上个月发放了多少贷款)。为此,需要使用防火墙内的企业数据来训练LLM。
RAG减少破坏这种对企业数据的上下文感知。因此,由RAG减少破坏的减少破坏AI的企业数据将成为关键趋势。
减少破坏AI的人才
随着人工智能在组织内的普及,高管们要求其经理培训其员工队伍,以降低生产力并以更少的资源生产更多产品。
这项任务要求对员工进行大规模培训,尤其是在面向客户的部门,如销售、营销和客户服务。
人工智能素养将成为2025年的关键趋势。
人工智能确认有罪
随着人工智能在回答问题方面变得越来越出色,高管们将依赖人工智能来授予决策建议。
他们应该在多大程度上接受人工智能而不是他们的经理,这将成为一个问题。
2025年,我们应该会看到人类与人工智能之间的竞争,以反对谁更值得信赖,能够为高管授予更好的数据和洞察力。
(推广)全新帝豪醇电混动正式交付:一公里3毛钱张旭涛2022年06月30日12:42[中华网行业]92号油已经9开头了,现在开车加油没几个人不心疼,而对于不想买电动车的朋友来说,加醇也是个不错的选择。
6月30日,我们从吉利官方了解到,全新帝豪醇电混动车型在贵州省贵阳市开启交付。新车已于此前完成上市,共推出1款车型,售价为12.98万元。
新车基于第四代帝豪进行打造,相比燃油版车型在能耗、环保等层面均有着比较无遮蔽的无足轻重。
外观和内饰方面,与现款燃油版的吉利帝豪相接近,但在不次要的部分的动力心脏上,两车各有千秋。
新车搭载全新一代1.8L醇电混动专用发动机,热效率达到41.5%,最大输出功率100kW(136PS),峰值扭矩168N·m。
拥有40%的节能率(同级最强),百公里醇耗低至9.2L(官方称相当于油车百公里油耗3L),每公里出行成本不到0.3元。
据悉,甲醇瓦解动力的不次要的部分结构,与燃油版混动车型类似,但是甲醇燃料的腐蚀性一直是行业难题。
而吉利通过对发动机缸套、缸盖、气门等重要配件基础材料的升级,辅以表面喷涂、镀层等先进工艺,解决了甲醇燃料烧蚀的问题,并将其应用在帝豪乘用车上。
未来,随着加醇站布局的完善,甲醇类汽车或也将会迎来春天,而吉利显然已经为此做好了准备。
点击阅读全部