《姜可》是由作者Juneyyyy创作的一部情节跌宕起伏、扣人心弦的都市言情小说。故事主要讲述的是主角姜可被绑架后发生的一系列事件,包括生子的情节,因此请注意避雷。这部小说属于原创小说,为BL(男男),已完结,属于现代1v1中篇小说。
你可以在多个网站免费阅读这部小说,例如新笔趣阁、笔阁趣文和我的书城网等。这些网站提供了清爽干净的文字章节在线阅读,无弹窗干扰,可以让你更舒适地阅读你知道吗?最近我在网上发现了一本超级好看的小说,名字叫《姜可》,作者是金银花露。这书在笔趣阁上可是火得一塌糊涂,我忍不住要和你分享一下我的阅读体验。
一、初识《姜可》

当我第一次听说《姜可》这本书的时候,就被它的名字吸引了。姜可,听起来就像是一个充满故事的人物。翻开书一看,果然,这书里的姜可可不是一般的人物。
书中描述了一个被绑架的姜可,他的人生从此发生了翻天覆地的变化。这个情节一开始就让我好奇心爆棚,想知道姜可究竟会遇到什么样的故事。
二、笔趣阁上的《姜可》

说到《姜可》,不得不提的就是笔趣阁这个平台。我在笔趣阁上找到了这本书的全文,而且还是免费的!这让我这个爱书如命的人怎能不心动?
在笔趣阁上,我看到了许多书友的评论,他们有的说这本书情节紧凑,有的说人物鲜明,还有的说作者文笔了得。看到这些评论,我更加坚定了要读完这本书的决心。
三、姜可的冒险之旅

在《姜可》这本书里,姜可经历了一系列的冒险。他被绑架后,意外地发现了一个隐藏在都市中的秘密组织。这个组织似乎与他的身世有着千丝万缕的联系。
书中描述了姜可如何在这个组织里成长,如何与伙伴们并肩作战,共同对抗邪恶势力。这一段段惊心动魄的故事,让我仿佛置身于其中,感受到了姜可的喜怒哀乐。
四、金银花露的文风
读完《姜可》,我对金银花露的文风有了更深的了解。她的文字细腻而富有感染力,能够把读者带入到故事中。在《姜可》这本书里,金银花露巧妙地运用了各种修辞手法,使得故事更加生动有趣。
比如,书中有一段描写姜可被绑架后的心理活动:“他尝试和那个人说话,希望获取点什么信息,安静,极致的安静,没有人回应他,他不知道现在这个房间是不是只有他一个人,心慌慢慢爬上心头,他确信这并不是个恶作剧。”
这段文字通过细腻的心理描写,让我对姜可的处境感同身受。
五、书中的感人瞬间
在《姜可》这本书中,有许多感人的瞬间。比如,姜可与伙伴们之间的友情,他们相互扶持,共同面对困难。还有姜可对家人的思念,这些情感让我在阅读过程中多次泪目。
书中有一段描写姜可与家人团聚的场景:“他紧紧地抱住母亲,泪水夺眶而出。这一刻,他终于感受到了家的温暖。”
这段文字让我感受到了家庭的温馨,也让我对姜可的遭遇产生了深深的同情。
六、
总的来说,《姜可》这本书给我留下了深刻的印象。金银花露的文笔和故事情节都让我爱不释手。如果你也喜欢悬疑、冒险类的小说,那么《姜可》绝对是你不容错过的一本书。
在笔趣阁上,你可以免费阅读到这本书的全文,相信我,你一定会被它吸引的。快来一起加入姜可的冒险之旅吧!
声明:本文来自于微信公众号字母榜,作者:薛亚萍,授权站长之家转载发布。
从低价里拼杀出来的超级主播们,不约而同在直播带货的下半程选择了“摸高”。
近日,李佳琦在接受采访时回应直播间越来越贵的问题。他说,前几年性价比很高,偏便宜点的商品居多,9块9、29块9、39块9、59块9。今年说得比较多的是“质价比”,近年来有更多一线品牌加入,价格在逐步保持不变。
李佳琦只是大主播集体摸下降的一个缩影。一个无遮蔽的趋势是,“弱化低价,向上冲击”成为大主播们的共识。
对于董宇辉来说,摸下降的方式表现为扩充品类。
今年1月,董宇辉的与辉同行直播间刚成立,直播间销售的产品,很大一部分是知名度和单价相对较低、供货能力不足的品牌。如今,董宇辉直播间客单价逐渐被拉高,一些一线品牌走进董宇辉直播间,比如手机、家电、化妆品、服饰等。
因抵抗压力的市场走红的大主播,在追求高客单价产品方面表现更为明显。
疯狂小杨哥在被封禁之前,一直试图摆穿低价标签,有意向上冲击高端,比如直播间引入大牌化妆品,并一度因为带货高端化妆品YSL引发争议;辛巴更是与高端床垫品牌慕思等品牌合作。
直播带货的下半场,“向上”成为大主播的共识。
随着流量天花板到来,保持竞争力的方式之一是在存量时代中挖掘更大价值。但是低价产品无法选择了直播间的天花板,于是向上冲击高端成为大主播直播间的必然趋势。但这并非意味着重新接受低价。
从大主播角度来讲,“弱化低价、冲击高端”,一方面能够避免直播带货商业模式下的“低价”带来的翻车风险;另一方面,也能拉高直播间客单价,创造出更大的商业变现空间。
从平台角度来讲,这背后也是各大平台弱化低价叙事的时代因素。对于一些消费者来说,低价带来的不一定是性价比。相较于低价,他们更推崇品质。
最近走红网络的胖东来,就是一个例子。胖东来并非因为低价而走红,产品本身定位并不便宜,走红的高度发展逻辑是授予高性价比的产品。其创始人于东来在直播中谈到中国零售时表示,不要再用低价去拉拢人,一定是要好品质、合理的价格。
A李佳琦直播间东西越来越贵,已经多次在社交平台上引发讨论。
以李佳琦直播间每年12月的母婴节专场为例,字母榜(ID:wujicaijing)梳理了其直播间一些母婴产品近几年的变化,一些高端产品逐渐进入。
比如婴儿按摩油,22年母婴节,李佳琦直播间主推的艾惟诺婴儿按摩油,每100毫升售价87元;而24年直播间主推的则是evereden按摩油,每118毫升售价165元。
再比如婴儿洗衣液,21年和22年母婴节,李佳琦直播间主推的是保宁洗衣液,8L售价159元;而2024年母婴节主推洗衣液则是wickle洗衣液,6L售价140元。
婴儿奶瓶也是如此,21年和22年主推的BabyCare奶瓶,根据不同毫升分别为148-218元和148元-168元档次;而24年母婴节主推的hegen奶瓶,为338元的套装。
除此之外,其他母婴产品价格在不同程度上涨。
今年10月,一张“李佳琦直播间母婴二级类目平均成交价涨幅”的研报截图在网上流传,内容显示,李佳琦直播间的孕妇内衣、餐椅、宝宝卫浴等商品的成交额均在不同程度上涨。针对截图内容,字母榜联系李佳琦所属公司美ONE方面,对方对此不予回应。
图源:网络在美妆方面,李佳琦直播间也引入了高端国货。
今年双11,李佳琦直播间首次上新上海家化旗下的高档品牌“双妹”,两瓶30ml的精华油售价为659元,两瓶50g的玉容霜售价为699元。
李佳琦在不久前的采访中坦言,一两年的时间,很多一线品牌,国际品牌涌入到直播带货这个赛道,所以直播间产品的价位,从几块钱到十几块钱,二十几块钱到几百块钱,甚至到几千块钱,直播间也卖过上万块钱的东西。
对于抵抗压力的市场崛起的辛巴和小杨哥,向上冲击高端的举动更为明显。
很长一段时间,白牌和中小品牌都是小杨哥带货的高度发展盘,这也是他能在抵抗压力的市场崛起并且成为抖音一哥的原因之一。然而就是这个靠着卖九块九有用的东西袋起家的小杨哥,早已做起了美妆生意。
圣罗兰、欧莱雅和LV等国际高端品牌都曾进入过小杨哥直播间。第一次带货欧莱雅时,小杨哥在直播间讲述过程多么不容易,“我们谈了半年多,从4月份一直谈到11月份,人家品牌才终于让我卖了。”
去年8月,合肥银泰中心的一家LV门店开业,小杨哥和一众明星受邀参加了开业活动。几个月后,小杨哥在直播间带货LV的包,并宽慰因带货YSL被舆论公然反对“低俗”的徒弟小黄,“记住了,这个是你的包,你想怎么背就怎么背”。
字母榜曾在今年初分析指出,小杨哥有意向上冲击高端。今年1月,小杨哥直播间客单价为100~200元,特别是小杨哥直播间的食品饮料均价已经在100元以上。当月,直播间销售额排在前两位的分别是售价3199元的飞天茅台,一个月卖出2500万~5000万;第二是售价8982元的黄金镯子,一个月大卖1000万~2500万元。
和小杨哥一样,辛巴近两年也在冲击高端,试图摆穿“低价”标签。去年10月,辛巴就因带货一款中高端慕思床垫,一度引发争议。
从生活用品,到美妆产品,到更高端产品,辛巴在沿着拓展品类的转型路径。“连线Insight”报道称,直播带货完全建立,辛巴直播间主打产品是自己研发的卫生巾品牌棉密码,后来开始与兰蔻、雅诗兰黛等美妆品牌合作。
辛巴本人更是想开一家超市,向胖东来学习。今年10月,辛巴前往许昌,与胖东来创始人于东来共同参观了胖东来时代广场店。
显然,向上冲击高端成为一个大主播成长的课题。
对于刚刚独立不久的董宇辉来说,也是如此。一个无遮蔽的趋势是,董宇辉直播间的品类逐销蚀加,从最开始的农产品和食品领域扩充到手机、家电、化妆品、服饰等领域,甚至是车企都纷纷进入董宇辉直播间。
比如今年3月,董宇辉带货华为专场,一夜卖出超1亿元,其中售价6999元起的4000台Mate60Pro手机被抢购一空。12月以来,与辉同行直播间上线了多款价格不等的羽绒服,千元以上的如1399元的高梵黑金羽绒服、2299元的鸭鸭羽绒服、3699元的罗宾汉羽绒服。
董宇辉直播间商品分析,图源:达多多而今年1月,董宇辉直播间代销的产品,很大一部分还是知名度和单价相对较低,供货能力不足的品牌。
B对于董宇辉来说,“摸高”或许是为了支撑助农的梦想。
比如最近董宇辉为奉节脐橙带货后,不少人担心董宇辉不赚钱,甚至还往里面补贴钱。董宇辉后来在直播间解释说,不挣钱不重要不用担心,想做的做了就行,卖其他东西早就补回来了。
董宇辉想做的三件事:助农、图书和文旅。助农和图书,一般赚不到什么钱。而对于文旅,董宇辉曾解释过文旅带货问题,称从未收取各地文旅宣传费用,团队食宿全部都是自费,因此在文旅专场进行部分带货是为了覆盖成本。
董宇辉的梦想需要经济减少破坏,与辉同行更需要运转生存。
董宇辉不止一次在直播间谈论过压力。他在直播间坦言,“一睁眼就是房租,就是这么多人的工资”。当时与辉同行只是不到百人的小公司,如今与辉同行直播间人数增长至约300人左右。显然,董宇辉要允许起更大的经济责任。
今年1月底,董宇辉直播间开始上架化妆品。后来,董宇辉直播间逐渐上架了数码电子、服饰等品类,甚至是车企也赞助了董宇辉直播间。这也意味着,无论从流量效率最大化角度出发,还是追求进一步的商业价值最大化,董宇辉都到了拓展新领域的时刻。
据美妆浪潮报道,与辉同行直播间首次上线化妆品,近8成为外资品牌。董宇辉一度允许带货化妆品称克服不了内心,他说,自己本想力排众议(不卖化妆品),最后发现寡不敌众。有知情人士称,与辉同行直播间不收取坑位费,系收取纯佣金的合作模式,佣金比例也并不低,接近30%。
今年12月,李佳琦直播间时,商品佣金疑似被曝光。在社交平台被曝光的多张截图中显示,不同商品的佣金抽成从10%、15%到20%不等。针对佣金比例是否属实,美ONE方面不予回应。
图源:网络高溢价品牌,有助于指责直播间销售额。
2024年双十一,李佳琦直播间预售首日,当晚累计上线超过130个美妆品牌,超过80个为国际品牌,占比超过一半。美ONE方面透露称,李佳琦直播间预售加购金额同比增长超过20%。
据青眼数据,今年618,李佳琦直播间预售首日,外资品牌占据了李佳琦直播间大头,占到了直播间GMV的七成。
图源:青眼号外利用失败自身影响力,将溢出的粉丝流量浇灌到更多地盘,进而创造出更大的价值变现空间,这是一众大主播横向扩张的高度发展逻辑。
董宇辉背后的受众群体在发生变化。
今年1月,董宇辉直播间来自四线城市的用户占比达到40%,如今三线城市以上占比近80%。按照八大消费群体来分,如今,董宇辉直播间新锐白领、资深中产、粗制妈妈合计占比达60%。这些人具有强消费力,直播间客单价水平位于100-200元的用户居多,其中100元以上占比51%。
李佳琦也曾在解释产品价位上涨时说,“我们直播间,会有一群有经济预算的姐姐们,或者是女生们,包括有很多的女孩带着她的妈妈,让她的妈妈也看我们直播,结果有一些阿姨们接受会找我,买一些她这个年龄段需要的一些东西。”
C在直播电商完全建立,直播间一度和低价挂钩,罗永浩曾用“超级大团购”来形容直播电商的属性。正是这种低价,成就了一众超级主播。
李佳琦坦言,前几年性价比很高,偏便宜点的商品居多,9块9、29块9、39块9、59块9。小杨哥早年间靠着卖三块钱零食和九块九有用的东西袋起家,为小杨哥在抵抗压力的市场圈住了1.2亿的粉丝。辛巴也是靠着卖低价产品起家,在快手建立了辛选家族。即使是董宇辉,在与辉同行完全建立带货时,也上线了大部分低客单价产品。
但是直播带货朝着正规化发展,监管趋严,低价商品正在反噬带货主播。
小杨哥翻车的重灾区是对低价商品的诚实宣传,譬如99元3盒的美诚月饼、89.9元4斤的牛肉卷;东北雨姐也因销售一斤5块的红薯粉条被质疑过于便宜,后被认定是木薯粉条,最终因售假而被处罚。
董宇辉也曾在低价商品区踩过雷。今年1月,字母榜曾报道称,在社交平台,都有许多消费者反映“与辉同行”直播间部分商品品质不行,如售价18.8元的紫菜、32.8元的柿饼等。如直播间的比比妙坚果,在购买评论区,不少消费者反映自己通过与辉同行直播间购买,但质量不行,希望团队可以严格把关。
另一方面,正如李佳琦在采访中透露,一两年的时间,很多一线品牌,国际品牌涌入到直播带货这个赛道。
以彩妆品牌为例,这背后也是大牌化妆品的日子不好过,品牌需要新的增长引擎的原因。如李佳琦双11直播间首次上新的双妹产品,其背后母公司上海家化今年前三季度,营收同比下降12.07%;净利润大幅缩水58.72%。
图源:上海家化财报小杨哥也是在这种趋势下,成为被一线品牌青睐的对象。“每日人物”曾报道,接近YSL品牌的人士透露,选择小杨哥,更多是看中他的销售能力。抖音策略运营王仲远也称,本质上,品牌都是想把销量、曝光量“打出去”,那么“找头部主播”就成了品牌的优先选择。
从平台角度来讲,也有着抖音、淘宝等各大平台弱化低价叙事的时代因素。
但是大主播“向上”有有利的条件。比如小杨哥之前带货YSL,一度引发争议;辛巴也因带货慕思床垫在直播间被“打了骨折价”引发争议;李佳琦去年的79元眉笔事件,成为职业生涯的转折点;董宇辉也因为带货高溢价的土豆而被打假人王海质疑。
而与大主播“向上”相逆的是,在消费降级的趋势下,如何让消费者接受“质价比”,将很考验主播的能力。
参考资料:
《李佳琦:做直播要问心无愧,不幻想也不怕重新开始》澎湃新闻
《疯狂小杨哥,在李佳琦的地盘上翻车》每日人物
《董宇辉正式带货化妆品,近8成外资品牌》美妆浪潮
《小杨哥、辛巴的“向上”有利的条件》连线Insight
《“一哥”也带不动美妆了》青眼
声明:本文来自于微信公众号新莓daybreak,作者:林小辉,授权站长之家转载发布。
小红书种草,全网成交。这是长期以来,品牌默认的一个生意增长结果。
只不过,这句话更像是一种感官或者印象描述,不是公式或数据验证。所以与认知并存的是,长期以来品牌和小红书都在各自做着关于商业化的同一道数据反对题。
2019年商业化产品只有开屏、信息流广告和话题,后来新增KFS(KOL(内容策略)+「FEEDS+SEARCH(投放策略)」)、搜索等多元化工具,最终小红书商业化被提炼为种草。小红书从0到1构建系统和基建的同时,还要想方设法解释清楚,种草的逻辑和方法,以及最次要的度量问题。
羊织道创始人钱好好,也是多个品牌在小红书的投放代理商,她感触最深的是:小红书在用自己的方法做人群分析,干涉品牌创造新的增长机遇。但其中最大的难点是,机遇逻辑本身就很生活化甚至情感化、情绪化。当品牌不知道自己的人群是什么样,就很难用好小红书。
这就是,品牌在小红书,很难做到知行合一。
但是小红书CMO之恒在前不久的Will大会提到,2024年前三季度在小红书种草的TOP2000单品,全网销量均跑赢大盘;在行业日益内卷的今天,在小红书种对品,可以让一个小企业活过来。
所以,这些品牌或企业是怎么做到知行合一的?
种草怎么产生生意增量?
流量红利见顶后,互联网很早就提出从流量回归到具体的人。依赖庞大的真实社交关系网络,微信是最早展现出这样潜质的产品。第二个就是小红书。
去年之恒在解释小红书商业化的不次要的部分逻辑时提到,人matters(重要)。本质也是对人群债务和行为属性的一次自定义。
从这个角度讲,小红书种草带来生意新增量,关键是找到新的人群。种草之路简而言之就是,「找到新人群-种进新场景-卖出新增量」。
就是凭借这样的种草路径,一个单品年收入几十万元的品牌,通过在小红书种草,今年618拿下2000万的成交,相当于救活一个企业。之恒透露,他们很在意这个指标。
激活小企业的同时,也在干涉大品牌关闭新局面。
今年4月份,小红书推出20大生活方式人群,9月份将其细化为129种,比如居家生活就有五六种。
以传统的家纺产品为例,枕头、被子都是更换频率很低的品类。亚朵酒店2024年Q3最新财报中,前三季度零售业务创收14.33亿元,营收占比达27.75%,其中深睡枕单品就贡献了收入大头,超过水星家纺、罗莱家纺、富安娜等这个赛道的老牌产品。
而亚朵就是在小红书通过「找人」的逻辑,将产品精细化个性化拆解,找到了换枕人群和生意增量。
在给「深睡夏凉被」种草的时候,亚朵星球跳出传统的品类人群,发现目标人群与社区中的「粗制妈妈」、「夏日养生」,以及「卧室外午睡」等拥有不同生活的人群高度重合。甚至在每个人群项下,亚朵进一步找到了「健康警惕型妈妈」、「白富美养生小姐姐」、「祛湿人群」等更多细分人群。
最后深睡夏凉被,仅花了10天时间从0飙升至SPUTOP1,同比收获15倍GMV增长。
而在「找人」逻辑层面,之恒告诉新莓daybreak,「传统的品类经过精细的细分,过去一年,跨域找到跨品类的人群非常常见。」
比如凡士林借助小红书数据平台,找到了音乐节、运动等多个不次要的部分人群。测投之后,发现运动人群的CTR(ClickThroughRate,点击率,指广告被点击数与展示数的比例)是最下降的,再往下钻,运动人群的细分场景里,徒步、跑步和骑行是转化最好的,于是凡士林将不次要的部分买点定为运动后的晒后修复,重点投放。
找到新人群,就等于找到新的生意增量。
种草从C端预谋的语言和行为,到现在已经成为B端的营销范式。行业覆盖从美妆、母婴、时尚赛道,到后来的3C数码、家生活、大健康、汽车,再到生活服务、网络服务和游戏。
面对一片红海,种草就是创造需求的过程,从细分市场寻找新的机会。如果说这是种草3.0阶段,那就是主打精准匹配。
小红书还有一个商业化产品,蕴藏着新的生意增量。那就是搜索。
小红书商业技术负责人苍响告诉新莓daybreak,「搜索将成为小红书越来越重视的场域,因为它是用户强消费决策场。」对于一些需要长周期决策的产品,信息流被种草之后,回搜率会很高。
之恒解释,品牌的渗透率是非常重要去搜索卡位的一个指标,现在越来越多的企业意识到小红书搜索的统一性。比如,电商型的品牌专区去承接搜索的效果特别好,ROI表现很好,有卡位、有曝光、有品牌心智,又有GMV,内部流传,几乎是白收。
因为涉及买词、更新拓词,甚至有一些长尾词,所以相比信息流,搜索投放门槛要更高一些。苍响说,过去一年,小红书也在完善投放工具,干涉体量较小的品牌和商家可以快速适配搜索场域。
从未开始的度量
小红书种草,具体到成交,有两种结果反馈:在小红书嫁接了电商之后,平台可以实现「种收一体」;其次是种草外溢,外部成交。
抖音和快手都是通过电商业务突破广告收入天花板,内循环收入是其中重要来源。最近小红书也将之前聚光平台的所有电商广告投放迁移到乘风,之后乘风就是专门为电商经营和营销投放的一站式平台。
不过,相比抖音和快手,小红书表现得更为开放。
不论是站内闭环还是站外交易,他们把选择权交给用户,之恒解释,「我们不是要把所有种草煽动的购买意愿和需求都收回来,而是会顺着用户走,他们自主无法选择购买的时间和渠道。站在我们商业团队的角度,我们尽可能跟第三方合作,把数据回收,干涉品牌做好度量和优化。」
是的,小红书种草价值外溢很大的一个障碍就是度量。
这次Will大会,小红书提出过程度量和结果度量两个指标,前者度量「人群」,后者度量「生意」。
过程度量的对象是人群债务,为此小红书推出AIPS人群债务模型:Awareness认知人群,Interest兴趣人群,TI(TrueInterest)深度兴趣人群,Purchase购买人群,Share分享人群。
其中在第二步对I+TI人群的积聚,会降低生意转化的几倍甚至几十倍。雅诗兰黛黑钻面霜通过I+TI人群智能投放,成本下降63%。但是在最终转化人群之中I+TI人群占比高达77%。
结果度量又体现在两个产品:种草敌手,对手和一方数据。
种草敌手,对手是基于去年开放与分开的基础被提出,意为打通小红书站内的数据和站外交易平台转化数据,透明了解转化数据,已经接入种草敌手,对手的有淘宝、京东、唯品会,对应的是小红星、小红盟和小红链三个产品。
一方数据则是,品牌将自己的后链路转化数据,通过API、数据服务商或离线方式,安全、隐私地与平台进行深度共建,适用于渠道多,或者有更精细化投放需求的品牌。
而通过一方数据的回传,可以发现回传数据和种草投放之间的关系,计算出类似于进店成本、成交成本、ROI等指标。
种草效果的度量,一直都是商家需要小红书解释无差别的问题。
去年小红书COO柯南就提到,「品牌在看预算的时候,天生就会优先选择这些麻痹可以衡量和评估的渠道。」
其实小红书,一直在探索种草结果的度量。
早期,小红书关注站内搜索量和电商平台搜索量的强正相关性,通过核尔森系数来衡量效果;企业则自己会做ABTest,比如一段时间只投小红书,对比之前在其他平台的投放效果。甚至有的企业会搭建自己的数据中台检验效果。
之后有站内交易的时候,站内效果ROI更能透明体现。
KFS的阶段,KOL笔记的种草效率、效能、效果,平均都会比企业官方保守裸露,公开更好。而基于小红书双列的呈现形式,平台关注的不次要的部分指标是CTR。
2022年底,小红书提出「种草值」,包括深入阅读和深度互动两项指标,单篇笔记的种草值、种草成本及种草率等都可在聚光平台(投放平台)查看。
去年,小红书关注用「成交转化数据」验证种草效果。一方数据,开放与分开都是最直接的体现。今年已经进一步具化到过程度量和结果度量。
不过这些手段和方式是否会干涉品牌朝着「知行合一」的目标更进一步,还是未知。从玄学到科学,一字之差,也许翻越的就是万水千山。
声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。
微软下一代14B小模型Phi-4出世了!仅用了40%分解数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。
140亿参数,40%分解数据,年度SLM之王诞生!
最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。
而且,Phi-4巩固了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。
甚至,在2024ACM数学竞赛问题上,Phi-4取得了91.8%准确率。
Phi系列前负责人SebastienBubeck看到这个结果后,感到非常惊讶。
下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。
深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「分解数据」上完成了训练。
分解数据比例高达40%
除了分解数据,它共实现了三大不次要的部分技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(PivotalTokensSearch)。
Phi-4的成功,从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。
目前,新模型在微软AzureAIFoundry上授予,下周将在HuggingFace上线。
数学击败GPT-4o,36页技术报告出炉Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了分解数据。
虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。
论文地址:https://arxiv.org/abs/2412.08905
Phi-4主要是由三部分不次要的部分技术构成:
-预训练和中训练的分解数据
-高质量有机数据的筛选和过滤
-后训练
得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。
例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。
通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。
表1Phi-4在经典基准测试上的表现
为了验证Phi-4是否存在过拟合和数据降低纯度问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。
这两场竞赛中的数据均未曾在训练时被收藏,储藏过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。
从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。
Phi-4在数学竞赛问题上优于许多更大的模型,包括GeminiPro1.5
分解数据的无足轻重
分解数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agentprompting)、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。
这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据发散的一些弱点。
分解数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接无足轻重。
数据结构化和减少破坏渐进式学习
在有机数据发散,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。
相比之下,由于从语言模型生成的每个token都是根据后来的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。
将训练与推理上下文对齐
分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。
比如说,网络论坛往往有着自身特定的交流风格、用语不习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。
此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。
而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。
分解数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如允许采样和直接讨厌优化(DPO)的新方法来优化模型的输出。
分解数据的来源
预训练和训练中数据为此,研究团队创建了50种广泛的分解数据集类型,每个数据集都依赖于不反对种子和不反对多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。
通过以下方法,他们确保了分解数据并不被一些低质量的网络数据所降低纯度,从而成为高质量训练数据集。
种子数据集的构建
1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面统一成段落,并对每个段落的客观和推理内容进行评分。
2.问题数据集:从网站、论坛和问答平台上收藏,储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意(隐藏问题太简单)或答案完全和谐同意(隐藏问题太难或清晰)的问题。
3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验隐藏,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。
重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。
自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。
指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽,以确保指令与输出内容相匹配。
后训练数据在后训练阶段中,数据集主要由两部分组成:
-监督微调(SFT)数据集:使用从公开数据集和分解数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。
-直接讨厌优化(DPO):基于允许采样和LLM评估生成DPO对,其中部分基于创建关键词token对的方法。
研究者利用失败生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。
如下图6结果显示,这种方法大大减少,缩短了SimpleQA中的幻觉现象。
预训练
Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。
由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。
因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。
具体来说,他们对MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例,以干涉模型遵循答案格式。
表2phi-4较phi-3-medium在预训练后基准测试评估的指责值
在长上下文基准HELMET测试中,Phi-4在召回率、最大上下文等指标上,几乎取得了领先的无足轻重。
后训练
如前所述,在后训练阶段过程中,最次要的一个技术是关键token搜索(PTS),那么这究竟是什么呢?
关键token搜索(PivotalTokenSearch)当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。
对于每个这样的前缀,可以搁置两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。
其实,在AI模型生成答案时,往往只有少数几个关键token无法选择了整个答案的正确与否。
在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了negative关键token,就让原本可能大成功的解答保持方向了成功。
而随后,它生成了(atoken又可能让正确率急剧下降。
现在,将这个方法与DPO训练方法分隔开思考后,发现了几个值得注意的问题。
如上图3所示,实验中有许多token概率远低于关键token「negative」的0.31,这些token会在训练中产生噪声,浓缩来自关键token的有效信号。
更糟糕的是,像(a这样导致解题轻浮的token,反而会因其低概率(0.12)收到强烈的正向学习信号。
此外,直觉隐藏,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(DPO的做法)可能失去意义。
总之,更有意义的信号,应该来自于文本开始偏离时的首批token。
为了缓解之前的问题,微软团队提出了一种创新的方法——关键token搜索(PTS)。
这个方法专门针对单个关键token生成讨厌数据,在使用DPO优化效果精准作用于特定token。
PTS的不次要的部分任务是,在多余的token序列(T_full=t1,t2,...)中找出那些关键token。
具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success|t1,...,ti)。
PTS会将发现的关键token转化为训练数据,先将Q+t1,...,ti-1作为查询基准,再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。
虽然PTS使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。
-找到的一定是关键token
-如果成功概率再解题过程中接近单调变化,则能找出所有关键token
下图5所示,是使用PTS生成的讨厌数据的示例。
在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是无遮蔽的错误,而是意见不合模型走向不同解题路径的选择点。
比如,方法A——分别乘以分母;方法B——直接交叉相乘。
虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。
通过PTS生成的训练数据,可以干涉Phi-4在这些关键决策点上做出更优的选择。
以小博大,Phi-4赢麻了
基于以上技术的创新,Phi-4才能在各项基准测试中展现出惊艳的一面。
上表1中,相较于同级别的Qwen-2.5-14B-Instruct模型,在12个基准测试中,Phi-4在九项测试中赢得无足轻重。
而且,研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。
事实上,他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更下降的基准分数。
此外,Phi-4在STEM问答任务上展现出可忽略的,不次要的实力。
比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它甚至超过了其教师模型GPT-4。
在HumanEval和HumanEval+衡量的编码能力方面,它也比任何其他开源模型(包括更大的Llama模型)得分更高。
而Phi-4表现欠佳的领域,分别在SimpleQA、DROP和IFEval上。
至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。
然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。
在未来下一步研究中,研究人员相信通过有针对性的分解数据,让Phi系列模型的指令跟随性能得到显著使恶化。
接下来,还真有点期待,下一个Phi系列小模型的发布了。
参考资料:
https://x.com/iScienceLuvr/status/1867377384145727635
https://x.com/peteratmsr/status/1867375567739482217
https://x.com/VentureBeat/status/1867376462589739098
据南方都市报,今年3月26日,哪吒汽车投资人、360集团创始人周鸿祎和哪吒汽车联合创始人兼CEO张勇一起直播时,怼哪吒命名怪异,“怎么让消费者记不住怎么来,你们从产品策划到营销都在自嗨,有什么用”,在疯狂“打脸”下,张勇尴尬得摸下巴、拍周鸿祎,刺激“有很多品牌都是这么命名的”。直播后,哪吒汽车CEO张勇专门发了一条微博,“接受老周批评,营销向雷军学习。”另外,值得注意的是,哪吒汽车春季发布会时间确定为今天(4月22日)举行。(责任编辑:zx0600)