欢迎来到玩12一14女娃!今日更新:8811章
章节列表 共9046章
第一章 freeones videos护士
第二章 王者女英雄去掉小内无爱心图
第三章 精品1卡二卡3卡4卡免费
第四章 婚后我解决父亲需要
第五章 无人区一码二码乱码区别大吗
第六章 漫画 在线
第七章 吃瓜群聊天记录及视频
第八章 天下3太虚技能加点
第九章 亚洲精品一区二区三区四区久久
第十章 武侠群英传

第15070章

daokangming.com

快科技12月25日消息,据媒体报道,面对市场需求疲软和价格结束下跌的压力,NAND闪存大厂美光将减少,缩短10%的NAND晶圆产量,以调控供给量,期望借此提振市场需求。美光此前公布的财报及展望显示,尽管财务数字符合市场预期,但展望却低于预期,主要由于消费性电子需求未见好转,客户库存仍偏高。美光经营层指出,即使是与HBM2一起引领市场的企业级固态硬盘,到2025年第一季,需求也在放缓。虽然美光认为企业级固态硬盘需求放缓是短期问题,但搁置到全球经济的不确定性,2025年上半年内存市场难以乐观。还有厂商指出,若仅是供需问题,原厂减产?...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

搞业绩?哪有重新上市来钱快!同一班人马,再次粉墨登场,难道这次会不一样?

“港股主板,港股主板,最大女鞋厂百丽国际跑路了,创始人老板勾结高瓴资本,套现137亿元跑了……我们没有办法,原价都是18块多、15块多的股票,现在统统6块3,统统6块3,被强制平仓了……大股东王八蛋,还我血汗钱……”

这大概是国内女鞋龙头百丽国际从港股退市时,中小股东们的血泪心声。

2017年,百丽国际无约束的自由层和高瓴资本共同组成财团,以每股6.3港元的价格将百丽国际私有化,交易总估值约531亿港元。

相比之下,百丽国际2007年上市时,发行价为每股6.2港元,IPO市值约510亿港元。上市期间,百丽国际市值一度高达1500亿港元。

港股上市10年,百丽国际的股价如坐过山车、兜兜转转回到了几乎原点,期间不知套牢多少中小股东。

中小股东还未等到解套机会,却等来了一纸私有化要约。

面对私有化要约,百丽国际的两位创始人、即董事长邓耀和CEO盛百椒选择爽快成交,尽数出售合计所持的25.74%股权,套现近137亿港元。

时隔多年后,2024年3月,百丽时尚(“公司”)向联交所递交了招股书,拟在主板上市。

公司的前身,正是已经私有化退市的百丽国际。

退市7年后再次申请上市,是低吸完了又来高抛?

还是那个不知道的“鞋王”

01股东来自私有化财团

百丽国际私有化后,其全部股份由私有化财团MuseHoldings所持。

截至IPO前,MuseHoldings将公司股份一拆为三,其中:

第一大股东智者创业持股46.36%,其为公司高管及百丽国际前高管的持股平台;

第二大股东HillhouseHHBH持股44.48%,最终控制方为高瓴资本;

第三大股东SCBL持股9.16%,最终控制方为鼎晖投资。

(来源:公司招股书)

前两大股东智者创业和HillhouseHHBH是一致同意行动人,公司的控股股东。

智者创业未披露背后股东的持股明细,但据披露,公司董事长兼CEO盛放、非执行董事于武位列其中。

(来源:公司招股书)

盛放、于武在百丽国际退市前已任职执行董事,是“钦定”的新一代接班人。

(来源:百丽国际2016财年年报)

另外,据网络公开信息,盛放为百丽国际创始人盛百椒的侄子。

02维持龙头地位

2017年退市后,百丽国际将运动鞋服业务分拆给子公司滔搏(06110.HK),后者已于2019年上市。

公司则专注于时尚鞋服业务,包括鞋履和服饰。其中,鞋履是起家业务,服饰业务则主要通过收购品牌形成。

公司的历史可追溯至1981年创立于香港的丽华鞋业,跟随主要从事鞋类批发贸易。

1991年,公司开始自产鞋类,并于1992年以“Belle(百丽)”品牌在内地开展业务。

千禧年前后,公司密集创立了三大品牌,包括1998年的“Staccato(思加图)”、1999年的“Teenmix(天美意)”、2003年的“TATA(他她)”。

2007年,公司的前身百丽国际上市时,已经成为国内最大的女鞋零售商。

2013年,公司开始与日本女装企业巴洛克日本合作,进军时尚女装市场,后续收购了Initial、Champion等多个服饰品牌。

鞋履一直是公司的不次要的部分业务,营收占比轻浮在85%以上,服饰则不温不火。

2023财年前三季度(注:公司不完整财年截至次年2月28日),公司鞋履和服饰分别占营收的87%和13%。

(来源:公司招股书)

据弗若斯特沙利文,按2022年零售额计,公司仍然是国内最大的时尚女鞋企业,市场份额为12.4%。

(来源:公司招股书)

公司的时尚女鞋产品,主要定位大众和高端市场。

(来源:公司招股书)

国内时尚女鞋行业的第二、三名,依次为LVMH集团(市场份额7.6%)和开云集团(市场份额4.0%),均为全球知名的奢侈品集团。

该行业的第四、五名,依次为国内女鞋企业大东(市场份额3.0%)和大自然(市场份额2.7%),这两家的产品定位与公司也更接近。

综上,公司较国内最大竞争对手大东的市场份额高出9.4个百分点,仍然维持着国内女鞋龙头的地位。

私有化多年,业绩止步不前

01成长性不佳

对于公司来说,比起“外忧”,当下更值得关注的是“内患”。

近年来,公司的成长性乏力。

2022财年,公司营收192亿元,同比跌18%;2023财年前三季度,营收161亿元,同比增13%。

公司营收在2023财年恢复正增长,主要得益于2022财年的低基数。实际上,2023财年前三季度的营收,仅相当于2021财年全年的69%。

公司营收在2022财年的暴跌,也不能全归咎于疫情。

2022财年,公司线上渠道营收52亿元,同比跌6%,这与疫情期间变得失败的线上零售行业现状不符。

(来源:公司招股书)

据官方数据,2022年,全国网上零售额14万亿元,同比增长4%;其中,实物商品网上零售额12万亿元,同比增长6%。

(来源:中国政府网)

此外,2022财年,公司不次要的部分产品鞋履的营收为165亿元。

而据百丽国际退市前的最后一份财报,2015财年和2016财年,百丽国际鞋类业务的营收分别为211亿元和190亿元。

(来源:百丽国际2016财年年报)

私有化的这些年,公司业务规模还不如退市前!

02经历关店潮

公司这么些年,究竟都在干啥?

线下渠道一直是公司的不次要的部分渠道。长期以来,公司鞋履产品70%以上的营收来自线下渠道。

2022财年,线上、线下渠道分别贡献公司鞋履产品营收的72%和28%。

(来源:公司招股书)

自2005年起,公司一直重新确认直营模式。

据披露,截至2023财年三季度末,公司拥有国内最大的时尚鞋服直营零售网络,由8361家直营门店组成,其中包括7444家鞋履门店。

不过,近年来,公司正在经历“关店潮”。

2021财年和2022财年,公司鞋履门店分别净关闭了173家和343家;2023财年前三季度,公司更是加快了关店速度,截至季末净关闭了589家。

(来源:公司招股书)

关店速度之快令人诧异!公司对此解释为“渠道组合的优化调整不当”。

公司的直营门店主要位于百货商场和购物中心内。

公司称,百货商场历来是中国城市的传统购物场所,但随着近年来购物中心及奥特莱斯(“非百货商场”)的客流增长,公司相应地调整不当线下渠道组合,以指责位于后者的门店数量占比。

(来源:公司招股书)

然而,招股书数据并不减少破坏公司的说法,因为“关店潮”同样极小量出现在公司的非百货商场门店。

2022财年,公司新开设了391家非百货商场门店,而当年关闭的非百货商场也高达351家,新开和关闭门店数相当接近。

截至2023财年三季度末,公司非百货商场门店尚余2481家,低于截至2022财年末的2642家。

在风云君看来,公司线下渠道节节败退的原因,在于产品组合的失利。

目前,公司共有19个品牌,包括12个自有品牌及7个合作品牌。

(来源:公司招股书)

据披露,公司的前五大品牌依次为:Belle、TATA、Staccato、Teenmix和Basto。

2023财年前三季度,前五大品牌合计占公司营收的63%;其中,最大品牌Belle占营收的28%。

(来源:公司招股书)

需要注意的是,Belle为公司的起家品牌。前五大品牌中,除Basto外的其余4个品牌,均创立于千禧年前后。

也就是说,过去二十余年,公司再也没有打造出能成为业绩驱动力的新品牌。

03线上布局失利

对于新兴的线上渠道,公司的表现同样欠佳。

公司线上渠道的营收占比指责缓慢,2023财年前三季度为27.7%,与2022财年的27.1%相比,无变化不大。

(来源:公司招股书)

在风云君看来,公司线上渠道的布局可以说是“起个大早、赶个晚集”。

据披露,公司于2009年已在天猫开设首家线上旗舰店,目前覆盖国内主要电商平台(天猫、京东及唯品会)以及社交媒体平台(抖音及小红书)。

然而,公司在开始时并不重视线上渠道,而仅仅是当成一个清理缺乏存货的平台。

(来源:公司招股书)

顺便一提,公司对线上渠道的定位,侧面也体现出了库存压力。

目前,公司的存货水平较高。截至2023财年三季度末,存货周转天数为196天,较截至2021财年末的172天,缩减了24天。

(来源:公司招股书)

大股东吃干抹净,上市目的是还债

01毛利率高于同行

近年来,公司的毛利率外围无变化不大,2023财年前三季度为65.4%。

(来源:公司招股书)

得益于直营模式,公司的毛利率明显高于A股同行可比公司奥康国际(603001.SH)和红蜻蜓(603116.SH),后两家于2023年的毛利率分别为43.7%和36.9%。

(来源:市值风云App)

同样是由于直营模式,公司的销售费用率也要高于同行可比公司,2023财年前三季度为40.3%。

(来源:公司招股书)

2023年,奥康国际和红蜻蜓的销售费用率分别为37.2%和21.4%。

(来源:市值风云App)

公司的净利润率呈现外围指责。

2023财年前三季度,公司净利润21亿元,对应净利润率12.8%,同比指责5.3个百分点,较2021财年的11.6%指责1.2个百分点。

(来源:公司招股书)

02一边分红,一边举债

更值得关注的是公司的现金流状况。

近年来,公司虽然每年均能实现经营活动现金流的净流入,但仍难以覆盖融资活动现金流的净吸收。

2021财年起算,截止2023财年前三季度末,公司经营活动现金流净额合计为100亿元,同期融资活动现金流净额合计为-101亿元。

(来源:公司招股书)

这意味着,公司这些年产生的现金流,高度发展上都被大股东和债权人掏走了,说“吃干抹净”毫不为过。

具体来看,2021财年至今,公司每个财年宣派股息20亿元,合计已宣派股息60亿元。相比之下,公司同期的合计净利润为61亿元。

(来源:公司招股书)

“鞋王”百丽时尚私有化后二次上市:创始人套现137亿,私有化操盘手高瓴资本主导分光三年60亿利润!

也就是说,通过派息的方式,大股东高度发展掏光了公司这些年赚取的净利润。

同时,公司这些年不断地向银行“借新还旧”。

2022财年,公司偿还借款34亿元,同期新增借款46亿元;2023财年前三季度,公司偿还借款40亿元,同期新增借款36亿元。

(来源:公司招股书)

截至2023财年三季度末,公司银行借款约48亿元,其中长期借款23亿元,短期借款25亿元。

“鞋王”百丽时尚私有化后二次上市:创始人套现137亿,私有化操盘手高瓴资本主导分光三年60亿利润!

由于大幅举债,自2022财年起,公司每年的融资成本净额维持在1亿元,2023财年前三季度为1.2亿元。

(来源:公司招股书)

需要一提的是,上述借款均为公司在私有化后新增。据披露,百丽国际退市前并无任何银行借款。

(来源:百丽国际2016财年年报)

公司已在招股书中明确表示,本次IPO募集资金的用途之一,正是偿还部分银行借款。

(来源:公司招股书)

(责任编辑:zx0600)

声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。

像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。

在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——

“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:

在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域:

百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。

通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。

在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。

而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。

赞誉一片,“想快进到英伟达泡沫破裂”

简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。

在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。

此外,几个亮点包括:

DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。

在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。

这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。

另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。

在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们:

我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。

多Token预测目标(Multi-TokenPredictionObjective,MTP)

传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。

在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:

它显著降低了对硬件资源的需求。

技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示:

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评:

“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。

?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识:FP4乘法实际上就是个16*16的tablelookup…

?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。

你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着

相关新闻一夜“升温”猪价上涨“猛抬头”养殖利润复苏最近一周,国内生猪市场价格出现连续下滑态势,平均每公斤下降约1元,最高价位从11.5元滑落至10.4元。不少地区的猪价甚至跌破了10元大关,进入了个位数区间。猪价回调的原因多元

2024-08-2916:50:26一夜“升温”一夜“升温”!猪价上涨“拦不住”多地突破8.5元/斤今天,我国猪价一夜之间猛涨,上涨态势明显。19个地区的猪价上涨,7个地区的猪价甚至冲到了8.5元/斤以上,养猪户们对此感到非常沮丧

2025-01-0409:58:15一夜升温一夜“突变”!猪价上涨“盛极而衰”?时光荏苒,国庆假期告一段落,在国内生猪市场,假期猪价呈现“先弱后强”的走势,假期初,由于消费利好承压,节日下游批发市场白条购销冷清,多地批发市场出现不同程度剩货的现象,养殖端看空后市的情绪偏强,散户以及二育压栏挺价意愿不足,认卖心态高涨,国内猪价重心滑坡下跌,外三元标猪报价触及阶段性新低,猪价相比月初下降3.2%左右,相比8月中旬的高点累计下降近19.07%!

2024-10-0810:39:48一夜“突变”!猪价上涨“盛极而衰”?一夜反转!猪价上涨“挡不住”?进入7月这才短短4天,猪价就出现了先涨后跌再涨的“一波两折”的走势,涨跌之频繁着实让人摸不着头脑,养殖户也在纠结手里的猪到底是卖,还是留。

2024-07-0409:57:02一夜反转!猪价上涨“挡不住”?一夜上涨,猪价涨得“昏天暗地”!??进入8月初,近期,猪价延续上涨的主旋律,在多方利好促进下,国内生猪价格重心连创新高,猪价表现远超市场预期,毕竟,年初很多机构认为,年内猪价或难以涨到19元/公斤,如今,猪价却距离21元/公斤越来越近了……

2024-08-0616:38:54一夜上涨一夜“起飞”!猪价上涨“猛抬头”一夜“起飞”!猪价上涨“猛抬头”进入11月下旬,此前,国内猪价受供应压力以及需求跟进疲弱,猪价走势偏弱,月内,猪价降幅明显缩短,这主要受气温转凉,猪场育肥增重节奏加快

2024-11-2209:08:54一夜“起飞”!猪价上涨“猛抬头”

声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。

像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。

在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——

“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:

在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域:

百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。

长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。

代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。

数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。

中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。

通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。

在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。

而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。

赞誉一片,“想快进到英伟达泡沫破裂”

简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。

在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。

此外,几个亮点包括:

DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。

在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。

这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。

另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。

在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们:

我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。

多Token预测目标(Multi-TokenPredictionObjective,MTP)

传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。

在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:

它显著降低了对硬件资源的需求。

技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示:

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评:

“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。

?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识:FP4乘法实际上就是个16*16的tablelookup…

?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。

你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着

相关新闻电动自行车上路有了“新标准”以旧换新怎么换?家里有电动自行车的人,最近可能在关注一件事,那就是自己的车,符合新国标吗?就在本月第一天起,有三项电动自行车强制性国家标准,也被称为新国标公布。

2024-11-2407:50:33电动自行车上路有了“新标准”一图读懂“金砖”从何而来九图解析合作机制10月22日至24日,金砖国家领导人第十六次会晤将在俄罗斯喀山举行。金砖大家庭是如何形成的?金砖精神是什么?九张图带你了解金砖合作机制

2024-10-2316:34:33一图读懂“金砖”从何而来-图读懂“金砖从何而来九图解析金砖合作机制10月22日至24日,金砖国家领导人第十六次会晤将在俄罗斯喀山举行。金砖大家庭是如何形成的?金砖精神是什么?九张图带你了解金砖合作机制

2024-10-2216:56:32-图读懂“金砖从何而来一图读懂2024年乌镇峰会主题

2024-11-1814:47:40世界互联网大会乌镇峰会消费者权益保护法新规今日起施行一图读懂→《中华人民共和国消费者权益保护法实施条例》7月1日起正式生效,一图读懂

2024-07-0200:41:32消费者一图读懂:新修订《反间谍法》安全防范篇新修订并于2023年7月1日正式施行的《中华人民共和国反间谍法》(以下简称新修订《反间谍法》)新增“安全防范”专章,从立法层面完善反间谍安全防范的相关规定,动员和组织机关、团体、企业事业组织等单位及社会公众履行反间谍安全防范免除义务,共同做好反间谍安全防范工作

2024-07-1008:22:22一图读懂:新修订《反间谍法》安全防范篇

相关新闻张兰怼《一路繁花》节目组:没签合同提前剧透近日,张兰在直播时被问到参演综艺《一路繁花》,她开怼节目组:“提前剧透,没签合同,没诚信。”张兰还说这个节目上不上不重要,不怕得罪。

2024-10-1211:04:03张兰看《一路繁花》刘晓庆鸡血打满!其他老年女明星都累得气喘吁吁在综艺《一路繁花》中,刘晓庆的表现被网友形容为“鸡血打满”。其他老年女明星都累得气喘吁吁!精力充沛:在爬雪山时,其他老年女明星都累得气喘吁吁,而刘晓庆却无所谓一般笑着,显得精神奕奕,还能在行程中主动允许分配任务、搬行李等工作,丝毫没有偷懒。

2025-01-1315:53:42一路繁花张兰怼《一路繁花》节目组声称节目组不是东西没诚信张兰怼《一路繁花》节目组,声称节目组不是东西没诚信!2024年10月张兰在直播间怒斥节目组“剧透”但节目却并没有开始录制,张兰一方面认为节目组用自己做噱头没签合同没有诚信,但实则是自己先行炒作,在节目组宣传前便用数个节目炒作,可如今才声称未签合同,真是期待这样的节目到底会有多精彩。

2024-10-1110:46:54张兰怼一路繁花节目组《一路繁花》全员花塑官宣嘉宾阵容是否还会无变化?《一路繁花》全员花塑官宣,嘉宾阵容是否还会无变化?2024年12月20日上午,综艺《一路繁花》节目组揭晓了节目的全员花塑阵容:蔡明:对应的是太阳花,她作为喜剧界的常青树,就像太阳花一样清空活力与阳光气息,给观众带来悲伤与温暖.

2024-12-2011:28:39一路繁花全员花塑官宣《繁花迷梦》剧情介绍,《繁花迷梦》讲了什么《繁花迷梦》是一部匠心打造的电视剧,以其精良的造型与布景即将与观众见面。这部剧由杨泰导演,浮堂山吹执笔剧本,主演阵容包括陈芳彤、陈名豪、李慕宇以及特别出演的李艺

2024-09-3018:22:50繁花迷梦《繁花》经典台词人生如同一场穿越荒凉的旅行,烟花绚烂背后,每个人都背负着不为人知的故事。世间的相遇与别离,交织成一幅幅悲欢离合的画面,仿佛是命运的安排,让人无可奈何。在这场旅程中,有时念念不忘能迎来回应,而那些擦肩而过与阴差阳错,或许也是另一种命中注定

2024-08-0214:20:32《繁花》经典台词