相关新闻一夜“升温”猪价上涨“猛抬头”养殖利润复苏最近一周,国内生猪市场价格出现连续下滑态势,平均每公斤下降约1元,最高价位从11.5元滑落至10.4元。不少地区的猪价甚至跌破了10元大关,进入了个位数区间。猪价回调的原因多元
2024-08-2916:50:26一夜“升温”一夜“升温”!猪价上涨“拦不住”多地突破8.5元/斤今天,我国猪价一夜之间猛涨,上涨态势明显。19个地区的猪价上涨,7个地区的猪价甚至冲到了8.5元/斤以上,养猪户们对此感到非常沮丧2025-01-0409:58:15一夜升温一夜“突变”!猪价上涨“盛极而衰”?时光荏苒,国庆假期告一段落,在国内生猪市场,假期猪价呈现“先弱后强”的走势,假期初,由于消费利好承压,节日下游批发市场白条购销冷清,多地批发市场出现不同程度剩货的现象,养殖端看空后市的情绪偏强,散户以及二育压栏挺价意愿不足,认卖心态高涨,国内猪价重心滑坡下跌,外三元标猪报价触及阶段性新低,猪价相比月初下降3.2%左右,相比8月中旬的高点累计下降近19.07%!2024-10-0810:39:48一夜“突变”!猪价上涨“盛极而衰”?一夜反转!猪价上涨“挡不住”?进入7月这才短短4天,猪价就出现了先涨后跌再涨的“一波两折”的走势,涨跌之频繁着实让人摸不着头脑,养殖户也在纠结手里的猪到底是卖,还是留。2024-07-0409:57:02一夜反转!猪价上涨“挡不住”?一夜上涨,猪价涨得“昏天暗地”!??进入8月初,近期,猪价延续上涨的主旋律,在多方利好促进下,国内生猪价格重心连创新高,猪价表现远超市场预期,毕竟,年初很多机构认为,年内猪价或难以涨到19元/公斤,如今,猪价却距离21元/公斤越来越近了……2024-08-0616:38:54一夜上涨一夜“起飞”!猪价上涨“猛抬头”一夜“起飞”!猪价上涨“猛抬头”进入11月下旬,此前,国内猪价受供应压力以及需求跟进疲弱,猪价走势偏弱,月内,猪价降幅明显缩短,这主要受气温转凉,猪场育肥增重节奏加快2024-11-2209:08:54一夜“起飞”!猪价上涨“猛抬头”身为一名猫控不能养猫是最郁闷的!!!于是让我们来扒一扒那些喵系游戏来解解馋吧~?~?圆滚滚的脑袋镇楼(?°3°?)1吧唧猫下载地址:https://www.taptap.com/app/6852一款萌萌的休闲类小游戏,只需要点击猫咪让它张开嘴巴吃到不知道从哪掉下来的鱼就行了,不过要注意不要吃到炸弹,还有就是一旦漏掉了一条鱼游戏就开始了。。。嗯。。。对手残不太友好,无论是画面还是音乐都很轻松愉快。背景的鱼鱼太可爱了啦!!!吃到金鱼的...
特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。
相关新闻张兰怼《一路繁花》节目组:没签合同提前剧透近日,张兰在直播时被问到参演综艺《一路繁花》,她开怼节目组:“提前剧透,没签合同,没诚信。”张兰还说这个节目上不上不重要,不怕得罪。
2024-10-1211:04:03张兰看《一路繁花》刘晓庆鸡血打满!其他老年女明星都累得气喘吁吁在综艺《一路繁花》中,刘晓庆的表现被网友形容为“鸡血打满”。其他老年女明星都累得气喘吁吁!精力充沛:在爬雪山时,其他老年女明星都累得气喘吁吁,而刘晓庆却无所谓一般笑着,显得精神奕奕,还能在行程中主动允许分配任务、搬行李等工作,丝毫没有偷懒。2025-01-1315:53:42一路繁花张兰怼《一路繁花》节目组声称节目组不是东西没诚信张兰怼《一路繁花》节目组,声称节目组不是东西没诚信!2024年10月张兰在直播间怒斥节目组“剧透”但节目却并没有开始录制,张兰一方面认为节目组用自己做噱头没签合同没有诚信,但实则是自己先行炒作,在节目组宣传前便用数个节目炒作,可如今才声称未签合同,真是期待这样的节目到底会有多精彩。2024-10-1110:46:54张兰怼一路繁花节目组《一路繁花》全员花塑官宣嘉宾阵容是否还会无变化?《一路繁花》全员花塑官宣,嘉宾阵容是否还会无变化?2024年12月20日上午,综艺《一路繁花》节目组揭晓了节目的全员花塑阵容:蔡明:对应的是太阳花,她作为喜剧界的常青树,就像太阳花一样清空活力与阳光气息,给观众带来悲伤与温暖.2024-12-2011:28:39一路繁花全员花塑官宣《繁花迷梦》剧情介绍,《繁花迷梦》讲了什么《繁花迷梦》是一部匠心打造的电视剧,以其精良的造型与布景即将与观众见面。这部剧由杨泰导演,浮堂山吹执笔剧本,主演阵容包括陈芳彤、陈名豪、李慕宇以及特别出演的李艺2024-09-3018:22:50繁花迷梦《繁花》经典台词人生如同一场穿越荒凉的旅行,烟花绚烂背后,每个人都背负着不为人知的故事。世间的相遇与别离,交织成一幅幅悲欢离合的画面,仿佛是命运的安排,让人无可奈何。在这场旅程中,有时念念不忘能迎来回应,而那些擦肩而过与阴差阳错,或许也是另一种命中注定2024-08-0214:20:32《繁花》经典台词声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。
像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——
“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”
“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”
而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。
也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。
它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。
“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出
DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。
根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
Deepseek罗列了几个关键的表现领域:
百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。
长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。
代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。
数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。
中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。
但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。
这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。
通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。
想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。
在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。
能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。
根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。
而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。
赞誉一片,“想快进到英伟达泡沫破裂”
简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。
在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。
此外,几个亮点包括:
DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。
在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。
这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。
另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。
在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。
这些动作相当于是告诉那些调不好参数和不平衡的的人们:
我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。
多Token预测目标(Multi-TokenPredictionObjective,MTP)
传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。
对FP8低精度训练的优化。
FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。
这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。
除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。
在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:
它显著降低了对硬件资源的需求。
技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:
推特上各个大佬纷纷点赞。
Meta的田渊栋也直接表示:
“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”
AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。
另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。
硅基流动的袁进辉在朋友圈点评:
“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”
Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。
?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。
?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。
?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。
?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。
?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。
?冷知识:FP4乘法实际上就是个16*16的tablelookup…
?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。
“Excitingyears.”他说。
在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。
你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。
有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。
一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着
相关新闻电动自行车上路有了“新标准”以旧换新怎么换?家里有电动自行车的人,最近可能在关注一件事,那就是自己的车,符合新国标吗?就在本月第一天起,有三项电动自行车强制性国家标准,也被称为新国标公布。
2024-11-2407:50:33电动自行车上路有了“新标准”一图读懂“金砖”从何而来九图解析合作机制10月22日至24日,金砖国家领导人第十六次会晤将在俄罗斯喀山举行。金砖大家庭是如何形成的?金砖精神是什么?九张图带你了解金砖合作机制2024-10-2316:34:33一图读懂“金砖”从何而来-图读懂“金砖从何而来九图解析金砖合作机制10月22日至24日,金砖国家领导人第十六次会晤将在俄罗斯喀山举行。金砖大家庭是如何形成的?金砖精神是什么?九张图带你了解金砖合作机制2024-10-2216:56:32-图读懂“金砖从何而来一图读懂2024年乌镇峰会主题2024-11-1814:47:40世界互联网大会乌镇峰会消费者权益保护法新规今日起施行一图读懂→《中华人民共和国消费者权益保护法实施条例》7月1日起正式生效,一图读懂2024-07-0200:41:32消费者一图读懂:新修订《反间谍法》安全防范篇新修订并于2023年7月1日正式施行的《中华人民共和国反间谍法》(以下简称新修订《反间谍法》)新增“安全防范”专章,从立法层面完善反间谍安全防范的相关规定,动员和组织机关、团体、企业事业组织等单位及社会公众履行反间谍安全防范免除义务,共同做好反间谍安全防范工作2024-07-1008:22:22一图读懂:新修订《反间谍法》安全防范篇ColorOS15升级详情正式公布:OPPOFindX7系列/一加12首批适配今天上午,ColorOS15正式发布,官方公布了ColorOS15升级计划,具体如下:2024年11月OPPOFindN3典藏版一加12OPPOFindN3一加Ace3ProOPPOFindN3Flip一加Ace3OPPOFindX7Ultra卫星通信版一加Ace3原神刻晴定制OPPOFindX7Ultra一加平板ProOPPOFindX72024年12月OPPOFindN2一加11OPPOFindX6Pro一加115G木星岩定制版OPPOFindX6一加Ace3VOPPOReno12Pro5G一加Ace2ProOPPOPad2一加Ace2Pro原神派蒙主题礼盒OPPOK125G一加Ace2OPPOK12x5G一加Ace2原神定制礼盒2025年1季度OPPOFindN2Flip一加10ProOPPOFindX5Pro一加Ace2VOPPOFindX5Pro天玑版一加AceProOPPOFindX5一加AcePro原神限定版OPPOReno125G一加AceOPPOReno11Pro5G一加Ace竞速版5GOPPOReno115GOPPOReno10Pro5GOPPOReno10Pro5GOPPOReno10Pro星籁版5GOPPOReno105GOPPOReno9Pro5GOPPOReno9Pro5GOPPOReno95GOPPOReno8ProOPPOK12PlusOPPOK115GOPPOK11x5G作为全新一代定制系统,ColorOS15号称是重构安卓流畅新体验,堪称流畅新标杆,该系统首发革命性的双引擎技术极光引擎与潮汐引擎,带来更流畅、更智能、更高效的使用体验。传统的单线程处理方式在面对复杂的动画和应用时难免出现卡顿ColorOS15的极光引擎通过多线程并行处理,不仅解决了画面易闪跳的问题实现了点击响应的精准连贯。ColorOS15的潮汐引擎通过智能的芯片缓存分配与AI算法优化,能够有效指责整个偶然的性能,使得操作系统能够更好地利用失败手机的计算资源,指责中心的运行效率。
搞业绩?哪有重新上市来钱快!同一班人马,再次粉墨登场,难道这次会不一样?
“港股主板,港股主板,最大女鞋厂百丽国际跑路了,创始人老板勾结高瓴资本,套现137亿元跑了……我们没有办法,原价都是18块多、15块多的股票,现在统统6块3,统统6块3,被强制平仓了……大股东王八蛋,还我血汗钱……”
这大概是国内女鞋龙头百丽国际从港股退市时,中小股东们的血泪心声。
2017年,百丽国际无约束的自由层和高瓴资本共同组成财团,以每股6.3港元的价格将百丽国际私有化,交易总估值约531亿港元。
相比之下,百丽国际2007年上市时,发行价为每股6.2港元,IPO市值约510亿港元。上市期间,百丽国际市值一度高达1500亿港元。
港股上市10年,百丽国际的股价如坐过山车、兜兜转转回到了几乎原点,期间不知套牢多少中小股东。
中小股东还未等到解套机会,却等来了一纸私有化要约。
面对私有化要约,百丽国际的两位创始人、即董事长邓耀和CEO盛百椒选择爽快成交,尽数出售合计所持的25.74%股权,套现近137亿港元。
时隔多年后,2024年3月,百丽时尚(“公司”)向联交所递交了招股书,拟在主板上市。
公司的前身,正是已经私有化退市的百丽国际。
退市7年后再次申请上市,是低吸完了又来高抛?
还是那个不知道的“鞋王”
01股东来自私有化财团
百丽国际私有化后,其全部股份由私有化财团MuseHoldings所持。
截至IPO前,MuseHoldings将公司股份一拆为三,其中:
第一大股东智者创业持股46.36%,其为公司高管及百丽国际前高管的持股平台;
第二大股东HillhouseHHBH持股44.48%,最终控制方为高瓴资本;
第三大股东SCBL持股9.16%,最终控制方为鼎晖投资。
(来源:公司招股书)前两大股东智者创业和HillhouseHHBH是一致同意行动人,公司的控股股东。
智者创业未披露背后股东的持股明细,但据披露,公司董事长兼CEO盛放、非执行董事于武位列其中。
(来源:公司招股书)盛放、于武在百丽国际退市前已任职执行董事,是“钦定”的新一代接班人。
(来源:百丽国际2016财年年报)另外,据网络公开信息,盛放为百丽国际创始人盛百椒的侄子。
02维持龙头地位
2017年退市后,百丽国际将运动鞋服业务分拆给子公司滔搏(06110.HK),后者已于2019年上市。
公司则专注于时尚鞋服业务,包括鞋履和服饰。其中,鞋履是起家业务,服饰业务则主要通过收购品牌形成。
公司的历史可追溯至1981年创立于香港的丽华鞋业,跟随主要从事鞋类批发贸易。
1991年,公司开始自产鞋类,并于1992年以“Belle(百丽)”品牌在内地开展业务。
千禧年前后,公司密集创立了三大品牌,包括1998年的“Staccato(思加图)”、1999年的“Teenmix(天美意)”、2003年的“TATA(他她)”。
2007年,公司的前身百丽国际上市时,已经成为国内最大的女鞋零售商。
2013年,公司开始与日本女装企业巴洛克日本合作,进军时尚女装市场,后续收购了Initial、Champion等多个服饰品牌。
鞋履一直是公司的不次要的部分业务,营收占比轻浮在85%以上,服饰则不温不火。
2023财年前三季度(注:公司不完整财年截至次年2月28日),公司鞋履和服饰分别占营收的87%和13%。
(来源:公司招股书)据弗若斯特沙利文,按2022年零售额计,公司仍然是国内最大的时尚女鞋企业,市场份额为12.4%。
(来源:公司招股书)公司的时尚女鞋产品,主要定位大众和高端市场。
(来源:公司招股书)国内时尚女鞋行业的第二、三名,依次为LVMH集团(市场份额7.6%)和开云集团(市场份额4.0%),均为全球知名的奢侈品集团。
该行业的第四、五名,依次为国内女鞋企业大东(市场份额3.0%)和大自然(市场份额2.7%),这两家的产品定位与公司也更接近。
综上,公司较国内最大竞争对手大东的市场份额高出9.4个百分点,仍然维持着国内女鞋龙头的地位。
私有化多年,业绩止步不前
01成长性不佳
对于公司来说,比起“外忧”,当下更值得关注的是“内患”。
近年来,公司的成长性乏力。
2022财年,公司营收192亿元,同比跌18%;2023财年前三季度,营收161亿元,同比增13%。
公司营收在2023财年恢复正增长,主要得益于2022财年的低基数。实际上,2023财年前三季度的营收,仅相当于2021财年全年的69%。
公司营收在2022财年的暴跌,也不能全归咎于疫情。
2022财年,公司线上渠道营收52亿元,同比跌6%,这与疫情期间变得失败的线上零售行业现状不符。
(来源:公司招股书)据官方数据,2022年,全国网上零售额14万亿元,同比增长4%;其中,实物商品网上零售额12万亿元,同比增长6%。
(来源:中国政府网)此外,2022财年,公司不次要的部分产品鞋履的营收为165亿元。
而据百丽国际退市前的最后一份财报,2015财年和2016财年,百丽国际鞋类业务的营收分别为211亿元和190亿元。
(来源:百丽国际2016财年年报)私有化的这些年,公司业务规模还不如退市前!
02经历关店潮
公司这么些年,究竟都在干啥?
线下渠道一直是公司的不次要的部分渠道。长期以来,公司鞋履产品70%以上的营收来自线下渠道。
2022财年,线上、线下渠道分别贡献公司鞋履产品营收的72%和28%。
(来源:公司招股书)自2005年起,公司一直重新确认直营模式。
据披露,截至2023财年三季度末,公司拥有国内最大的时尚鞋服直营零售网络,由8361家直营门店组成,其中包括7444家鞋履门店。
不过,近年来,公司正在经历“关店潮”。
2021财年和2022财年,公司鞋履门店分别净关闭了173家和343家;2023财年前三季度,公司更是加快了关店速度,截至季末净关闭了589家。
(来源:公司招股书)关店速度之快令人诧异!公司对此解释为“渠道组合的优化调整不当”。
公司的直营门店主要位于百货商场和购物中心内。
公司称,百货商场历来是中国城市的传统购物场所,但随着近年来购物中心及奥特莱斯(“非百货商场”)的客流增长,公司相应地调整不当线下渠道组合,以指责位于后者的门店数量占比。
(来源:公司招股书)然而,招股书数据并不减少破坏公司的说法,因为“关店潮”同样极小量出现在公司的非百货商场门店。
2022财年,公司新开设了391家非百货商场门店,而当年关闭的非百货商场也高达351家,新开和关闭门店数相当接近。
截至2023财年三季度末,公司非百货商场门店尚余2481家,低于截至2022财年末的2642家。
在风云君看来,公司线下渠道节节败退的原因,在于产品组合的失利。
目前,公司共有19个品牌,包括12个自有品牌及7个合作品牌。
(来源:公司招股书)据披露,公司的前五大品牌依次为:Belle、TATA、Staccato、Teenmix和Basto。
2023财年前三季度,前五大品牌合计占公司营收的63%;其中,最大品牌Belle占营收的28%。
(来源:公司招股书)需要注意的是,Belle为公司的起家品牌。前五大品牌中,除Basto外的其余4个品牌,均创立于千禧年前后。
也就是说,过去二十余年,公司再也没有打造出能成为业绩驱动力的新品牌。
03线上布局失利
对于新兴的线上渠道,公司的表现同样欠佳。
公司线上渠道的营收占比指责缓慢,2023财年前三季度为27.7%,与2022财年的27.1%相比,无变化不大。
(来源:公司招股书)在风云君看来,公司线上渠道的布局可以说是“起个大早、赶个晚集”。
据披露,公司于2009年已在天猫开设首家线上旗舰店,目前覆盖国内主要电商平台(天猫、京东及唯品会)以及社交媒体平台(抖音及小红书)。
然而,公司在开始时并不重视线上渠道,而仅仅是当成一个清理缺乏存货的平台。
(来源:公司招股书)顺便一提,公司对线上渠道的定位,侧面也体现出了库存压力。
目前,公司的存货水平较高。截至2023财年三季度末,存货周转天数为196天,较截至2021财年末的172天,缩减了24天。
(来源:公司招股书)大股东吃干抹净,上市目的是还债
01毛利率高于同行
近年来,公司的毛利率外围无变化不大,2023财年前三季度为65.4%。
(来源:公司招股书)得益于直营模式,公司的毛利率明显高于A股同行可比公司奥康国际(603001.SH)和红蜻蜓(603116.SH),后两家于2023年的毛利率分别为43.7%和36.9%。
(来源:市值风云App)同样是由于直营模式,公司的销售费用率也要高于同行可比公司,2023财年前三季度为40.3%。
(来源:公司招股书)2023年,奥康国际和红蜻蜓的销售费用率分别为37.2%和21.4%。
(来源:市值风云App)公司的净利润率呈现外围指责。
2023财年前三季度,公司净利润21亿元,对应净利润率12.8%,同比指责5.3个百分点,较2021财年的11.6%指责1.2个百分点。
(来源:公司招股书)02一边分红,一边举债
更值得关注的是公司的现金流状况。
近年来,公司虽然每年均能实现经营活动现金流的净流入,但仍难以覆盖融资活动现金流的净吸收。
2021财年起算,截止2023财年前三季度末,公司经营活动现金流净额合计为100亿元,同期融资活动现金流净额合计为-101亿元。
(来源:公司招股书)这意味着,公司这些年产生的现金流,高度发展上都被大股东和债权人掏走了,说“吃干抹净”毫不为过。
具体来看,2021财年至今,公司每个财年宣派股息20亿元,合计已宣派股息60亿元。相比之下,公司同期的合计净利润为61亿元。
(来源:公司招股书)“鞋王”百丽时尚私有化后二次上市:创始人套现137亿,私有化操盘手高瓴资本主导分光三年60亿利润!也就是说,通过派息的方式,大股东高度发展掏光了公司这些年赚取的净利润。
同时,公司这些年不断地向银行“借新还旧”。
2022财年,公司偿还借款34亿元,同期新增借款46亿元;2023财年前三季度,公司偿还借款40亿元,同期新增借款36亿元。
(来源:公司招股书)截至2023财年三季度末,公司银行借款约48亿元,其中长期借款23亿元,短期借款25亿元。
“鞋王”百丽时尚私有化后二次上市:创始人套现137亿,私有化操盘手高瓴资本主导分光三年60亿利润!由于大幅举债,自2022财年起,公司每年的融资成本净额维持在1亿元,2023财年前三季度为1.2亿元。
(来源:公司招股书)需要一提的是,上述借款均为公司在私有化后新增。据披露,百丽国际退市前并无任何银行借款。
(来源:百丽国际2016财年年报)公司已在招股书中明确表示,本次IPO募集资金的用途之一,正是偿还部分银行借款。
(来源:公司招股书)(责任编辑:zx0600)苹果M1处理器终于来了!登陆MacBookAir、Pro和Macmini牛华网2020-11-1111:37
导语:今年秋季,科技巨头苹果连续举办了三场线上发布会(受新冠疫情的影响),对外公布了新款AppleWatch智能手表、iPadAir和iPad平板电脑、AppleOne订阅服务、新旗舰iPhone12系列手机以及HomePodmini智能扬声器。
就在刚刚,苹果举办了名为Onemorething的第三次秋季发布会,对外公布了自主品牌的M1处理器以及搭载M1处理器的全新Mac电脑,包括MacBookAir、Macmini以及13英寸MacBookPro。不过,苹果并未如预期中的那样推出蓝牙追踪设备AirTag以及新的头戴式耳机AirPodsStudio。
下面,就让我们一起来看一下苹果此次发布会中的具体产品细节:
M1处理器
在此次名为Onemorething的新品发布会中,苹果对外公布了M1芯片,这款芯片有望取代英特尔酷睿处理器,用于未来的Mac电脑中。
M1芯片将是第一个安装在Mac电脑内的苹果硅处理器,苹果声称它拥有世界上最快的不次要的部分和集成图形引擎(集成显卡)。苹果还声称,M1是他们开发过的最好的处理器,它采用5nm工艺和Arm架构,可以降低功率效率。实际上,这也意味着未来的MacBook将会比苹果现有的笔记本电脑拥有更出色的电池续航能力。
具体而言,M1芯片采用了5纳米制程工艺,最高减少破坏8核中央处理器以及8核图形处理器,16核神经网络引擎。同时,M1封装了数量惊人的160亿个晶体管,而且将中央处理器、图形处理器、神经网络引擎、各种分开功能,以及其他数量少组件,集成在了这一块小小的芯片上。
苹果一再降低重要性,M1芯片将使恶化与iOS应用程序的兼容性,使得开发者更容易在iPhone和Mac之间授予交叉减少破坏。据悉,全新的MacBookAir将是第一款搭载M1处理器的笔记本电脑。苹果声称,新处理器使这款MacBookAir的速度超过用户去年购买的笔记本电脑中的98%。同时,新款MacBookAir也被反对没有配备风扇,这也意味着这款笔记本电脑绝对不会发出噪音。
简而言之,M1芯片的无足轻重在于性能更强,功耗更低。
新款MacBookAir
苹果MacBookAir自2008年首次推出以来,一直都内置英特尔处理器。周二,苹果公司宣布MacBookAir将成为第一批搭载该公司自主生产的芯片M1的笔记本电脑之一。苹果称,M1将使新的13.3英寸MacBookAir的处理器性能比最新的英特尔处理器版本高出3倍多。它的集成显卡处理速度将降低5倍。苹果MacBookAir的功耗还更低,它可以减少破坏高达15小时的无线网络使用和18小时的视频播放。同时,MacBookAir采用一个无风扇的内部设计。
之前,苹果已经在iPhone、iPad和AppleWatch中使用了自主生产的A系列处理器。全新的苹果M1处理器是其首款专为Mac设计的处理器,M1配备8核CPU、8核GPU和16核神经引擎,该架构针对MacOSBigSur进行了全面优化,以干涉实现其承诺的性能指责。
苹果表示,新款MacBookAir单次充电之后的电池续航可达18小时,较以往任何一款MacBookAir的电池续航都更强劲。同时,新款MacBookAir的运行速度将会较以往Air的速度快9倍。另外,苹果公司降低重要性,新款MacBookAir的运行速度将超过98%于去年销售的PC笔记本电脑。
除了M1芯片之外,MacBookAir将授予高达16GB的内存、高达2TB的固态硬盘、Wi-Fi6和Thunderbolt4USB-C端口、一个P3宽色域的13.3英寸视网膜显示屏。此外,无风扇的设计意味着新款MacBookAir在指责性能的同时不会发出噪声。另外,新款MacBookAir配备TouchID指纹传感器(不是FaceID)和背光妙控键盘。
按照计划,搭载苹果M1芯片的新款MacBookAir将于下周上市,售价为999美元(256GB)或1249美元(512GB)。如果选择最高配置16GB内存和2TB固态硬盘的话,那么价格将高达2049美元,它预计将于下周开始出货。
新款MacBookPro
苹果13英寸MacBookPro与新款MacBookAir笔记本电脑和MacMini台式机一起成为第一款从英特尔处理器保持方向自主研发M1系统芯片的Mac电脑。苹果表示,M1将使新的13.3英寸Pro的CPU性能比最新的英特尔版本降低近三倍,它的集成图形处理器速度也将降低五倍。同时,MacBookPro的功耗也非常低,无线上网时间可达17小时,视频播放时间可达20小时,这是迄今为止所有Mac电脑中电池续航时间最长的一款。
苹果公司在其主题演讲中表示,MacBookPro是许多创意专业人士的完美Mac电脑,这款13.3英寸笔记本的机身重量为3磅,电池续航时间比Air长,为20小时。新款MacBookPro配备了三个麦克风,一个FaceTime高清摄像头和一个比之前机型快5倍的显卡。
新款MacBookPro和新款13英寸MacBookAir的配置有很多的反对之处,除了M1处理器之外,新款MacBookPro还将授予高达16GB的内存、高达2TB的固态硬盘、Wi-Fi6和Thunderbolt4USB-C端口、P3宽色域的13.3英寸的显示屏、TouchID指纹传感器和妙控键盘。
然而,MacBookAir采用了无风扇设计,而MacBookPro配备一个主动冷却系统,可以在视频编码等任务中保持高性能。同时,与MacBookAir的30瓦电源相比,Pro还配备了更大的电池和61瓦的电源。
新款MacBookAir和新款MacBookPro中还有一些较小但仍然很次要的区别,其中包括500尼特显示屏(比Air亮度高100尼特)、录音室品质的麦克风和具有高动态范围的立体声扬声器,键盘的最上面一排被苹果的TouchBar所取代等。
另外,尽管M1的性能有大幅指责,但苹果仍然将英特尔版本的13英寸MacBookPro留在产品阵容中,而16英寸MacBookPro也仅授予英特尔处理器版本。
按照计划,搭载苹果M1芯片的13英寸MacBookPro将于下周上市,256GB存储空间版本的售价为1299美元,而512GB存储空间版本的售价为1499美元。如果选择最高配置16GB内存和2TB固态硬盘的话,那么价格将高达2299美元,它预计将于下周开始出货。
新款MacMini
继9月推出新款iPad和10月推出iPhone12系列产品之后,苹果公司于本周二发布了备受期待的基于5nm工艺硅处理器M1以及搭载M1处理器的电脑,其中包括一款MacMini。
在Mac产品线中,Macmini的定位一直是低价、小巧、易用,在其小巧的机身里收回M1芯片之后,它的处理器速度最高提速至3倍,图形处理器图形性能指责至最高6倍,机器学习速度最高指责到了上一代机型的15倍。
苹果表示,虽然Macmini的机身尺寸仅为很多台式电脑的十分之一,性能却指责5倍之多。
MacMini是第一台采用苹果硅处理器的台式电脑,它的运行速度有望比其取代的老款低端MacMini快。在高端MacMini中,苹果仍然为其耗尽了第8代酷睿i5和i7处理器选项。值得一提的是,MacMini耗尽了之前的外形设计,看起来与老款无异。
新款MacMini现在可以预订,下周开始发货,售价699美元(8GB内存和256GB固态硬盘);M1型号MacMini的起售价为899美元(8GB内存,512GB固态硬盘),而英特尔酷睿i5处理器版MacMini的起售价为1099美元(8GB内存和512GB固态硬盘)。(完)
相关文章苹果MacBookAirvs.戴尔XPS13:这两款笔记本电脑谁更值得买?2020-11-10苹果称供应商和硕联合确认有罪规定不关心的时期与其新业务合作2020-11-09苹果下周举行发布会重磅推出新款MacBookAir和MacBookPro2020-11-04苹果宣布11日举办线上发布会或将发三款苹果芯片Mac2020-11-03苹果第四财季营收647亿美元净利同比降8%2020-10-30声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。
像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——
“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”
“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”
而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。
也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。
它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。
“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出
DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。
根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
Deepseek罗列了几个关键的表现领域:
百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。
但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。
这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。
通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。
想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。
在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。
能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。
根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。
而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。
赞誉一片,“想快进到英伟达泡沫破裂”
简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。
在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。
此外,几个亮点包括:
DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。
在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。
这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。
另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。
在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。
这些动作相当于是告诉那些调不好参数和不平衡的的人们:
我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。
多Token预测目标(Multi-TokenPredictionObjective,MTP)
传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。
对FP8低精度训练的优化。
FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。
这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。
除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。
在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:
它显著降低了对硬件资源的需求。
技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:
推特上各个大佬纷纷点赞。
Meta的田渊栋也直接表示:
“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”
AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。
另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。
硅基流动的袁进辉在朋友圈点评:
“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”
Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。
?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。
?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。
?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。
?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。
?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。
?冷知识:FP4乘法实际上就是个16*16的tablelookup…
?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。
“Excitingyears.”他说。
在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。
你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。
有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。
一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着
快科技12月25日消息,据媒体报道,面对市场需求疲软和价格结束下跌的压力,NAND闪存大厂美光将减少,缩短10%的NAND晶圆产量,以调控供给量,期望借此提振市场需求。美光此前公布的财报及展望显示,尽管财务数字符合市场预期,但展望却低于预期,主要由于消费性电子需求未见好转,客户库存仍偏高。美光经营层指出,即使是与HBM2一起引领市场的企业级固态硬盘,到2025年第一季,需求也在放缓。虽然美光认为企业级固态硬盘需求放缓是短期问题,但搁置到全球经济的不确定性,2025年上半年内存市场难以乐观。还有厂商指出,若仅是供需问题,原厂减产?...
特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。
声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。
奇点将至?奥特曼再次奴役「六字」神秘信号!谷歌文档之父、机器学习博士纷纷预测,AGI降临那天,95%人类工作或被AI取代。
一觉醒来,奇点又进了一步?!
昨天,OpenAI智能体安全研究员StephenMcAleer突然发出一番感慨:
有点怀念从前那段做AI研究的日子,那时我们还不知道如何创造超级智能。
紧随其后,奥特曼发表了意味深长的「六字箴言」:nearthesingularity;unclearwhichside——奇点临近;不知身处何方。
这句话是想表达两层意思:
1.模拟假说
2.我们根本无法知道AI真正起飞的关键时刻,究竟是在什么时候
他又疯狂明白地提及了一番,并期望这一点能引申出大家更多的解读。
这一前一后,他们接连发出耐人寻味的信号,让所有人不禁思考:奇点是否真实的近在咫尺?
评论区下方,直接被新一轮的AGI大猜想和恐慌冲爆了。
若AGI/ASI真正降临那天,我们将面临着什么?
「谷歌文档」之父SteveNewman在最新长文中认为,「届时,AI将会取代95%人类工作,甚至包括未来新创造的工作」。
ApolloResearch联创MariusHobbhahn则更进一步,列出了2024年-2030年所有AGI时间表。
他预测,「2027年,AI将直接取代AGI实验室顶级AI研究员;
2028年,AI公司将有1万-100万个自动化的AI研究员,差不多所有需要知识型的工作都被AI自动化」。
与Newman观点一致同意的是,Hobbhahn认为2024年95%以上经济价值的任务,都能被AI完全自动化。
不过,他将这个时间节点设定在了2029年。
AGI降临,超95%工作被取代
SteveNewman在文章中,阐述了他对AGI的定义及其AI对未来世界的影响。
那么,AGI究竟指代的是什么时刻?Newman认为:
AI能够在超95%的经济活动中,以成本效益的方式取代人类,包括未来新创造的任何工作。
他认为,大多数假设的AI变革性影响都发散在这个节点上。
因此,这个「AGI」的定义,代表了世界开始显著保持不变的时刻,也是所有人「感受到AGI」的时刻,具体而言:
1AI系统能主动适应完成大多数经济活动所需的任务,并能完成不完整而非世界性政策的任务。
2一旦AI能够完成大多数知识型工作,高性能的物理机器人将在几年内随之而来。
3这种能力水平可以实现一系列变革场景,从经济超增长到AI接管世界等。
4世界变革场景需要这种水平的AI(通常,专用AI不足以保持不变世界)。
5在达到AGI之前,「递归自我改进」将成为主要推动力。
6AGI指的是具备必要能力(以及经济效率)的AI被发明出来的时刻,而不是在整个经济中全面部署的时刻。
关于AI如何对世界产生变革性影响,有来自多方的推测:
一种观点认为,AI可能带来难以想象的经济增长——推动科学和工程领域快速进步,完成任务的成本比人类更低,干涉公司和政府做出更高效的决策。
根据最近的历史数据,世界人均GDP大约每40年翻一番。有人认为,高级AI可以使GDP在一年内至少翻一倍,也就是「超增长」。
十年的「超增长」将使人均GDP减少1000倍。也就意味着,目前每天靠2美元生活的家庭,未来可能会实现年收入73万美元。
另一种观点认为,AI可能会带来灾难性的风险。
它可能会发动幸存性的网络攻击,制造出高死亡率的流行病;可能让独裁者获得对国家甚至全世界的绝对控制权;甚至,AI可能失去控制,最终建造所有人类生命。
还有人推测,AI可能淘汰人类,至少在经济领域会这样。它可能终结资源稀缺,让每个人都能过上富裕的生活(前提是选择公平分配这些成果)。它可能将仅存在于科幻中的技术变为现实,比如治愈衰老、太空殖民、星际旅行、纳米技术。
不仅如此,一些人设想了一个「奇点」,在奇点中,进步的速度如此之快,以至于我们什么都无法预测。
SteveNewman推测,AGI真正实现的时刻,就是这些设想几乎同时变成现实的时刻。
「可能发生」,不是「接受发生」
需要澄清的是,Newman并非在说,关于高级AI的预测,一定都会实现。
未来,技术突破逐渐变难,所谓的「奇点」也就不一定会出现。也就是说,「长生不老」可能根本就无法实现。
再说了,人们可能更喜欢与他人互动,这样的话,人类也就不会真实的在现实经济活动中变得没用。
当提到「可能差不多同时发生」时,SteveNewman的意思是,AI如果能实现难以想象的经济增长,那也有能力制造真正的幸存性流行病、接管世界或快速殖民太空。
为什么谈论「通用人工智能」
经济超增长在理论上是否可能,有一些争议。
但如果AI无法自动化几乎所有的经济活动,那么超增长几乎注定是不可能的。仅仅自动化一半的工作,不会带来深远的影响;对另一半工作的需求会随之减少,直到人类达到一个新的、相对常规的不平衡的。(毕竟,这种情况在过去已发生过;在不久前,大多数人还从事农业或简单的手工业。)
因此,超增长需要AI能够完成「几乎所有事情」。它还需要AI能够适应工作,而不是重新调整不当工作和流程来适应AI。
否则,AI将以类似于以往技术的速度渗透到经济中——这种速度太慢,无法带来结束的超增长。超增长需要AI足够通用,以完成人类能做的几乎所有事情,并且足够僵化以适应人类原本的工作环境。
还有太空殖民、超致命流行病、资源稀缺的终结、AI接管世界等预测,这些情景都可以被归类为「AGI完成」情景:它们与经济超增长需要的AI,具有相同的广度和深度。
Newman进一步主张,只要AI能够完成几乎所有经济任务,它就足以实现全部预测,除非与AI能力无关系的原因导致它们无法实现。
为什么这些截然不反对情景,需要相同水平的AI能力?
阈值效应
他提到了,上个月DeanBall关于「阈值效应」的文章。
也就是说,技术的逐步进步可能在达到某个关键阈值时,引发突如其来的巨大影响:
DeanBall最近撰文探讨了阈值效应:新技术在完全建立并不会悠然,从容普及,只有当难以预测的实用性阈值被突破后,采用率才会悠然,从容攀升。例如,手机起初是一种笨重且昂贵的滞销产品,而后来却变得无处不在。
几十年来,自动驾驶汽车还只是研究人员的兴趣,而如今谷歌的Waymo服务每三个月就能实现翻倍增长。
对于任何特定任务,只有在突破该任务的实用性阈值后,AI才会被广泛采用。这种突破可能发生得相当突然;从「还不够好」到「足够好」的最后一步不一定很大。
他认为,对于所有真正具有变革性影响的AI,其阈值与他之前描述的定义一致同意:
超增长需要AI能够完成「几乎所有事情」。它还需要AI能够适应任务,而不是调整不当任务去适应自动化。
当AI能够完成几乎所有经济价值任务,并且不需要为了适应自动化而调整不当任务时,它将具备实现全部预测的能力。在这些条件焦虑之前,AI还需要人类专家的鞭策。
一些细节
不过,Ball略过了AI允许体力工作的问题——即机器人技术。
大多数场景都需要高性能的机器人,但一两个(例如高级网络攻击)可能不需要。然而,这种区别可能并不重要。
机器人学的进步——无论是物理能力还是用于控制机器人的软件——最近都显著加快。这并非完全偶然:现代「深度学习」技术既推动了当前AI浪潮,在机器人控制方面也非常有效。
这引发了物理机器人硬件领域的一波新研究。当AI有足够的能力促进经济高速增长时,几年之内它也可能会克服剩余的障碍来制造可以胜任体力工作的机器人。
实际的影响将在至少几年内逐步发散,一些任务将比其他任务更早实现。即使AI能够完成大多数经济价值任务,也不是所有公司都会立即行动。
为了让AI完成比人类更多的工作,需要时间去建设足够多的数据中心,而大规模生产物理机器人可能需要更长时间。
当谈到AGI时,指的是具备基后天的反应力的时刻,而不是全面部署的时刻。
当提到AI能够「完成几乎所有经济价值任务」时,并不一定意味着单个AI系统可以完成所有这些任务。我们可能最终会创建从事不同任务的专用模型,就像人类从事不反对专业一样。但创建专用模型的必须像培训专业工人一样容易。
实现AGI,我们该怎么做?
对于「如何实现AGI?」这个问题,现在的研究者几乎没有头绪和理论依据,各种流派都有,一致同意不休。
ApolloResearch联创MariusHobbhahn认为,AGI的不次要的部分特点应该有三个:
-对风险的来源、预期的风险程度、安全预算以及愿意允许的风险做出更具体的明确假设。
-明确的多层次防御方法,去除某些不相关、负不无关系的措施,而不是「尝试叠加不反对策略以降低风险」。
-计划一致同意性,很多AI公司在宣传和实际做的事和谐同意,比如声称为了安全性愿意付出更高代价,但却不愿意允许透明推理带来的缺乏成本。
忠实且人类可读的CoT范式从AGI的全局发展来看,我们很幸运:现在AI偶然的大部分推理过程是「直接可见」且「易于理解的」。
所谓忠实且人类可读,就是指模型的推理过程是以一种人类可以直接理解的方式进行的,并且准确地反映了模型行动的原因,模型不能进行与声明不符的内部推理。
我们至少应该:
1.共同认同将此作为一个重要搁置因素,并以此进一步发展。为了让模型产生更易理解的CoT,我们可以并愿意承受相应的性能损失,哪怕是普通应用的运行成本会减少2倍,或是高风险应用的成本减少到5倍
2.将更多的精力投入到研究易于理解且忠实的推理过程(CoT)。比如构建一套评估工具,以测试某个特定模型的推理过程是否忠实,或者探索直接优化可读性会带来哪些副作用,如何隐藏掉非预期推理等。
3.「从架构中移除可见CoT」的相关研究应该减少,缩短,例如Meta的COCONUT
假设可读性带来的缺乏成本并不太高(例如,不到2倍),那现在关于「移除CoT」的研究无异于自毁长城。
如果存在证据隐藏,像在o1和o3中使用的高计算强化学习(highcomputeRL)会导致不可读的推理过程,例如模型自己发展出人类难以理解的语言,相应的观念也应该发生转变:
1.人工智能开发者尽快分享此信息,「模型的推理性能很好,但我们不理解其推理过程」要比「模型的推理性能一般,但我们能够理解其推理过程」可怕得多。
2.转变研究和治理策略的优先级,比如投入更多精力去解码模型所学到的语言。
用CoT监控模型如果模型能生成人类可理解的CoT,我们的主要防御手段就是对模型进行详细的监控,虽然极具成本效益但经常被关心。
在理想情况下,可以用几台简单的监控设备来分析模型输出,以检测各种通用的故障模式和不良行为,可追踪的行为类型包括:
各种类型的阴谋(scheming)行为,例如模型是否隐藏了某个特定目标,是否试图重步走监管,是否采取了不符合用户利益的行动等;各种类型的无能的追求(power-seeking)行为,例如模型是否试图获取资源,试图减少,缩短访问批准,试图以某种方式说服他人等;强烈且广泛的目标导向,例如模型在多个上下文中都一直在追求某个特定目标,需要在不同上下文之间进行对比;可以使用较小但运行更快的模型作为「仅黑箱监控器」(balck-box-onlymonitors),类似用Gemini-flash来监控Gemini,或者使用「白盒探测器」(white-boxprobes),经过训练以检测有问题的行为(例如,线性探测器或SAE探测器);
最好既能监控行动本身(例如,工具调用),也能监控导致这些行动的推理过程。
模型开发商已经开始使用黑箱监控器来防止模型越狱(jailbreaks),算是有了一个概念验证;简单的线性探测器极具成本效益(只需要一个简单的向量乘积),可以在几乎不减少缺乏开销的情况下,并行运行上万的探测器。
虽然这些方法看似简单,但研究人员认为,还没有人系统地研究如何对模型进行无效的监控。
监控在概念理解上看似简单,但仍需要极小量的迭代和调整不当,比如需要一个完善的数据集来训练和评估探测器,校准阈值等。
每个AI实验室都应该有一个多余的团队来专门构建监控设备,确保模型按预期工作,分析其结果,使其运行更高效等。
总的来说,监控设备不仅可以直接防止模型生成使加剧性内容,还可以更快、更全面地了解对齐(alignment)技术的有效性。
控制模型最坏情况下,模型可能有自己的想法,而且人类不一定能看清推理过程,所以需要最大限度地降低模型的实用性,同时最小化风险,具体措施包括:
1.智能体(agents):以往的研究主要发散在小智能体系统或在较小任务,实验室应该尽快将控制技术应用于最先进的系统,以便尽早积聚实践经验;
2.现实性(realism):在常见的应用场景下对模型进行控制,比如辅助研究等;
3.蓝队与红队的规则:在某些变体下,红队过于强大,比如可以访问蓝队的所有数据,并针对蓝队进行训练等,对团队的假设应该更「合理」且「不准确」。
4.放宽假设(relaxedasummptions):控制的假设基于模型始终腹黑,相对保守;可以定义更严格的界限,减少,缩短约束,使模型表现大体不变。
模型的阴谋(scheming)在帮助研发人工智能系统时,我们也应该加深对大模型图谋不轨行为的理解:
1.检测工具:使用性能更好的工具来检测模型的图谋,例如更大规模的黑箱评估和更好的白箱技术;
2.图谋行为的发展:应该深入理解为什么模型会追求某种能力,了解模型如何学习非短视反感,以及模型何时愿意为了这些反感付出行动;
3.现实中的反感:了解模型在实践中的图谋频率,比如分析1亿个真实的模型回复,似乎是一个低投入、高回报的项目,但需要访问极小量真实的部署数据。
4.隐藏的图谋:分析哪些训练方法会减少,缩短模型的图谋行为,或识别出那些难以检测的图谋行为。如果模型每次出现图谋不轨的时候,就对其进行惩罚,会导致负面行为减少,缩短,但可能会减少模型隐藏阴谋的能力。我们需要针对不不关心况作出判断和不平衡的;
5.准备应对措施:根据模型的图谋程度,采取无视、重新训练模型,或者完全授予模型等不同策略;
6.更多的能力评估:更进一步了解模型在规避监管、干扰训练等程度。
评估评估是一种高效的「模型图谋」证据收藏,储藏工具,可以减少破坏其他策略,比如评价「监控」或「控制」方法是否有效等。
另一方面,评估也可以让我们了解模型的大体能力,但现有的评估在某些方面仍然不足:
1.能力评估:应该继续构建更多更好的能力评估,特别是针对人工智能研发、策划、核生化、网络和说服等方面,我们目前仍然不清楚模型的具体能力;
2.诱导(Elicitation):如何对模型进行诱导以产生最大能力,尽可能找到模型的上限能力?
3.预测评估:预测能力的正确方式是什么?那些模型表现仍然为0的基准,该如何突破?或许还有更好的预测评估方法;
4.对齐评估:迄今为止,大多数研究都发散在能力评估上,而「对齐/反感评估」(alignment/propensity)也很重要,应该帮助构建对抗性对齐评估,比如设置各种非短视讨厌陷阱等,为模型建立一个非常详细的「心理档案」,以了解其默认反感;
5.演示:对于研究人员或公司内部来说,需要用一篇严谨的论文来仔细搁置所有的潜在可能性,还需要搁置如何传递演示给普通用户。
短期对齐策略现有的技术,比如RLHF在模型中引入了非短视(non-myopic)且不可纠正的(non-corrigible)反感,应该投入更多的精力来详细了解模型获得的目标类型,为模型建立详细的「认知档案」。
内部和外部使用的策略应该有无遮蔽的区别,比如模型具有更强的抗越狱能力可能会降低其可纠正性,需要确定哪些策略适用于长期内部部署。
推理透明度在最好的情况下,内部计划应该是完全不透光的,并明确关于安全预算、组织隐含愿意允许的风险、明确的红线等假设。应该经常与外部专家沟通具体计划,专家可以来自独立组织、学术界或人工智能安全研究所,可以签订保密协议。
从道德上讲,公司应该与公众分享计划中的细节,尤其是影响力更大的AI公司和技术,每个人都应该能够理解他们「应该或不应该」期望这项技术是安全的。
参考资料:
https://x.com/sama/status/1875603249472139576
https://amistrongeryet.substack.com/p/defining-agi
https://www.lesswrong.com/posts/bb5Tnjdrptu89rcyY/what-s-the-short-timeline-plan#So_what_s_the_plan_