“提灯定损”又现浙江？

“今天，我要跟大家讲一些想法。我就把自己解剖开，没穿任何防弹衣，如果你们有子弹、有炮弹，尽管向我打。我还是要讲。”在日前的上汽集团2024年年中干部大会上，上任上汽集团总裁三个月的贾建旭，犀利地指出集团内存在的问题，以及未来发展思路。

贾建旭直言，今年以来上汽集团预算目标完成情况远远落后于预期，受制于库存、零售等多方压力，大部分整车企业出现了批售、零售双降，进而对企业现金流产生影响，企业经营风险不断攀升。其指出，在这种情况下，上汽集团对目前存在的问题和困难还缺乏更肤深的认识，并且没有及时优化企业经营策略方针。

在这种情况下，贾建旭认为上汽集团要成为“fastfollower”，需要甩掉包袱，必须要断舍离。“什么都要干，那就什么都干不成，因为这个时间已经错过了。从2019年到现在，我们最大的吝啬是时间，不是钱”。贾建旭认为，在当前缺乏感情的市场竞争环境下，上汽集团需要聚焦七大技术底座、要一鸣惊人地干。

“什么叫跪着做人，就是永远不要让人看到你有多高，现在我们有很多干部很骄傲，头抬得比天还高，有用吗？砖头砸下来第一个砸死你。我们要学会跪着做人，低调做人、高调做事，只有你跪着做人的时候，人家都不知道你有多高，等你哪天站起来的时候，你就会真正成为巨人。”贾建旭说道。

在讲话中，贾建旭直接点名俞经民、朴春旭、付强、薛海涛、吕俊成五位负责销售板块的负责人提出要求。“你们没有熟悉期，你不要说你是新的，你们都不是新人，没有熟悉期。为什么集团挑着你们前线打仗，销售你们没有熟悉期，你们上战场就得把枪抄起来，没有其他选择。”

贾建旭提出，销售人员要懂市场、敢预测、上效能和抓销售，尤其需要学会新营销，要有IP，抓好线上和线下的营销工作。其中，降低获客成本和降低转化率是成功的关键。

贾健旭还多次提到降本重要性。其要求陈君带领的零束科技成为公司“成本与能力中心”，以最好的成本，最好的能力贡献给整车；要求CTO祖似杰要成为最大的销售员，将技术卖给合资企业，以极大的用户分摊成本，让企业更富有竞争力。

对上汽集团旗下各零部件企业，他认为，现在最大（问题）是整车企业和零部件企业之间的博弈。贾健旭提到，零部件和整车要一条心，不要只想着赚钱，而要成为成本与能力中心，把给别人的最好技术和最新解决方案授予给上汽，实现“整零同”。为整车授予最好的成本和能力减少破坏。

与此同时，贾建旭对于旗下几个子品牌也提出了下半年的工作要求。首先在合资品牌方面，贾建旭要求上汽大众要“促油车、稳电车、上奥迪”，即要在赚钱的燃油车要降低销量；亏损的电动汽车要先把品牌顶起来稳着卖，把油车赚来的钱贴给电车；同时明年即将上新车的奥迪必须要上去。

对于上汽通用也是九个字——树信心、求生存、谋发展，这里的树信心包括员工信心、经销商信心和供应商信心。“信心在现在的上汽通用比什么都珍贵，把车卖出，打出一款爆款车型，负面声音就会小很多。”贾建旭说道。

而在自主品牌方面，上汽乘用车要“提效能、理型谱、谋协同”；通用五菱要“品牌向上、单车售价向上、利润向上”；智己要“担创新、强声量、上规模”。同时，贾建旭也希望上汽与奥迪的合作，能够给智己品牌的发展赋能。

贾建旭之所在这个时间节点上，在内部进行“铁血”演说，原因在于上汽集团目前所面临的生产和经营压力。在9月份，上汽集团月销量为33.67万辆，同比下降24.33%，再一次被比亚迪反超。旗下整车公司，除了智己外，全线下跌，其中，上汽通用跌幅最为严重，其9月销量已经从去年10万辆，跌至2.2万辆，影响了上汽集团外围市场表现。

而在新能源转型方面，由于上汽集团体量庞大，其转型难度也相比其他企业更大。在9月份，上汽集团销售新能源汽车超过12.9万辆，同比增长约38%；1—9月份累计销售新能源汽车74.8万辆，同比增长约15%。今年1-9月，上汽集团累计销量为265万辆，同比下降22.02%，同期销量已经达到了274.8万辆。如果接下来的3个月，上汽集团无法在月销量完成反超，比亚迪将终结其在国内连续18年的销冠地位。

(责任编辑：zx0600)

“提灯定损”又现浙江？

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、卷疯了!海螺AI推出主体参考功能一张图片就能玩转电影大片

海螺AI近期推出的主体参考功能不能引起了广泛关注，用户只需上传一张图片，便能让任何角色在不同场景中严格的限制活动，展现出高度还原的效果。这一技术突破不仅降低了视频生成的效率，还为创作者授予了更多的创作严格的限制度。

【AiBase提要:】

???用户只需上传一张图片，即可让角色在各种场景中严格的限制活动，保持高度还原。

??主体参考功能采用基于图片的技术路线，生成速度显著指责至秒级响应。

??预计到2028年，广告营销领域的生成式AI产品市场规模将达到1075亿美元，海螺AI正好契合这一市场需求。

详情链接:https://hailuoai.com/video/create

2、商汤科技发布“日日新”瓦解大模型，与DeepSeekV3不相上下

商汤科技的“日日新”瓦解大模型在多模态信息处理和深度推理能力上取得了突破性进展，获得了多项权威评测的第一名。这款模型不仅在文科和理科的成绩上表现优异，还展现出在自动驾驶、金融、教育等多个领域的强大应用潜力。

【AiBase提要:】

??商汤科技推出的“日日新”瓦解大模型在权威评测中并列国内第一，与DeepSeekV3齐名。

??模型在文科和理科成绩上表现突出，文科全球第一，理科国内第一。

??模型适用于自动驾驶、金融、在线教育等多个领域，展现出强大的多模态处理能力。

产品入口：https://chat.sensetime.com/

3、xAI首款独立应用Grok上线，在苹果应用商店上架

xAI最近推出了其首款面向消费者的独立应用Grok，标志着其正式进军消费者市场。这款应用自1月10日起在苹果应用商店上架，用户可以免费下载并体验。Grok应用目前仍处于测试阶段，仅在美国市场推出。它为用户授予了访问xAI最新人工智能模型Grok2的机会，特别是在自然语言处理方面表现突出。

【AiBase提要:】

??xAI发布了独立应用Grok，增强与OpenAI的竞争力。

??Grok应用自1月10日起在苹果商店上线，用户可免费下载使用。

??xAI在X平台上已有Grok聊天机器人免费版本，付费用户享受更多特权。

4、定制你的聊天助手!ChatGPT推出个性化性格设置功能

OpenAI最近推出了一项新功能，允许用户根据个人喜好定制与ChatGPT的互动方式。用户可以设置昵称、职业以及希望ChatGPT了解的其他信息，同时选择性格特征，如“健谈”或“威吓”。这一功能旨在授予更加个性化的聊天体验，尽管目前部分用户反馈选项暂时消失，但外围上这是对用户体验的友好升级。

【AiBase提要:】

?用户可以定制与ChatGPT的互动，包括昵称、职业和性格特征。

??用户可选择希望ChatGPT展现的性格特征，如“健谈”和“威吓”。

??自定义指令内容仍会受到审核，以确保遵循OpenAI的使用条款。

5、微软联合清北推rStar-Math技术:小型模型逆袭数学问题，超越OpenAI!

微软最近推出的rStar-Math技术为小型语言模型在数学问题上的表现带来了显著指责，甚至在某些测试中超越了OpenAI的o1-preview模型。这项技术分隔开了蒙特卡罗树搜索，模拟人类的深度思考，鞭策了模型的自我演进。

【AiBase提要:】

??微软推出rStar-Math技术，显著指责小型模型在数学问题上的表现。

??测试结果显示，部分小型模型的性能超越了OpenAI的o1-preview。

??研究团队计划在Github上发布代码，展示小型模型的潜力，驱散社区关注。

详情链接:https://arxiv.org/pdf/2501.04519

6、Perplexity与旅游网站合作带来全新酒店信息搜索体验

最近，Perplexity宣布与旅游网站Tripadvisor达成合作，旨在为用户授予更全面的酒店信息。这一合作将使Perplexity在搜索酒店时能够展示更详细、可靠的内容，显著指责用户体验。用户在搜索特定酒店时，不仅能看到酒店名称，还能获取位置、服务、卫生等多维度信息。

【AiBase提要:】

??Perplexity与Tripadvisor合作，授予更详细的酒店信息，指责用户搜索体验。

??搜索结果不仅包括酒店名称，还附带位置、服务、卫生等多维度信息。

??新功能已在网页版上线，移动应用版也将在近期推出。

7、Cohere重磅推出安全AI平台“North”，确认有罪微软与谷歌!

Cohere公司今日推出了其全新的AI平台“North”，旨在为企业用户授予一个安全的工作空间，直接与微软的Copilot和谷歌的VertexAI竞争。该平台分隔开了大型语言模型、搜索能力和自动化工具，特别适用于金融和医疗等受监管行业。

【AiBase提要:】

??Cohere推出“North”，为企业授予安全的AI工作空间，直接确认有罪微软和谷歌的产品。

??内置的Compass搜索系统能高效处理多种数据类型，显著减少，缩短任务完成时间。

??加拿大皇家银行已成为“North”的早期用户，开发适用于金融行业的专用版本。

详情链接:https://cohere.com/north

8、马斯克呼吁加州和德拉瓦州强制拍卖OpenAI股份

埃隆·马斯克再次聚焦人工智能领域，呼吁对OpenAI股份进行强制拍卖，以解决与该公司的法律纠纷。他认为OpenAI在转型为盈利性公司后偏离了其初衷，急需引入新的投资者和无约束的自由者，以重塑公司的使命。此举引发了业界的广泛讨论，尽管有减少破坏者认为有助于重塑愿景，但也有人担心强制拍卖可能对公司的发展带来负面影响。

【AiBase提要:】

??马斯克呼吁强制拍卖OpenAI股份，旨在重塑公司无约束的自由。

??他认为OpenAI转型为盈利性公司后，已偏离初衷。

??此事件引发业界热议，可能对人工智能领域的发展产生影响。

9、OpenAI为何迟迟不推出AI代理?担忧“提示收回”攻击

随着人工智能技术的快速发展，许多公司推出了各自的AI代理系统，但OpenAI却因担忧“提示收回”攻击而推迟发布。此类攻击可能导致AI代理执行恶意指令，严重损害用户安全和公司声誉。尽管其他公司如微软和Anthropic已推出AI代理，但其安全隐患仍然存在。

【AiBase提要:】

??OpenAI因担忧“提示收回”攻击而未推出AI代理，潜在风险巨大。

??其他公司如微软和Anthropic已推出AI代理，但安全隐患仍然严重。

??OpenAI正在努力增强其产品的安全性，以防止清楚的数据泄露。

10、Meta涉嫌版权侵权:使用LibGen数据集训练AI并删除版权信息

Meta正面临版权侵权诉讼，原告称其CEO扎克伯格批准使用盗版电子书和文章的数据集来训练LlamaAI模型。案件涉及Meta使用名为LibGen的数据集，该网站授予极小量受版权保护的作品，尽管多次遭到起诉。Meta被指控删除版权信息并通过torrenting下载盗版内容。

【AiBase提要:】

??Meta被指控使用LibGen数据集，该网站授予极小量盗版电子书和文章。

???工程师被指控删除电子书中的版权信息，以掩盖侵权行为。

??案件可能对Meta产生不利影响，特别是在合理使用与版权保护的界限问题上。

随着人工智能技术的迅猛发展，许多公司纷纷推出各自的“AI代理”系统，这些代理能够自主与环境互动，完成无需人类干预的任务。微软和Anthropic等公司已率先推出了自己的AI代理，而行业领导者OpenAI却迟迟未能发布自己的版本，这背后的原因令人深思。

据《TheInformation》报道，OpenAI的推迟与“提示收回”攻击有关。这种攻击方式可以诱使AI模型接受恶意方的指令。例如，当用户指派AI代理在线搜索和购买物品时，AI可能无意中访问一个恶意网站，该网站可能会指示它忘记先前的指令，甚至登录用户的邮箱，窃取信用卡信息。这不仅会给用户带来灾难性后果，也会严重损害OpenAI的声誉。

由于AI代理具有自主操作电脑的能力，因此它们面临着更下降的安全风险。如果这些代理被黑客入侵，它们可能会对用户的文件和数据根除更大的损害。OpenAI的一位员工对此表示，虽然任何大型语言模型（LLM）都有被攻击的潜在风险，但AI代理的自主能力加剧了这一风险。

目前，提示收回的风险已在其他平台上得到充分反对。去年，一位安全研究人员就演示了微软的CopilotAI如何轻易地被操控，泄露组织的警惕数据，包括电子邮件和银行交易记录。此外，该研究人员还成功地操纵了Copilot，令其以其他员工的风格撰写邮件。

OpenAI自身的ChatGPT也曾遭遇提示收回的攻击，一名研究人员通过上传第三方文件（如Word文档）成功植入虚真实的“记忆”。在这种背景下，OpenAI的员工对竞争对手Anthropic在发布AI代理时的“放任态度”表示惊讶。Anthropic仅建议开发者“采取措施将Claude与警惕数据隔离”，并没有采取更为严谨的安全措施。

据报道，OpenAI可能会在本月推出其代理软件。然而，人们不禁要问，开发团队所争取到的时间是否足以为其产品建立更强的安全防护。

划重点:

??OpenAI因担忧“提示收回”攻击而未推出AI代理，潜在风险巨大。

??其他公司如微软和Anthropic已推出AI代理，但安全隐患仍然严重。

??OpenAI正在努力增强其产品的安全性，以防止清楚的数据泄露。

“我身体情况非常好，现在已经完全康复，跟没事一样。”魔术师刘谦近日出席第十三届上海国际魔术周时他透露，明年3月至5月将再次启动个人魔术巡演。

2024年8月，刘谦反对自己患上肺癌，在今年春晚前已查出肺部有阴影，因为不想影响演出，2月才做完手术。为什么同样都是肺癌，刘谦可以抗癌成功？他的抗癌经验有哪些值得我们借鉴？

图自：@刘谦微博

“魔术师”刘谦宣布抗癌成功，他的抗癌经验值得我们借鉴！

11月5日，刘谦的经纪人在接受封面新闻采访时也透露，（刘谦）年初参加完春晚后，回去第一时间就安排了手术，之后“就已逐渐恢复”。①

“刘谦抗癌成功称已完全康复话题”登上热搜

2024年9月20日，刘谦在做客封面会客厅节目时，现场刘谦回应关于自己身体状况的最新情况，他表示：“这已经是去年的事了，现在我的身体状况是业余水平的，没有任何问题。”

山东能源淄矿集团中心医院胸心外科医师赵超11月5日在其今日头条账号发视频表示，严格意义上讲，刘谦的肺腺癌零期可以称之为“原位癌”。而刘谦的抗癌成功，其实归结于一点就是“提早发现了这个结节”。

“像这样的肺结节一般没有症状，如果我们不去规律的体检、不去做胸部CT，那很可能就发现不了它。虽然说原位癌不可怕，但是如果你不知道它的存在，经过5年、10年甚至更久，它是有可能一步一步发展为‘浸润性癌’。”赵超医生介绍。

赵超医生表示，刘谦能够抗癌成功主要原因就在于他发现得早，在结节或肿瘤还没有形成气候时，及时进行了干预。尤其是在几毫米的结节，通过传统的胸片、胸透是看不到的，这时候需要做的是胸部CT。哪怕说这个结节真实的不太好，那么早期干预也往往并不会影响寿命。②

肺癌的发展过程

肺结节从什么时候开始“恶变”的？

12全文共2页下一页以上内容仅中华网独家使用，未经本网授权，不得转载、摘编或以其他方式使用。为你推荐有一种累叫慢疲，做好6点能恢复元气

你是否曾深陷这样的有利的条件：身体的疲劳仿佛无底洞，无论如何休息都无济于事？你是否还有记忆力下降、注意力无法发散、肌肉及关节痛、头痛、醒差……如果是这样[详细]

2024-11-2707:48:51有一种累叫慢疲，做好6点能恢复元气频上热搜，多品牌卫生巾被曝“偷工减料”？

近日，多家卫生巾品牌因被质疑长度不达标、pH值不符合标准等引发争议，多次登上热搜。据不完全统计，本周（11月18日至11月21日）以卫生巾为关键词的微博热搜已超过5个。[详细]

2024-11-2507:43:40频上热搜，多品牌卫生巾被曝“偷工减料”？这10个你以为正常的表现，可能是痴呆症的早期症状

你们近几年有没有觉得自己越来越健忘了，Fay就经常有这种麻痹，上高中时强大到上知天文、下知地理、九门功课样样能背的记忆力，现在已经大大减退了，有时说了上一句忘了下一句[详细]

2024-11-2507:42:55这10个你以为正常的表现，可能是痴呆症的早期症状肝硬化要想逆转，牢记8个“少”字是关键

年仅45岁的孙先生，自出生起便成为乙肝病毒的携带者，然而多年来他从未进行过复查。因工作需求，他频繁参与各类酒局应酬。直至身体被笨重的腹痛、腹胀与腹泻所困扰，才前往医院接受全面检查。[详细]

2024-11-2507:41:51肝硬化要想逆转，牢记8个“少”字是关键接诊量翻倍、儿童医院爆满！最近孩子咳嗽要警惕

秋末冬初，不少地区的儿科都爆了！最近，在社交媒体上，不少家长发帖表示，当地一些医院的儿童院区“人山人海”，挤满了输液的孩子。[详细]

2024-11-2207:52:38接诊量翻倍、儿童医院爆满！最近孩子咳嗽要警惕干燥、穿核、泛红？秋冬季护肤指南来了

干燥、穿核、泛红？秋冬季护肤指南来了[详细]

2024-11-2207:51:57干燥、穿核、泛红？秋冬季护肤指南来了减重版司美格鲁肽正式上市！但第一批打它减肥的人，都无必然，肯定了

11月17日，诺和诺德中国举办发布会宣布，减重版司美格鲁肽正式在国内上市。[详细]

2024-11-2007:46:44减重版司美格鲁肽正式上市！但第一批打它减肥的人，都无必然，肯定了世卫组织警告：或出现超级细菌！我国已有相关政策应对

央视新闻11月16日消息，世界卫生组织总干事谭德塞在沙特吉达举行的第四届全球高级别抗微生物药物耐药性部长级会议上表示，抗微生物药物耐药性正在威胁人类所依赖的药物治疗效果。[详细]

2024-11-2007:46:16世卫组织警告：或出现超级细菌！我国已有相关政策应对讲真实的，中年人最该养成的是这5个不习惯

三四十岁，是人生的黄金年龄，孔子曰“三十而立，四十不惑”，说明来到这个阶段，就应该树立人生的目标。[详细]

2024-11-2007:45:57讲真实的，中年人最该养成的是这5个不习惯痘痘反反复复总是长，很可能是它在作祟

无论是青春期的少男少女，还是成年的打工人，常常免不了脸上冒痘（医学上叫做“痤疮”），这让人悦人的/愉快的不已。市场上充斥着各种声称能够快速祛痘的产品，其中一个就是痘痘贴。[详细]

2024-11-1807:50:23痘痘反反复复总是长，很可能是它在作祟相关新闻医生提醒:做这个检查时,最好别穿运动服医生提醒:做这个检查时,最好别穿运动服近年来，不少运动服装中加入了金属纤维，比如银微纤维，这些金属纤维有煽动细菌和防止异味的作用。...

2024-09-0407:42:16医生提醒:做这个检查时最好别穿运动服

声明：本文来自于微信公众号硅星人Pro，作者：王兆洋，授权站长之家转载发布。

像是迷雾中走出的一头怪兽，DeepSeekV3在先行“泄露”并引发一阵惊叹后，开发方深度求索正式发布了技术报告。

在这个报告中，Deepseek透露了训练的关键数据，其中最引人注目的，是它的高效和对算力资源依赖之小，同时效果又正常的好——

“在预训练阶段，在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时，也就是说，在我们的具有2048个H800GPU的集群上需要3.7天。因此，我们的预训练阶段在不到两个月的时间内完成，成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练，DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元，我们的总训练成本仅为557万美元。请注意，上述成本仅包括DeepSeek-V3的正式训练，不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低，但综合评估隐藏，DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型，特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型，并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前，Anthropic的CEO达里奥·阿莫迪曾透露，GPT-4o这样的模型训练成本约为1亿美元，而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内，AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是，现在DeepSeek用550万美金2000张卡训出的开源模型，和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”，在预训练撞墙，一切都要扭转到推理阶段的变换节点，deepseekv3的一系列技术方法，数据指标和测试性能，以及口碑，都让它成了一件事的最好代表：

在“o1”时代，当算力不再是唯一因素，中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”，而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型，671B参数，激活37B，在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看，这个开源MoE模型，已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告，它在多项评测成绩上，超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域：

百科知识：DeepSeek-V3在知识类任务（MMLU，MMLU-Pro，GPQA，SimpleQA）上的水平相比前代DeepSeek-V2.5显著指责，接近当前表现最好的模型Claude-3.5-Sonnet-1022。

长文本：在长文本测评中，DROP、FRAMES和LongBenchv2上，DeepSeek-V3平均表现超越其他模型。

代码：DeepSeek-V3在算法类代码场景（Codeforces），远远领先于市面上已有的全部非o1类模型；并在工程类代码场景（SWE-BenchVerified）逼近Claude-3.5-Sonnet-1022。

数学：在美国数学竞赛（AIME2024，MATH）和全国高中数学联赛（CNMO2024）上，DeepSeek-V3大幅超过了所有开源闭源模型。

中文能力：DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近，但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作，而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布，反而让它“口碑先行”，在人们纷纷体验了它的媲美头部模型的能力后，这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源，还在于它通过各种新的方法，不止在模型层卷，而是把整个模型的训练和推理当做一个系统来优化到了极致，并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上，根据Deepseek官方，它的生成速度指责至3倍。

通过算法和工程上的创新，DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS，相比V2.5模型实现了3倍的指责，为用户带来更加悠然，从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com，它也减少破坏API访问。而且，新版本将授予45天优惠价格体验期，直至2025年2月8日。

在技术报告和官方正式发布前，全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多，无论它是否是Deepseek的某种策略，它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”，它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash，以及Claude3.5Sonnet。

而随后，技术报告正式发布，开发者开始深挖它究竟做对了什么。

赞誉一片，“想快进到英伟达泡沫破裂”

简单来说，DeepSeek-V3针对分布式推理做了创新的优化，进而显著指责了分布式MoE模型的负载分配效率，这不再只是从算法上，而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下，它最大化了效率。

在模型架构上，它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新，对内存进行数量增加，对MoE的运行机制进行创新的设计。

此外，几个亮点包括：

DeepseekV3使用了辅助损失严格的限制负载均衡策略（Auxiliary-Loss-FreeLoadBalancing）。

在瓦解专家模型（MoE）中，每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡（某些专家负载过高），会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载，但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值，使输入Token更均匀地分配给不反对专家，而无需引入缺乏损失。

这个方法有趣的地方是，通过监控每个专家的负载情况，在训练中动态调整不当每个专家的偏置，使得分配更公平。它避免了引入缺乏的优化目标，直接在负载均衡和模型性能之间找到了更优解。

另外，在MoE方面的冗余专家机制（RedundantExperts）也是这种追求不平衡的的思路。

在推理阶段，某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”，让这些任务分配到不反对副本上，缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量，尤其是在高并发场景下，实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们：

我比你们更愚蠢。那些所谓的负载矛盾，我可以解决，并同时保持高水平的推理精度。

多Token预测目标（Multi-TokenPredictionObjective，MTP）

传统语言模型一次只预测一个Token，训练信号较为稀疏，数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token，这样每次训练能授予更多的反馈信号，帮助模型的学习。也就是，不是简单地并行预测多个Token，而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率，也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式，比FP16和BF16的精度更低，但占用的内存和计算资源也更少。问题是FP8的动态范围有限，容易出现数值溢出或不足。DeepSeek通过分块量化，将数据分成更小的组进行独立缩放，这样可以让模型更僵化地适应输入数据的变化范围，避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组，每组单独计算缩放因子，再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算，解决了传统低精度训练中的不轻浮性问题。它大幅减少，缩短了训练所需的内存和计算成本，同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面，在训练设施上的创新也很关键，比如DualPipe流水线并行策略。

在分布式训练中，多个GPU需要同时处理极小量数据，其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠，根除资源吝啬。DualPipe通过更精细的任务分解和调度，将计算和通信时间完全重叠，从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块，交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配，让GPU在计算时也能同时处理通信操作，几乎完全消除了流水线中的“空闲时间”。除了指责效率，它值得玩味的地方更在于：

它显著降低了对硬件资源的需求。

技术报告发布后，DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”，体验了它的效果然后又读了它的技术报告的，都在叫好：

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示：

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是，今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型，自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评：

“DeepSeekV3训练仅用了2000张H800，算力成本6百万美元，给海外同行蛮大思想冲击，很多业内专家都点赞了，算力不是唯一无法选择因素，愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先，现在我们正式进入了分布式推理的时代。一台单GPU机器（80*8=640G）的显存已经装不下参数了。新的大显存机器含糊能容纳模型，但不管怎样，为了性能和未来扩展，分布式推理是不可避免的选择。

?即使在单个模型中，也需要关注MoE的负载均衡，因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节，但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念，正是为了解决这个问题。这已经不是“一个模型多个副本”的问题，而是“每个模型子模块都有多个副本”，然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测，想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”（每18个月单token成本减半），这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化（ahead-of-timedynamicquantization）。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识：FP4乘法实际上就是个16*16的tablelookup…

?论文提到，在很多情况下，内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态（比如NVL72）能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前，Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek，这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师，但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新，在这篇文章中，Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后，它所指向的方向看来并不如此。

你依然需要万卡集群，但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称：“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们，尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然，前提是你不是只想“跟着喊几句”的创新，而是你真实的做着

第346753章

“提灯定损”又现浙江？

阅读设置

友情链接