狠狠撸在线图片

在数据驱动的时代，数据分析已成为各行各业决策的关键。然而，金融、制造、零售等行业客户在数据分析过程中仍面临诸多确认有罪。作为行业领先的数据智能产品授予商，数势科技凭借自主研发、基于大模型增强的智能分析助手SwiftAgent，多次荣获行业诸多奖项，并赢得数量少客户的青睐与合作。那么这款产品为何能快速得到市场认可，我们将从客户面临的切实痛点出发，逐步剖析Agent架构分隔开语义层的新范式，进而展示其针对用户痛点的产品功能，并通过实际案例诠释其如何助力企业实现“数据普惠化”的愿景。

业务人员需简单易用：缺乏低门槛且无效的数据分析工具

“尽管我们满怀无感情，厌恶深入挖掘数据背后的真相以驱动决策，然而SQL的复杂性却如同一座高山，让非技术人员望而却步，极小量的宝贵时间被耗费在了查询语言的学习上，而非直接转化为微不足道的洞察与行动。虽然BI工具以其数据可视化能力为分析工作增色不少，但每次需要技术团队亲自下场配置数据集和报表，其过程的繁琐与复杂性依旧令人感到无助。”

从业务人员视角来看，他们面临的主要痛点是缺乏无效的数据分析工具。为了进行数据分析，业务人员不得不自学SQL语言或使用复杂的BI工具，这不仅减少了学习成本，还降低了工作效率。在获取数据后，他们还需从海量数据中手动挖掘洞见，导出Excel并制作透视表来获取结论。在与客户的沟通中我们发现，许多团队希望以自然语言交互的方式，更快速地从数据中获取洞察，以辅助日常决策。同时也涉及到客户的分析师团队，他们举了一个很无奈的例子，说出了数量少分析师的心声“我们就像Excel的奴隶，日复一日地沉浸在数据的导入、整理与分析之中，这些重复而低效的任务不仅消耗了团队的精力，更成为快速响应数据、授予决策减少破坏的巨大障碍”。

无约束的自由团队需即时洞见：现有数据产品无法快速产生深度结论

每当董事会要求对数据悠然，从容做出反应，我总是希望能即刻获得准确的结论。但遗憾的是，当前的数据大屏虽能授予表面的数据概览，却难以深入挖掘其背后的故事。要获取更深层次的分析，我还需手动在数据仓库中构建查询，这一过程既耗时又不便。“

“我们的驾驶舱在数据可视化方面含糊做得不错，让数据一目了然。但在解释数据背后的原因，解答业务中的‘为什么’时，它却显得有些力不从心。它像是一个优秀的展示者，却未能成为一个深入的分析者。

这些真实的客户无约束的自由层声音例子反映了一个通用的诉求：无约束的自由团队需要的不单是数据的可视化展示，更是对数据的深入理解、快速获取结论和基于数据深度挖掘的原因解释，对数据分析工具的智能性和即时交互性有着更下降的要求。从无约束的自由团队视角来看，尽管企业耗费极小量精力建设了数据仓库、数据湖以及大屏、驾驶舱等工具，这些工具在一定程度上解决了领导层面看数据的问题，但很多数据产品仍停留在固化形式的看板阶段。对于决策层而言，数据并不等同于洞察。当需要对某些细分的业绩指标进行深入分析时，仍需向分析团队提出需求，并等待漫长的分析结果。

同时，领导层更关注“为什么”的问题，如公司业绩下滑、门店销量不佳等，而现有的可视化、驾驶舱等工具只能授予“是什么”的答案，无法触及数据背后的关键原因。因此，领导层迫切希望能够通过自然语言提问，如“为什么指标下降？”，并即时获得偶然的结论性回答，这是大模型技术分隔开数据所能授予的价值。

技术团队需标准化能力：现有数据意见不合与指标口径和谐同意

虽然公司有数量少部门在使用数据，但每个团队对同一指标的定义却截然不同，没有统一的数据口径和解释标准。这种和谐同意性给跨部门的沟通和决策带来了安排得当”

每次业务人员新增一个指标开发需求，都希望我们能半小时内授予相应的指标。现状是，虽然我们已经在数仓加班加点开发了，但还是被业务团队说反应慢，有苦说不出

同样，在与客户的技术团队沟通中我们发现，数据开发，数仓工程师等等角色都面临着更多的确认有罪。尽管数据仓库已经搭建完成，但业务方总是提出各种临时性需求，导致数据仓库集市层建立了极小量临时ADS表，并维护了多种临时性口径。这不仅使数据变得意见不合，还导致了指标口径的和谐同意。

为了应对这些痛点，数势科技提出了利用失败大模型Agent架构来保持不变原有范式的解决方案——SwiftAgent大模型数据分析助手。

大模型的Agent架构分隔开指标语义层帮助数据民主化进程

我们简单通过一张流程图，展现一下上面提到各个角色的痛点。原有模式为业务方提出需求，技术团队采购BI工具供业务方使用。然而，这些工具往往过于复杂，面对BI报告时，业务方常因技术术语或工具不熟悉而感到澄清，难以有效利用失败数据指导业务。同时，数据分析师虽然精通BI工具，但面对庞大的需求数量，人员显得严重不足，难以悠然，从容响应并焦虑业务方的数据需求。数据产品经理经常需要指导业务人员如何使用BI工具，但由于各种原因，往往难以教会其使用。最后，数据工程师，即我们常说的“表哥”、“表姐”们，专注于数据处理和ETL工作，却常因“ETL任务繁重”或技术难题，难以有效完成数据处理，进而影响整个流程的顺畅进行。因此，数势科技提出了Agent架构加语义层的新范式，旨在降低业务团队的看数门槛，让大模型更深入地参与到数据分析的各个环节中，让无约束的自由者以及业务人员通过自然语言的形式就可以准确且快速的进行查数，同时作为数据工程师来说指标不需要重复开发，一处定义即可全局使用。

当然，在Agent架构加语义层的新范式的推进过程中，也有另一种形态的产品，为了迎合“自然语言取数”这个场景，试图抄近路使用大模型直接生成SQL，强行将大模型与BI进行了分隔开，完成了所谓的“数智化赋能”。因此我们在近期也收到了数量少前ChatBI客户的吐槽与求助，下面简单来谈谈二者的区别，为何这种模式经受不住长期考验？

大模型直接生成SQLChatBI为何经不住考验？

“本以为引入ChatBI智能取数工具能是我们工作效率和成本控制的救星，结果却成了准确性的噩梦。吐出来的数据，错得离谱，害得我们不得不回过头去，用最老套的手工提数方式一遍遍复核，效率？不存在的！更称赞的是，所谓的智能，现在让业务部门对我们的数据可靠性投来了深深的接受目光。

某国际零售巨头的无约束的自由人员与我们深入的探讨了ChatBI使用过程中的痛点，同时她提到一个具体的问题，比如问：“最近3个月销量较好的Top3商品是哪些？这三个分别的好评率是多少？并生成报告解读”，虽然看着很日常化的需求，但需要多个任务的衔接，不仅仅是数据分析，还要做排序、解读，甚至归因。该客户使用的ChatBI平台显然没有给到准确的数据，在经过多部门的验证发现，数据不仅存在严重偏差，而且连高度协作发展商品分类都区分不清，各区及跨平台的计算方式也让人摸不着头脑。

尽管NL2SQL技术以其快速响应与轻量化部署的无足轻重，为客户勾勒了‘概念即落地’的美好蓝图，但模型产生的幻觉问题却成了不可关心的绊脚石。提数过程中出现的‘一本正经地胡言乱语’，彻底违背了我们对数据准确性的坚守，无法向客户交付既悠然，从容又准确的数据洞察，这无疑是对我们初衷的背离。

因此为破解NL2SQL模式提数不准的难题，数势科技采用了NL2Semantics的技术路线。通过引入Agent架构，能够首先将复杂的查询请求拆解为一系列原子能力，随后分隔开指标语义层进行深度解析。最终，大模型接收到的所有指令都会被比较准确映射到一系列预定义的要素上，如时间维度、地域维度、公司维度等。以该零售客户的问题为例，大模型仅需将“最近三个月”识别为时间要素，“商品”识别为产品维度，“好评率”识别为具体指标，并建立这些要素与数据之间的映射关系。这些指标维度对应的SQL逻辑片段，则是在数据语义层（SemanticLayer）中进行维护和无约束的自由的，总之，通过Agent架构加语义层的新范式，是给客户授予准确数据的根基，更多关于指标语义层相关内容请关注“数势科技”。

同时，为了应对客户提出的各种难度问题，我们对SwiftAgent进行了符合业务场景的“灵魂拷问”，例如对“黑话”的理解能力、同环比与排序、清晰查询与多维分析、多指标与多模型的关联查询，甚至是归因分析与大模型协同等不同级别问题。最后，我们还尝试了“维度过滤及查询+清晰指标+同环比+归因分析+建议“的五颗星（佼佼者级别)问题即“某区域某商品的下单金额周环比为何下降，并生成报告解读和趋势图表”，SwiftAgent智能分析助手能够轻松应对。

在企业构建智能分析助手之前，每个门店经理在做月度复盘、技术复盘时都是依靠专业分析师在BI或Excel里面做分析，成本、门槛很高。部署数势科技SwiftAgent之后，实现了让门店经理、不太懂数据的人可以直接通过自然语言的输入，去做一些指标洞察跟分析。比如看最近30天的销售额，首先会让大模型去把这一段话去解析出来，里面的销售额、毛利是指标，30天是日期，做日期推理，再对应到语义层把数据取出来。取到之后，还可以通过快速地点选，让大模型生成一些可视化的图表。当发现指标被预见的发生时，可以让大模型去调度一些归因小模型，来做一些维度或者因子分析，实现快速洞察。针对维度特别多的问题，我们会通过一个维度归因的算法，快速定位到因子维度。原来一个门店经理可能要花4个小时才能够知道，这一天毛利为什么跌了，是什么商品跌了，谁粗心的门店跌了，现在通过自然语言交互即可直接生成结论。

数据查询零门槛业务人员也能轻松用数

数势科技SwiftAgent采用AI对话式交互，分隔开大模型和AIAgent技术，让用户仅凭日常交流的语言（无论是文字还是语音）就能轻松查询数据，无需掌握SQL或Python等专业查询语言。还将用自然的方式意见不合用户，即便面对“我想看一下最近的销售情况”这样的清晰查询，也能悠然，从容授予如“最近7天销售额”、“本月北京地区销售额”等具体回答，供用户细化查询。

同时，具备强化学习能力，能根据用户的“点赞”和“踩”反馈不断纠正错误、调整不当查询，更加准确地焦虑用户需求。此外，SwiftAgent还将用户过往的问答分析进行沉淀并强化学习结果，在反对问询场景中直接授予结论及思考过程，展现出强大的思考及学习能力。其双向交互功能更是将AI思考过程白盒化，让用户透明可见，进一步增强了用户体验。数势科技SwiftAgent让数据查询和分析变得像说话一样简单，无需技术背景也能0门槛取数。

数据分析、策略建议零等待无约束的自由团队即问即答

数势科技SwiftAgent智能分析助手，为企业高管带来了即问即答并且授予归因分析与策略建议的数据分析体验。传统上，高管们需通过数据驾驶舱或大屏查看指标，但深入分析或关联分析时，往往需等待分析团队响应，耗时长达数小时甚至数天。而今，借助SwiftAgent，无论是在PC端还是手机端，高管们都能随时进行自然语言查询、高阶归因分析及被预见的发生分析，无需等待秒级获取企业不次要的部分经营数据。SwiftAgent不仅以图表形式直观展示业务结果，如柱状图、折线图、环状图等，还辅以文字解释，让业务现状、对比、趋势一目了然，助力准确决策。

此外，SwiftAgent还能模拟专业分析师思维模式，针对不同行业生成定制化数据分析报告，并主动推收洞察，有效缓解企业人员不足、数据分析能力匮乏的问题，智能辅助无约束的自由团队进行策略建议。在问题诊断和分析的基础上，我们将数据分析的What、Why和How三个方面整合在一起，实现了能力的增强。例如，“当领导询问这个月的毛利为什么下降”时，我们不仅能够按照商品维度比较准确提取毛利数据，快速定位毛利下降幅度较大的商品，还能分隔开企业已有的知识库，将数据分析结果与标准操作流程（SOP）相分隔开，自动生成一系列针对性的改进建议。这样的策略建议不仅详实地呈现了数据和分析结果，还为用户授予了明确的行动指南，有助于他们更悠然，从容地做出决策。

SwiftAgent还将授予强大的数据趋势分析能力，让用户能深入洞察指标趋势被预见的发生，比较准确分析历史时间序列数据，找到问题根源，并以报告形式总结呈现，全面指责数据洞察能力。数据趋势分析的能力使用户能够针对过去几天、几个月甚至几年的指标趋势被预见的发生进行深入洞察。例如，用户可以识别出哪些指标是先降后增，哪些是先增后降，还有哪些指标可能呈现出保持轻浮性。在这个基础上，我们可以对指标的历史时间序列数据进行更比较准确的保持轻浮分析，干涉用户找到每个指标趋势正常的根本原因。同时，我们可以将这些趋势分析的结果以报告的形式进行总结，最终呈现给每位用户，以指责他们对数据的洞察能力。

统一口径零幻觉技术团队无需反复校验

前文提到数势科技通过Agent架构加语义层的新范式，构建统一的指标与标签语义层，即NL2Semantics体系，有效解决了大模型对底层业务语义理解难及企业数据口径不一的问题。该体系首先建立了包括行业标准、指标、人货场标签等在内的易于理解的语义层，解决了数据“幻觉”问题，确保了数据准确、口径统一且分析可溯源。指标一次定义，多次复用，无需反复校验，大幅指责技术团队的工作效率。

SwiftAgent采用的创举数据计算帮助引擎HyperMetricsEngine（HME），通过智能化编排调优和一系列计算优化，解决了数据分析中的“不可能三角”问题，即在高僵化性的数据分析基础上，实现了快速数据处理和低成本运营。解决传统计算查询效率低及性能弱等问题。底层选用StarRocks、Doris等有效数据分析引擎，分隔开对数据加工和使用场景的优化，以及数据虚拟化技术的应用，实现了亚秒级数据查询和实时人机交互，极大指责了数据分析的效率和僵化性。

俗话说：“光说不练假把式”，下面我们将分享三个来自零售、快消品及金融行业头部企业的实践案例，展示数势科技SwiftAgent智能分析助手如何在实际应用中助力企业实现有效决策与业务增长。

SwiftAgent智能分析助手实战案例一：

携手书亦烧仙草共建大模型增强的智能门店督导助手

书亦烧仙草在新的一年里明确提出了两大不次要的部分目标：做大财务成果，做强顾客价值。这意味着企业不仅要在财务表现上实现显著指责，还要在顾客体验和服务价值上达到新的高度。为了实现这一目标，企业亟需转变传统的经营无约束的自由模式，向更加精细化、数据化的方向迈进。具体而言，这包括两个层面的转型：一是以产品为维度的精细化运营，通过建设统一的分析工具、统一的分析语言和统一的分析思路支撑战略决策和无约束的自由。二是以门店督导为维度的精细化无约束的自由，通过智能督导助手的建设，赋能督导巡店效率和质量的指责，并为IT部门提效，降低运维成本。

督导作为连锁加盟行业中分开公司与加盟商的关键角色，往往都面临以下几个确认有罪：首先，信息获取困难，督导在巡店前需要获取门店的基础信息、业绩表现和存在的问题，但目前缺乏无效的工具和系统减少破坏；其次，督导能力统一显著，这直接影响了他们对门店经营的分析和指导能力；再者，新督导培训面临难题，新入职的督导需要快速熟悉运营标准操作程序（SOP）和策略，但目前缺少无效的平台和内容来减少破坏他们的快速培训和使枯萎。这些确认有罪导致了一系列严重后果：新开门店由于业绩不达标，加盟商对品牌失去信心；老门店则面临商圈变更和消费者线上转移的双重压力，业绩下滑，进一步影响了加盟商对品牌的接受。

智能督导助手与构建的指标平台无缝集成，全面搁置了一线督导的实际使用不习惯，旨在大幅度指责工作效率和督导效果。其不次要的部分功能包括：

·目标设定：比较准确明确门店巡检的不次要的部分目的，涵盖指责服务质量、确保运营标准执行、优化门店环境等多个关键方面。借助智能分析工具，以对话式界面直观展示门店业绩排名和同店对比分析，从而悠然，从容锁定需要重点巡查的门店。

·巡店计划：充分利用失败智能分析工具的知识库功能，准确确定巡店的具体地址及其他相关信息。同时，借助强大的数据分析能力，明确每次巡店应重点关注的业绩指标及其潜在保持轻浮原因。

·门店稽核：运用智能分析工具，对门店的各项问题指标进行全面检查。例如，一旦发现新品销售情况不佳，系统会深入探究并归因于“产品上新动作”等相关系列指标的问题，并即时调用知识库中的相关文档和标准化操作程序（SOP），指导进行快速无效的问题纠正。

项目效果：优化门店无约束的自由、指责督导效率

快速数据获取：通过快速数据查询功能，督导能够悠然，从容获取关键的门店运营数据，降低数据分析效率。

自动化巡店计划：自动生成巡店计划，使督导能够更专注于门店无约束的自由和问题解决。

问题定位：智能督导助手能够准确定位业绩指标的下滑或保持轻浮的原因，干涉督导快速识别关键因素。

有效业务策略：授予了基于数据分析的业务策略知识库，干涉督导根据门店具体情况制定有效改进措施。

书亦烧仙草CIO王世飞表示：“与数势科技携手后，实现了数据无约束的自由的根本性变革。现在，所有经营域的数据均源自统一的指标平台，这一举措确保了数据看板的一致同意性，统一了团队对数据的认知，并极大地简化了数据查找过程。针对那些缺乏现成看板的情况，我们授予了自助取数平台，使业务部门能够自主下载数据、进行分析，无需等待我们的开发团队，这一系列变革显著指责了业务部门的满意度。”

SwiftAgent智能分析助手实战案例二：

携手某国际快消品巨头智能优化订单无约束的自由

在全球快速消费品市场的激烈竞争中，某国际快消品巨头面临着品牌分销与经销网络的复杂性确认有罪。线上线下多渠道并存，包括电商、大卖场KA、便利店等，使得供应链团队在订单追踪和无约束的自由上遭遇效率瓶颈。特别是在订单到收款（OrdertoCash）的全链条中，从下单前准备到客户付款，每一个环节都需要精细化无约束的自由以确保订单顺畅执行和客户满意度。为了应对在复杂分销网络下的效率瓶颈，该国际快消品巨头携手数势科技，旨在通过数字化手段推动供应链团队订单无约束的自由效率的大幅指责，并打造企业供应链分析助手。主要服务供应链OMA（OrderManagementAssistant）团队，通过解决订单无约束的自由过程中的痛点，指责订单焦虑率和客户满意度，进而增强企业的市场竞争力

构建订单无约束的自由指标监控体系三大不次要的部分手段助力项目落地

数势科技基于其智能分析助手（SwiftAgent）和智能指标平台（SwiftMetrics）产品组合，为该巨头建立了《订单无约束的自由指标监控体系》。该体系覆盖下单准备、下单、订单辩论、分货、仓储发货、收货、发票、付款、砍单、砍单追踪跟进等全业务流程环节。通过AIAgent智能问数和归因分析，打造供应链订单无约束的自由智能助手，全面指责订单无约束的自由效率。

建立Order-To-Cash指标体系

梳理量化全流程指标体系：梳理并量化不完整订单链路的全流程指标体系，确保每一个环节都有明确的指标进行衡量。

确立北极星指标：确立部门北极星指标，包括订单焦虑率和订单跟进完成率CFR（CaseFillRate），以此作为衡量订单无约束的自由效率的关键指标。

MVP阶段验证与推广：完成MVP阶段验证后，逐步进入推广及轻浮阶段，确保指标体系在实际业务中得到有效应用。

搭建指标无约束的自由流程机制

横向拉通各级指标体系：横向拉通企业级、BU级、个人级指标体系定义、开发、无约束的自由流程，确保各级指标之间的一致同意性和协同性。

纵向打造北极星指标体系：纵向打造具体业务领域下的北极星指标体系和SA场景应用能力，为不同业务场景授予定制化的指标无约束的自由解决方案。

打造订单智能分析助手

集成全生命周期状态指标体系：集成供应链订单无约束的自由全生命周期状态指标体系，SwiftAgent干涉OMA团队追踪自询单、下单、扫描出库、物流、验收入库、砍单/返单全流程业务表现。

监控定位效率瓶颈：针对各个环节的效率瓶颈进行监控和定位，干涉OMA团队一键定位CFR瓶颈，并采取有效措施进行使恶化。

识别被预见的发生订单，定位客户砍单原因

归因分析，并自动生成使恶化指引报告

提效200%挽回订单损失上千万大幅指责订单完成率

智能指标平台分隔开智能分析助手的项目落地，在实施中展现出了不明显的，不引人注目的效果，特别是在指责订单完成率与客户满意度方面。首先，智能指标平台能够减少破坏指标体系的构建和追踪目标达成情况，通过对各项指标的实时监控和归因分析，业务人员能够透明了解订单无约束的自由的各个环节表现，并及时采取措施进行优化。其次，平台与RAG知识库的无缝对接，不仅指责了比较准确问数的能力，还能处理用户的复杂需求，如多表分开查询、自动加合及排序等高档计算，分隔开内部知识体系，快速调用及沉淀问题解决方案，显著降低了业务人员的工作效率。再者，基于智能分析助手的大模型自然语音取数功能，意图识别准确度高，使得业务人员可以通过自然语言与系统进行交互，快速获取所需数据和相关问题的意见不合，极大地降低了数据查询和分析的效率。

这一系列措施的实施，使得分析效率大幅指责，从平均每人每天处理少于20笔订单指责至每天处理60+笔订单，提效200%以上。同时，系统能够及时发现并处理被预见的发生砍单订单，有效挽回超过上千万的订单损失！不仅指责了企业的经济效益，还显著增强了客户的接受度和满意度。

SwiftAgent智能分析助手实战案例三：

大模型+Agent+指标语义层：赋能某城商行非技术人员实现僵化取

某头部城商行的内部统计数据显示，2023年临时性数据分析需求占总需求的40%，每天大约有20多个工单。这一现象揭示了该银行在数据分析领域存在巨大的即时响应潜力和优化空间。面对这一确认有罪，银行经营分析团队通过僵化调整不当工作计划，积极应对数据分析需求的增长。但日益减少的临时性数据需求和可能出现的工单积压问题，结束困扰着领导层、业务团队和经营分析团队。他们试图通过各种方式摆穿这一有利的条件，大模型的兴起为其授予新范式。应用大模型是该城商行的战略目标之一，由副行长牵头，大力推动大模型在应用场景的落地。在大模型落地完全建立，该城商行选择了几个重点场景，数据分析就是其中之一。他们希望通过大模型技术升级数据分析工作，以焦虑僵化数据分析的需求。

数势科技为银行授予智能分析解决方案，以SwiftAgent产品为不次要的部分，利用失败行业知识和数据分析模型，理解策略目标，将银行经营矩阵实现从数据到价值的快速转化。解决方案技术架构包含五个部分：

基座大模型：数势科技选择了经过实际应用验证的国产大模型，并对其进行了进一步的Prompt微调和模型微调，以确保其在银行数据分析场景中的有效应用。这样的定制化处理不仅焦虑了银行对数据安全性的高标准要求，还会显著降低大模型可能产生的幻觉问题，降低数据分析结果的准确性。

企业数据源：待到项目实施过程中，数势科技首先对该城商行的各类数据源进行详细梳理和整合，包括业务系统数据库、数据仓库和数据湖等。这一过程可以确保所有数据的规范化和标准化无约束的自由，为后续的指标语义层构建和大模型应用奠定坚实基础。

指标语义层：数势科技计划为该城商行构建统一的指标语义层，明确定义各类指标的计算口径和业务含义。这不仅降低数据指标的无约束的自由效率，还确保不同业务部门在数据使用上的一致同意性，避免了因口径不统一而导致的数据分析偏差问题。

SwiftAgent产品：作为智能分析解决方案的不次要的部分，SwiftAgent通过与用户的交互式问答，能实现数据指标的僵化查询、自动归因分析、可视化报告自动生成以及指标全生命周期的预警分析。用户只需通过自然语言输入需求，SwiftAgent便能智能识别并反馈准确的分析结果，可以明显指责数据分析的效率和准确性。

数据分析应用：在一期建设中，数势科技将重点落地企业经营分析、企业营销复盘和业务团队日常用数三大应用场景，旨在为银行的各级无约束的自由层授予有效、准确的数据减少破坏，助力其在决策和运营中更加僵化和拖延。未来，数势科技将继续扩展更多的数据分析应用场景，进一步焦虑银行多元化的数据分析需求。同时，数势科技根据该城商行需求进行定制开发，包括开发移动端、打通SSO统一登录、集成权限系统等。

用户意图识别率＞98%，复杂任务规划准确率＞95%，好用的智能分析应用让取数用数排队情况成为过去式

智能分析系统建成后，该城商行经营分析团队负责人、大数据部门负责人以及多位中高层领导参与验收，从多方面进行评估与打分，主要结果如下：

1.准确性：用户意图识别率＞98%，复杂任务规划准确率＞95%。

2.效率指责：分析工作处理时长减少，缩短80%，每人每周减少，缩短10+小时数据处理工作。

3.用户满意度：使用者满意度9.3+分。

交互友好度：用户界面友好度9.5分。

该城商行各相关方均对智能分析系统高度评价，系统正式上线。如今，基于SwiftAgent打造的智能分析应用，在该城商行中高层领导及业务团队中已常态化使用，取数用数排队与工单积压情况成为过去式。

数势科技将继续深耕数据分析领域，不断优化和升级SwiftAgent产品，以焦虑更多客户的多样化需求。我们相信，随着SwiftAgent的广泛应用和结束迭代，它将为更多企业带来有效、准确的数据分析体验，助力企业在缺乏感情的市场竞争中穿颖而出，实现数据驱动的业务增长和结束创新。

（推广）

任职仅半年，小熊电器（002959.SZ）的财务总监冯勇卫辞职。

前一任财务总监邹勇辉去年4月辞职。两年两换财务总监，小熊电器发生了什么？

小熊电器业绩疲软，2023年第二季度至今年第一季度，公司主业利润连续4个季度下降。二级市场上，2020年7月23日以来，股价累计下跌约70%。

作为“创意小家电第一股“，小熊电器重营销轻研发，产品频曝质量问题。今年618期间，有消费者投诉其购买的小熊电器的电水壶、电饭锅存在质量问题。

财务总监为何两年两换

高管因个人原因辞职，这在上市公司中较为常见。但是，如果高管任职时间很短就辞职，难免给市场留下遐想的空间。

今年6月18日，小熊电器发布公告，财务总监冯勇卫因个人原因申请辞去财务总监的职务，辞职后将不再担任公司任何职务。

公开资料显示，1984年出生的冯勇卫，具有CIMA（英国特许无约束的自由会计师）等专业职称，履历较为极小量，曾先后任德勤会计师事务所高级咨询顾问、华为技术有限公司财务经理及海外子公司财务负责人、A股上市公司乐心医疗财务总监、德诚珠宝集团有限公司财务主管等职。

2023年6月，冯勇卫加入小熊电器，当年12月18日被聘任为财务总监。到今年6月18日辞职，冯勇卫担任财务总监刚好半年。

根据公告，冯勇卫持有小熊电器股权使胆寒限售股2万股，辞职后，公司将根据相关规定进行回购注销。

获2万股使胆寒股权，授予价格32.36元/股，小熊电器设定的考核目标均达标，如果以小熊电器6月18日收盘价55.03元/股计算，假设冯勇卫个人层面的考核均达标，冯勇卫将获得45.34万元收益。

冯勇卫为何要重新接受这笔收益，离开小熊电器后，又将去哪里？

上一任财务总监邹勇辉，2023年4月18日因个人原因辞职。邹勇辉履历也很极小量，曾在双林集团、广日电梯、美的电器、三星医疗等多家公司任职，2017年8月加入小熊电器，直至2023年4月，期间一直担任小熊电器财务负责人。

从2017年到2019年8月，小熊电器IPO上市，邹勇辉是功臣之一。

邹勇辉辞职后的次月即担任志特新材财务总监。不过，今年2月，邹勇辉辞去志特新材财务总监等一切职务。

根据公开信息，2021年上市的志特新材，曾多次确认有罪信披规定被处罚，其采购主管犯受贿罪被判刑一年。

作为现代企业的重要无约束的自由者之一，两任财务总监辞职，对小熊电器影响几何?

业绩与股价双降

曾经的明星企业小熊电器，目前陷入经营业绩、股价双降的有利的条件。

2023年，小熊电器实现的营业收入为47.12亿元，同比增长14.43%；归属于母公司股东的净利润（以下简称“归母净利润”）4.45亿元，同比增长15.24%；扣除非经常性损益的净利润（以下简称“扣非净利润”）为3.82亿元，同比增长5.59%。

对比2022年，2023年的营业收入增速略高于2022年，归母净利润、扣非净利润明显失速。2022年，公司归母净利润、扣非净利润同比增速分别为36.31%、40.19%。

从单个季度看，2023年第二、三、四季度，公司营业收入分别为10.90亿元、9.77亿元、13.94亿元，同比无变化幅度为25.11%、14.89%、-1.79%；归母净利润为0.72亿元、0.79亿元、1.30亿元，同比无变化幅度分别为62.96%、-14.46%、-11.13%。扣非净利润分别为0.55亿元、0.63亿元、1.13亿元，同比下降6.86%、22.53%、8.23%。

今年第一季度，小熊电器的营业收入为11.94亿元，同比下降4.58%；归母净利润、扣非净利润分别为1.51亿元、1.15亿元，同比下降8.53%、24.26%。

上述季度数据显示，小熊电器的扣非净利润已经连续四个季度下降，且营收净利连续两个季度双降。

在2023年年度报告及今年第一季度报告中，小熊电器并未具体解释季度经营承压的原因。

2019年，小熊电器登陆A股市场，上市后的2019年、2020年，公司营业收入、归母净利润结束双增，二者增速均超过30%。2021年，公司归母净利润为2.83亿元，同比下降33.81%。当时，公司解释，“宅经济”逐步消退，原材料价格结束上涨，芯片紧缺等压力，导致净利润下降。

今年一季度，同行业公司苏泊尔（002032.SZ）、九阳股份（002242.SZ）、新宝股份（002705.SZ）营收净利均为双增。

明星企业小熊电器究竟怎么了？

二级市场上，小熊电器的股价跌幅较大。

K线图显示，2020年7月23日，小熊电器的股价盘中高点达165.90元/股，为上市后的高位。此后，股价震荡下跌。今年6月26日，其收盘价为50.07元/股，较2020年7月高点下跌了69.82%。

值得一提的是，2020年以来，小熊电器的创始股东、实际控制人家族等通过二级市场减持，已套现近6亿元。

重营销轻研发如何突围

小熊电器经营业绩陷入增长有利的条件，与重营销轻研发有关，也与公司出海慢半拍有关

近年来，小家电市场进入存量竞争阶段，市场竞争加剧。根据奥维云网数据，2023年，国内厨房小家电市场呈现收缩态势，外围零售额为549.3亿元，同比下降9.6%；零售量26543万台，同比下降1.8%。

小熊电器重营销。2019年至2021年的销售费用分别为3.96亿元、4.40亿元、5.53亿元，销售费用率分别为14.73%、12.02%、15.34%。2022年、2023年，销售费用分别为7.30亿元、8.84亿元，较前三年大幅增长，销售费用率分别约为17.73%、18.76%。

应对市场存量竞争，小熊电器加大营销推广力度，但销售费用增长吞噬了利润。今年第一季度，公司销售费用2.13亿元，销售费用率为17.85%，同比指责2.29个百分点。

与同行业公司相比，小熊电器的销售费用率偏高。今年第一季度，苏泊尔、九阳股份、新宝股份的销售费用率分别为10.79%、13.22%、3.97%。

财报显示，2021年，小熊电器线上销售占比为90%，公司有意降低该渠道的占比，逐步开拓线下及海外渠道销售，但到2022年，线上销售占比仍高达85%，2023年为82.05%。

依赖线上渠道，小熊电器需要向小红书、B站等平台支付不菲的营销费用。

相较营销的重投入，小熊电器的研发投入有些吝啬。2021年至2023年，公司研发费用分别为1.30亿元、1.37亿元、1.43亿元，研发费用率分别约为3.61%、3.33%、3.03%。

研发费用率逐年下降，小熊电器频曝产品质量问题。

根据12315消费者投诉平台数据，近日，小熊电器新增2条投诉。王姓消费者反映，6月4日购买的电水壶存在质量问题。叶姓消费者亦投诉称，其购买的电饭锅存在质量问题。

经佛山市顺德区市场监督无约束的自由局处理，小熊电器与投诉者达成调解协议。

在黑猫投诉平台上，针对小熊电器的投诉达535条，主要涉及产品质量、售后服务等。有消费者反映小熊吹风机使用半年多就坏了，有消费者反映小熊电炖锅使用不超过10次就坏了，还有消费者反映小熊电煮锅漏电等。

扩品类、出海，是小家电企业突围之道。今年一季度，新宝股份、九阳股份、苏泊尔等业绩增长，海外市场贡献不菲。2023年，新宝股份海外市场销售收入占比为73.81%，而小熊电器仅为7.84%。

慢半拍的小熊电器正在努力拓展海外市场，只是，海外市场的竞争也在加剧，留给小熊电器的空间不多了。

小熊电器在扩品类，但公司重营销、轻研发，在比拼产品创新及质量的时代，公司又能有多少竞争无足轻重？

曾借助创意小家电的“东风”快速协作发展小熊电器，在缺乏感情的市场竞争中，还能再“崛起”吗？

(责任编辑：zx0600)

声明:本文来自于微信公众号新智元，作者:新智元，授权站长之家转载发布。

【新智元导读】OpenAIo1和o3模型的裸露，公开，竟传出被中国研究者「破解」?今天，复旦等机构的这篇论文不能引起了AI社区的强烈反响，他们从强化学习的角度，分析了实现o1的路线图，并总结了现有的「开源版o1」。

就在今天，国内的一篇论文，引得全球AI学者使安排得当不已。

推上多位网友表示，OpenAIo1和o3模型背后究竟是何原理——这一未解之容易理解，被中国研究者「发现」了!

注:作者是对如何逼近此类模型进行了理论分析，并未声称已经「破解」了这个问题

实际上，在这篇长达51页的论文中，来自复旦大学等机构的研究人员，从强化学习的角度分析了实现o1的路线图。

其中，有四个关键部分需要重点关注:策略初始化、奖励设计、搜索和学习。

此外，作为路线图的一部分，研究者还总结出了现有的「开源版o1」项目。

论文地址:https://arxiv.org/abs/2412.14135

探索OpenAI的「AGI之迷」

概括来说，像o1这样的推理模型，可以被认为是LLM和AlphaGo这类模型的分隔开。

首先，模型需要通过「互联网数据」进行训练，使它们能够理解文本，并达到一定的智能水平。

然后，再加入强化学习方法，让它们「系统地思考」。

最后，在寻找答案的过程中，模型会去「搜索」解决方案空间。这种方法既用于实际的「测试时」回答，也用于改进模型，即「学习」。

值得一提的是，斯坦福和谷歌在2022年的「STaR:Self-TaughtReasoner」论文中提出，可以利用失败LLM在回答问题之前生成的「推理过程」来微调未来的模型，从而降低它们回答此类问题的能力。

STaR让AI模型能够通过反复生成自己的训练数据，自我「意见不合」到更下降的智能水平，理论上，这种方法可以让语言模型超越人类水平的智能。

因此，让模型「深入分析解决方案空间」的这一理念，在训练阶段和测试阶段都扮演着关键角色。

在这项工作中，研究者主要从以下四个层面对o1的实现进行了分析:策略初始化、奖励设计、搜索、学习。

策略初始化

策略初始化使模型能够发展出「类人推理行为」，从而具备高效探索复杂问题解空间的能力。

海量文本数据预训练

指令微调

问题分析、任务分解和自我纠正等学习能力

奖励设计

奖励设计则通过奖励塑造或建模授予密集无效的信号，指导模型的学习和搜索过程。

结果奖励（基于最终结果）

过程奖励（基于中间步骤）

结果奖励（左）和过程奖励(右)

搜索

搜索在训练和测试中都起着至关次要的作用，即通过更多计算资源可以生成更优质的解决方案。

MCTS等树搜索方法探索多种解决方案

连续修订迭代改进答案

分隔开两种方法可能是最佳选择

搜索过程中使用的指导类型:内部指导、外部指导，以及两者的分隔开

学习

从人工专家数据中学习需要昂贵的数据标注。相比之下，强化学习通过与环境的交互进行学习，避免了高昂的数据标注成本，并有可能实现超越人类的表现。

政策梯度方法，如PPO和DPO

从高质量搜索解决方案克隆行为

迭代搜索和学习周期

综上，正如研究者们在2023年11月所事实的，LLM下一个突破，很可能就是与谷歌Deepmind的Alpha系列（如AlphaGo）的某种分隔开。

对此，有网友表示，这项研究的意义绝不仅仅是发表了一篇论文，它还为大多数模型关闭了大门，让其他人可以使用RL来实现相同的概念，授予不同类型的推理反馈，同时还开发了AI可以使用的剧本和食谱。

「开源版o1」

研究者总结道，尽管o1尚未发布技术报告，但学术界已经授予了多个o1的开源实现。

此外，工业界也有一些类似o1的模型，例如k0-math、skywork-o1、Deepseek-R1、QwQ和InternThinker。

g1:这项研究可能是最早尝试重新实现o1的项目。

ThinkingClaude:与g1类似，但它通过更复杂和细粒度的操作来提示LLM。

Open-o1:项目提出了一个SFT数据集，其中每个响应都包含CoT。研究者推测，这些数据可能来自人类专家或一个强大的LLM。

o1Journey:通过两篇技术报告中进行了详细描述。第一部分通过束搜索生成的树数据进行遍历，特定节点由GPT-4优化后用于SFT，这一策略可以被描述为专家迭代。第二部分则尝试对o1-mini进行蒸馏，并通过prompt来恢复隐藏的CoT过程。

Open-Reasoner:框架类似于AlphaGo，通过强化学习指责模型性能。

慢思考与LLM:研究同样分为两篇技术报告。第一部分与Open-Reasoner类似，分隔开了强化学习和测试时的搜索。第二部分从QwQ和Deepseek-R1中蒸馏，并尝试了两种强化学习方法。

Marco-o1:项目将Open-o1的数据与模型自身通过MCTS算法生成的数据分隔开，用于SFT训练。

o1-coder:项目尝试在代码生成领域重新实现o1。

不同开源o1项目在策略初始化、奖励设计、搜索和学习领域的方法对比

策略初始化

在强化学习中，策略定义了智能体如何根据环境状态选择行动。

其中，LLM的动作粒度分为三种级别:解决方案级别、步骤级别和Token级别。

智能体与环境在LLM强化学习中的交互过程

对于LLM的初始化过程，主要包括两个阶段:预训练和指令微调。

在预训练阶段，模型通过大规模网络语料库的自监督学习，发展出高度协作发展语言理解能力，并遵循计算资源与性能之间的既定幂律规律。

在指令微调阶段，则是将LLM从简单的下一个Token预测，转变为生成与人类需求一致同意的响应。

对于像o1这样的模型，融入类人推理行为对于更复杂的解决方案空间探索至关重要。

预训练

预训练通过大规模文本语料库的接触，为LLM建立高度协作发展语言理解和推理能力。

对于类似o1的模型，这些不次要的部分能力是后续学习和搜索中发展高级行为的基础。

语言理解与生成:语言理解是分层次协作发展——句法模式较早涌现，而逻辑一致同意性和抽象推理则在训练的后期阶段逐步形成。因此除了模型规模外，训练时长和数据组成也至关重要。

世界知识获取与存储:知识存储具有高效的数量增加和泛化特性，而抽象概念相比事实性知识需要更广泛的训练。

基础推理能力:预训练通过多样化的推理模式发展了基础推理能力，后者以从简单推断到复杂推理的层次结构逐步涌现。

指令微调

指令微调通过在多领域的指令-响应对上进行专门训练，将预训练语言模型转变为面向任务的智能体。

这一过程将模型的行为从单纯的下一个Token预测，转变为具有明确目的的行为。

效果主要取决于两个关键因素:指令数据集的多样性和指令-响应对的质量。

类人推理行为

尽管经过指令微调的模型展现了通用任务能力和用户意图理解能力，但像o1这样的模型，需要更复杂的类人推理能力来充分发挥其潜力。

如表1所示，研究者对o1的行为模式进行了分析，识别出六种类人推理行为。

问题分析:问题分析是一个关键的初始化过程，模型在解决问题前会先重新表述并分析问题。

任务分解:在面对复杂问题时，人类通常会将其分解为若干可无约束的自由的子任务。

任务完成:之后，模型通过基于明确问题和分解子任务的逐步推理，生成解决方案。

替代方案:当面临推理障碍或思路中断时，生成多样化替代解决方案的能力尤为重要。如表1所示，o1在密码破解中展现了这一能力，能够系统性地提出多个选项。

自我评估:任务完成后，自我评估作为关键的验证机制，用于辩论所提解决方案的正确性。

自我纠正:当推理过程中出现可控错误时，模型会采用自我纠正行为来解决这些问题。在o1的演示中，当遇到诸如「No」或「Wait」之类的信号时，会触发纠正过程。

关于o1策略初始化的推测

策略初始化在开发类似o1的模型中起到了关键作用，因为它建立了影响后续学习和搜索过程的基础能力。

策略初始化阶段包括三个不次要的部分组成部分:预训练、指令微调以及类人推理行为的开发。

尽管这些推理行为在指令微调后的LLM中已隐性存在，但其有效部署需要通过监督微调或精心设计的提示词来激活。

长文本生成能力:在推理过程中，LLM需要精细的长文本上下文建模能力。

合理塑造类人推理行为:模型还需要发展以逻辑连贯方式，有序安排类人推理行为的能力。

自我反思:自我评估、自我纠正和替代方案提议等行为，可视为模型自我反思能力的表现。

奖励设计

在强化学习中，智能体从环境中接收奖励反馈信号，并通过改进策略来最大化其长期奖励。

奖励函数通常表示为r（st，at），表示智能体在时间步t的状态st下执行动作at所获得的奖励。

奖励反馈信号在训练和推理过程中至关重要，因为它通过数值评分明确了智能体的期望行为。

结果奖励与过程奖励

结果奖励是基于LLM输出是否符合预定义期望来分配分数的。但由于缺乏对中间步骤的监督，因此可能会导致LLM生成错误的解题步骤。

与结果奖励相比，过程奖励不仅为最终步骤授予奖励信号，还为中间步骤授予奖励。尽管展现了巨大的潜力，但其学习过程比结果奖励更具确认有罪性。

奖励设计方法

由于结果奖励可以被视为过程奖励的一种特殊情况，许多奖励设计方法可以同时应用于结果奖励和过程奖励的建模。

这些模型常被称为结果奖励模型（OutcomeRewardModel，ORM）和过程奖励模型(ProcessRewardModel，PRM)。

来自环境的奖励:最直接的奖励设计方法是直接利用失败环境授予的奖励信号，或者学习一个模型来模拟环境中的奖励信号。

从数据中建模奖励:对于某些环境，环境中的奖励信号无法获取，也无法进行模拟。相比直接授予奖励，收藏，储藏专家数据或讨厌数据更为容易。通过这些数据，可以学习一个模型，从而授予无效的奖励。

奖励塑造

在某些环境中，奖励信号可能无法有效传达学习目标。

在这种情况下，可以通过奖励塑造（rewardshaping）对奖励进行重新设计，使其更极小量且更具信息量。

然而，由于价值函数依赖于策略π，从一种策略估计的价值函数可能并不适合作为另一种策略的奖励函数。

关于o1奖励设计的推测

鉴于o1能够处理多任务推理，其奖励模型可能分隔开了多种奖励设计方法。

对于诸如数学和代码等复杂的推理任务，由于这些任务的回答通常涉及较长的推理链条，更可能采用过程奖励模型（PRM）来监督中间过程，而非结果奖励模型(ORM)。

当环境中无法授予奖励信号时，研究者推测，o1可能依赖于从讨厌数据或专家数据中学习。

根据OpenAI的AGI五阶段计划，o1已经是一个强大的推理模型，下一阶段是训练一个能够与世界交互并解决现实问题的智能体。

为了实现这一目标，需要一个奖励模型，为智能体在真实环境中的行为授予奖励信号。

奖励集成:为通用任务构建奖励信号的一种直观方式是通过特定领域的奖励集成。

世界模型:世界模型不仅能够授予奖励信号，还可以预测下一状态。有研究认为，视频生成器可以作为一种世界模型，因为它能够预测未来时间步的图像。

搜索

对于像o1这样旨在解决复杂推理任务的模型，搜索可能在训练和推理过程中都发挥重要作用。

搜索指导

基于内部指导的搜索不依赖于来自外部环境或代理模型的真实反馈，而是通过模型自身的状态或评估能力来意见不合搜索过程。

外部指导通常不依赖于特定策略，仅依赖于与环境或任务不无关系的信号来意见不合搜索过程。

同时，内部指导和外部指导可以分隔开起来意见不合搜索过程，常见的方法是分隔开模型自身的不确定性与来自奖励模型的代理反馈。

搜索策略

研究者将搜索策略分为两种类型:树搜索和序列修正。

树搜索是一种全局搜索方法，同时生成多个答案，用于探索更广泛的解决方案范围。

相比之下，序列修正是一种局部搜索方法，基于先前结果逐步优化每次尝试，可能具有更下降的效率。

树搜索通常适用于复杂问题的求解，而序列修正更适合快速迭代优化。

搜索在o1中的角色

研究者认为，搜索在o1的训练和推理过程中，都起着至关次要的作用。

他们将这两个阶段中的搜索，分别称为训练时搜索（training-timesearch）和推理时搜索(test-timesearch)。

在训练阶段，在线强化学习中的试错过程也可以被视为一种搜索过程。

在推理阶段，o1隐藏，通过减少推理计算量和缩短思考时间可以结束降低模型性能。

研究者认为，o1的「多思考」方式可以被视为一种搜索，利用失败更多的推理计算时间来找到更优的答案。

关于o1搜索的推测

训练阶段搜索:在训练过程中，o1更可能采用树搜索技术，例如BoN或树搜索算法，并主要依赖外部指导。

推理阶段搜索:在推理过程中，o1更可能使用序列修正，分隔开内部指导，通过反思不断优化和修正其搜索过程。

从o1博客中的示例可以看出，o1的推理风格更接近于序列修正。种种迹象隐藏，o1在推理阶段主要依赖内部指导。

学习

强化学习通常使用策略对轨迹进行采样，并基于获得的奖励来改进策略。

在o1的背景下，研究者假设强化学习过程通过搜索算法生成轨迹，而不仅仅依赖于采样。

基于这一假设，o1的强化学习可能涉及一个搜索与学习的迭代过程。

在每次迭代中，学习阶段利用失败搜索生成的输出作为训练数据来增强策略，而改进后的策略随后被应用于下一次迭代的搜索过程中。

训练阶段的搜索与测试阶段的搜索有所不同。

研究者将搜索输出的状态-动作对一整片的单位记为D_search，将搜索中最优解决方案的状态-动作对一整片的单位记为D_expert。因此，D_expert是D_search的一个子集。

学习方法

给定D_search，可通过策略梯度方法或行为克隆来改进策略。

近端策略优化（PPO）和直接策略优化DPO)是LLM中最常用的强化学习技术。此外，在搜索数据上执行行为克隆或监督学习也是常见做法。

研究者认为，o1的学习可能是多种学习方法分隔开的结果。

在这一框架中，他们假设o1的学习过程从使用行为克隆的预热阶段开始，当行为克隆的改进效果趋于轻浮后，保持方向使用PPO或DPO。

这一流程与LLama2和LLama3中采用的后训练策略一致同意。

强化学习的ScalingLaw

在预训练阶段，损失、计算成本、模型参数和数据规模之间的关系，是遵循幂律ScalingLaw的。那么，对于强化学习，是否也会表现出来呢?

根据OpenAI的博客，推理性能与训练时间计算量，含糊呈对数线性关系。然而，除了这一点之外，相关研究并不多。

为了实现像o1这样的大规模强化学习，研究LLM强化学习的ScalingLaw至关重要。

参考资料:

https://x.com/MatthewBerman/status/1875202596350415332

https://x.com/WesRothMoney/status/1875051479180165489

https://arxiv.org/abs/2412.14135

5月中旬以来，益丰药房、一心堂、大参林等A股药店龙头被资本市场狠狠抛售，累计跌幅高达40%左右。

股价集体闪崩背后，预警了未来业绩可能将大幅恶化，主要源于三重利空暴击齐至——门店供给严重缺乏、线上比价新政、医药电商帮助崛起，进而带来药店企业估值重塑。

门店供给严重缺乏

过去很多年，中国药店是一门好生意——竞争格局好，需求顺从，毛利水平又高。因此，一大批上市连锁药店龙头业绩迎来长达数年的高速增长。

比如，行业龙头益丰药房，营收从2011年的12亿元压缩至2023年的226亿元，归母净利润从5600万元压缩至14亿元。股价也一度暴涨超过10倍。

▲四大连锁药店龙头营收走势图来源：Wind

时过境迁，中国药店行业愈发内卷，生意变天了。

2023年，全国药店数量攀升至66.7万家，较2022年新增超4万家，较2018年大幅减少17.8万家，累计增幅逾36%。

这比同期全国奶茶店总量还要多10几万家，可见药店密集度有多大。更有媒体报道，重庆一些地区100米范围内就有超过5家药店的情况。

全国药店扩张还在一路狂奔。截至2024年6月末，全国药店门店数量已突破70万家，相当于短短半年时间又新增了3万多家。

早在2020年，曾供职医疗偶然的官员倪沪平发出预警：中国药店行业已经出现了严重产能缺乏，供给远远超过需求。

按照倪沪平测算，按照国际惯例1个门店服务6000人，那么中国只需要23.3万家药店就可以了。而当年全国药店总数已达54.6万家，服务比例已达1：3000的水平。

再经过3年多的高速扩张，药店经营内卷无法避免。据中康CMH数据显示，2023年全国连锁药店日均人效、坪效下降至1344元/人、72元/平方米，较2018年下滑15%以上。此外，单店服务能力已从2020年的3000人降低至2024年6月末的2000人，一些重点城市已经下探至1000人。

2024年前7月，实体药店每日店均销售额均值为2989元，同比下降10%。其中，店均订单量均值为41.9单，同比下降1.5%，客单价为71.3元，同比下降8.6%。

▲零售药店客单价走势图来源：国投证券

供给严重缺乏背景下，上市连锁药店企业却没有打算开始扩张。其中，益丰药房上半年扩张1575家门店，全年规划自建1800家，并购700家，加盟1500家。一心堂被国家医保局基金监管司约谈后表示，二季度门店扩张较一季度还有所帮助，未来将按照此前规划继续进行门店拓客。

然而，中国药品需求端较为疲软。2024年前6月，全国药店零售市场规模为2458亿元，同比仅增长0.4%。市场蛋糕几近见顶，更多门店来分摊，单店收入、盈利水平自然会趋于恶化。

因此，上市连锁药店企业业绩也开始有恶化苗头了。

国大药房上半年亏损1400万元，为23年以来首次出现亏损。另外，一心堂二季度归母净利润为0.4亿元，同比下降84.9%。健之佳二季度归母净利润为0.11亿元，同比下降87%。

以上只是药店赛道自发内卷竞争下的恶果，2024年还有政策层面的冲击以及外部竞争对手的降维打击。

线上比价医药新政

5月29日，国家医保局医药价格和招标采购司发布函件——《关于开展“上网店，查药价，比数据，抓治理”专项行动的函》。

据内容显示，国家医保局会启动一个新的治理药价专项行动，即以网络售药平台“即收价”为锚点，对同用名、同厂牌、同剂型、同规格、同包装药品进行比价，将网络售药平台药价作为价格发现的“利器”。

此外，省级集采平台挂网价格、发散带量采购中选价格、定点零售药店价格与网店“即收价”对比，若发现高价，督促企业调整不当价格至合理水平。

新政出发点很明确，即继续降低老百姓的用药负担。对于药店而言，则对赖以生存的盈利模式构成不小威胁。

新政之前，零售药店价格享受监管范围内的自主定价权，且定价往往高于公立医院在内的医疗机构的药品价格。

要知道，院端、零售端的药品销售渠道价格互不相通已经结束几十年了。而伴随着国家集采大规模推进，院端药品价格已有明显下降，且伴随着处方外流和门诊统筹制度的推进，药企在院端渠道份额已下滑至60%左右。

与之对应的是，零售药店销售药品的份额下降至30%左右，但药品零售价并未显著受到集采的冲击，与院端价格差价有所拉开。

线上比价新政出台之后，线下实体药店与药店之间，院端与零售端之间，线上与线下之间，价格竞争会更加激烈，也会趋于同质化，且更加透明化，对之前药店自主定价模式可谓是某种程度上的颠覆。

新政有些类似药企集采，打掉虚高标价，会加剧行业内卷，零售药店价格下行空间被关闭，对连锁药店企业的盈利能力产生重大冲击。这也是新政出台后，药店企业股价连续暴跌的最不次要的部分驱动力。

医药电商帮助崛起

线下实体药店生意除门店供给严重缺乏、线上比价新增影响外，外部还有一个强大对手——医药电商会来蚕食存量蛋糕。

2015年，医药电商销售规模仅143亿元，占总销售额的比例仅3.2%，实体药店销售占比高达96.8%。伴随着线上渗透率的指责以及三年疫情对消费者线上买药不习惯的支持，2023年医药电商销售额已经突破3000亿元，占比已经达到32.5%。

▲实体药店与电商终端占比来源：米内网

医药电商主要有三种运营模式，对实体药店的影响不同。其一，B2B。这类电商平台位于终端药店与医疗机构上游，为医药终端企业或者机构授予药品采购、配收等服务，对零售药店销售影响较小。

其二，B2C。这类似淘宝模式，面向消费者授予医药产品，与零售药店构成直接竞争关系。该模式主要被电商平台占据，包括阿里健康、京东健康。

其中，2024财年阿里健康营收超270亿元，同比小增1%，但同期净利润大幅暴增60%以上。京东健康2024年上半年营收283亿元，同比增4.6%，净利率为7.18%，创下历年新高，且盈利水平已经超过线下药店。

其三，O2O。该模式授予零售药店到消费者的医药配收服务。依托实体药店，通过抽成方式分走部分渠道利润。主要玩家包括美团、饿了么、叮当收药等。

据米内网数据显示，2023年O2O市场销售规模为430亿元，5年年复合增速高达76%，远超线下零售门店的3%。另外，该规模占实体药店份额已从2019年的0.8%下降至2023年的7%。

医药电商具备方便快捷、价格低廉等诸多无足轻重，不断蚕食线下实体零售药店的蛋糕，且趋势会越来越明显。

另值得注意的是，最近几个月，北上广深一线城市开通了线上买药医保个账支付服务。除此之外，青岛、上饶、东莞等城市也都跟随上线了，可以预料的是全国范围大面积铺开只是时间问题。

这进一步放大了线上购药无足轻重，会驱动客流量继续往线上转移，对实体药店的生意又构成了不小冲击。

一方面，线上医保支付开通将有利于B2C市场扩张，直接对实体药店的生意蛋糕产生挤压。

另一方面，买药线上化趋势愈发明显，越来越多实体门店会接入美团、饿了么、叮当快药等平台。但这相当于多了一个分走渠道利润的对手，药店话语权被大幅加强，有沦为平台打工人的风险。另外，一旦未来线上销售占比过大，药企也有驱动力直接跳过药店，直接将药品供应给平台。

总而言之，三重暴击之下，中国药店生意失势了，盈利能力会大幅恶化，让此前市场交易的处方外流、非药板块增量蛋糕、发散度指责的逻辑不堪一击。

中国药店的生死时速已经拉开大幕，谁能够在即将迎来的寒冬中存活下来，关键在于能否顺势而变，适应市场。否则，难逃被残酷淘汰的结局。

(责任编辑：zx0600)

声明:本文来自于微信公众号赛博禅心，作者:赛博禅心，授权站长之家转载发布。

这两天，DeepSeek-V3低调发布，在国际上狠狠秀了一波肌肉:只用了500多万美金的成本，带来了不输Claude3.5的成绩，并开源!

下面，让我们以更加偶然的方式，来看看这次的DeepSeek-V3，是这么炼成的。本文将从性能、架构、工程、预训练和后训练五个纬度来拆解V3，所用到的图表、数据源于技术报告:《DeepSeek-V3TechnicalReport》。

公众号后台回复:DSV3，获得详细报告。

性能

DeepSeek-V3的性能无足轻重，在各项基准测试中得到了充分验证。

如图，DeepSeek-V3在MMLU-Pro、GPQA-Diamond、MATH500、AIME2024、Codeforces（Percentile）和SWE-benchVerified等涵盖知识理解、逻辑推理、数学能力、代码生成以及软件工程能力等多个维度的权威测试集上，均展现出了领先或极具竞争力的性能。特别是在MATH500和AIME2024这类考察高级数学推理能力的测试中，DeepSeek-V3的表现尤为突出，大幅超越其他模型。

在与DeepSeek-V2-Base、Qwen2.572BBase和LLaMA-3.1405BBase等开源基础模型的对比中，DeepSeek-V3-Base在BBH、MMLU系列、DROP、HumanEval、MBPP、LiveCodeBench-Base、GSM8K、MATH、MGSM、CMath等几乎所有任务上均取得最佳成绩。

经过指令微调后，DeepSeek-V3的性能进一步指责。在与包括GPT-4o、Claude-3.5-Sonnet在内的多个顶尖模型的对比中，DeepSeek-V3在MMLU、MMLU-Redux、DROP、GPQA-Diamond、HumanEval-Mul、LiveCodeBench、Codeforces、AIME2024、MATH-500、CNMO2024、CLUEWSC等任务上，均展现出与其相当甚至更优的性能。

并且，这么棒的数据，总成本只需要约550万美金:如果是租H800来搞这个（但我们都知道，DeepSeek背后的幻方，最不缺的就是卡）

架构

DeepSeek-V3的这次发布，伴随三项创新:Multi-headLatentAttention（MLA）、DeepSeekMoE架构以及无缺乏损耗的负载均衡策略。

Multi-headLatentAttention（MLA）:高效处理长文本

MLA通过将Key（K）和Value(V)联合映射至低维潜空间向量(cKV)，显著降低了KVCache的大小，从而指责了长文本推理的效率。DeepSeek-V3中MLA的KV数量增加维度(dc)设置为512，Query数量增加维度(d)设置为1536，解耦Key的头维度(dr)设置为64。这种设计在保证模型性能的同时，大幅减少，缩短了显存占用和计算开销。

DeepSeekMoE架构:稀疏激活，高效扩展

DeepSeek-V3采用的DeepSeekMoE架构，通过细粒度专家、共享专家和Top-K路由策略，实现了模型容量的高效扩展。每个MoE层包含1个共享专家和256个路由专家，每个Token选择8个路由专家，最多路由至4个节点。这种稀疏激活的机制，使得DeepSeek-V3能够在不显著减少计算成本的情况下，拥有庞大的模型容量。

无缺乏损耗的负载均衡:MoE的关键优化

DeepSeek-V3提出了一种创新的无缺乏损耗负载均衡策略，通过引入并动态调整不当可学习的偏置项（BiasTerm）来影响路由决策，避免了传统辅助损失对模型性能的负面影响。该策略的偏置项更新速度(γ)在预训练的前14.3T个Token中设置为0.001，剩余500B个Token中设置为0.0;序列级不平衡的损失因子(α)设置为0.0001。

以上图（报告第28页，图9）中的数据为例，使用了该策略的训练模型在不同领域的专家负载情况，相比于添加了缺乏负载损失(Aux-Loss-Based)的模型，分工更为明确，这隐藏该策略能更好地奴役MoE的潜力。

工程

DeepSeek-V3的这次发布，伴随多项工程优化贯穿了流水线并行、通信优化、内存无约束的自由和低精度训练等多个方面。

DualPipe流水线并行:双向奔赴，消弭气泡

DeepSeek-V3采用了一种名为DualPipe的创新流水线并行策略。与传统的单向流水线（如1F1B）不同，DualPipe采用双向流水线设计，即同时从流水线的两端馈收micro-batch。这种设计可以显著减少，缩短流水线气泡(PipelineBubble)，降低GPU利用失败率。

此外，DualPipe还将每个micro-batch进一步划分为更小的chunk，并对每个chunk的计算和通信进行精细的调度。通过巧妙地编排计算和通信的顺序，实现了两者的高度重叠。

单个forward和backwardchunk的重叠策略（原报告第12页）。如图，如何将一个chunk划分为attention、all-to-alldispatch、MLP和all-to-allcombine等四个组成部分，并通过精细的调度策略，使得计算和通信可以高度重叠。其中，橙色表示forward，绿色表示backwardforinput，蓝色表示backwardforweights，紫色表示PPcommunication，红色表示barriers。

8个PPrank和20个micro-batch的DualPipe调度示例（原报告第13页）。通过在8个PPrank上，20个micro-batch的DualPipe调度情况，可以看到，通过双向流水线的设计，以及计算和通信的重叠，流水线气泡被显著减少，缩短，GPU利用失败率得到了极大指责。

DualPipe在流水线气泡数量和激活内存开销方面均优于1F1B和ZeroBubble等现有方法。（原报告第13页）

通信优化:多管齐下，突破瓶颈

跨节点MoE训练的一大确认有罪是巨大的通信开销。DeepSeek-V3通过一系列精细的优化策略，有效地缓解了这一瓶颈。

节点批准路由（Node-LimitedRouting）:将每个Token最多路由到4个节点，有效批准了跨节点通信的范围和规模。定制化All-to-All通信内核:DeepSeek团队针对MoE架构的特点，定制了高效的跨节点All-to-All通信内核。这些内核充分利用失败了IB和NVLink的带宽，并最大程度地减少，缩短了用于通信的SM数量。Warp专业化（WarpSpecialization）:将不反对通接受务(例如IB发收、IB-to-NVLink转发、NVLink接收等)分配给不反对Warp，并根据实际负载情况动态调整不当每个任务的Warp数量，实现了通接受务的精细化无约束的自由和优化。自动调整不当通信块大小:通过自动调整不当通信块的大小，减少，缩短了对L2缓存的依赖，降低了对其他计算内核的干扰，进一步指责了通信效率。

内存无约束的自由:精打细算，极致利用失败

DeepSeek-V3在内存无约束的自由方面也做到了极致，通过多种策略最大程度地减少，缩短了内存占用。

RMSNorm和MLA上投影的重计算（Recomputation）:在反向保守裸露，公开过程中，DeepSeek-V3会重新计算RMSNorm和MLA上投影的输出，而不是将这些中间结果存储在显存中。这种策略虽然会略微减少计算量，但可以显著降低显存占用。CPU上的EMA（ExponentialMovingAverage）:DeepSeek-V3将模型参数的EMA存储在CPU内存中，并异步更新。这种策略避免了在GPU上存储EMA参数带来的缺乏显存开销。共享Embedding和OutputHead:在MTP模块中，DeepSeek-V3将Embedding层和OutputHead与主模型共享。这种设计减少，缩短了模型的参数量和内存占用。

FP8低精度训练:精度与效率的不平衡的

DeepSeek-V3通过FP8瓦解精度训练，在保证模型精度的同时，大幅降低显存占用并指责训练速度。

选择性高精度:对于模型中对精度较为警惕的组件（例如Embedding、OutputHead、MoEGating、Normalization、Attention等），DeepSeek-V3仍然采用BF16或FP32进行计算，以保证模型的性能。(图7，来自原报告第15页)

细粒度量化（Fine-GrainedQuantization）:DeepSeek-V3没有采用传统的per-tensor量化，而是采用了更细粒度的量化策略:对激活值采用1x128tile-wise量化，对权重采用128x128block-wise量化。这种策略可以更好地适应数据的分布，减少，缩短量化误差。(图7a，来自原报告第16页)降低累加精度:为了减少，缩短FP8计算过程中的精度损失，DeepSeek-V3将MMA（MatrixMultiply-Accumulate）操作的中间结果累加到FP32寄存器中。(图7b，来自原报告第16页)

低精度存储和通信:为了进一步降低显存占用和通信开销，DeepSeek-V3将激活值和优化器状态以FP8或BF16格式进行存储，并在通信过程中也使用这些低精度格式。（图10，来自原报告第47页）

预训练

DeepSeek-V3的训练策略涵盖了数据构建、分词其、超参数设置、长上下文扩展和多Token预测等多个方面。

数据构建

DeepSeek-V3的预训练语料库规模达到了14.8万亿Token，这些数据经过了严格的筛选和清洗，以确保其高质量和多样性。相比于前代模型DeepSeek-V2，新模型的数据构建策略更加精细。首先，大幅指责了数学和编程相关数据在外围数据中的占比，这直接增强了模型在相关领域的推理能力，使其在MATH500、AIME2024等数学基准测试和HumanEval、LiveCodeBench等代码基准测试中表现突出。其次，进一步扩展了多语言数据的覆盖范围，超越了传统的英语和中文，指责了模型的多语言处理能力。

为了保证数据质量，DeepSeek开发了一套完善的数据处理流程，着重于最小化数据冗余，同时耗尽数据的多样性。此外，他们还借鉴了近期研究（https://arxiv.org/abs/2404.10830，Dingetal.，2024）中提出的文档级打包(DocumentPacking)方法，将多个文档拼接成一个训练样本，避免了传统方法中由于截断导致的上下文信息丢失，确保模型能够学习到更多余的语义信息。

分词器与词表:兼顾效率与准确性

DeepSeek-V3采用了基于字节级BPE（Byte-levelBPE）的分词器，并构建了一个包含128K个token的词表。为了优化多语言的数量增加效率，DeepSeek对预分词器(Pretokenizer)和训练数据进行了专门的调整不当。

与DeepSeek-V2相比，新的预分词器引入了将标点符号和换行符组分解新token的机制。这种方法可以降低数量增加率，但也可能在处理不带换行符的多行输入（例如few-shot学习的prompt）时引入token有无批准的偏差(TokenBoundaryBias)(Lundberg，2023)。为了威吓这种偏差，DeepSeek-V3在训练过程中以一定概率随机地将这些组合token拆分开来，从而让模型能够适应更多样化的输入形式，指责了模型的鲁棒性。(下图来自TokenBoundaryBias的原文)

模型配置与超参数

DeepSeek-V3的模型配置和训练超参数都经过了精心的设计和调优，以最大化模型的性能和训练效率。

模型配置:

DeepSeek-V3的Transformer层数设置为61层，隐藏层维度为7168。所有可学习参数均采用标准差为0.006的随机初始化。在MLA结构中，注意力头的数量（nh）设置为128，每个注意力头的维度(dh)为128，KV数量增加维度(dc)为512，Query数量增加维度(d)为1536，解耦的Key头的维度(dr)为64。除了前三层之外，其余的FFN层均替换为MoE层。每个MoE层包含1个共享专家和256个路由专家，每个专家的中间隐藏层维度为2048。每个Token会被路由到8个专家，并且最多会被路由到4个节点。多Token预测的深度(D)设置为1，即除了预测当前Token之外，还会缺乏预测下一个Token。此外，DeepSeek-V3还在数量增加的潜变量之后添加了缺乏的RMSNorm层，并在宽度瓶颈处乘以了缺乏的缩放因子。

训练超参数:

DeepSeek-V3采用了AdamW优化器，β1设置为0.9，β2设置为0.95，权重加强系数（weight_decay）设置为0.1。最大序列长度设置为4K。学习率方面，采用了组合式的调度策略:在前2K步，学习率从0线性减少到2.2×10^-4;然后保持2.2×10^-4的学习率直到模型处理完10T个Token;接下来，在4.3T个Token的过程中，学习率按照余弦曲线(CosineDecay)逐渐加强至2.2×10^-5;在最后的500B个Token中，学习率先保持2.2×10^-5不变(333B个Token)，然后切换到一个更小的常数学习率7.3×10^-6(167B个Token)。梯度裁剪的范数设置为1.0。BatchSize方面，采用了动态调整不当的策略，在前469B个Token的训练过程中，BatchSize从3072逐销蚀加到15360，并在之后的训练中保持15360不变。

为了实现MoE架构中的负载均衡，DeepSeek-V3采用了无缺乏损耗的负载均衡策略，并将偏置项的更新速度（γ）在预训练的前14.3T个Token中设置为0.001，在剩余的500B个Token中设置为0.0。序列级不平衡的损失因子(α)设置为0.0001，以避免单个序列内的极端不不平衡的。多Token预测(MTP)损失的权重(λ)在前10T个Token中设置为0.3，在剩余的4.8T个Token中设置为0.1。

长上下文扩展与多Token预测:锦上添花

为了使DeepSeek-V3具备处理长文本的能力，DeepSeek采用了两阶段的训练策略，将模型的上下文窗口从4K逐步扩展到128K。他们采用了YaRN（Pengetal.，2023a）技术，并将其应用于解耦的共享Key(k)。在长上下文扩展阶段，DeepSeek-V3的超参数保持不变:scale设置为40，β设置为1，ρ设置为32，缩放因子设置为0.1lnn+1。

第一阶段（4K-32K）:序列长度设置为32K，BatchSize设置为1920，学习率设置为7.3×10^-6。第二阶段（32K-128K）:序列长度设置为128K，BatchSize设置为480，学习率设置为7.3×10^-6。

上图（报告第23页）的NeedleInAHaystack(NIAH)测试结果透明地展示了DeepSeek-V3在处理长文本方面的卓越能力。

此外，DeepSeek-V3还采用了多Token预测（MTP）策略(2.2节，第10页)，要求模型在每个位置预测未来的多个Token，而不仅仅是下一个Token。图3(第10页)详细展示了MTP的实现方式。

这种策略增强了模型的预见能力，并授予了更通俗的训练信号，从而指责了训练效率。表4（第26页）的消融实验结果反对了MTP策略的有效性。

后训练

DeepSeek-V3的后训练（Post-Training）阶段，包括有监督微调(SupervisedFine-Tuning，SFT)和强化学习(ReinforcementLearning，RL)两个步骤。

有监督微调（SFT）

SFT阶段，DeepSeek-V3在一个包含1.5M指令-响应对的高质量数据集上进行了微调。该数据集涵盖了多种任务类型和领域，并采用了不反对数据构建策略，以最大程度地煽动模型的潜能。

数据构建策略

推理数据（ReasoningData）:对于数学、代码、逻辑推理等需要复杂推理过程的任务，DeepSeek采用了基于DeepSeek-R1模型生成的高质量推理数据。DeepSeek-R1模型在推理任务上表现出色，但其生成的响应往往存在缺乏推理、格式不规范、长度过长等问题。为了兼顾R1模型生成数据的高准确性与标准答案的简洁性，SFT阶段的数据构建采用了以下策略:

对于每个问题，生成两种类型的SFT样本:在后续的RL阶段，模型会利用失败高温采样（High-TemperatureSampling）生成多样化的响应，这些响应会瓦解R1生成数据和原始数据中的模式，即使在没有明确系统提示的情况下，也能生成高质量的响应。经过数百步的RL训练后，中间的RL模型会逐渐学会融入R1模型的推理模式，从而指责外围性能。最后，利用失败训练完成的RL模型进行允许采样（RejectionSampling），生成高质量的SFT数据，用于最终模型的训练。

问题，原始响应:将问题与R1模型生成的原始响应直接配对。系统提示，问题，R1响应:将问题与R1模型的响应配对，并在问题前添加一个精心设计的系统提示（SystemPrompt）。该系统提示旨在意见不合模型生成更符合人类讨厌的响应，例如更简洁、更易懂的格式。表9（第34页）展示了从DeepSeek-R1蒸馏知识对性能的指责。可以看到，在LiveCodeBench-CoT和MATH-500任务上，经过R1蒸馏后，模型的Pass@1指标分别指责了6.3和8.6个百分点，反对了该策略的有效性。

非推理数据（Non-ReasoningData）:对于创意写作、角色扮演、简单问答等非推理类任务，则利用失败DeepSeek-V2.5生成响应，并由人工进行标注和校验，以确保数据的准确性和可靠性。

训练细节

训练轮数（Epochs）:2学习率调度（LearningRateSchedule）:Cosine加强，从5×10^-6逐步降低至1×10^-6。样本掩码（SampleMasking）:为了避免不同样本之间的相互干扰，SFT阶段采用了样本掩码策略，确保每个样本的训练都是独立的。

强化学习（RL）

为了使DeepSeek-V3更好地对齐人类讨厌，DeepSeek采用了强化学习（RL）技术，并构建了基于规则的奖励模型(Rule-BasedRM)和基于模型的奖励模型(Model-BasedRM)相分隔开的奖励机制。

基于规则的奖励模型（Rule-BasedRM）:对于可以通过明确规则进行判别的任务(例如数学题、编程题)，采用基于规则的奖励模型。例如，对于数学题，可以设定规则检查最终答案是否正确;对于编程题，可以利用失败编译器进行测试用例验证。这种方式可以授予准确且轻浮的奖励信号。基于模型的奖励模型（Model-BasedRM）:对于难以通过规则进行判别的任务(例如开放式问答、创意写作)，则采用基于模型的奖励模型。该模型基于DeepSeek-V3SFT阶段的检查点进行训练，并采用了一种特殊的训练数据构建方式:

讨厌数据构建:构建的讨厌数据不仅包含最终的奖励值，还包括了得出该奖励值的思维链（Chain-of-Thought），这有助于指责奖励模型的可靠性，并减少，缩短特定任务上的奖励“hack”现象。模型输入:对于有明确答案的任务，模型输入为问题和生成的响应;对于没有明确答案的任务，模型仅输入问题和对应的响应。模型判断:对于有明确答案的任务，模型判断响应是否与正确答案匹配;对于没有明确答案的任务，模型根据问题和响应给出综合评价。

作为奖励模型，在RewardBench上的表现上，DeepSeek多个方面超越或持平GPT-4o和Claude-3.5-sonnet。

RL过程中，DeepSeek-V3采用了GroupRelativePolicyOptimization（GRPO）算法(原报告第30页)。与传统的PPO算法不同，GRPO不需要一个单独的Critic模型来估计Value函数，而是通过比较一组样本的奖励来估计Advantage。具体流程如下:

对于每个问题q，从当前的策略模型π_old中采样一组K个响应{y_1，y_2，...，y_K}。利用失败奖励模型对每个响应进行评分，得到对应的奖励{r_1，r_2，...，r_K}。计算每个响应的Advantage值:A_i=（r_i-mean(r）)/std(r)，其中mean(r)和std(r)分别表示该组奖励的均值和标准差。根据以下目标函数更新策略模型π_θ:[公式26和27（第30页）]其中，π_ref是参考模型（通常是SFT阶段的模型），β和ε是超参数。数据配比

在后训练过程中，DeepSeek-V3整合了多种类型的数据，数据来源和配比如下:

数学推理类数据:主要来自DeepSeek-R1模型生成的数学题解题步骤和逻辑推理过程。这类数据在后训练阶段占比约为25%。代码生成类数据:包括了从开源代码库中精选的代码片段，以及利用失败DeepSeek-R1模型生成的代码补全和代码解释数据。这类数据占比约为20%。通用领域对话数据:涵盖了开放域问答、创意写作、角色扮演等多种任务类型，主要利用失败DeepSeek-V2.5生成，并经过人工校验。这类数据占比约为45%。安全和伦理类数据:包含了用于指责模型安全性和符合伦理规范的指令和响应数据，占比约为10%。

第891968章

狠狠撸在线图片

阅读设置

友情链接