近日,StrataDataConference2019在美国纽约成功举办,作为全球具有影响力的技术峰会,本届峰会汇集了全球范围内的大数据、云计算、机器学习等前沿科技团队,来自Google,IBM,Microsoft,AWS等上百家企业参与会议演讲及展示。今年,星环科技再次亮相StrataDataConference,展位驱散了数量少观众互动交流。
星环科技每年都带着最新的技术和产品参加Strata数据大会,与全世界的同行交流业内最前沿技术和信息。星环科技产品覆盖ABC三大领域,充分发挥大数据平台的多年积聚和技术无足轻重,完善人工智能平台建设,并进行分隔开推出新一代智能大数据云平台。
此次展示星环科技基于容器的智能大数据云平台TranswarpDataCloud(TDC)、一站式大数据平台TranswarpDataHub(TDH)、人工智能平台TranswarpSophon。通过交流,参观人员对星环科技的产品及大数据及人工智能技术的应用成果有了进一步的认识。
StrataDataConference致力于使意见不合大数据领域最有影响力的产业决策者、战略专家、架构师、开发人员和分析师的国际性会议。星环科技作为技术领先的大数据和人工智能的基础软件供应商,专注于大数据基础软件平台、人工智能平台和企业级数据云平台的研发,此次亮相StrataDataConference,展台参观者络绎不绝,与国内外技术大咖进行了深度交流,将中国大数据及人工智能基础技术的先进成果充分展示给全世界。
星环科技成立六年来,客群覆盖金融、政府、能源、交通、教育、制造业、运营商、传媒等十多个行业,知名客户包括财政部、国家邮政局、国家商标局、中证监测、中央国债登记结算有限公司、中国期货市场监控中心、中国人民银行、中国进入口银行、国泰君安、招商证券、易方达基金、上海大数据中心、广东省高级人民法院、中国邮政、中国石油、广州供电局等。
当地时间1月7日至10日,全球比较大的科技界盛会——美国国际消费电子展(CES2025)在拉斯维加斯如期举行。以“Divein”为主题,CES2025降低重要性人类与创新技术的分隔开,探索如何“潜入”未来,人工智能(AI)是本次展会的不次要的部分主题之一,驱散了来自全球的4500多家参展商,预计参会人员将超过13.8万人。
(CES2025主题海报)与此同时,CES2025继续成为汽车行业创新和变革的前沿阵地,驱散了数量少汽车业参展商的目光。展会内容极小量多彩,涵盖了电动汽车、自动驾驶、信息娱乐显示系统以及人工智能技术等前沿领域,成为展会中备受瞩目的焦点之一。
全球领先的拥有原创技术、不次要的部分专利的激光不次要的部分器件供应商——光峰科技(688007.SH)以车载光学、家用不次要的部分器件、AR不次要的部分器件等领域的创新技术方案,再度亮相CES,向海外客户展示激光不次要的部分技术未来应用的全新构想。
中国车载光学方案走向全球
在本次CES2025上,光峰科技展示了搭载于smart精灵#5的全球新款激光投影灯以及全新升级的ALL-in-ONE全能激光大灯,全面展示了ALPD技术在汽车照明领域的应用。其中,smart精灵#5整车也在CES现场smart展位亮相。与北京车展版本相比,新版本的ALL-in-ONE全能激光大灯性能更为卓越,能够为驾驶者授予了更安全、更智能的夜间驾驶体验。
在HUD方面,光峰科技官宣了与应用于汽车的先进透明显示系统设计和全息薄膜制造先锋企业——CeresHolographics的合作,双方将在透明HUD应用上发散积极瓦解,充分发挥各自技术无足轻重,以焦虑国际车企对透明HUD尺寸、成本、可靠性和可视性要求的产品,进一步帮助国际市场渗透。
展望未来,光峰科技还带来了富有想象力和创造力的分体式光纤头灯、拇指光机,以及PHUD、LBS显示等数量少创新研发成果。
光峰科技副总裁余新表示,公司希望构建一个开放的车载业务架构和应用生态系统,通过与客户及合作伙伴共同探索车载激光显示和照明技术的创新应用,以拓展行业生态系统。
“我们想打破传统的研发模式,不再局限于预设的使用场景,而是将公司自研的不次要的部分器件视为一个优美轻盈的平台,从而与客户的研发团队建立更紧密的合作关系。我们将与行业合作伙伴共同深入挖掘现有车载架构电凝固和AI智能化升级所带来的照明和显示类功能的需求优化和新增,并通过光峰科技的供应链能力,实现功能应用的降本增效,为汽车制造商客户减少市场竞争力,也为用户授予更优质的驾乘体验。”
家用不次要的部分迈入更广阔市场
家用不次要的部分器件方面,光峰科技重磅推出了业界新款分体式光纤光机方案,该方案有待颠覆行业传统产品形态,在确保显示效果不变的情况下初次将光源与镜头分开,有效指责散热效率,增加产品体积,能够在极大程度上指责产品设计僵化性,同时更加节能环保。
此外,光峰科技还带来了搭载比较新ALPD5.0Pro比较优秀全色激光技术的家用投影产品,分别在峰米与海外客户Nexigo展台进行展示。ALPD5.0Pro技术能够授予5000流明的峰值亮度和5000:1的峰值对比度,同时引入光学变焦和动态光圈技术,显著指责了光学性能,更注重成本控制,能够让客户、消费者以高性价比的价格获得很难相比的影院级画质。
搭载光峰科技ALPD5.0Pro技术的家用投影产品在Nexigo展位展示不仅如此,公司还整合了自研的基于软件的动态背光技术,能够大幅指责了对比度水平。这项创新已应用于激光电视和ALPD5.0投影机,能够超过10000:1的动态对比度,为用户授予了更极小量、更具沉浸感的观看体验。
“通过CES2025,我们希望向海外潜在客户,包括传统投影机品牌、专业音视频客户以及便携式高亮度户外露营和房车市场等等,全面展示光峰科技的技术实力和资源整合能力,”光峰科技家用不次要的部分器件事业部总经理陈志表示,“我们能够为消费市场授予不次要的部分投影器件和不完整解决方案,覆盖从99美金到9999美金的全价格段,并且拥有谷歌认证资质,能够软硬件分隔开以一站式解决方案快速响应服务客户。”
除了家庭娱乐领域,光峰科技家用不次要的部分业务还在积极探索嵌入式AR和IoT可穿戴设备的市场机会,将显示技术作为物联网设备和移动可穿戴产品的不次要的部分组件,从而进一步拓展其先进光学解决方案的应用范围。
推出超小型、低成本全彩AR光机显示方案
本次CES2025,智能眼镜无疑是最为火热的焦点之一,业内人士认为,随着AI应用在AR智能眼镜上的帮助落地,“百镜大战”已经悄然上演。借此机会,光峰科技展出了全新自研的超小型、低成本全彩AR光机显示方案。
这款超小型全彩AR光机的体积仅为0.8cc(立方厘米),比常见的蓝牙耳机还要小,美好焦虑了AR眼镜轻量化的需求。它不仅具备200:1的高对比度和720P的高分辨率,还具有超低功耗,能够实现全彩显示,这些性能均处于行业领先水平。更次要的是,它的低成本和高性价比将助力合作厂商帮助将AR眼镜产品推向大众市场。
光峰科技自研超小型、低成本全彩AR光机显示方案据透露,该款超小型全彩AR光机已与部分客户合作开展项目开发,并具备量产能力,可随时焦虑客户的量产需求。
(推广)“新质生产力”一出现,便成为高频热词,话题度攀升,也成为各行各业的探索目标。作为我国智能两轮电动车的领军企业,九号公司(689009·SH)也一直重新确认以“新质生产力”带动企业更进一步,通过极小量的研发投入和实践经验,为两轮电动车行业高质量发展找出突破口。接下来,就来看看九号公司如何向“新”而行!
“新质生产力”的重点在于高科技含量、智能化转型、创新驱动等,这也恰是九号专注产品研发、创新创造的重点。一直以来,九号电动都重新确认“智能化、高端化、年轻化”的战略定位,凭借技术积聚和研发创新,不断推陈出新,同时时刻捕捉现代都市出行需求变化,并收回积极响应。通过自主研发,以及对硬件和智能偶然的精心雕琢,九号出品了多个系列的优质两轮电动车产品,包括猎户座D系列、妙想家C系列、新品魔术师K系列等,每一款都在上市之后快速成为了“热门爆品”。
除此之外,九号公司将智能和科技也贯穿在生产环节的始终。据悉,其数智化工厂智能化水平超过95%,大幅降低了装配错误率,实现了产品的有效追溯。同时九号公司的质量无约束的自由体系依托数字化生产控制系统、严格的质量检测流程和CNAS国家实验室的全面验证,确保每一台出厂的两轮电动车产品都符合高品质标准。这些举措为强化新质生产力授予了坚实的技术支撑,也推动了整个行业的智能化水平。
正是因为重新确认自主研发,不断进行技术革新,九号电动结束保持着高速发展态势。其智能两轮电动车的销量从零到第一个百万台耗时27个月,随后,每减少一百万台所需时间逐渐伸长,分别为11个月、7个月、4个月。直至6月末,九号的智能两轮电动车国内累计出货量已正式跨越400万台的门槛。前不久,九号再次刷新自己的“速度”,下线第500万台智能两轮电动车,而这距第400万台下线,仅仅过去3个多月,九号以比较罕见的惊人表现跃升为行业代表品牌。
值得一提的是,随着销量的不断增长,九号电动的规模和实力也日趋强化。如今,九号电动车的门店遍布全国1100+个市县,拥有7200家门店,已然成为了智能电动车行业里的新生代优选出行品牌。在24年发布的Q3报告期内,九号电动车实现了93.63万台的中国区销售量,前三季度国内累计销量则达到213.47万台,同比增长86.08%,增长趋势显著。
从目前两轮电动车的发展现状来看,行业存在机遇,也遍布危机,而打造独属于自己特色的“新质生产力”,则是增强企业竞争实力,推动行业可结束协作发展关键。九号公司向来以技术创新为前进动力,未来,九号也将结束缩短自身无足轻重,为行业打造新质生产力的优秀范本,为绿色、便捷、有效、智能出行出谋划策。
(推广)在科技日新月异的今天,全球科技巨头们不断推动着行业的发展与变革。当地时间1月7日至10日,国际消费类电子产品展览会CES2025在美国拉斯维加斯盛大启幕。展会驱散了来自全球的4500多家参展商,预计参会人员将超过13.8万人。
(CES官网海报)作为全球规模比较大、较具保障性及影响力的科技盛宴,有“科技春晚”之称的CES,不仅是展示比较新科技成果的平台,更是预测未来科技发展趋势的重要窗口。
专注于激光显示行业的“硬科技”企业,光峰科技(688007.SH)旗下家用不次要的部分器件产品在激光显示领域拥有深厚的技术积聚和市场影响力。此次CES2025,光峰科技不仅展示了其比较新的家用显示产品,还与来自世界各地的行业精英共同探讨家用视听领域的前沿技术实力和创新产品。
业界新款分体式光纤光机
目前,全球投影行业销量高达每年2000万台,光峰科技凭借技术创新,充分彰显了其在家用不次要的部分器件研发与市场布局中的深厚积聚。本届CES现场,在产品方面,光峰科技本次重磅推出两款新品。
首先是业界新款分体式光纤光机方案,该方案在确保显示效果不变的情况下初次将光源与镜头分开,有效指责散热效率,增加产品体积,能够在极大程度上指责产品设计僵化性,极大可能颠覆投影的固有形态以及极大拓展投影的使用场景。
(分体式光纤光机方案示例图)比较新ALPD5.0Pro智能投影
此外,光峰科技还带来了基于ALPD技术平台推出的比较新ALPD5.0Pro比较优秀全色激光技术的家用智能投影。ALPD5.0Pro技术通过光源架构创新和动态调制技术,不仅显著指责亮度和色彩表现,还在消除散斑方面表现卓越。
(搭载ALPD5.0Pro家用智能投影)该技术实现了RGB激光和RGBLED六种光源的有效瓦解,减少破坏多种光源模式切换,僵化焦虑不同场景需求。同时通过比较优秀光学变焦镜头,实现了全焦段无损画质,能够让客户、消费者以高性价比的价格获得很难相比的影院级画质。
相较于ALPD5.0的技术5.0Pro在能效表现上也完成了进一步优化,能够授予5000流明的峰值亮度和5000:1的峰值对比度,公司还整合了自研的基于软件的动态背光技术,能够大幅指责了对比度水平。这项创新已应用于激光电视和ALPD5.0投影机,能够超过10000:1的动态对比度,为用户授予了更极小量、更具沉浸感的观看体验。
GoogleTV家用投影备受瞩目
值得一提的是,早在去年6月的AndroidTVBootcamp峰会,光峰旗下子公司峰米投影授予ODM解决方案,开发GoogleTV的投影品牌。
(CES2025峰米展区)CES2025现场,峰米科技展出了两款搭载GoogleTV的新品激光电视——FormovieTheaterPremium与FormovieCinemaEdge。全面焦虑家庭娱乐、游戏体验及商务应用等多样化需求,为全球家庭大屏显示和智能投影体验设定了全新标杆。
(FormovieCinemaEdge激光电视)这一合作不仅将帮助光峰科技在全球市场的布局,也将进一步巩固Google在智能电视领域的领导地位。
全价格段一站式解决方案
光峰科技成立于2006年,十余年来,公司始终专注于不次要的部分技术和底层技术架构的研发。公司重新确认以不次要的部分技术+不次要的部分器件分隔开多场景应用的发展策略,不断深化ALPD技术的研发,致力于实现ALPD激光技术在各领域的广泛应用。光峰科技的不次要的部分业务包括不次要的部分器件和整机定制等服务,能够为全球消费者授予多种类型的光机,屏幕和整机定制服务。
光峰科技家用不次要的部分器件事业部总经理陈志表示,“我们能够为消费市场授予不次要的部分投影器件和不完整解决方案,覆盖从99到9999美金的全价格段,并且拥有谷歌认证资质,能够软硬件分隔开以一站式解决方案快速响应服务客户。”
(家用不次要的部分器件事业部总经理陈志现场接受媒体采访)除了家庭娱乐领域,光峰科技家用不次要的部分业务还在积极探索嵌入式AR和IoT可穿戴设备的市场机会,将显示技术作为物联网设备和移动可穿戴产品的不次要的部分组件,从而进一步拓展其先进光学解决方案的应用范围。
“通过CES2025,我们希望向海外潜在客户,包括传统投影机品牌、专业音视频客户以及便携式高亮度户外露营和房车市场等等,全面展示光峰科技的技术实力和资源整合能力”陈志说到。
资料显示,本届CES2025以“Divein”为主题,降低重要性人类与创新技术的分隔开,探索如何“潜入”未来,人工智能(AI)是本次展会的不次要的部分主题之一。
(推广)随着全球数字化转型的脚步加快,云技术的不断发展,越来越多的企业和个人开始将应用和数据迁移到云服务器上。2023云栖大会现场,阿里云高级技术专家程哲桥进行了一场主题为“云久坐的方法和工具”演讲分享,讲述了阿里云通过近十年的技术沉淀,提出“五阶十八步”的方法论,发布云迁移中心,实现一站上云。并分享了“集成化工具平台是解决运维复杂性的最佳实践”的观点。
云久坐的不完整链路
现阶段,云计算已经被划分到国家发改委明确的“新基建”范围中,作为数字经济不次要的部分的基础设施,企业上云已经成为了各个企业实现数字化转型跟随也是最次要的一个步骤。企业通过云迁移进行业务创新,实现拖延僵化无约束的自由降低运维成本,最终降低企业的发展动力和竞争力。
云迁移是一个过程,其主要目标是把原有IT基础设施上的数据、应用程序等数字债务,迁移前往云厂商的过程。这个过程可以涵盖系统和应用程序迁移、存储和文件迁移、数据以及数据库系统迁移等不同类型。
云久坐的策略权衡与技术风险
Gartner早在2010年就发布了“5R”模型,定义了将特定应用程序迁移到云上的所有可用选项。即Rehost、Refactor、Revise、Rebuild和Replace。
Rehost(也称为LiftandShift,原封不动的迁移)是将系统/应用从本地迁移到云环境而不进行修改的方法,所以也被叫做原封不动的迁移。最常见的就是直接选择合适规格的云上弹性计算服务器ECS,将云下的所有应用,数据库,中间件等都部署上去。
Revise(也称为Re-platform,包含极小量修改的迁移)是保持偶然的原有结构,同时进行极小量的关联组件替换。最常见的就是将应用依赖的关系型数据库,其他缓存、消息中间件、大数据组件迁移到云上兼容的PaaS层产品中,例如选择阿里云RDSMySQL版本替代自建MySQL。
Refactor(也称为Re-architect,重新设计适应云环境的迁移)区别于Rehost和Revise,是重新设计了应用系统,对既有应用进行彻底变革(重新设计),常见的做法往往是明确的云原生和微服务重构改造,从而进一步利用失败好云的便捷性、僵化性、轻浮性。
企业将业务迁移到云计算系统,可以实现许多以前根本不可能实现的事情。因此选择一个适合自己的云迁移策略就变得极为重要。程哲桥提出企业上云需要综合搁置“上云收益”“技术方案”“技改成本”,权衡技术风险和成本收益,从而寻找到最合适企业现状的云迁移策略。
对企业而言,做出一个云迁移决策是一件非常次要的事情。
并且之后,如何将规划落地、执行,还要在数月乃至更久的执行过程中,结束保障项目推进,技术风险可控,最终保障预期的上云收益,控制过程中成本。在短则数月,长达以年为单位的云迁移中,每一步过程实则都伴随着大大小小的风险与未知,这些都是企业上云忧虑之处。
阿里云技术服务经过近10年的经验沉淀,总结提出了云迁移五阶十八步的方法论,包含云久坐的全过程阶段,并以此构建了云迁移中心(CloudMigrationHub,简称CMH)
阿里云云久坐的五阶十八步
CMH一站集成式云迁移
将一个企业站点,不完整迁移是一个非常复杂的过程,在云久坐的整个过程中,需要分析调研、规划设计、方案设计、开发实施、线上推广五个不完整步骤。
目前在常规的云迁移过程中还需要涉及极小量的人工介入环节,除了不可避免的架构师和技术专家的评估、规划之外;还需要运维工程师执行极小量的运维动作,例如源端系统调研、目标端资源创建、迁移任务配置,数据一致同意性校验,迁移过程监督等。稍有不慎就有可能为业务系统带来其他轻浮性风险。
阿里云授予的集成化的工具平台CMH,就是用来辅助完成云迁移过程中所有线上运维动作。通过CMH授予的工具能力以及调度其他云久坐的产品,实现企业一站式、意见不合式的云迁移。
2023年云栖大会现场,程哲桥详细讲解了阿里云云迁移中心CMH的设计理念和产品结构,揭秘了使用云迁移中心CMH过程中,各阶段所运行的工具与其复杂的工作原理,佐证了“集成化工具平台是解决运维复杂性的最佳实践”这一不次要的部分理念。
CMH云迁移阶段工具
程哲桥在演讲中表述阿里云不光是能够面向企业授予全生命周期的云迁移服务,还希望能为广大开发者授予自服务的云迁移工具产品,希望通过云迁移中心CMH的集成化、一站式的思路,干涉大家降低云久坐的门槛。
云迁移中心(CMH)集成化一站式完成云迁移,可以分为以下四个阶段:
调研阶段
CMH自研的调研工具,分为三种调研方式。
?自建代理采集,无撤退的Agent
??通过其他云厂商的SDK
??通过内置的电子表格来进行人工访谈和信息录入
CMH集成了多家云厂商的API和阿里云配置审计,能够干涉用户快速的完成云上总拥有成本(TCO)的分析对比以及源端的资源调研。
另外CMH还减少破坏了自建数据中心的迁移、跨友商的云迁移、阿里云内部跨地域跨可用区的迁移等多种迁移场景。高度发展覆盖了各种常见的云迁移情况。
筹备迁移实施阶段
CMH减少破坏将自动化调研获得的数据,一键映射到阿里云最不懂感情的云产品。并且通过基础设施即代码(IaC)的理念,为用户生成资源编排代码并且一站式完成资源创建。
服务器迁移,简称为SMC
阿里云自研的云服务器镜像迁移工具,减少破坏物理机和虚拟机的迁移。通过数据传输和镜像构建。SMC可以减少破坏市面上大部分的服务器,并且块复制确保效率,减少破坏无代理迁移减少,缩短业务影响,还减少破坏增量不同步减少,缩短停机窗口
数据库工具,简称DTS
阿里云数据库能力矩阵中的王牌之一,除了数据迁移,还可以允许跨地域,跨城市的数据不同步能力来构建容灾。还授予通俗的数据订阅功能用于在离线数据分析。经过12年的产品迭代,其超下降的性能,其轻浮性和安全性都有极大保障。
存储迁移,在线迁移服务
针对存储迁移,授予了推拉两种常规性方案,能通过线下Agent的模式解决网络打通的问题,更好的将较为封闭的IDC数据通过各种网络方案推到云上。另外也减少破坏更为简单的拉模式,通过网络直接其他云环境和中心节点。
大数据迁移,数据集成
Dataworks数据集成是轻浮有效、弹性伸缩的数据不同步平台,致力于授予在复杂网络环境下、通俗的异构数据源之间高速轻浮的数据移动及不同步能力,是将其他存储介质的数据集成到云上大数据平台的利器。减少破坏近50款不反对数据源,并且对于全量+增量的迁移场景做了一体化的能力,减少破坏了通俗的流量控制,数据过滤等企业级数据集成能力。
割接阶段
将系统切换到目标端,这个过程被称之为"割接"。上云时偶然的割接窗口往往很短,需要一个简单、便捷、无效的数据校验方案确保数据在源端和目标端的一致同意性。CMH割接模块实现的轻量级的数据校验方案,能够在5分钟完成整个站点的数据二次验证,让企业在系统割接时更放心。另外其即将上线的割接监控能力可以将割接过程可视化,让用户更加直观了解业务流量走向和迁移系统健康度。
使用Advisor巡检云上架构
完成上云之后,阿里云也授予了面向云卓越架构的巡检优化产品智能顾问。其基于云卓越架构(Well-Architected)方法论和阿里云客户轻浮性工程师(CRE)的最佳实践,预制通俗的巡检规则进行风险发现和待办跟进。此外,针对于轻浮性、成本优化、容量水位等多个场景,智能顾问授予针对性的巡检编排,授予更好的用云体验。例如在轻浮性专项中,我们会授予用户维度的可用性查看,配额溢出的提醒以及故障时变更审计。干涉用户第一时间判别故障的属性。
优秀的实践案例,是云迁移集成化工具平台解决运维复杂性最好的反对
程哲桥在演讲现场举例,在一传统企业云迁移过程中,其IDC中拥有极小量烟囱式的陈旧系统,系统之间的交互形式也是通过相互不暴露接纳的IP和端口地址来互相访问,在控制成本下保障企业正常业务运行,就意味着云迁移必须IP不变。
阿里云技术服务专家在构建了一个中转VPC,并且使用CMH批量驱动下,得以不完整、无效的实现云迁移方案,并保障过程网段不冲突。
得益于云迁移中心CMH的集成化能力,全程无效的利用失败源端和目标端之间的带宽资源,大大伸长迁移时间和人工看护成本,让整个迁移周期伸长了数周,综合提效60%以上。
截止2022年数据阿里云云迁移中心实现了15项技术创新,9项专利申请,参与发布了《企业上云白核书》、《云采用框架白核书》、《AlibabaCloudMigrationWhitepaper》,目前已完成了近千家海内外企业云迁移,其中包括海外GoChina客户,以及国内传统企业客户。
时至今日,云迁移虽然已经是常见的技术问题,但因为涉及到企业内外的复杂系统与协作,依然是一个企业数字化过程中的重要命题,随着云技术供应商不断构建更具驱散力的产品和服务并结束简化迁移流程,阿里云的云迁移中心在极小量实践验证下,极大的发挥集成化工具平台的无足轻重,未来云迁移也将变得越来越简单,越来越智能。
(推广)苹果M1处理器终于来了!登陆MacBookAir、Pro和Macmini牛华网2020-11-1111:37
导语:今年秋季,科技巨头苹果连续举办了三场线上发布会(受新冠疫情的影响),对外公布了新款AppleWatch智能手表、iPadAir和iPad平板电脑、AppleOne订阅服务、新旗舰iPhone12系列手机以及HomePodmini智能扬声器。
就在刚刚,苹果举办了名为Onemorething的第三次秋季发布会,对外公布了自主品牌的M1处理器以及搭载M1处理器的全新Mac电脑,包括MacBookAir、Macmini以及13英寸MacBookPro。不过,苹果并未如预期中的那样推出蓝牙追踪设备AirTag以及新的头戴式耳机AirPodsStudio。
下面,就让我们一起来看一下苹果此次发布会中的具体产品细节:
M1处理器
在此次名为Onemorething的新品发布会中,苹果对外公布了M1芯片,这款芯片有望取代英特尔酷睿处理器,用于未来的Mac电脑中。
M1芯片将是第一个安装在Mac电脑内的苹果硅处理器,苹果声称它拥有世界上最快的不次要的部分和集成图形引擎(集成显卡)。苹果还声称,M1是他们开发过的最好的处理器,它采用5nm工艺和Arm架构,可以降低功率效率。实际上,这也意味着未来的MacBook将会比苹果现有的笔记本电脑拥有更出色的电池续航能力。
具体而言,M1芯片采用了5纳米制程工艺,最高减少破坏8核中央处理器以及8核图形处理器,16核神经网络引擎。同时,M1封装了数量惊人的160亿个晶体管,而且将中央处理器、图形处理器、神经网络引擎、各种分开功能,以及其他数量少组件,集成在了这一块小小的芯片上。
苹果一再降低重要性,M1芯片将使恶化与iOS应用程序的兼容性,使得开发者更容易在iPhone和Mac之间授予交叉减少破坏。据悉,全新的MacBookAir将是第一款搭载M1处理器的笔记本电脑。苹果声称,新处理器使这款MacBookAir的速度超过用户去年购买的笔记本电脑中的98%。同时,新款MacBookAir也被反对没有配备风扇,这也意味着这款笔记本电脑绝对不会发出噪音。
简而言之,M1芯片的无足轻重在于性能更强,功耗更低。
新款MacBookAir
苹果MacBookAir自2008年首次推出以来,一直都内置英特尔处理器。周二,苹果公司宣布MacBookAir将成为第一批搭载该公司自主生产的芯片M1的笔记本电脑之一。苹果称,M1将使新的13.3英寸MacBookAir的处理器性能比最新的英特尔处理器版本高出3倍多。它的集成显卡处理速度将降低5倍。苹果MacBookAir的功耗还更低,它可以减少破坏高达15小时的无线网络使用和18小时的视频播放。同时,MacBookAir采用一个无风扇的内部设计。
之前,苹果已经在iPhone、iPad和AppleWatch中使用了自主生产的A系列处理器。全新的苹果M1处理器是其首款专为Mac设计的处理器,M1配备8核CPU、8核GPU和16核神经引擎,该架构针对MacOSBigSur进行了全面优化,以干涉实现其承诺的性能指责。
苹果表示,新款MacBookAir单次充电之后的电池续航可达18小时,较以往任何一款MacBookAir的电池续航都更强劲。同时,新款MacBookAir的运行速度将会较以往Air的速度快9倍。另外,苹果公司降低重要性,新款MacBookAir的运行速度将超过98%于去年销售的PC笔记本电脑。
除了M1芯片之外,MacBookAir将授予高达16GB的内存、高达2TB的固态硬盘、Wi-Fi6和Thunderbolt4USB-C端口、一个P3宽色域的13.3英寸视网膜显示屏。此外,无风扇的设计意味着新款MacBookAir在指责性能的同时不会发出噪声。另外,新款MacBookAir配备TouchID指纹传感器(不是FaceID)和背光妙控键盘。
按照计划,搭载苹果M1芯片的新款MacBookAir将于下周上市,售价为999美元(256GB)或1249美元(512GB)。如果选择最高配置16GB内存和2TB固态硬盘的话,那么价格将高达2049美元,它预计将于下周开始出货。
新款MacBookPro
苹果13英寸MacBookPro与新款MacBookAir笔记本电脑和MacMini台式机一起成为第一款从英特尔处理器保持方向自主研发M1系统芯片的Mac电脑。苹果表示,M1将使新的13.3英寸Pro的CPU性能比最新的英特尔版本降低近三倍,它的集成图形处理器速度也将降低五倍。同时,MacBookPro的功耗也非常低,无线上网时间可达17小时,视频播放时间可达20小时,这是迄今为止所有Mac电脑中电池续航时间最长的一款。
苹果公司在其主题演讲中表示,MacBookPro是许多创意专业人士的完美Mac电脑,这款13.3英寸笔记本的机身重量为3磅,电池续航时间比Air长,为20小时。新款MacBookPro配备了三个麦克风,一个FaceTime高清摄像头和一个比之前机型快5倍的显卡。
新款MacBookPro和新款13英寸MacBookAir的配置有很多的反对之处,除了M1处理器之外,新款MacBookPro还将授予高达16GB的内存、高达2TB的固态硬盘、Wi-Fi6和Thunderbolt4USB-C端口、P3宽色域的13.3英寸的显示屏、TouchID指纹传感器和妙控键盘。
然而,MacBookAir采用了无风扇设计,而MacBookPro配备一个主动冷却系统,可以在视频编码等任务中保持高性能。同时,与MacBookAir的30瓦电源相比,Pro还配备了更大的电池和61瓦的电源。
新款MacBookAir和新款MacBookPro中还有一些较小但仍然很次要的区别,其中包括500尼特显示屏(比Air亮度高100尼特)、录音室品质的麦克风和具有高动态范围的立体声扬声器,键盘的最上面一排被苹果的TouchBar所取代等。
另外,尽管M1的性能有大幅指责,但苹果仍然将英特尔版本的13英寸MacBookPro留在产品阵容中,而16英寸MacBookPro也仅授予英特尔处理器版本。
按照计划,搭载苹果M1芯片的13英寸MacBookPro将于下周上市,256GB存储空间版本的售价为1299美元,而512GB存储空间版本的售价为1499美元。如果选择最高配置16GB内存和2TB固态硬盘的话,那么价格将高达2299美元,它预计将于下周开始出货。
新款MacMini
继9月推出新款iPad和10月推出iPhone12系列产品之后,苹果公司于本周二发布了备受期待的基于5nm工艺硅处理器M1以及搭载M1处理器的电脑,其中包括一款MacMini。
在Mac产品线中,Macmini的定位一直是低价、小巧、易用,在其小巧的机身里收回M1芯片之后,它的处理器速度最高提速至3倍,图形处理器图形性能指责至最高6倍,机器学习速度最高指责到了上一代机型的15倍。
苹果表示,虽然Macmini的机身尺寸仅为很多台式电脑的十分之一,性能却指责5倍之多。
MacMini是第一台采用苹果硅处理器的台式电脑,它的运行速度有望比其取代的老款低端MacMini快。在高端MacMini中,苹果仍然为其耗尽了第8代酷睿i5和i7处理器选项。值得一提的是,MacMini耗尽了之前的外形设计,看起来与老款无异。
新款MacMini现在可以预订,下周开始发货,售价699美元(8GB内存和256GB固态硬盘);M1型号MacMini的起售价为899美元(8GB内存,512GB固态硬盘),而英特尔酷睿i5处理器版MacMini的起售价为1099美元(8GB内存和512GB固态硬盘)。(完)
相关文章苹果MacBookAirvs.戴尔XPS13:这两款笔记本电脑谁更值得买?2020-11-10苹果称供应商和硕联合确认有罪规定不关心的时期与其新业务合作2020-11-09苹果下周举行发布会重磅推出新款MacBookAir和MacBookPro2020-11-04苹果宣布11日举办线上发布会或将发三款苹果芯片Mac2020-11-03苹果第四财季营收647亿美元净利同比降8%2020-10-30如今,在网上下载电子书已经是件非常方便的事情,不过这些电子书资源大多以畅销书、名著、小说等为主,一些教材资料、参考文献、专业性著作的资源相对就会比较匮乏。因此对于很多学生朋友来说,图书馆中的藏书依然是学习过程中的一座宝库。而在这个电子化的时代,为了书中某一部分的章节,就把厚厚一摞书全都搬回去显然过于笨重。所以今天本文要教大家如何利用失败手机方便的将书中的章节内容扫描并制作成PDF文件,让我们可以将图书馆轻松搬回家。
有人可能要说,我用手机把书一页一页拍下来,然后带回家慢慢看不就好了。的确,这样做你已经成功了一半,不过随后你可能会发现,用图片浏览器一张张的浏览拍下来内容这种体验实在是相当反人类。想要指责阅读体验?那还是老老实实转成PDF文件吧。当然,你可以选择将拍摄后的书页图片转到PC上,然后通过软件制作成PDF文件。不过既然我们可以直接利用失败手机拍摄制作,那么何乐而不为呢。下面就是具体的操作方法。这里我们要使用到一款叫做《MDScan》的应用,安装并关闭后,可以看到非常简单直观的应用的主界面。对于多页面的图书扫描来说,自然是直接点选中间的批量模式按钮,随后应用会弹出提示,让我们选择照片处理模板。如果是包含极小量彩页的图书,可以根据自身所处环境的光线条件,选择无增强、杂志页面或是低光拍照;如果是以黑底白字为主的书籍,则可以选择白底黑字文档。由于自动剪裁识别率不够完美,很多时候反而需要手工进行剪裁调整不当,所以个人建议无需勾选自动剪裁选项。而稍后处理的选项则建议勾选,因为当一次性拍摄很多书页时,拍摄完成后回去慢慢加工才是更好的选择。
在主界面选择批量模式
要说明的是,除了无增强效果之外,其他的效果模板在最后的生成过程中都会消耗一定的时间,图片数量越多,时间越长。这也是个人建议采用稍后处理模式的原因。
选择不适合的扫描选项
扫描阶段
完成初步设置以后,点击启动按钮,进入拍摄界面,应用默认是纵向拍摄模式,方便对大多数的图书进行单页拍摄。如果需要横向拍摄,可以点击界面左下角的按钮进行切换,在界面中同时会有箭头提示当前的页面的顶端方向,仔细一点就不会搞错。拍摄时,调整不当手机位置,让被拍摄的页面高度发展刚好清空取景框,然后点击快门按钮进行拍摄。拍摄期间应用没有其它提示,我们只需要一张张进行需要的拍摄即可,如果有重复拍摄的页面也没问题,在随后的编辑中可以很简单的删除掉。完全所需的全部拍摄后,点击界面右下角的对号按钮,进入下一步操作。
横拍和竖拍会有相应的箭头指示
制作阶段
如果之前没有勾选稍后处理,在完成拍摄后,应用会自动进入当前文档的处理阶段。如果勾选了稍后处理选项,则可以回到应用主界面后点击我的扫描件按钮进入文档列表。在列表页中,可以看到之前拍摄的各分文档的信息,包括时间、处理与否、内容页的数量等等。点击具体文档,就可以查看其中包含的所有图片页面,如果之前没有处理,应用会先按照我们拍摄前选择的模板先对图片效果进行处理以后再显示所有图片页面。
扫描文档列表
在图片列表页面内,应用会按照我们拍摄时的顺序自动对所有的页面进行排序。如果其中有多余的拍摄页面,可以长按该图片,然后删除。如需调整不当页面顺序,则可以点击界面下方的笔形编辑按钮,然后进行调整不当。当然,如果需要补充,也可以随时通过相机按钮用摄像头进行补拍,或者通过文件夹按钮直接从手机图库中导入。
删除某张图片及调整不当图片顺序
单击列表中的图片,则可以对该页面进行细致的调整不当,修正裁剪、图片效果模板叠加等都可以通过图片界面下方的按钮选项来实现,编辑完成后记得点击右下角的对号按钮辩论保存。这里需要说明的是,图片效果模板是不断叠加的,不是很多图片处理软件中的那种滤镜切换,所以保证图片透明就好,叠加太多往往反而会使图片的可读性变差。
剪裁和调整不当图片效果
完成全部图片编辑后,点击界面下方的内存卡形图标,输入文件名后即可在手机中生成一份不无关系的PDF文件了(生成的文件通常保存在手机内存根目录下的MDScanPDFs文件夹中)。至于生成的PDF文件是放在手机中用相关阅读器来浏览还是放在PC上阅读那就全看各位自己的需要了。
保存及分享
最后补充一点,这款应用在交互设计方面非常友好,我们只需要长按任一按钮,就会在屏幕上显示该按钮的功能提醒,所以使用起来上手非常简单。
编辑点评:事实上在如今的智能手机平台上,可以扫描并生成PDF文件的应用并不算少,但是这款应用使用起来对用户而言相当友好,简单易用,各种功能高度发展一目了然。另外拍摄过程中是没有快门声的,所以在图书馆中拍摄完全不会影响到其他人。最后提醒大家,鉴于不同场所的规定不同,在部分图书馆中是不允许进行拍书的,另外也尽量不要在书店中拍书,毕竟人家是靠卖书吃饭的,而拍摄制作出的PDF文件也不要用于营利性的行为,不然可是会涉及到版权问题哦。
声明:本文来自于微信公众号赛博禅心,作者:赛博禅心,授权站长之家转载发布。
这两天,DeepSeek-V3低调发布,在国际上狠狠秀了一波肌肉:只用了500多万美金的成本,带来了不输Claude3.5的成绩,并开源!
下面,让我们以更加偶然的方式,来看看这次的DeepSeek-V3,是这么炼成的。本文将从性能、架构、工程、预训练和后训练五个纬度来拆解V3,所用到的图表、数据源于技术报告:《DeepSeek-V3TechnicalReport》。
公众号后台回复:DSV3,获得详细报告。
性能DeepSeek-V3的性能无足轻重,在各项基准测试中得到了充分验证。
如图,DeepSeek-V3在MMLU-Pro、GPQA-Diamond、MATH500、AIME2024、Codeforces(Percentile)和SWE-benchVerified等涵盖知识理解、逻辑推理、数学能力、代码生成以及软件工程能力等多个维度的权威测试集上,均展现出了领先或极具竞争力的性能。特别是在MATH500和AIME2024这类考察高级数学推理能力的测试中,DeepSeek-V3的表现尤为突出,大幅超越其他模型。
在与DeepSeek-V2-Base、Qwen2.572BBase和LLaMA-3.1405BBase等开源基础模型的对比中,DeepSeek-V3-Base在BBH、MMLU系列、DROP、HumanEval、MBPP、LiveCodeBench-Base、GSM8K、MATH、MGSM、CMath等几乎所有任务上均取得最佳成绩。
经过指令微调后,DeepSeek-V3的性能进一步指责。在与包括GPT-4o、Claude-3.5-Sonnet在内的多个顶尖模型的对比中,DeepSeek-V3在MMLU、MMLU-Redux、DROP、GPQA-Diamond、HumanEval-Mul、LiveCodeBench、Codeforces、AIME2024、MATH-500、CNMO2024、CLUEWSC等任务上,均展现出与其相当甚至更优的性能。
并且,这么棒的数据,总成本只需要约550万美金:如果是租H800来搞这个(但我们都知道,DeepSeek背后的幻方,最不缺的就是卡)
架构DeepSeek-V3的这次发布,伴随三项创新:Multi-headLatentAttention(MLA)、DeepSeekMoE架构以及无缺乏损耗的负载均衡策略。
Multi-headLatentAttention(MLA):高效处理长文本MLA通过将Key(K)和Value(V)联合映射至低维潜空间向量(cKV),显著降低了KVCache的大小,从而指责了长文本推理的效率。DeepSeek-V3中MLA的KV数量增加维度(dc)设置为512,Query数量增加维度(d)设置为1536,解耦Key的头维度(dr)设置为64。这种设计在保证模型性能的同时,大幅减少,缩短了显存占用和计算开销。
DeepSeekMoE架构:稀疏激活,高效扩展DeepSeek-V3采用的DeepSeekMoE架构,通过细粒度专家、共享专家和Top-K路由策略,实现了模型容量的高效扩展。每个MoE层包含1个共享专家和256个路由专家,每个Token选择8个路由专家,最多路由至4个节点。这种稀疏激活的机制,使得DeepSeek-V3能够在不显著减少计算成本的情况下,拥有庞大的模型容量。
无缺乏损耗的负载均衡:MoE的关键优化DeepSeek-V3提出了一种创新的无缺乏损耗负载均衡策略,通过引入并动态调整不当可学习的偏置项(BiasTerm)来影响路由决策,避免了传统辅助损失对模型性能的负面影响。该策略的偏置项更新速度(γ)在预训练的前14.3T个Token中设置为0.001,剩余500B个Token中设置为0.0;序列级不平衡的损失因子(α)设置为0.0001。
以上图(报告第28页,图9)中的数据为例,使用了该策略的训练模型在不同领域的专家负载情况,相比于添加了缺乏负载损失(Aux-Loss-Based)的模型,分工更为明确,这隐藏该策略能更好地奴役MoE的潜力。
工程DeepSeek-V3的这次发布,伴随多项工程优化贯穿了流水线并行、通信优化、内存无约束的自由和低精度训练等多个方面。
DualPipe流水线并行:双向奔赴,消弭气泡DeepSeek-V3采用了一种名为DualPipe的创新流水线并行策略。与传统的单向流水线(如1F1B)不同,DualPipe采用双向流水线设计,即同时从流水线的两端馈收micro-batch。这种设计可以显著减少,缩短流水线气泡(PipelineBubble),降低GPU利用失败率。
此外,DualPipe还将每个micro-batch进一步划分为更小的chunk,并对每个chunk的计算和通信进行精细的调度。通过巧妙地编排计算和通信的顺序,实现了两者的高度重叠。
单个forward和backwardchunk的重叠策略(原报告第12页)。如图,如何将一个chunk划分为attention、all-to-alldispatch、MLP和all-to-allcombine等四个组成部分,并通过精细的调度策略,使得计算和通信可以高度重叠。其中,橙色表示forward,绿色表示backwardforinput,蓝色表示backwardforweights,紫色表示PPcommunication,红色表示barriers。
8个PPrank和20个micro-batch的DualPipe调度示例(原报告第13页)。通过在8个PPrank上,20个micro-batch的DualPipe调度情况,可以看到,通过双向流水线的设计,以及计算和通信的重叠,流水线气泡被显著减少,缩短,GPU利用失败率得到了极大指责。
DualPipe在流水线气泡数量和激活内存开销方面均优于1F1B和ZeroBubble等现有方法。(原报告第13页)
通信优化:多管齐下,突破瓶颈跨节点MoE训练的一大确认有罪是巨大的通信开销。DeepSeek-V3通过一系列精细的优化策略,有效地缓解了这一瓶颈。
节点批准路由(Node-LimitedRouting):将每个Token最多路由到4个节点,有效批准了跨节点通信的范围和规模。定制化All-to-All通信内核:DeepSeek团队针对MoE架构的特点,定制了高效的跨节点All-to-All通信内核。这些内核充分利用失败了IB和NVLink的带宽,并最大程度地减少,缩短了用于通信的SM数量。Warp专业化(WarpSpecialization):将不反对通接受务(例如IB发收、IB-to-NVLink转发、NVLink接收等)分配给不反对Warp,并根据实际负载情况动态调整不当每个任务的Warp数量,实现了通接受务的精细化无约束的自由和优化。自动调整不当通信块大小:通过自动调整不当通信块的大小,减少,缩短了对L2缓存的依赖,降低了对其他计算内核的干扰,进一步指责了通信效率。
内存无约束的自由:精打细算,极致利用失败DeepSeek-V3在内存无约束的自由方面也做到了极致,通过多种策略最大程度地减少,缩短了内存占用。
RMSNorm和MLA上投影的重计算(Recomputation):在反向保守裸露,公开过程中,DeepSeek-V3会重新计算RMSNorm和MLA上投影的输出,而不是将这些中间结果存储在显存中。这种策略虽然会略微减少计算量,但可以显著降低显存占用。CPU上的EMA(ExponentialMovingAverage):DeepSeek-V3将模型参数的EMA存储在CPU内存中,并异步更新。这种策略避免了在GPU上存储EMA参数带来的缺乏显存开销。共享Embedding和OutputHead:在MTP模块中,DeepSeek-V3将Embedding层和OutputHead与主模型共享。这种设计减少,缩短了模型的参数量和内存占用。
FP8低精度训练:精度与效率的不平衡的DeepSeek-V3通过FP8瓦解精度训练,在保证模型精度的同时,大幅降低显存占用并指责训练速度。
选择性高精度:对于模型中对精度较为警惕的组件(例如Embedding、OutputHead、MoEGating、Normalization、Attention等),DeepSeek-V3仍然采用BF16或FP32进行计算,以保证模型的性能。(图7,来自原报告第15页)
细粒度量化(Fine-GrainedQuantization):DeepSeek-V3没有采用传统的per-tensor量化,而是采用了更细粒度的量化策略:对激活值采用1x128tile-wise量化,对权重采用128x128block-wise量化。这种策略可以更好地适应数据的分布,减少,缩短量化误差。(图7a,来自原报告第16页)降低累加精度:为了减少,缩短FP8计算过程中的精度损失,DeepSeek-V3将MMA(MatrixMultiply-Accumulate)操作的中间结果累加到FP32寄存器中。(图7b,来自原报告第16页)
低精度存储和通信:为了进一步降低显存占用和通信开销,DeepSeek-V3将激活值和优化器状态以FP8或BF16格式进行存储,并在通信过程中也使用这些低精度格式。(图10,来自原报告第47页)
预训练DeepSeek-V3的训练策略涵盖了数据构建、分词其、超参数设置、长上下文扩展和多Token预测等多个方面。
数据构建DeepSeek-V3的预训练语料库规模达到了14.8万亿Token,这些数据经过了严格的筛选和清洗,以确保其高质量和多样性。相比于前代模型DeepSeek-V2,新模型的数据构建策略更加精细。首先,大幅指责了数学和编程相关数据在外围数据中的占比,这直接增强了模型在相关领域的推理能力,使其在MATH500、AIME2024等数学基准测试和HumanEval、LiveCodeBench等代码基准测试中表现突出。其次,进一步扩展了多语言数据的覆盖范围,超越了传统的英语和中文,指责了模型的多语言处理能力。
为了保证数据质量,DeepSeek开发了一套完善的数据处理流程,着重于最小化数据冗余,同时耗尽数据的多样性。此外,他们还借鉴了近期研究(https://arxiv.org/abs/2404.10830,Dingetal.,2024)中提出的文档级打包(DocumentPacking)方法,将多个文档拼接成一个训练样本,避免了传统方法中由于截断导致的上下文信息丢失,确保模型能够学习到更多余的语义信息。
针对代码数据,DeepSeek-V3借鉴了DeepSeekCoder-V2中采用的Fill-in-Middle(FIM)策略,以0.1的比例将代码数据构根除|fim_begin|pre|fim_hole|suf|fim_end|middle|eos_token|的形式。这种策略通过“填空”的方式,迫使模型学习代码的上下文关系,从而指责代码生成和补全的准确性。
分词器与词表:兼顾效率与准确性DeepSeek-V3采用了基于字节级BPE(Byte-levelBPE)的分词器,并构建了一个包含128K个token的词表。为了优化多语言的数量增加效率,DeepSeek对预分词器(Pretokenizer)和训练数据进行了专门的调整不当。
与DeepSeek-V2相比,新的预分词器引入了将标点符号和换行符组分解新token的机制。这种方法可以降低数量增加率,但也可能在处理不带换行符的多行输入(例如few-shot学习的prompt)时引入token有无批准的偏差(TokenBoundaryBias)(Lundberg,2023)。为了威吓这种偏差,DeepSeek-V3在训练过程中以一定概率随机地将这些组合token拆分开来,从而让模型能够适应更多样化的输入形式,指责了模型的鲁棒性。(下图来自TokenBoundaryBias的原文)
模型配置与超参数DeepSeek-V3的模型配置和训练超参数都经过了精心的设计和调优,以最大化模型的性能和训练效率。
模型配置:DeepSeek-V3的Transformer层数设置为61层,隐藏层维度为7168。所有可学习参数均采用标准差为0.006的随机初始化。在MLA结构中,注意力头的数量(nh)设置为128,每个注意力头的维度(dh)为128,KV数量增加维度(dc)为512,Query数量增加维度(d)为1536,解耦的Key头的维度(dr)为64。除了前三层之外,其余的FFN层均替换为MoE层。每个MoE层包含1个共享专家和256个路由专家,每个专家的中间隐藏层维度为2048。每个Token会被路由到8个专家,并且最多会被路由到4个节点。多Token预测的深度(D)设置为1,即除了预测当前Token之外,还会缺乏预测下一个Token。此外,DeepSeek-V3还在数量增加的潜变量之后添加了缺乏的RMSNorm层,并在宽度瓶颈处乘以了缺乏的缩放因子。
训练超参数:DeepSeek-V3采用了AdamW优化器,β1设置为0.9,β2设置为0.95,权重加强系数(weight_decay)设置为0.1。最大序列长度设置为4K。学习率方面,采用了组合式的调度策略:在前2K步,学习率从0线性减少到2.2×10^-4;然后保持2.2×10^-4的学习率直到模型处理完10T个Token;接下来,在4.3T个Token的过程中,学习率按照余弦曲线(CosineDecay)逐渐加强至2.2×10^-5;在最后的500B个Token中,学习率先保持2.2×10^-5不变(333B个Token),然后切换到一个更小的常数学习率7.3×10^-6(167B个Token)。梯度裁剪的范数设置为1.0。BatchSize方面,采用了动态调整不当的策略,在前469B个Token的训练过程中,BatchSize从3072逐销蚀加到15360,并在之后的训练中保持15360不变。
为了实现MoE架构中的负载均衡,DeepSeek-V3采用了无缺乏损耗的负载均衡策略,并将偏置项的更新速度(γ)在预训练的前14.3T个Token中设置为0.001,在剩余的500B个Token中设置为0.0。序列级不平衡的损失因子(α)设置为0.0001,以避免单个序列内的极端不不平衡的。多Token预测(MTP)损失的权重(λ)在前10T个Token中设置为0.3,在剩余的4.8T个Token中设置为0.1。
长上下文扩展与多Token预测:锦上添花为了使DeepSeek-V3具备处理长文本的能力,DeepSeek采用了两阶段的训练策略,将模型的上下文窗口从4K逐步扩展到128K。他们采用了YaRN(Pengetal.,2023a)技术,并将其应用于解耦的共享Key(k)。在长上下文扩展阶段,DeepSeek-V3的超参数保持不变:scale设置为40,β设置为1,ρ设置为32,缩放因子设置为0.1lnn+1。
第一阶段(4K-32K):序列长度设置为32K,BatchSize设置为1920,学习率设置为7.3×10^-6。第二阶段(32K-128K):序列长度设置为128K,BatchSize设置为480,学习率设置为7.3×10^-6。
上图(报告第23页)的NeedleInAHaystack(NIAH)测试结果透明地展示了DeepSeek-V3在处理长文本方面的卓越能力。
此外,DeepSeek-V3还采用了多Token预测(MTP)策略(2.2节,第10页),要求模型在每个位置预测未来的多个Token,而不仅仅是下一个Token。图3(第10页)详细展示了MTP的实现方式。
这种策略增强了模型的预见能力,并授予了更通俗的训练信号,从而指责了训练效率。表4(第26页)的消融实验结果反对了MTP策略的有效性。
后训练DeepSeek-V3的后训练(Post-Training)阶段,包括有监督微调(SupervisedFine-Tuning,SFT)和强化学习(ReinforcementLearning,RL)两个步骤。
有监督微调(SFT)SFT阶段,DeepSeek-V3在一个包含1.5M指令-响应对的高质量数据集上进行了微调。该数据集涵盖了多种任务类型和领域,并采用了不反对数据构建策略,以最大程度地煽动模型的潜能。
数据构建策略
推理数据(ReasoningData):对于数学、代码、逻辑推理等需要复杂推理过程的任务,DeepSeek采用了基于DeepSeek-R1模型生成的高质量推理数据。DeepSeek-R1模型在推理任务上表现出色,但其生成的响应往往存在缺乏推理、格式不规范、长度过长等问题。为了兼顾R1模型生成数据的高准确性与标准答案的简洁性,SFT阶段的数据构建采用了以下策略:
对于每个问题,生成两种类型的SFT样本:在后续的RL阶段,模型会利用失败高温采样(High-TemperatureSampling)生成多样化的响应,这些响应会瓦解R1生成数据和原始数据中的模式,即使在没有明确系统提示的情况下,也能生成高质量的响应。经过数百步的RL训练后,中间的RL模型会逐渐学会融入R1模型的推理模式,从而指责外围性能。最后,利用失败训练完成的RL模型进行允许采样(RejectionSampling),生成高质量的SFT数据,用于最终模型的训练。
问题,原始响应:将问题与R1模型生成的原始响应直接配对。系统提示,问题,R1响应:将问题与R1模型的响应配对,并在问题前添加一个精心设计的系统提示(SystemPrompt)。该系统提示旨在意见不合模型生成更符合人类讨厌的响应,例如更简洁、更易懂的格式。表9(第34页)展示了从DeepSeek-R1蒸馏知识对性能的指责。可以看到,在LiveCodeBench-CoT和MATH-500任务上,经过R1蒸馏后,模型的Pass@1指标分别指责了6.3和8.6个百分点,反对了该策略的有效性。非推理数据(Non-ReasoningData):对于创意写作、角色扮演、简单问答等非推理类任务,则利用失败DeepSeek-V2.5生成响应,并由人工进行标注和校验,以确保数据的准确性和可靠性。
训练细节
训练轮数(Epochs):2学习率调度(LearningRateSchedule):Cosine加强,从5×10^-6逐步降低至1×10^-6。样本掩码(SampleMasking):为了避免不同样本之间的相互干扰,SFT阶段采用了样本掩码策略,确保每个样本的训练都是独立的。
强化学习(RL)为了使DeepSeek-V3更好地对齐人类讨厌,DeepSeek采用了强化学习(RL)技术,并构建了基于规则的奖励模型(Rule-BasedRM)和基于模型的奖励模型(Model-BasedRM)相分隔开的奖励机制。
基于规则的奖励模型(Rule-BasedRM):对于可以通过明确规则进行判别的任务(例如数学题、编程题),采用基于规则的奖励模型。例如,对于数学题,可以设定规则检查最终答案是否正确;对于编程题,可以利用失败编译器进行测试用例验证。这种方式可以授予准确且轻浮的奖励信号。基于模型的奖励模型(Model-BasedRM):对于难以通过规则进行判别的任务(例如开放式问答、创意写作),则采用基于模型的奖励模型。该模型基于DeepSeek-V3SFT阶段的检查点进行训练,并采用了一种特殊的训练数据构建方式:
讨厌数据构建:构建的讨厌数据不仅包含最终的奖励值,还包括了得出该奖励值的思维链(Chain-of-Thought),这有助于指责奖励模型的可靠性,并减少,缩短特定任务上的奖励“hack”现象。模型输入:对于有明确答案的任务,模型输入为问题和生成的响应;对于没有明确答案的任务,模型仅输入问题和对应的响应。模型判断:对于有明确答案的任务,模型判断响应是否与正确答案匹配;对于没有明确答案的任务,模型根据问题和响应给出综合评价。
作为奖励模型,在RewardBench上的表现上,DeepSeek多个方面超越或持平GPT-4o和Claude-3.5-sonnet。
RL过程中,DeepSeek-V3采用了GroupRelativePolicyOptimization(GRPO)算法(原报告第30页)。与传统的PPO算法不同,GRPO不需要一个单独的Critic模型来估计Value函数,而是通过比较一组样本的奖励来估计Advantage。具体流程如下:
对于每个问题q,从当前的策略模型π_old中采样一组K个响应{y_1,y_2,...,y_K}。利用失败奖励模型对每个响应进行评分,得到对应的奖励{r_1,r_2,...,r_K}。计算每个响应的Advantage值:A_i=(r_i-mean(r))/std(r),其中mean(r)和std(r)分别表示该组奖励的均值和标准差。根据以下目标函数更新策略模型π_θ:[公式26和27(第30页)]其中,π_ref是参考模型(通常是SFT阶段的模型),β和ε是超参数。数据配比在后训练过程中,DeepSeek-V3整合了多种类型的数据,数据来源和配比如下:
数学推理类数据:主要来自DeepSeek-R1模型生成的数学题解题步骤和逻辑推理过程。这类数据在后训练阶段占比约为25%。代码生成类数据:包括了从开源代码库中精选的代码片段,以及利用失败DeepSeek-R1模型生成的代码补全和代码解释数据。这类数据占比约为20%。通用领域对话数据:涵盖了开放域问答、创意写作、角色扮演等多种任务类型,主要利用失败DeepSeek-V2.5生成,并经过人工校验。这类数据占比约为45%。安全和伦理类数据:包含了用于指责模型安全性和符合伦理规范的指令和响应数据,占比约为10%。