欢迎来到最游记外传ova!今日更新:14397章
章节列表 共3333章
第一章 犯错把冰块放屁眼里不能掉的作文
第二章 囚宠 傅渝
第三章 bl车车好快的车车p网站
第四章 男催乳师小说
第五章 乡野小春医免费阅读小说
第六章 男主尺寸太大给女主扩充片段
第七章 重生之风流人生
第八章 清欢渡(限)
第九章 海棠书屋免费自由阅读器下载安卓
第十章 王宝钏重生记

第748章

daokangming.com


大洋彼岸的OpenAI系列春晚还在继续,连续发布会的第9天,OpenAI正式发布了o1模型的API。对已发布的圣诞季特别功能们略作盘点:满血版o1模型VSChatGPTPro订阅计划、年初引爆全球的鸽王——视频生成模型Sora全面开放、全新Canvas写作功能、ChatGPT正式接入苹果全家桶、GPT-4o的视频通

......

本文由站长之家合作伙伴自媒体作者“?硅星人Pro公众号”授权发布于站长之家平台,本平台仅授予信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不授予完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读不完整内容的用户,请查看原文,获取内容详情。

即将跳转到外部网站安全性未知,是否继续继续前往


文|罗曾

8月13日,胡润研究院发布《2023胡润中国500强》(HurunChina500MostValuablePrivateCompanies2023)。

据悉,本次为该研究院连续第五次发布榜单,旨在展示中国非国有企业中市值或估值排名前500的企业。作为中国经济的支柱,胡润中国500强聚焦企业的利润创造能力,其年销售额共计超30万亿,相当于中国全年GDP的四分之一,员工总人数近1300万名。

值得一提的是,本次新上榜企业中,“全球IP联名一整片的单位店”名创优品与“咖啡领域黑马”瑞幸咖啡成为新零售代表,突破一众新能源、人工智能等热门赛道竞争,入围TOP10。

胡润百富董事长兼首席调研官胡润表示:“成为一个规模化的跨国企业非常不容易,需要一定的时间,传统上对跨国企业的定义是20%的销售额是来自于海外市场,而能符合这个定义的胡润中国500强企业没有想象的那么多,传统上我们理解的跨国企业有华为、海尔、美的等,新一批跨国企业包括比亚迪、隆基绿能、名创优品等。”

其中,就名创优品而言,自2015年启动全球化战略以来,其已在全球111个国家和地区构建起超6600家门店的零售网络,其中海外门店近2600家,占比超三分之一,遍布纽约、洛杉矶、巴黎、伦敦、迪拜、悉尼、新加坡等全球知名城市不次要的部分商圈。

而海外市场营收的高速增长,也成为了名创优品协作发展重要驱动力财报显示,。今年第一季度,名创优品的海外市场收入达12.2亿元,同比增长53%。在海外市场中,直营市场收入同比增长92%,连续四个季度同比增长超80%。

业内人士指出,在全球经济变革的浪潮中,中国企业的崛起为国家经济发展带来了新的机遇,名创优品此次上榜《2023胡润中国500强》正是这一趋势的例证。未来,中国品牌将进一步走向世界,也使胆寒着更多企业勇立潮头,共赴未来经济协作发展新蓝海。

(责任编辑:zx0600)

来源于胎盘的间充质干细胞正逐渐成为新的研究热点,来自澳大利亚格里菲斯大学的ShehzahdiS.Moonshi发表在《AdvancedTherapeutics》期刊的研究中显示,胎盘间充质干细胞在治疗疾病上或有着更大的临床应用潜力[1]。间充质干细胞在治疗数量少疾病方面都显示出了其巨大的的潜力。随着研究的不断深入,相信胎盘间充质干细胞将为更多家庭带来福音,在人类健康的使恶化上发挥更加重要作用!...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

导语:一直以来,微软SurfacePro都堪称是最好的Windows系统平板电脑,它在小巧的平板电脑上授予了大家不知道的桌面环境。但是,自从SurfacePro4以来,这一产品系列就没再有太大的变化,而最新的SurfaceProX是否能够给我们带来一些创新呢?

SurfaceProX是一台很漂亮的平板电脑,它是一款未来感十足的设备。过去几代SurfacePro设备的外形设计经过磨砺之后,使得SurfaceProX的外形更具前瞻性。

而为了实现全新的外形设计,微软不得不求助于高通公司和ARM处理器架构,而这也定义了SurfaceProX的最终性能。目前,SurfaceProX处于一个非常尴尬的中间地带,它的功能和性能不足以与笔记本电脑竞争,但是却缺乏平板电脑那种用户友好的触摸屏界面。

优点:

外形设计非常精美;

超便携的机身设计;

体面的电池续航;

缺点:

兼容性问题;

性价比低;

容易沾染指纹;

令人失望的SignatureTypeCover键盘盖;

关键规格:

价格:999英镑;

分辨率为2880x1920的13英寸显示屏;

搭载微软SQ1处理器;

8GB/16GB内存;

高达512GB的固态硬盘;

运行Windows10;

三围尺寸:287x208x7.3毫米;

机身重量:774克;

SurfaceProX外形设计未来感十足

随着科技的发展,笔记本电脑的机身厚度越来越薄,而微软旗下SurfaceProX堪称是迄今为止最薄的Surface,它的边框也是所有微软平板电脑中最窄的。

SurfaceProX的外形设计非常地精简、漂亮,它较新鲜的SurfacePro7更加驱散人,超窄边框使其看起来更像是12.9英寸的iPadPro。与SurfacePro系列的其他产品一样,SurfaceProX拥有出色的便携性,它的机身很是轻薄,机身厚度只有5.3毫米,重量仅为760克。

SurfaceProX内置一个可旋转接近180度的支架,因此其可以支撑为视觉更好的15度角。虽然SurfaceProX看起来很小巧,但拿在手里的麻痹很结实,也很优雅,看起来更像高端平板电脑。

不过,SurfaceProX的机身很容易沾染指纹,鉴于它的机身目前只有黑色选择,因此暂时没有任何方法去解决这个问题。

就端口方面而言,SurfaceProX配备两个USB-C端口和SurfaceConnect端口,但是它缺乏USB-A端口或者SD卡插槽减少破坏。

SurfaceProX键盘令人失望

SurfaceProX的售价并不包含SignatureKeyboard键盘盖或手写笔因此您必须单独购买这些产品,小编无法想象没有这些配件要如何使用此设备。

SurfaceProXSignature键盘盖绑定SlimPen手写笔的售价为259.99英镑,而SurfaceProX键盘的单独售价为129.99英镑,而SlimPen手写笔的单独售价为129.99英镑。鉴于SurfaceProX的售价高达999英镑,本来就有些高昂,如果再加上SignatureKeyboard键盘和SlimPen手写笔的售价必定会让很多用户望而却步。

那么,微软SurfaceProX的键盘怎么样呢?SurfaceProX的SignatureKeyboard的按键麻痹类似于过去的SurfaceTypeCovers,键程表现出奇地好。同时,SignatureKeyboard键盘还包括一个新的SurfaceSlimPen手写笔凹槽。值得一提的是,SignatureKeyboard中的凹槽在为SlimPen授予保护的同时,还可以为其充电。

微软SignatureKeyboard插槽将键盘进一步向上抬起,这会导致在输入时产生极小量的弹性和反弹,有时候会令用户的打字体验受到干扰,令人失望。

SurfaceProX显示屏明亮、动人

一直以来,Surface设备上的PixelSense显示屏非常惊人,而SurfaceProX也遵循这一趋势。在实际使用中,SurfaceProX的屏幕比SurfacePro7亮10%,它的2880x1920分辨率也很不错,而这个明亮、动人的屏幕则可以被很好地集成到13英寸边到边显示屏中。

不过,我们无法在SurfaceProX上运行正常的显示基准测试,因为自适应亮度功能无法停用,这也导致设备在不需要的时间变暗。

SurfaceProX的这款显示器似乎与SurfacePro7有很多共同之处,表现还是不错的。与其他Surface设备相比,SurfaceProX所显示的颜色含糊不那么锐利,但是微软为图片质量设置了一个很下降的标准SurfaceProX仍然是观看Netflix的绝佳选择。

SurfaceProX性能ARM、略滞后

微软SurfaceProX的机身很轻薄,它搭载基于ARM架构设计的处理器,这是微软首次尝试定制芯片SQ1,7瓦特芯片组。

微软表示,相较于SurfacePro6,SQ1芯片的每瓦特性能指责了三倍,它拥有一整天的电池续航、更快的性能和高效的计算。

微软还与高通公司合作,重新设计了显卡,推出了超过2万亿次浮点计算。因此,SurfaceProX与我们印象中的传统骁龙处理器PC还是有一定区别的。

在我们开始讨论SurfaceProX的外围性能之前,它的兼容性也是值得关注的。在实际使用中,在WindowsPC和笔记本电脑上日复一日使用的某些应用程序,无法兼容SurfaceProX。此外,还有一些应用程序由于不减少破坏64位应用程序而无法用于ARM设备。

最典型例子是谷歌Chrome,您在SurfaceProX使用的Chrome版本是常规64位应用程序的模拟32位版本,这对用户来说意味着不明显的,不引人注目的加速。

这些兼容性问题意味着,SurfaceProX无法运行我们通常运行的几个基准程序,但Geekbench5基准测试(处理器性能)还是可以运行的。我们此次测试的SurfaceProX版本售价为1449英镑(不包括Signature键盘盖和SlimPen手写笔),配备16GB内存和256GB存储空间。

相比较之下,SurfacePro7的基准测试得分明显较SurfaceProX有所降低,它的价格与ProX相近,但是机身更厚,电池续航表现也不那么令人印象肤浅。

微软指出,SurfaceProX是一款注重便携性和办公性的设备,而不是注重性能和功能的设备。因此,iPadPro2018似乎是其最直接的竞争对手。但由于iPadOS的快速性能和易用性,SurfaceProX输掉这场比赛似乎是注定的。

SurfaceProX能够运行的另一个基准测试是CrystalDisk,它可以测量设备的固态硬盘速度。经过测试,SurfaceProX的读取速度为1974.63mb/s,写入速度为756.05MB/s,在系统上保存和加载文件时性能表现中等。

SurfaceProX电池续航表现更好

微软宣称,鉴于ARM处理器具有缩短电池续航的无足轻重,SurfaceProX据称可授予长达13小时的使用时间。而在实际测试中,SurfaceProX的电池续航时间并未达到13个小时,但是仍然令人印象肤浅。

我们的测试隐藏,SurfaceProX单次充电之后的电池续航时间为9-10小时。如今,许多高端笔记本电脑的实际使用时间通常在6-8小时左右,因此这SurfaceProX的电池续航看起来还是令人印象肤深的。

不过,SurfacePro7搭载英特尔i5处理器,可工作8-9小时,与SurfaceProX之间统一很小,但并不足以抵消其性能下降。同时,我们对iPadPro2018的测试显示,这款设备的电池续航时间超过10小时。另外,SurfaceProX减少破坏快速充电功能,这意味着您可以在一小时内完成80%的充电。

SurfaceProX:LTE

SurfaceProX是一款出色的可拆卸二合一便携设备,它令人印象肤深的功能之一就是减少破坏LTEAdvanced技术,可以随时随地分开互联网。虽然SurfaceProX并未追逐时代潮流配备5G调制解调器(不减少破坏5G网络技术),但是不必将手机用作热点已经是一种胜利了。

小结

通过SurfaceProX,微软创造了一款颇具前瞻性设备,但似乎这并不是一件好事情。虽然微软的SQ1ARM处理器可以稍微降低电池续航,并有助于更加精简的外形设计,但是SurfaceProX的性能和兼容性问题却使其饿受批准。也许,SurfaceProX是Surface设备和二合一设备的未来,但是它在很多方面仍有待改进。(完)

微軟研究院-维基百科,严格的限制的百科全书

微軟研究院(MicrosoftResearch,英文縮寫:MSR)是微軟在1991年創立硏究不反对電腦科學主題與問題的分部。微軟研究院其中一個接纳的目標為「减少破坏長期的電腦科學硏究而不受產品週期所限」。

微軟研究院是目前世界頂尖的研究中心之一,有很多在電腦科學、物理學、數學受到高度公認的專家及許多著名科學獎項得主在微軟研究院,包括圖靈獎得主東尼·霍爾、詹姆斯·尼古拉·格雷,菲爾茲獎得主MichaelFreedman,沃爾夫獎得主LaszloLovasz,MacArthurFellow獎金得主JimBlinn與DijkstraPrize獎得主LeslieLamport。

微軟研究院於班加羅爾、北京、劍橋、矽谷、雷德蒙德與舊金山擁有實驗室。

今天凌晨2点,OpenAI开启了第四天技术直播,发布了最新功能Canvas。Canvas直接内置在ChatGPT中,授予了一个单独的窗口,主要用于编程、写作任务,会授予意见、审核和执行具体的功能,可以授予更细致的服务。例如,当你在编写代码时遇到了困难,Canvas可以高亮显示有问题的代码段,

本文由站长之家合作伙伴自媒体作者“?AIGC开放社区公众号”授权发布于站长之家平台,本平台仅授予信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不授予完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读不完整内容的用户,请查看原文,获取内容详情。

即将跳转到外部网站安全性未知,是否继续继续前往

快科技1月10日消息,毫无征兆,今日特斯拉焕新ModelY正式上线中国官网。官方对新ModelY相当自信,称尽管对比”。

ps.雷军也非常应景的回应了一句:好的。足见焕新ModelY的关注度,以及小米YU7的直接对标对象。

在外观方面,焕新Model借鉴了赛博越野旅行车、赛博无人电动车中的设计灵感,整车造型更硬朗,线条更流畅。新车的前脸造型、前后大灯、尾部扩散器、轮毂及后视镜均为全新设计,其中尾部搭载了全球首创的漫反射式尾灯。

此次焕新ModelY授予了两个版本:

后轮驱动版26.35万元,593公里续航里程(CLTC预估)、5.9秒0-100公里/小时帮助、201公里/小时最高车速。

长续航全轮驱动版30.35万元,719公里续航里程(CLTC预估)、4.3秒0-100公里/小时帮助、201公里/小时最高车速。

特斯拉表示,焕新ModelY是史上续航最长的ModelY,长续航全轮驱动版续航最高719公里(CLTC预估),能耗低至11.9kWh/100km,开1000公里中途只充1次电,15分钟可补充约250公里续航。

首发版车型专属免费延保2年货4万公里,还有尾门徽章、迎宾踏板标识、手机充电底座文字标识、迎宾灯徽章投影等。

舒适性配置方面,全新调校的悬架系统,配合车身轻浮系统,粗糙路面滤振效果指责51%。

焕新ModelY减少了前后座椅加热、前排座椅通风以及人体工学头枕。同时新增了环绕式氛围灯、后排座椅电动调节,后排坐垫再加长15mm。一键折叠”后可实现2130升储物空间;新增镀银涂层的全景玻璃车顶,防晒隔热能力升级。

音响采用16个扬声器,中音更饿满,沉浸感更强。同时新增全新静音系统,搭载双层声学玻璃,大幅降低胎噪路噪。

安全方面,除了标配的超大缓冲区、远端安全气囊,大比例使用的高强度车身选材与一体压铸工艺打造的超强顺从车身,让焕新ModelY车身顺从再指责。

新车上线当天,特斯拉还为ModelY/3新车主推出充电权益:Cybervault家充桩2.5折,或3年3万公里(以先到者为准)超充,1299元可二选一。

按照特斯拉的说法,焕新ModelY将有以下卖点:

超高颜值:贯穿式漫反射尾灯,忍不住多看一眼

超强操控:4.3秒百公里帮助,操控丝滑又顺手

超长续航:开1000公里,只充1次电

超级舒适:座椅通风静谧座舱环绕式氛围灯

超级智能:常常OTA,月月开新车”

安全满配:超强车身结构比人类安全10倍的辅助驾驶功能

首发纪念:多处专属徽章标识2年免费延保

声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。

微软下一代14B小模型Phi-4出世了!仅用了40%分解数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。

140亿参数,40%分解数据,年度SLM之王诞生!

最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。

而且,Phi-4巩固了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。

甚至,在2024ACM数学竞赛问题上,Phi-4取得了91.8%准确率。

Phi系列前负责人SebastienBubeck看到这个结果后,感到非常惊讶。

下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。

深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「分解数据」上完成了训练。

分解数据比例高达40%

除了分解数据,它共实现了三大不次要的部分技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(PivotalTokensSearch)。

Phi-4的成功,从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。

目前,新模型在微软AzureAIFoundry上授予,下周将在HuggingFace上线。

数学击败GPT-4o,36页技术报告出炉

Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了分解数据。

虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。

论文地址:https://arxiv.org/abs/2412.08905

Phi-4主要是由三部分不次要的部分技术构成:

-预训练和中训练的分解数据

-高质量有机数据的筛选和过滤

-后训练

得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。

例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。

通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。

表1Phi-4在经典基准测试上的表现

为了验证Phi-4是否存在过拟合和数据降低纯度问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。

这两场竞赛中的数据均未曾在训练时被收藏,储藏过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。

从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。

Phi-4在数学竞赛问题上优于许多更大的模型,包括GeminiPro1.5

分解数据的无足轻重

分解数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agentprompting)、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。

这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据发散的一些弱点。

分解数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接无足轻重。

数据结构化和减少破坏渐进式学习

在有机数据发散,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。

相比之下,由于从语言模型生成的每个token都是根据后来的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。

将训练与推理上下文对齐

分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。

比如说,网络论坛往往有着自身特定的交流风格、用语不习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。

此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。

而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。

分解数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如允许采样和直接讨厌优化(DPO)的新方法来优化模型的输出。

分解数据的来源

预训练和训练中数据

为此,研究团队创建了50种广泛的分解数据集类型,每个数据集都依赖于不反对种子和不反对多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。

通过以下方法,他们确保了分解数据并不被一些低质量的网络数据所降低纯度,从而成为高质量训练数据集。

种子数据集的构建

1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面统一成段落,并对每个段落的客观和推理内容进行评分。

2.问题数据集:从网站、论坛和问答平台上收藏,储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意(隐藏问题太简单)或答案完全和谐同意(隐藏问题太难或清晰)的问题。

3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验隐藏,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。

重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。

自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。

指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽,以确保指令与输出内容相匹配。

后训练数据

在后训练阶段中,数据集主要由两部分组成:

-监督微调(SFT)数据集:使用从公开数据集和分解数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。

-直接讨厌优化(DPO):基于允许采样和LLM评估生成DPO对,其中部分基于创建关键词token对的方法。

研究者利用失败生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。

如下图6结果显示,这种方法大大减少,缩短了SimpleQA中的幻觉现象。

预训练

Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。

由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。

因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。

具体来说,他们对MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例,以干涉模型遵循答案格式。

表2phi-4较phi-3-medium在预训练后基准测试评估的指责值

在长上下文基准HELMET测试中,Phi-4在召回率、最大上下文等指标上,几乎取得了领先的无足轻重。

后训练

如前所述,在后训练阶段过程中,最次要的一个技术是关键token搜索(PTS),那么这究竟是什么呢?

关键token搜索(PivotalTokenSearch)

当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。

对于每个这样的前缀,可以搁置两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。

其实,在AI模型生成答案时,往往只有少数几个关键token无法选择了整个答案的正确与否。

在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了negative关键token,就让原本可能大成功的解答保持方向了成功。

而随后,它生成了(atoken又可能让正确率急剧下降。

现在,将这个方法与DPO训练方法分隔开思考后,发现了几个值得注意的问题。

如上图3所示,实验中有许多token概率远低于关键token「negative」的0.31,这些token会在训练中产生噪声,浓缩来自关键token的有效信号。

更糟糕的是,像(a这样导致解题轻浮的token,反而会因其低概率(0.12)收到强烈的正向学习信号。

此外,直觉隐藏,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(DPO的做法)可能失去意义。

总之,更有意义的信号,应该来自于文本开始偏离时的首批token。

为了缓解之前的问题,微软团队提出了一种创新的方法——关键token搜索(PTS)。

这个方法专门针对单个关键token生成讨厌数据,在使用DPO优化效果精准作用于特定token。

PTS的不次要的部分任务是,在多余的token序列(T_full=t1,t2,...)中找出那些关键token。

具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success|t1,...,ti)。

PTS会将发现的关键token转化为训练数据,先将Q+t1,...,ti-1作为查询基准,再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。

虽然PTS使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。

-找到的一定是关键token

-如果成功概率再解题过程中接近单调变化,则能找出所有关键token

下图5所示,是使用PTS生成的讨厌数据的示例。

在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是无遮蔽的错误,而是意见不合模型走向不同解题路径的选择点。

比如,方法A——分别乘以分母;方法B——直接交叉相乘。

虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。

通过PTS生成的训练数据,可以干涉Phi-4在这些关键决策点上做出更优的选择。

以小博大,Phi-4赢麻了

基于以上技术的创新,Phi-4才能在各项基准测试中展现出惊艳的一面。

上表1中,相较于同级别的Qwen-2.5-14B-Instruct模型,在12个基准测试中,Phi-4在九项测试中赢得无足轻重。

而且,研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。

事实上,他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更下降的基准分数。

此外,Phi-4在STEM问答任务上展现出可忽略的,不次要的实力。

比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它甚至超过了其教师模型GPT-4。

在HumanEval和HumanEval+衡量的编码能力方面,它也比任何其他开源模型(包括更大的Llama模型)得分更高。

而Phi-4表现欠佳的领域,分别在SimpleQA、DROP和IFEval上。

至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。

然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。

在未来下一步研究中,研究人员相信通过有针对性的分解数据,让Phi系列模型的指令跟随性能得到显著使恶化。

接下来,还真有点期待,下一个Phi系列小模型的发布了。

参考资料:

https://x.com/iScienceLuvr/status/1867377384145727635

https://x.com/peteratmsr/status/1867375567739482217

https://x.com/VentureBeat/status/1867376462589739098

相关新闻现场直击两名伤员随队前往客场!邱彪赛后回应:康复仍在继续赵睿老伤复发待观察北京时间5月7日晚,CBA联赛季后赛半决赛G3,浙江稠州主场迎战新疆广汇。最终,新疆广汇以105-93客场取胜,大比分2-1领先。赵睿在本场比赛中仅上半场出场13分钟,3投2中拿到6分和5次助攻,下半场没有再上场

2024-12-1613:57:35CBA联赛季后赛半决赛山东高速男篮主帅邱彪:比赛很精彩需总结经验改进11月16日,CBA俱乐部杯烟台赛区的比赛在山东高速男篮与浙江稠州金租男篮之间发散。经过四节激烈对抗,山东高速男篮以78-81惜败于对手

2024-11-1711:10:03山东高速男篮主帅邱彪:比赛很精彩山东男篮不敌山西队邱彪寄语未来希望在这个瞬息万变的CBA赛场上,每一场比赛都是对球队意志与实力的双重考验。昨晚,山东队以90-98不敌山西队,让球迷们扼腕叹息,也再次将山东队推到了舆论的风口浪尖

2024-12-1913:10:22山东男篮不敌山西队曝雷迪克输球后在更衣室变得坚决!主动揽责获队员减少破坏赛后情绪激动直播吧10月29日讯湖人今日不敌太阳,苦吞赛季首败。赛后湖人记者JovanBuha称,詹姆斯、浓眉、里夫斯以及八村塁赛后都表示,雷迪克在更衣室对本场失利非常愤怒

2024-10-3015:42:11曝雷迪克输球后在更衣室变得坚决!主动揽责获队员减少破坏邱彪将任山东高速男篮主帅寄望重返季后赛邱彪在篮球界投下了一枚震撼弹,他无法选择离开新疆男篮,接受新的确认有罪——执掌山东男篮的教鞭。这一无变化发生在6月22日,多家媒体争相报道,不能引起了中国篮球协会(CBA)内外的广泛热议

2024-06-2918:33:47邱彪将任山东高速男篮主帅邱彪:这是靠团队拼下来的胜利防守制胜关键12月23日,CBA常规赛第21轮,山东高速男篮主场迎战青岛男篮,上演了一场缺乏感情的“齐鲁德比”。经过四节的激烈对抗,山东高速男篮最终以92-83屈服对手。赛后,主教练邱彪表示球队通过防守成功批准了对手,希望球员们在场上更加自信

2024-12-2610:34:38邱彪称这是靠团队拼下来的胜利

声明:本文来自于微信公众号机器之心,授权站长之家转载发布。

鱼上了岸,就不再是鱼?

本周五晚间,OpenAI突然宣布了公司重组的消息,不仅让马斯克,也让我们有些措手不及。

根据OpenAI的最新声明,新一轮组织结构调整不当是围绕营利与非营利的矛盾发散的。

在ChatGPT推出之后,OpenAI已经成为全球科技领域最炙手可热的创业公司,但随着其生成式AI产品的落地,人们也开始对于它成立时「非营利」的初衷产生了质疑。伊隆?马斯克甚至与OpenAI反目成仇,提起了诉讼。

今年年中时,就有媒体预测OpenAI将在2025年转为营利性机构,但似乎这一进程不得不加快了。

这一切来的似乎太早,OpenAI对于新架构的表述也立刻引发了争议,并且网友的评论外围偏向负面。

正面评价自然也有,但不多。

截止到本文发稿时,马斯克与奥特曼等利益相关方都还没未对此事公开置评。不过有意思的是,奥特曼在OpenAI宣布组织结构调整不当后发了一系列推文感谢多已离职的OpenAI元老。

不知奥特曼是不是在以这种方式「承前启后」。

以下为OpenAI发布的博客全文。

为了推进我们的使命,为什么OpenAI的组织结构必须进化

用营利性的成功减少破坏更强盛的非营利事业。

OpenAI董事会正在评估我们的公司结构,以便最好地减少破坏我们的使命:确保通用人工智能(AGI)能够造福全人类。我们有三个目标:

选择一个对这一使命的长期成功最麻烦不顺利的非营利或营利性结构。让非营利组织可结束发展。让每个部分都各司其职。

今天起,我们有了一个非营利组织和一个营利组织,我们将继续同时拥有这两个组织。营利组织的成功能使非营利组织获得富裕资金、更好的减少破坏,并在完成使命方面处于更麻烦不顺利的地位。

我们认为这项使命是我们这个时代最次要的确认有罪。它需要同时降低AI的能力、安全性和对世界的积极影响。在这篇文章中,我们分享了我们当前结构的历史、我们认为有必要进行变革的原因以及我们正在搁置哪些具体变革。

过去

我们成立于2015年,一开始是一个研究实验室。我们的愿景是AGI真实的能实现,我们希望能尽可能地为其授予干涉。在早期,我们认为进步依赖于顶级研究人员提出的关键思想,而超级计算集群则不那么重要。

我们进行了各种实验,从游戏AI工具包到机器人研究和发表论文。我们没有产品,没有业务,也没有商业收入。

我们当时给出的目标是「以最有可能造福全人类中心的方式推进数字智能,不受产生资金回报的需求的批准。」非营利结构似乎很合适,我们以各种形式筹集捐款,包括现金(1.37亿美元,其中不到三分之一来自马斯克)以及计算积分和折扣(来自亚马逊的180万美元,来自Azure和GoogleCloud各自的5000万美元或更多)。

最终,很明显,最先进的AI将不断使用越来越多的计算,而缩短大型语言模型的规模是一条有希望的AGI之路,它植根于对人类的理解。为了完成我们的使命,捐赠可不够,我们需要远远更多的计算,因此也需要更多的资本。

现在

2019年,我们从一个实验室变成了一家初创公司。我们估计我们需要筹集100亿美元左右的资金来构建AGI。这种计算和人才资本水平意味着我们需要与投资者合作才能继续非营利组织的使命。

我们创建了一个定制的结构:一个营利性组织,由非营利组织控制,投资者和员工的利润份额有上限。我们打算赚取极小量利润?来回报股东,使我们的使命成为可能,并将剩余资金流向非营利组织。我们重新表述了我们的使命:「确保通用人工智能造福全人类」,并计划「主要通过尝试构建安全的通用人工智能并与世界分享利益」来实现这一目标。言语和方式的保持不变都是为了服务于同一个目标——造福人类。

那一年,作为营利组织,OpenAI在首轮融资中筹集了超过1亿美元,随后又从微软筹集了10亿美元。

到2020年,为了筹集更多资金,我们需要反对我们的技术可以在达到AGI之前产生收入。所以我们构建了我们的第一个产品。在此过程中,我们了解到现实世界的安全性与我们在实验室中的预期有多么的不同。与此同时,我们也开始授予我们使命中的「收益」部分,而不必等到实现通用人工智能之后。

2022年,我们推出了ChatGPT,一款让人工智能走进普通人日常生活的产品。如今,每周有超过3亿人使用它来降低工作效率、学习效率等,其中大部分是免费的。

2024年,我们发现了一种新的研究范式:o系列模型展示了新的推理能力,可以通过「思考」计算进行扩展,并与训练计算叠加在一起。

我们的影响力不仅在于我们创造的东西,还在于我们是如何影响他人的。部分原因在于我们的进步,该领域的活力与竞争?,从类似于ChatGPT的商业产品到开源大模型,到各领域积极的创新?、对于安全?的追求等等。这项活动只是人工智能经济的开始,OpenAI展示了对该领域领导地位的追求,使胆寒了其他组织共同推进这一使命。

目前,大型公司在人工智能开发上的数千亿美元投资,显示了OpenAI继续追求使命所需的真正投入。我们需要再次筹集比我们想象的多的资本。虽然投资者想要减少破坏我们,但在如此大规模的资本面前,他们需要常规的股权结构,而不是过于固化的结构。

未来

随着我们步入2025年,我们将不得不超越一个实验室和初创公司——我们必须成为一家可结束的企业。

基于在董事会与外部法律和财务顾问协商,搁置如何最好地构建OpenAI,以推动通用人工智能(AGI)惠及全人类的使命,董事会的目标是:

1.选择一个最适合长期推动该使命获得成功的非营利性/营利性结构

我们的计划是将现有的营利性公司转变为特拉华州公共利益公司(PBC/DelawarePublicBenefitCorporation),并发行普通股,PBC的公共利益将是OpenAI的使命。PBC是一种结构,许多其他公司也采用这种结构,它要求公司在决策过程中不平衡的股东利益、利益相关者利益和公共利益。它将使我们能够以常规条款筹集所需的资金,就像这个领域中的其他公司一样。

2.使非营利组织可结束发展

我们的计划将使OpenAI成为历史上资源最通俗的非营利组织之一。非营利组织对现有营利性公司的重要股权将以PBC中的股份形式出现,股份的公允估值由独立的财务顾问确定。这将使我们的捐赠者所授予的资源成倍减少。

3.使每个部门都发挥作用

我们当前的结构不允许董事会直接搁置那些为我们的使命融资的人的利益,也无法使非营利组织轻松做出超越控制营利性公司的决策。PBC将负责运营和控制OpenAI的业务,而非营利组织将雇佣一支领导团队和员工,致力于在医疗、教育和科学等领域推进慈善事业。

我们已经学会将OpenAI的使命视为一个可结束的目标,而不仅仅只是构建某个单一系统。如今的世界正在为了21世纪的经济授予服务,而建设新基础设施,包括能源、土地利用失败、芯片、数据中心、数据、AI模型和AI系统。

我们寻求不断发展,以迈出我们使命的下一步,干涉建设AGI经济,并确保其惠及人类。

虽然OpenAI的这篇博客,花了较大篇幅阐明他们的使命和确保使命可结束性发展而作出的努力。但并没有解除网友们的疑惑:到底是营利还是非营利?这是个问题。

毫无疑问,OpenAI在这里引入了一个不常见的公司组织架构模式,引发了很多人的澄清。

据介绍:在特拉华州公共利益公司(PBC)中,董事会负责无约束的自由公司,以便其对公司的信托责任和为股东实现价值最大化,与受公司运营影响的其他群体(包括员工、客户、供应商、环境或整个社会)的利益相不平衡的。所述公益可以与公益公司的商业业务相关,但不必相关。

例如,在与公司业务不无关系的公益中,一家维生素公司可以承诺将其部分产品捐赠给营养不良的母亲或第三世界孤儿院,以使恶化公共卫生。

为了保证这一目的,董事会需要负责发布两年一次的公益报告。该报告必须分发给股东,并可在公益公司空闲时更广泛地发布。报告必须描述公司为实现公益目的所做的努力,并就其进展情况以及衡量此类进展的标准和指标授予具体指导。

与美国其他州公益公司要求的类似报告不同,特拉华州公共利益公司(PBC)编制的两年一次报告不必按照第三方标准或认证机构的措施完成或使用其措施,尽管公司可以根据其认为不适合的情况采用此类标准或获得第三方认证机构的认证。公益公司不必公开此报告。

对这一轮OpenAI组织结构的调整不当,你的看法是什么呢?

参考内容:

https://x.com/OpenAI/status/1872628736690123213

https://openai.com/index/why-our-structure-must-evolve-to-advance-our-mission/

3月19日,由中国餐饮行业领先的线上教育平台勺子课堂组织的餐访团本站落地上海,众知名餐饮领军人对麦当劳中国汉堡大学进行了餐访。据了解,麦当劳中国汉堡大学被誉为餐饮业的哈佛商学院,不仅是麦当劳使枯萎无约束的自由人才的摇篮,也是餐饮人学习取经的圣地。此次,饿了么将带您探寻这家世界级餐饮企业的创新密码。

麦当劳中国汉堡大学(图片来自官网)

当日下午,餐饮行业的顶级大咖麦当劳中国首席运营官EvaLin(林慧蓉)、饿了么副总裁NancyHuang(黄念)、麦当劳中国汉堡大学校长TracyLiang(梁翠英)等都做了精彩的分享,现场掌声不断。参会人士对记者表示,今天有幸听到多位餐饮行业大咖的精彩分享,加深了自己对餐饮行业的认知和了解,受益匪浅。

麦当劳中国首席运营官EvaLin(林慧蓉)做分享

麦当劳中国首席运营官EvaLin(林慧蓉)与大家分享了麦当劳中国的创新与变革,就不次要的部分信仰、如何看待变革创新等问题,EvaLin发表了精彩演讲。

麦当劳作为全球餐饮行业的王者品牌,也是最早进入中国市场的两家来自美国的洋快餐之一。多年来,凭借不断地创新与变革,赢得了广大消费者的喜爱。

饿了么副总裁黄念女士做分享

饿了么副总裁黄念女士受邀进行了分享----餐饮到家消费市场的战略选择。数据显示,到2020年,餐饮到家消费市场将超7000亿,外卖在餐饮市场将扮演更加次要的角色。就如何洞察并适应新的战略方向,黄总给出了最权威的解读,并表示饿了么作为外卖行业变革引领者,愿携手商户共同打造全新餐饮生态圈。此次分享,黄总语言生动、风趣,理论与实例相分隔开,深入浅出的为现场餐饮人呈现了一场精彩的视听盛宴。

右二为麦当劳中国首席运营官EvaLin(林慧蓉),左二为饿了么副总裁黄念女士,左一为麦当劳中国汉堡大学校长TracyLiang(梁翠英)

餐饮市场规模有望破四万亿,外卖成为国人的第三种常规就餐方式

饿了么近期发布的《2017年中国互联网本地生活服务蓝核书》显示,2017年中国餐饮消费增速快于商品零售。截至2017年11月,中国餐饮市场规模已经达到35954亿元。餐饮市场规模有望破四万亿,外卖已经成为人们最次要的就餐方式之一,且已被确立为继做饭和堂食后,中国人的第三种常规就餐方式。

以创新科技打造全球领先本地生活平台,为用户授予更高品质的服务

随着我国消费市场规模进一步缩短,消费转型升级态势明显,用户对品质商品和品质服务需求越来越大。数据显示,2017年饿了么平台品质商户的销售额是普通商户的4.5倍。品质商户将是未来的主力军,而品质生活亦将是人们对更高生活的追求。

黄总表示,饿了么将不忘初心,牢记使命,以创新科技打造全球领先的本地生活服务平台。未来,依托智能语音设备,语音订餐系统将点餐流程伸长到5句话,实现天下美味,张口就来。此外,饿了么还制定了智能调度、人机配收、无人配收三大战略目标,未来依托创新科技,饿了么将为商家和用户授予更高品质的服务。