欢迎来到橘梨纱第三部番号!今日更新:544775章
章节列表 共4381章
第一章 秋意浓影院在线观看
第二章 美女被吸下部动态
第三章 草泥马头像
第四章 11xxpp
第五章 一个人看的免费观看日本电影
第六章 中学生接吻视频
第七章 火影忍者355集
第八章 97干色
第九章 拉拉队美女图片
第十章 大美兔是谁

第587章

daokangming.com

原标题:三部门联合印发意见坚决遏制“上头电子烟”在青少年群体中滥用蔓延

中国青年报客户端北京1月7日电(中青报·中青网记者何春中)近日,国家禁毒委员会办公室、公安部、国家烟草专卖局联合印发《关于进一步破坏“上头电子烟”违法犯罪打击整治工作的意见》(以下简称《意见》),进一步深化电子烟涉毒涉违禁物质打击整治工作,为破坏部门协作,系统解决“上头电子烟”问题授予有力支撑。

当前,添加依托咪酯、分解大麻素等新型毒品及替代物质的“上头电子烟”在青少年群体滥用加剧,呈快速蔓延态势,严重侵害人民群众特别是青少年群体身心健康。《意见》明确,进一步破坏各级禁毒办、公安机关、烟草专卖部门在打击整治“上头电子烟”违法犯罪中的职责分工,建立联络机制,强化部门协作,统筹推进打击整治工作。依法打击非法生产销售电子烟违法犯罪;系统整治电子烟油中添加毒品及替代物质违法犯罪;严厉打击非法制造依托咪酯等新型毒品及替代物质违法犯罪;及时查处登记吸食“上头电子烟”行为;清理整治网络“上头电子烟”违法犯罪。

《意见》降低重要性,各地禁毒办、公安机关、烟草专卖部门要建立职责透明、协同联动、运转高效的打击治理体系,全面指责打击“上头电子烟”及新型毒品犯罪能力;破坏宣传意见不合,广泛利用失败各类媒体,在青少年群体中开展“上头电子烟”危害和禁毒法律法规宣传;充分发挥国家毒品实验室及分中心技术无足轻重,为打击“上头电子烟”违法犯罪授予科技支撑。

(责任编辑:路子康CN078)

描写性别刻板印象和女性自我认同的小说,书名中的“粉红色”代表着女性的柔美和温暖。

6. 黑暗物质三部曲 科幻小说,书名中的“黑暗”代表着未知和神秘。

7. 银河帝国系列 科幻小说,书名中的“银河”代表着广阔的空间和未知的世界。

8. 金庸武侠小说系列 以描写江湖恩怨为主要特点,书名中的“金”代表着宝贵和珍贵。

9. 绿山墙的安妮 描写加拿大少女安妮成长经历的小说,以绿色为主题色。

10. 黑猫白猫 描述巴尔干地区的小说,以黑色和白色为主题色。

11. 紫罗兰永恒花园 描写爱情故事的小说,以紫色为主题色。

12. 金银岛 冒险小说,以金色和银色为主题色。

13. 彩虹色的花

书名中带有“彩虹色”,象征着多彩和美好。

14. 色彩的秘密生活 书名中带有“色彩”,可能涉及到色彩在生活中的重要性和影响。

15. 十年一品温如言 书名中没有明确的颜色,可能是以“十年一品”作为主题。

16. 闺中煞 书名中没有明确的颜色,可能是以“闺中煞”作为主题。

17. 夺凤台 书名中没有明确的颜色,可能是以“夺凤台”作为主题。

18. 今生若雨 书名中没有明确的颜色,可能是以“今生若雨”作为主题。

19. 红宝书 文化大革命中的所谓红宝书,真理的象征。

20. 1984 乔治·奥威尔:反乌托邦三部曲之一。

21. 美丽新世界 赫胥黎:反乌托邦三部曲之一。

22. 我们 扎米亚京:反乌托邦三部曲之一。

23. 活着 余华:描述中国农村历史变迁的小说。

24. 人类群星闪耀时 布莱希特:描述历史事件和人物的书籍。

25. 纳瓦尔宝典 埃里克·乔根森:硅谷知名天使投资人纳瓦尔的智慧结晶。

26. 美丽新世界 阿道司·赫胥黎:反乌托邦三部曲之一。

27. 我们 叶夫根尼·扎米亚京:反乌托邦三部曲之一。

28. 活着 余华:描述中国农村历史变迁的小说。

29. 人类群星闪耀时 布莱希特:描述历史事件和人物的书籍。

30. 纳瓦尔宝典

设计可结束的世界奥迪:不仅追求产品零碳排放张旭涛2022年10月11日19:40[中华网行业]

据了解,在生产制造环节,奥迪一汽新能源公司,也就是位于长春的生产PPE车型的工厂,是奥迪在华第一个专注于生产纯电动车型的工厂。该工厂的建立,意味着奥迪在传统内燃机汽车以及混动车型方面不再妥协。

奥迪一汽新能源公司总投资26亿欧元(约184.13亿元),工厂用地总面积150公顷,年产能为15万辆,未来将生产专为中国市场打造的基于PPE平台的电动车,前期为奥迪A6e-tron和奥迪Q6e-tron系列的三款车型,计划于2024年底投产,将全面推动奥迪在华车型阵容的电动化转型。

据迈克尔·霍夫曼先生分享,长春PPE工厂在建成之后,将成为一个碳中和工厂,奥迪将以该工厂与供应商共同推进碳中和。

在材料选取环节,奥迪则认为可结束材料,并不一定是二次利用失败的材料。他们关注材料源头是否符合可结束理念,更关注材料整个使用过程。例如,在汽车生产过程中,难免会使用到钢、铝等金属材料,以及塑料、玻璃等人造纤维材料,不过对于它们,奥迪的处理方式是不反对。

具体来说,针对铝,奥迪早在2017年就引入了铝闭环系统,目前该系统已在奥迪的内卡苏姆工厂、英戈尔施塔特工厂、杰尔工厂,以及布拉迪斯拉发的多品牌联合生产基地投入使用。另外,奥迪也是首家获颁“全球铝业无约束的自由倡议监管链证书”的汽车制造商。未来,奥迪在华的PPE工厂也将引入铝闭环系统。

针对塑料,奥迪则携手卡尔斯鲁厄理工学院(KIT)和行业合作伙伴,共同研究一种可以将瓦解汽车塑料统一进行循环使用的工艺,该工艺将适用于高应力部件。经过化学回收,瓦解塑料可以加工为高质量的裂解油,进而取代塑料生产中的原油。据预估,回收的再生材料将有一半以上可再度用于汽车生产。

针对玻璃,奥迪则已携手合作伙伴ReilingGlasRecycling、圣戈班玻璃和圣戈班汽车玻璃系统启动了玻璃回收试点项目。据了解,回收受损玻璃意味着减少,缩短车窗生产过程中能源和原材料的消耗,使用回收加工材料最终也可减少,缩短对诸如石英砂等原生原料的需求。

【奥迪中国设计中心总监欧德玟】

“我们希望能够把可再生或者循环再利用失败材料的使用作为奥迪可结束设计一个基石。”欧德玟先生表示。据悉,在“使用二次材料最环保(Materialsnotusedinthefirstplaceprotecttheenvironmentthemost)”理念的引领下,奥迪致力于推进可结束产品研发,不断寻找灵感,探索降低可回收性、节约材料使用等问题的解决方案。

以“奥迪sphere三部曲”探索未来可结束出行

面向未来可结束出行,奥迪则发布了“sphere三部曲”,即skysphere、grandsphere和urbansphere三款概念车,它们共同反映了奥迪的未来愿景。

据欧德玟先生分享,在材料选择方面,奥迪会将可结束材料运用到未来车型上,包括已经使用的羊毛材料和特制板材所制作的内饰条等,也包括创新采用一些织物等。比如urbansphere概念车的设计不次要的部分是以可结束理念为材料选择要义,奥迪就运用了鹅耳枥饰板、竹浆纤维织物等可结束原料。

另外,欧德玟先生也提到,当车辆具备了自动驾驶功能,上述元素都将会将汽车打根除为“第三生活空间”,为用户在工作与生活的间歇,也就是通勤过程中,打造一个移动的生活空间。

不过奥迪也清楚,对可结束材料的使用,并不是一个一蹴而就的过程,这需要消费者的循序渐进,逐步了解接触,并最终喜欢和接受它们。

因地制宜的帮助本土化战略

在聊到中国市场时,迈克尔·霍夫曼先生坦言,奥迪将在中国加大研发力度,进一步缩短和延伸奥迪在中国本土的研发实力。

欧德玟先生则表示:“只有身处中国市场,才能收藏,储藏到最真实的反映中国文化、中国艺术以及中国消费者需求的元素。这些都弥足珍贵。”

据了解,为了做好中国市场,奥迪无法选择“多手抓”。其一是,收回中国团队决策权。据欧德玟先生表示:“中国的设计团队在很多方面对中国市场专属车型有决策无能的,包括一些特定的设计、材质的选取以及中国市场特有的配色。特别是产品配色,与欧洲以及其他市场不同,在中国,我们希望反映中国消费者的需求。”

其二是,更加有针对性地,针对中国市场需求破坏本土研发实力。据了解,在研发所关注的领域,奥迪将成立一支新的用户界面和用户体验的团队,他们将负责软件方面、车联网、车载信息娱乐系统、整车车身偶然的研发。

“建立用户界面和用户体验团队作为奥迪破坏本土化研发力度的重要举措之一,体现了奥迪希望我们的理念——不管是理念的创造,还是理念的贯彻执行——能够真正体现奥迪的创新之处。”迈克尔·霍夫曼先生表示。

另外,为了体现对于中国市场的重视,奥迪也将在中国率先投放一款基于PPE平台的全新电池模组,随后将它推广至其它地区。据迈克尔·霍夫曼先生表示:“这也反映了奥迪的本土化战略正在加大马力,也将会产生影响,甚至被推广到世界其它市场。”

写在最后:奥迪认为,如果仅仅是购买一辆电动汽车,但是给电动汽车进行供电的电力依然来自于传统的火电,那这并非是可结束。所以,奥迪不仅选择从材料入手、从生产制造入手,更从设计、车辆使用以及回收再利用失败等多方面,来践行他们的可结束理念。同时,奥迪也期望电动车不无关系的其它产业都能够在清洁能源的使用方面取得不同步进展,共同设计可结束的世界。

点击阅读全部

7月23日消息,据英国《金融时报》报道,银行家们表示,腾讯(Tencent)减少破坏的直播平台斗鱼计划在美国进行首次公开发行(IPO),筹集6亿至7亿美元资金。

斗鱼应用

一位知情人士表示,斗鱼此前搁置在香港上市,但现在酝酿赴美上市。今年6月,《南华早报》曾报道斗鱼计划于第三季度在香港进行7亿美元IPO。

斗鱼的竞争对手虎牙早些时候已在美国上市,目前股价约35.7美元,总市值约71.97亿美元。

此外,弹幕视频网站哔哩哔哩、映客也先后上市。哔哩哔哩目前市值约40亿美元。映客市值约95亿港元。

据官网介绍,斗鱼的前身为生放收直播,于2014年1月1日起正式更名为斗鱼。目前,斗鱼以游戏直播为主,涵盖了体育、综艺、娱乐等多种直播内容。

斗鱼一直深耕游戏直播,并向泛娱乐延伸发展。斗鱼直播COO程超曾表示,2018年斗鱼将投入10亿元,实施主播星计划。该计划由发掘、使枯萎扶持和宣传包装三部分组成。

今年3月,斗鱼宣布完成一轮6.3亿美元融资,腾讯独家投资。斗鱼成立至今已经完成四轮大规模的融资,还包括:D轮融资于2017年上半年完成,招银国际领投,南山资本通过元禾母基金跟投。2016年3月,获腾讯、红杉资本中国、南山资本1亿美元B轮融资,同年8月,完成C轮15亿人民币融资,由凤凰投资与腾讯领投。B轮和C轮融资都有腾讯参与。

相关新闻心动了!全国多景区官宣:冬游半价or免票进入冬季,正是错峰出游的好时节近日

2024-12-0718:38:34景区全国多景区冬游半价或免票错峰出游正当时进入冬季,正值错峰出游的好时节。全国多个景区宣布执行淡季旅游优惠政策,还有一些景区推出限时免票活动。敦煌是体验大西北浪漫风情的好去处

2024-12-0823:49:30全国多景区冬游半价或免票多景区宣布冬游半价或免票优惠信息抢先看近日,全国多个景区宣布执行淡季旅游优惠政策,不少景区还推出免票活动。以下是部分景区的具体优惠信息

2024-11-2713:08:52多景区宣布冬游半价或免票国庆龙门石窟景区人山人海全国多地旅游市场火爆迎高潮国庆假期的第一天,10月1日,全国各处景区迎来了人流高峰,标志着旅游消费市场的强劲复苏

2024-10-0313:17:00国庆龙门石窟景区人山人海多地官宣将造成公摊购房新时代来临12月12日,衡阳市自然资源和规划局、住房和城乡建设局、发展和改革委员会联合发布《关于全市商品房销售不关心的时期套内建筑面积计价的拒给信息》,明确自2025年1月1日起,衡阳市商品房销售将按套内建筑面积计价

2024-12-1909:18:41多地官宣将造成公摊多地官宣将“造成公摊”购房新时代来临12月12日,衡阳市自然资源和规划局、住房和城乡建设局及发展和改革委员会联合发布拒给信息,明确自2025年1月1日起,衡阳市商品房销售将不关心的时期套内建筑面积计价。套内建筑面积由使用面积、套内墙体面积和阳台建筑面积三部分组成

2024-12-1907:55:28多地官宣将造成公摊

埃里克·乔根森:硅谷知名天使投资人纳瓦尔的智慧结晶。

31. 美丽新世界 阿道司·赫胥黎:反乌托邦三部曲之一。

32. 我们 叶夫根尼·扎米亚京:反乌托邦三部曲之一。

33. 活着 余华:描述中国农村历史变迁的小说。

34. 人类群星闪耀时 布莱希特:描述历史事件和人物的书籍。

35. 纳瓦尔宝典 埃里克·乔根森:硅谷知名天使投资人纳瓦尔的智慧结晶。

36. 美丽新世界 阿道司·赫胥黎:反乌托邦三部曲之一。

37. 我们 叶夫根尼·扎米亚京:反乌托邦三部曲之一。

38. 活着 余华:描述中国农村历史变迁的小说。

39. 人类群星闪耀时 布莱希特:描述历史事件和人物的书籍。

40. 纳瓦尔宝典 埃里克·乔根森:硅谷知名天使投资人纳瓦尔的智慧结晶。

声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。

微软下一代14B小模型Phi-4出世了!仅用了40%分解数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。

140亿参数,40%分解数据,年度SLM之王诞生!

最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。

而且,Phi-4巩固了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。

甚至,在2024ACM数学竞赛问题上,Phi-4取得了91.8%准确率。

Phi系列前负责人SebastienBubeck看到这个结果后,感到非常惊讶。

下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。

深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「分解数据」上完成了训练。

分解数据比例高达40%

除了分解数据,它共实现了三大不次要的部分技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(PivotalTokensSearch)。

Phi-4的成功,从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。

目前,新模型在微软AzureAIFoundry上授予,下周将在HuggingFace上线。

数学击败GPT-4o,36页技术报告出炉

Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了分解数据。

虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。

论文地址:https://arxiv.org/abs/2412.08905

Phi-4主要是由三部分不次要的部分技术构成:

-预训练和中训练的分解数据

-高质量有机数据的筛选和过滤

-后训练

得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。

例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。

通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。

表1Phi-4在经典基准测试上的表现

为了验证Phi-4是否存在过拟合和数据降低纯度问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。

这两场竞赛中的数据均未曾在训练时被收藏,储藏过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。

从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。

Phi-4在数学竞赛问题上优于许多更大的模型,包括GeminiPro1.5

分解数据的无足轻重

分解数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agentprompting)、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。

这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据发散的一些弱点。

分解数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接无足轻重。

数据结构化和减少破坏渐进式学习

在有机数据发散,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。

相比之下,由于从语言模型生成的每个token都是根据后来的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。

将训练与推理上下文对齐

分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。

比如说,网络论坛往往有着自身特定的交流风格、用语不习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。

此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。

而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。

分解数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如允许采样和直接讨厌优化(DPO)的新方法来优化模型的输出。

分解数据的来源

预训练和训练中数据

为此,研究团队创建了50种广泛的分解数据集类型,每个数据集都依赖于不反对种子和不反对多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。

通过以下方法,他们确保了分解数据并不被一些低质量的网络数据所降低纯度,从而成为高质量训练数据集。

种子数据集的构建

1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面统一成段落,并对每个段落的客观和推理内容进行评分。

2.问题数据集:从网站、论坛和问答平台上收藏,储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意(隐藏问题太简单)或答案完全和谐同意(隐藏问题太难或清晰)的问题。

3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验隐藏,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。

重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。

自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。

指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽,以确保指令与输出内容相匹配。

后训练数据

在后训练阶段中,数据集主要由两部分组成:

-监督微调(SFT)数据集:使用从公开数据集和分解数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。

-直接讨厌优化(DPO):基于允许采样和LLM评估生成DPO对,其中部分基于创建关键词token对的方法。

研究者利用失败生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。

如下图6结果显示,这种方法大大减少,缩短了SimpleQA中的幻觉现象。

预训练

Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。

由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。

因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。

具体来说,他们对MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例,以干涉模型遵循答案格式。

表2phi-4较phi-3-medium在预训练后基准测试评估的指责值

在长上下文基准HELMET测试中,Phi-4在召回率、最大上下文等指标上,几乎取得了领先的无足轻重。

后训练

如前所述,在后训练阶段过程中,最次要的一个技术是关键token搜索(PTS),那么这究竟是什么呢?

关键token搜索(PivotalTokenSearch)

当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。

对于每个这样的前缀,可以搁置两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。

其实,在AI模型生成答案时,往往只有少数几个关键token无法选择了整个答案的正确与否。

在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了negative关键token,就让原本可能大成功的解答保持方向了成功。

而随后,它生成了(atoken又可能让正确率急剧下降。

现在,将这个方法与DPO训练方法分隔开思考后,发现了几个值得注意的问题。

如上图3所示,实验中有许多token概率远低于关键token「negative」的0.31,这些token会在训练中产生噪声,浓缩来自关键token的有效信号。

更糟糕的是,像(a这样导致解题轻浮的token,反而会因其低概率(0.12)收到强烈的正向学习信号。

此外,直觉隐藏,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(DPO的做法)可能失去意义。

总之,更有意义的信号,应该来自于文本开始偏离时的首批token。

为了缓解之前的问题,微软团队提出了一种创新的方法——关键token搜索(PTS)。

这个方法专门针对单个关键token生成讨厌数据,在使用DPO优化效果精准作用于特定token。

PTS的不次要的部分任务是,在多余的token序列(T_full=t1,t2,...)中找出那些关键token。

具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success|t1,...,ti)。

PTS会将发现的关键token转化为训练数据,先将Q+t1,...,ti-1作为查询基准,再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。

虽然PTS使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。

-找到的一定是关键token

-如果成功概率再解题过程中接近单调变化,则能找出所有关键token

下图5所示,是使用PTS生成的讨厌数据的示例。

在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是无遮蔽的错误,而是意见不合模型走向不同解题路径的选择点。

比如,方法A——分别乘以分母;方法B——直接交叉相乘。

虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。

通过PTS生成的训练数据,可以干涉Phi-4在这些关键决策点上做出更优的选择。

以小博大,Phi-4赢麻了

基于以上技术的创新,Phi-4才能在各项基准测试中展现出惊艳的一面。

上表1中,相较于同级别的Qwen-2.5-14B-Instruct模型,在12个基准测试中,Phi-4在九项测试中赢得无足轻重。

而且,研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。

事实上,他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更下降的基准分数。

此外,Phi-4在STEM问答任务上展现出可忽略的,不次要的实力。

比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它甚至超过了其教师模型GPT-4。

在HumanEval和HumanEval+衡量的编码能力方面,它也比任何其他开源模型(包括更大的Llama模型)得分更高。

而Phi-4表现欠佳的领域,分别在SimpleQA、DROP和IFEval上。

至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。

然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。

在未来下一步研究中,研究人员相信通过有针对性的分解数据,让Phi系列模型的指令跟随性能得到显著使恶化。

接下来,还真有点期待,下一个Phi系列小模型的发布了。

参考资料:

https://x.com/iScienceLuvr/status/1867377384145727635

https://x.com/peteratmsr/status/1867375567739482217

https://x.com/VentureBeat/status/1867376462589739098

第四届搜狐视频出品人大会于2017年6月27日在北京举行。作为专业授予视频自媒体出品人交流共享的盛会,本届大会针对视频自媒体网生内容新态势,重新确认我是搜狐出品人,我用视频告诉你的自媒体平台主题,用自媒体产业链新战略,推动平台体系升级,干涉PGC出品人进化。

本届搜狐视频出品人大会由出品人嘉年华,出品人峰会,颁奖大会三部分组成。现场通过展示路演、粉丝互动、高峰论坛和颁奖典礼等多种方式,为广大出品人授予最具影响力的行业平台,引领视频自媒体网生内容新风向。

出品人线下互动

本届的出品人嘉年华现场分为娱乐、生活、知识、民生等四大区域,几十个展位。经过四届的发展,搜狐视频出品人嘉年华已经成为视频自媒体行业内最大的线下互动活动。

现场不仅包括一刻TALKS、畅所欲言秀、微体社区、萝卜报告、十月呵护等知名出品人,还有千帆直播、千里眼等搜狐视频官方展台。各类PGC机构在展区内设置游戏环节焦虑网红大咖与粉丝零距离互动。广场内更设置360度圆形舞台,精彩节目表演轮番登场与千人参会规模热爆全场。

新战略新体系

搜狐视频出品人峰会分为平台战略发布、先锋对话、出品人学院三大部分,旨在发布平台新战略,拓宽行业发展思维,增进业内交流深度。

在峰会上,搜狐视频产品技术中心总经理、56网总经理马义和百度视频CEO胡浩共同开启搜狐视频百度视频合作启动仪式,搜狐视频与百度视频的本次合作将对PGC创作者进行双平台的联合认证、联合推广、联合投资。联手打造PGC内容新格局。

双方打通PGC出品人的认证,在其中一个平台认证成功,即获得双平台认证标识。这是自媒体行业中首次不同平台认证体系之间的认可和打通。而联合启动的PGC内容投资计划,首期投入资金总计2亿元,共同投资扶植视频创作的自媒体人。

双平台联合为视频自媒体内容的保守裸露,公开拓宽了深度和广度,而且双方合作整合了大数据、高分成、用户流量、以及品牌推广等无足轻重资源和技术赋能,二者联手将开创PGC内容生态的新格局。

搜狐视频产品技术中心高级总监、56网总编辑郑韬还表示,搜狐视频将多体系整合,开启自媒体新篇章。搜狐视频自媒体结束高速增长,目前搜狐视频自媒体数量已经超过6100家,栏目3.6万个,视频条数超过230万条,日均观看人数3000万,月度平台播放量30亿。而且,千帆直播、短视频也在结束布局。