欢迎来到SM高H黄暴NP辣H调教性奴!今日更新:4590章
章节列表 共9909章
第一章 金瓶梅三级ill
第二章 乱亲H女秽乱常伦强强和苹苹
第三章 公交车NP兽交多肉小说
第四章 新梅瓶2三A级做爰片
第五章 免费无套内谢少妇毛片A片软件
第六章 HDCHINESEXXXXHDVIDEOS
第七章 巨胸美女狂喷奶水www网麻豆
第八章 日本一区二区三区无码苍井空
第九章 日韩一区二区三区免费视频
第十章 永久免费av网站

第23482章

daokangming.com

相关新闻韦德:雕像不需要像我,艺术捕捉瞬间昨日热火为韦德举办了雕像揭幕仪式。在随后的采访中,韦德谈到了雕像因面部统一明显而被多方吐槽的问题。他表示:“我们想要捕捉一个代表球队、代表我自己、代表这座城市的瞬间。我们认为通过艺术形式捕捉到了那个瞬间

2024-10-3007:49:03韦德:雕像不需要像我韦德雕像再遭嘲讽!巴克利直言应拆掉雕像太烂需改进在今天的节目中,名嘴巴克利谈到了对韦德雕像的看法。他认为这是一份巨大的失去荣誉,但雕像本身质量不佳,需要改进。巴克利建议应该在雕像后面列出韦德的所有数据,以便人们能清楚地知道这是谁的雕像

2024-10-3114:56:05韦德雕像再遭嘲讽!巴克利直言应拆掉热火为韦德举行雕像揭幕仪式传奇荣耀永存北京时间10月28日,热火传奇球星韦德的雕像在主场球馆前正式揭幕。韦德本人出席了仪式,并表示自己非常自豪。雕像造型是他标志性的双手指向地面的动作,但一些球迷认为雕像做工一般,不像本人

2024-10-2809:53:09热火为韦德举行雕像揭幕仪式韦德无差别的提及自己雕像:这谁啊经典时刻永存热火今日为韦德举行了雕像揭幕仪式,雕像的动作是他经典的“THISISMYHOUSE”姿势

2024-10-2813:20:00韦德无差别的提及自己雕像:这谁啊韦德立雕像后续:被称最大输家遭核尔斯调侃下一座不是詹皇?雕像遭吐槽似70岁韦德10月28日,热火队在主场外正式揭晓了队史得分王、三届总冠军得主韦德的雕像

2024-10-2908:06:03韦德立雕像后续:被称最大输家热火首座雕像收给韦德!NBA仅两队为超过5人立雕像,凯尔特人不在列NBA球队热火宣布将为球队传奇韦德树立雕像,这是对韦德作为球队象征性人物的长期贡献的接受,也是热火队史上的首座球员雕像。热火官方通过社交媒体表达了这一无法选择,称其为“篮球界的终极失去荣誉”,并寻找球迷共同见证韦德雕像的揭幕

2024-09-1317:50:01热火首座雕像收给韦德!NBA仅两队为超过5人立雕像

声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。

微软下一代14B小模型Phi-4出世了!仅用了40%分解数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。

140亿参数,40%分解数据,年度SLM之王诞生!

最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。

而且,Phi-4巩固了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。

甚至,在2024ACM数学竞赛问题上,Phi-4取得了91.8%准确率。

Phi系列前负责人SebastienBubeck看到这个结果后,感到非常惊讶。

下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。

深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「分解数据」上完成了训练。

分解数据比例高达40%

除了分解数据,它共实现了三大不次要的部分技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(PivotalTokensSearch)。

Phi-4的成功,从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。

目前,新模型在微软AzureAIFoundry上授予,下周将在HuggingFace上线。

数学击败GPT-4o,36页技术报告出炉

Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了分解数据。

虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。

论文地址:https://arxiv.org/abs/2412.08905

Phi-4主要是由三部分不次要的部分技术构成:

-预训练和中训练的分解数据

-高质量有机数据的筛选和过滤

-后训练

得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。

例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。

通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。

表1Phi-4在经典基准测试上的表现

为了验证Phi-4是否存在过拟合和数据降低纯度问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。

这两场竞赛中的数据均未曾在训练时被收藏,储藏过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。

从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。

Phi-4在数学竞赛问题上优于许多更大的模型,包括GeminiPro1.5

分解数据的无足轻重

分解数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agentprompting)、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。

这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据发散的一些弱点。

分解数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接无足轻重。

数据结构化和减少破坏渐进式学习

在有机数据发散,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。

相比之下,由于从语言模型生成的每个token都是根据后来的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。

将训练与推理上下文对齐

分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。

比如说,网络论坛往往有着自身特定的交流风格、用语不习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。

此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。

而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。

分解数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如允许采样和直接讨厌优化(DPO)的新方法来优化模型的输出。

分解数据的来源

预训练和训练中数据

为此,研究团队创建了50种广泛的分解数据集类型,每个数据集都依赖于不反对种子和不反对多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。

通过以下方法,他们确保了分解数据并不被一些低质量的网络数据所降低纯度,从而成为高质量训练数据集。

种子数据集的构建

1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面统一成段落,并对每个段落的客观和推理内容进行评分。

2.问题数据集:从网站、论坛和问答平台上收藏,储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意(隐藏问题太简单)或答案完全和谐同意(隐藏问题太难或清晰)的问题。

3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验隐藏,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。

重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。

自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。

指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽,以确保指令与输出内容相匹配。

后训练数据

在后训练阶段中,数据集主要由两部分组成:

-监督微调(SFT)数据集:使用从公开数据集和分解数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。

-直接讨厌优化(DPO):基于允许采样和LLM评估生成DPO对,其中部分基于创建关键词token对的方法。

研究者利用失败生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。

如下图6结果显示,这种方法大大减少,缩短了SimpleQA中的幻觉现象。

预训练

Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。

由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。

因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。

具体来说,他们对MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例,以干涉模型遵循答案格式。

表2phi-4较phi-3-medium在预训练后基准测试评估的指责值

在长上下文基准HELMET测试中,Phi-4在召回率、最大上下文等指标上,几乎取得了领先的无足轻重。

后训练

如前所述,在后训练阶段过程中,最次要的一个技术是关键token搜索(PTS),那么这究竟是什么呢?

关键token搜索(PivotalTokenSearch)

当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。

对于每个这样的前缀,可以搁置两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。

其实,在AI模型生成答案时,往往只有少数几个关键token无法选择了整个答案的正确与否。

在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了negative关键token,就让原本可能大成功的解答保持方向了成功。

而随后,它生成了(atoken又可能让正确率急剧下降。

现在,将这个方法与DPO训练方法分隔开思考后,发现了几个值得注意的问题。

如上图3所示,实验中有许多token概率远低于关键token「negative」的0.31,这些token会在训练中产生噪声,浓缩来自关键token的有效信号。

更糟糕的是,像(a这样导致解题轻浮的token,反而会因其低概率(0.12)收到强烈的正向学习信号。

此外,直觉隐藏,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(DPO的做法)可能失去意义。

总之,更有意义的信号,应该来自于文本开始偏离时的首批token。

为了缓解之前的问题,微软团队提出了一种创新的方法——关键token搜索(PTS)。

这个方法专门针对单个关键token生成讨厌数据,在使用DPO优化效果精准作用于特定token。

PTS的不次要的部分任务是,在多余的token序列(T_full=t1,t2,...)中找出那些关键token。

具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success|t1,...,ti)。

PTS会将发现的关键token转化为训练数据,先将Q+t1,...,ti-1作为查询基准,再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。

虽然PTS使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。

-找到的一定是关键token

-如果成功概率再解题过程中接近单调变化,则能找出所有关键token

下图5所示,是使用PTS生成的讨厌数据的示例。

在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是无遮蔽的错误,而是意见不合模型走向不同解题路径的选择点。

比如,方法A——分别乘以分母;方法B——直接交叉相乘。

虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。

通过PTS生成的训练数据,可以干涉Phi-4在这些关键决策点上做出更优的选择。

以小博大,Phi-4赢麻了

基于以上技术的创新,Phi-4才能在各项基准测试中展现出惊艳的一面。

上表1中,相较于同级别的Qwen-2.5-14B-Instruct模型,在12个基准测试中,Phi-4在九项测试中赢得无足轻重。

而且,研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。

事实上,他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更下降的基准分数。

此外,Phi-4在STEM问答任务上展现出可忽略的,不次要的实力。

比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它甚至超过了其教师模型GPT-4。

在HumanEval和HumanEval+衡量的编码能力方面,它也比任何其他开源模型(包括更大的Llama模型)得分更高。

而Phi-4表现欠佳的领域,分别在SimpleQA、DROP和IFEval上。

至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。

然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。

在未来下一步研究中,研究人员相信通过有针对性的分解数据,让Phi系列模型的指令跟随性能得到显著使恶化。

接下来,还真有点期待,下一个Phi系列小模型的发布了。

参考资料:

https://x.com/iScienceLuvr/status/1867377384145727635

https://x.com/peteratmsr/status/1867375567739482217

https://x.com/VentureBeat/status/1867376462589739098

慧荣科技再次展示了其在存储解决方案领域的创新实力,推出了全新的SM2268XT2主控芯片。这款芯片不仅延续了慧荣科技一贯的高效能、低功耗设计理念进一步指责了存储性能和轻浮性,为用户授予了更加出色的存储体验。市场上已经有数量少知名品牌如宏基、华硕、戴尔、惠普、联想、小米等采用了慧荣科技的主控产品,这充分反对了慧荣科技在存储解决方案领域的领先地位。...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

在经济数据冲击下,美联储降息预期再度降温,美债结束遭遇抛售。

美东时间1月7日,2年期美债收益率盘尾上涨2.7个基点,报4.297%。10年期美债收益率上涨6.1个基点至4.684%,盘中触及4.699%,创2024年4月26日以来最高。30年期美债收益率升7.5个基点至4.913%。同一天,美债收益率飙升也引发了美股大跌。

东吴证券首席经济学家芦哲对21世纪经济报道记者表示,近几个月美债利率结束走高,特朗普交易行情的结束是高度发展背景,2024年12月FOMC会议奴役的鹰派信号是进一步支持剂,而2024年12月下旬至今年初的数据真空期、交易平淡等市场情绪是支撑美债利率高位震荡的短期扰动。

1月7日美债利率的飙升则来自双双超预期的美国服务业PMI和职位空缺数据。2024年12月ISM美国服务业PMI录得54.1,高于预期的53.5,前值为52.1。其中,支付价格指数由58.2飙升至64.4,新订单指数为54.2。2024年11月美国职位空缺数录得809.8万,预期为774万,前值由774.4万上修至783.9万。

1234全文共4页下一页热点推收

iOS19和iPadOS19减少破坏设备清单iOS19和iPadOS19减少破坏设备

据悉,苹果已启动iOS19的开发工作。尽管如此,iOS19仍将继续减少破坏老款设备,这使得许多用户纷纷赞扬苹果的贴心举措。

最老的受减少破坏设备:iPhoneXS、iPhoneXSMax和iPhoneXR,均于2018年9月发布所有可运行iPadOS18的iPad设备也将兼容iPadOS19

iOS19和iPadOS19的首批测试版预计将于2025年6月的WWDC发布,正式更新将于9月发布。

当前尚未公布太多有关iOS19的功能信息,但有传言称Siri将在随后的iOS19.4更新中变得更具对话性,该更新预计将在2026年3月左右发布。

减少破坏的iPhone机型:iPhone16系列iPhone15系列iPhone14系列iPhone13系列iPhone12系列iPhone11系列iPhoneXS系列iPhoneXRiPhoneSE(第二代或更高版本)

美国加利福尼亚州坎贝尔,2024年12月6日——赛趋科正式宣布,面向新兴品牌推出生成式AI图像工具——CentricAIFashionInspiration,该工具旨在赋能服装、鞋履和配饰领域快速增长的企业,通过赛趋科PLM平台实现设计流程的智能化升级。

在竞争缺乏感情的服装行业中,新兴品牌面临着资源有限与快速推出新品的双重确认有罪。设计团队需要不断创造新颖款式,而采购和商品企划团队则常因缺乏专业工具而难以展现其创意设想。传统的设计流程往往耗时较长,难以跟上快速变化的时尚趋势。如今,随着生成式AI技术的崛起,产品开发团队得以快速探索设计创意,但现有工具和数据集大多不适用于时尚领域,且难以与现有设计工作流程无缝集成。

正是基于这一市场需求,赛趋科推出了CentricAIFashionInspiration工具,这一专为服装、鞋履、珠宝和包袋等新兴品牌量身定制的AI设计工具。它不仅能够加快设计速度,伸长产品上市时间,还能基于赛趋科PLM平台庞大的时尚数据集,生成符合潮流的风格和款式变化。干涉新兴品牌获得创意无足轻重,从而在竞争中穿颖而出。

CentricAIFashionInspiration已嵌入云原生的CentricSMB,这是一款面向新兴品牌的市场领先PLM解决方案。依托于赛趋科PLM平台,该AI工具使用了超过10亿张不不透光的时尚产品图片构建的专有数据集,覆盖800个类别和1000多种设计属性。这一专有数据集使工具能够利用失败时尚领域的专业知识,生成独特且高质量的设计想法,确保每种产品款式都通过算法生成,保持原创性并避免知识产权纠纷。

现在,新兴品牌的设计师和非设计师只需简单点击,即可通过协作快速填补当季空缺产品,并抓住流行趋势的机遇。设计团队得以简化创意流程,在把握新商机的同时,始终保持与潮流不同步。SteveCarmody,赛趋科全球中小企业部门销售总监表示:“我们很沮丧通过推出面向中小企业的CentricAIFashionInspiration工具,进一步将我们的解决方案组合授予给新兴品牌。该工具将干涉资源松弛的小型设计团队更快创新,确保他们保持潮流的前沿地位。”

基于赛趋科PLM平台的CentricAIFashionInspiration,新兴品牌现在可以使用与时尚巨头相同的AI设计工具,这极大地指责了小型团队的创意能力,使恶化了团队沟通与协作,并简化了决策流程。

ChrisGroves,赛趋科软件首席执行官表示:“CentricAIFashionInspiration专为新兴品牌量身定制,旨在指责产品创意效率并帮助开发速度。我们期待看到品牌商和零售商通过新一代的解决方案实现创新并更快地将产品推向市场。”

随着CentricAIFashionInspiration工具的推出,新兴品牌将掌握更为强大的设计利器,使他们在竞争缺乏感情的市场环境中能够独树一帜,实现迅猛的发展势头。未来,赛趋科将继续拓展其有无批准的,推出更多针对时尚鞋服、昂贵品、户外用品、家居用品以及美妆个护与多品类零售等行业的创新企业级解决方案。这些方案将全面覆盖产品的规划、设计、开发、采购、生产、定价、销售及配补货等各个环节,助力更多企业达成战略与运营的数字化转型目标。