欢迎来到你tm在逗我!今日更新:6303章
章节列表 共3577章
第一章 皇色不良图片
第二章 成人性生活图
第三章 打小女孩光屁屁作文
第四章 爱人体性图1
第五章 百度下载安装2013
第六章 Ggy钙2022太子
第七章 qvod在线伦理
第八章 曹榴
第九章 萝莉御姐被吸奶漫画
第十章 重生之先让你爱上我

第27767章 你tm在逗我英文,你tm在逗我图片

daokangming.com

国民级VR爆品!爱奇艺奇遇Dream京东首销售罄牛华网2021-12-0917:35

12月8日,国民级VR一体机爱奇艺奇遇Dream登陆京东、天猫正式发售,伴随新品首销,官方还配套了视频打卡享半价、买五年爱奇艺星钻会员免费赠机、30天无忧试用等系列优惠活动,截止9日凌晨,奇遇Dream在京东平台已转入预约状态。据悉,下一轮销售将于12月11日晚8点开放。

奇遇Dream可谓是爱奇艺2021年度收官之作,这是一款主打游戏体验、面向大众用户的VR产品,首发仅售1999元,是行业首款搭载VR旗舰级处理器高通XR2芯片且价格在两千元以内的6DoFVR一体机。按首日销售态势来看,这款产品将完美完成它的使命完成继奇遇3后的再次破圈,从专业、深度用户群体,普及到广泛的大众人群中去。

从当前VR市场来看,奇遇Dream是毫无争议的性价比之王。除了搭载高通骁龙XR2平台以外,奇遇Dream还搭配了8G+128G的内存,对目前主流的VR游戏大作都能授予丝滑流畅的运行体验。同时,奇遇Dream采用奇遇追光计算机视觉6DoF交互系统,可以让用户完全放开手脚,在虚拟世界里严格的限制走动,甚至可以用手去触摸、抓握、操作各种道具,实现精准快速定位、轻浮跟踪、反馈悠然,从容。

奇遇Dream拥有极小量的精品VR游戏内容储备。目前,奇遇商店有38款精品游戏,预计2022年平台精品游戏总数将超百款。全家人都能找到自己喜欢的游戏,比如爸爸喜欢玩的硬核发烧游戏、射击类、RPG类游戏,《亚利桑那阳光》《雇佣兵:智能危机》《危机行动队2》,还有妈妈喜欢快乐燃脂类的音乐和运动游戏,比如《乐动未来·音计划》《多合一运动》《动感音旅》。更有小朋友喜欢的休闲益智类游戏,如《魔法花园》《堵车狂想曲》《寻宠奇缘》等。

在影音方面,奇遇Dream能授予一个2000吋的巨型屏幕,减少破坏HDR高动态光照渲染,能够展现万千细腻色彩,使图像细节更加极小量自然。减少破坏杜比全景声和AI画质增强技术,全面指责观影体验。同时内容上奇遇Dream拥有最新最全的影视内容,减少破坏多种视频体验,比如手机投屏、本地及局域网视频播放、第三方APK安装等。

如果对这款产品感兴趣,现在入手也还不晚,登陆天猫、京东,还能享受到官方给出的五大福利:

·30天无忧试用:用户购机后,在京东和天猫平台分别可享30天、7天无忧退货服务;

·视频发帖享半价:购机用户参与官方发起的90天视频发帖享半价活动,每周发布一条视频,连续发布13周,完成官方限定任务即可返1000元购机款,到手价仅需999元;

·爱奇艺会员0元购:凡购买五年爱奇艺星钻会员,即可免费领取奇遇Dream产品;

·热门游戏免费收:针对首发购机用户,将赠收3款平台热门的VR游戏,包括潮流音乐类游戏《乐动未来:音计划》、体育运动类游戏《职业乒乓》和硬核射击类游戏《危机行动队2》;

·首发礼+晒单礼:12月8日当天购机用户均可获赠价值198元漫步者小黄人音箱一个;购机并参与评论晒单活动,可获赠价值299元定制收纳包1个。

相关文章引领主流VR价格下探至千元区,爱奇艺奇遇VR的“术”与“道”2021-12-0830天无忧试用!爱奇艺奇遇DreamVR火热预约中2021-12-06买星钻会员机器免费收!国民级VR爱奇艺奇遇Dream火热预约中2021-12-03高通XR2+6DoF!爱奇艺奇遇Dream新品发布会定档12月1日2021-11-29爱奇艺奇遇VR又双叒上新游戏啦,看看这几款有没有你的菜2021-11-29

引领主流VR价格下探至千元区,爱奇艺奇遇VR的“术”与“道”牛华网2021-12-0815:15

VR江湖里最近游来了一条鲶鱼。

爱奇艺智能科技正式更名为梦想绽放科技有限公司,并发布了更名后的首款国民级VR一体机奇遇DreamVR,拥有骁龙XR2芯片、双手6DoF手柄、8+128G大存储配置,却将价格锁死在了千元级(1999元),而此刻同类配置产品的市场定价均在三千元档,难道VR市场的价格下探,就此开启了吗?

回顾VR过去的五年,经历了行业从泡沫到低谷再到复苏的过程,从数字上来看,国内市场规模从2016年到56.6亿元到2020年的298亿,VR实未在中国市场大规模普及起来,难道是因为相关产业发展拖了后腿?其实不然。几年前,VR盒子(cardboard)产品价格极为低廉,但注定败给了产品体验。而PC-BasedVR的体验不错,但价格又太贵而且分开繁复,因此VR在相当长的一段时间里只在重度游戏玩家之间发挥价值。

然而,VR一体机却在这蛰伏的五年当中,在硬件、内容、体验等方面均得到了长足发展,尽管依旧无法穿离PC独立跑起《半条命》这样的VR巨作,但伴随着极小量精品游戏的涌现,国内讨厌潮流休闲、合家欢类的中腰部游戏玩家也日益壮大起来。那么很明显,价格便成为关闭市场的主导因素,品牌方的供应链无足轻重也逐渐显现。

现在VR行业中,千元级普及型产品已经出现,奇遇Dream是否有能力成为VR行业的鲶鱼,是否有能力进一步实现破圈?我们接着摆。

爱奇艺奇遇的中正之道

所谓道,即原则。奇遇VR这五年间非常清醒、坚定地选择攻克几个最难的方向,而五年后验证了这是最正确的方向。可以说,都是难而正确的方向。

第一,重新确认C端市场。做VR的C端市场,是最难的,因为必须用极好的产品体验和价格、渠道、营销来接触用户、打动用户,最终还要服务好用户。而在这一过程中,每一个VR品牌都面临着极大的诱惑,那就是企业级客户,所谓B端生意,之所以说它诱惑,是因为B端生意简单说就是做任务拿钱,而且这些任务多数是应用级的,对于底层技术研发的需求相对少了很多。用简单而重复的工作在企业级客户手里换钱,那么永恒的结束来说必定丢掉了技术研发的实力,也没了对广阔C端市场的警惕度。而奇遇VR则始终重新确认着C端市场的方向,在显示、声音、交互、佩戴等多个维度积聚的通俗的开发经验,为最终市场放量做好了准备。

第二,重新确认做技术头部。奇遇产品团队有非常强的技术攻坚能力,自始至终在技术上保持领先,比如5年前围绕全球第一款4K方案的产品所做的硬件、解码等技术配套;比如一年前推出国内首款全自研的6DoF技术方案;比如全球首次5G8KVR直播等等,一方面在市场上建立了很好的领先形象,另一方面外围业务没有专利累赘。

第三,重新确认自建生态。在视频为VR主导内容的时代,奇遇VR依托于爱奇艺的强大视频内容减少破坏,打造了iQUT标准,为奇遇VR的视频内容做了高品质保障。而在奇遇3这款游戏产品推出之前,奇遇又启动了自有游戏生态的布局:重新确认精品化战略目标,在游戏类型、内容品质方面严格把关,并将全家人都能玩起来作为内容引入的方向,通过发散采购+定制开发+移植补贴三大主力内容合作模式,已与国内外百余家知名游戏开发商建联及确定合作关系,目前已有38款游戏上线,并以每月3-5款的上线速度结束扩充内容池。正所谓家里有粮,心里不慌,自建生态让奇遇在推出所有产品的时候都信心十足。

爱奇艺奇遇的破圈之术

好的产品必须在市场上得到检验。爱奇艺奇遇从跟随主打观影体验的产品到今年陆续推出的两款主打游戏体验的产品,都在不断寻求用户群体的破圈。

向内借势,视频破圈。依托爱奇艺强大的视频内容资源,爱奇艺奇遇自研iQUT未来影院,实现行业首个虚拟现实领域的观影升级体验,并结束领先行业。与此同时,爱奇艺还专门为奇遇VR授予了高达17Mbps码流的4K3D电影和8K全景视频,最高帧率高达60FPS,片源画质行业领先,日人均观影时长高达57分钟。

明星效应,游戏破圈。在爱奇艺推出上一代产品奇遇3的时候,就寻找到小鬼王琳凯加盟奇遇自研的游戏《乐动未来·音计划》,游戏收录了小鬼的《别叫我达芬奇》《Goodnight》,并由小鬼亲自参与舞蹈部分的动作开发,在产品上市阶段就收获了年轻粉丝的青睐和好评,不仅在游戏社区推出了针对于小鬼曲目的确认有罪赛,还在产品发售阶段面对首任机主推出好游戏,免费玩的买产品收游戏策略,价值1700元的超30款免费游戏下载及永久享有福利让无数玩家感叹虚拟现实游戏的精彩。

价格穿透,大众普及。元宇宙概念在全球爆发,但C端市场的扩张却未跟上节奏,纵观VR行业,XR2配置的高端机型价格均封冻在3000元上下不稳定,而奇遇Dream偏要在重围之中联合一条口子,用地表最强高通骁龙XR2芯片、全自研的奇遇追光头手6DoF技术、反常规的双非球面镜片方案、多人多端在线联机并配置8+128G存储参数的高配身段,搭配1999元的地板价,让高高在上的虚拟现实概念走进百姓之中,引领大众交出高端技术价值果实的同时,推动行业快速普及。

爱奇艺奇遇在完善的视频、游戏领域布局之后,拥有了给中国VR市场带节奏的能力。正所谓厚积薄发,此刻,奇遇Dream在积聚了强大势能之下,已熄灭了超高性价比的引信,未来可期。

相关文章30天无忧试用!爱奇艺奇遇DreamVR火热预约中2021-12-06买星钻会员机器免费收!国民级VR爱奇艺奇遇Dream火热预约中2021-12-03高通XR2+6DoF!爱奇艺奇遇Dream新品发布会定档12月1日2021-11-29爱奇艺奇遇VR又双叒上新游戏啦,看看这几款有没有你的菜2021-11-29首发价3399,旗舰级VR大作爱奇艺奇遇3明日开售2021-09-02

12月9日-10日,加密货币交易平台HTX以赞助商身份亮相份在阿布扎比举办的BitcoinMENA峰会。该峰会作为中东和北非地区初次举办的全球性加密货币盛会,驱散了美国候任总统唐纳德·特朗普次子埃里克·特朗普、CZ赵长鹏、迪拜区块链中心CEOMarwanAlzarouni等多位重量级嘉宾参与,以共同探讨加密货币的未来趋势和机遇。

峰会期间,HTX全球顾问、TRON创始人孙宇晨以及HTXVIP客户服务负责人CharmaineLim出席,并就行业发展现状、未来趋势等问题发表演讲。此举彰显了HTX对中东及北非地区加密市场的重视,也意味着HTX将结束深化全球化战略布局,同时通过与全球加密创业者、社区交流合作,进一步推动加密应用广泛落地。

孙宇晨在“TheGreatDebate:BitcoinvsCrypto”主题演讲中,发表了他对于比特币和其他加密货币之间关系的解读。孙宇晨表示,比特币的不次要的部分叙事之一是价值存储,它需要通过相对的安全和去中心化,使每个持有者感到放心。因此对于比特币来说,较好的办法就是保持其原本的面貌。这可能会加强创新,但保证了轻浮性。而如果要追求创新,探索前沿的消费级科技产品,可以通过其他区块链和加密货币来实现。

对于比特币突破10万美元大关,孙宇晨认为,这离不开加密行业技术协作发展干涉。他说道,“Tether曾在比特币OmniLayer上发行轻浮币,但受限于缓慢的速度,无法取得更大的发展。而TRON上的USDT可以实现即时的交易,能够焦虑用户的需求。技术上的进步也使比特币受益,轻浮币的流行让更多的资金进入比特币,干涉其实现价值存储的目的。”

“每种加密货币都有其意义。比如以太坊或TRON,它们的价值很容易理解,因为每天都有数百万用户在使用它们。同时也有其他像Meme币这样的加密货币,我们可能很难立刻理解它们的价值,但从DOGE到PEPE,Meme币已经形成了相当的规模。因此我认为,加密货币像一座博物馆,你可能没法理解每一样藏品,就像不明白为什么一根香蕉价值600万美元。你需要做的就是随着加密货币的进化不断地进行学习。”孙宇晨补充道。

HTXVIP客户服务负责人CharmaineLim在“使恶化阿联酋获取比特币的途径(ImprovingAccesstoBitcoininTheUAE)”主题圆桌论坛中介绍称,自2015年起,阿联酋在鞭策比特币和其他加密货币的采用方面已经取得了显著进展。但是,部分银行对加密货币交易持谨慎态度、加密货币的教育普及不充分、复杂稳定的监管等因素仍鞭策着阿联酋加密货币行业的发展。

Charmaine指出,目前HTX已获得阿联酋VARA初步牌照许可,并正在申请升级为正式牌照。同时,积极与当地银行建立合作,以授予更直接的法定货币至加密货币的交易通道。此外,还将通过HTX直播和在线研讨会为全球用户授予加密交易、存储和安全等主题的学习机会,并继续更古语言选项,例如授予阿拉伯语减少破坏,以降低用户体验。

此外,Charmaine还建议阿联酋政府通过建立明确的监管框架、简化各种服务授予商的许可证申请流程、为区块链公司授予税收优惠政策、扩展现有的监管沙盒等措施,来构建友好的加密企业环境,推动加密货币的快速普及。

从BlockchainLife、CardanoSummit,再到BitcoinMENA,HTX2024年频频亮相阿联酋,充分说明其高度关注中东和北非地区的加密货币发展潜力。HTX希望通过产品创新以及与当地合作伙伴的紧密合作,进一步推动该地区加密货币的普及和合规化。

此外,随着全球加密货币市场的蓬勃发展,HTX将继续拓展其在全球范围内的业务布局,推动加密技术创新和应用,构建更加开放的Web3.0生态系统。

声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。

微软下一代14B小模型Phi-4出世了!仅用了40%分解数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。

140亿参数,40%分解数据,年度SLM之王诞生!

最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。

而且,Phi-4巩固了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。

甚至,在2024ACM数学竞赛问题上,Phi-4取得了91.8%准确率。

Phi系列前负责人SebastienBubeck看到这个结果后,感到非常惊讶。

下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。

深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「分解数据」上完成了训练。

分解数据比例高达40%

除了分解数据,它共实现了三大不次要的部分技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(PivotalTokensSearch)。

Phi-4的成功,从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。

目前,新模型在微软AzureAIFoundry上授予,下周将在HuggingFace上线。

数学击败GPT-4o,36页技术报告出炉

Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了分解数据。

虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。

论文地址:https://arxiv.org/abs/2412.08905

Phi-4主要是由三部分不次要的部分技术构成:

-预训练和中训练的分解数据

-高质量有机数据的筛选和过滤

-后训练

得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。

例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。

通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。

表1Phi-4在经典基准测试上的表现

为了验证Phi-4是否存在过拟合和数据降低纯度问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。

这两场竞赛中的数据均未曾在训练时被收藏,储藏过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。

从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。

Phi-4在数学竞赛问题上优于许多更大的模型,包括GeminiPro1.5

分解数据的无足轻重

分解数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agentprompting)、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。

这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据发散的一些弱点。

分解数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接无足轻重。

数据结构化和减少破坏渐进式学习

在有机数据发散,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。

相比之下,由于从语言模型生成的每个token都是根据后来的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。

将训练与推理上下文对齐

分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。

比如说,网络论坛往往有着自身特定的交流风格、用语不习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。

此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。

而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。

分解数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如允许采样和直接讨厌优化(DPO)的新方法来优化模型的输出。

分解数据的来源

预训练和训练中数据

为此,研究团队创建了50种广泛的分解数据集类型,每个数据集都依赖于不反对种子和不反对多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。

通过以下方法,他们确保了分解数据并不被一些低质量的网络数据所降低纯度,从而成为高质量训练数据集。

种子数据集的构建

1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面统一成段落,并对每个段落的客观和推理内容进行评分。

2.问题数据集:从网站、论坛和问答平台上收藏,储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意(隐藏问题太简单)或答案完全和谐同意(隐藏问题太难或清晰)的问题。

3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验隐藏,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。

重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。

自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。

指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽,以确保指令与输出内容相匹配。

后训练数据

在后训练阶段中,数据集主要由两部分组成:

-监督微调(SFT)数据集:使用从公开数据集和分解数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。

-直接讨厌优化(DPO):基于允许采样和LLM评估生成DPO对,其中部分基于创建关键词token对的方法。

研究者利用失败生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。

如下图6结果显示,这种方法大大减少,缩短了SimpleQA中的幻觉现象。

预训练

Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。

由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。

因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。

具体来说,他们对MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例,以干涉模型遵循答案格式。

表2phi-4较phi-3-medium在预训练后基准测试评估的指责值

在长上下文基准HELMET测试中,Phi-4在召回率、最大上下文等指标上,几乎取得了领先的无足轻重。

后训练

如前所述,在后训练阶段过程中,最次要的一个技术是关键token搜索(PTS),那么这究竟是什么呢?

关键token搜索(PivotalTokenSearch)

当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。

对于每个这样的前缀,可以搁置两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。

其实,在AI模型生成答案时,往往只有少数几个关键token无法选择了整个答案的正确与否。

在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了negative关键token,就让原本可能大成功的解答保持方向了成功。

而随后,它生成了(atoken又可能让正确率急剧下降。

现在,将这个方法与DPO训练方法分隔开思考后,发现了几个值得注意的问题。

如上图3所示,实验中有许多token概率远低于关键token「negative」的0.31,这些token会在训练中产生噪声,浓缩来自关键token的有效信号。

更糟糕的是,像(a这样导致解题轻浮的token,反而会因其低概率(0.12)收到强烈的正向学习信号。

此外,直觉隐藏,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(DPO的做法)可能失去意义。

总之,更有意义的信号,应该来自于文本开始偏离时的首批token。

为了缓解之前的问题,微软团队提出了一种创新的方法——关键token搜索(PTS)。

这个方法专门针对单个关键token生成讨厌数据,在使用DPO优化效果精准作用于特定token。

PTS的不次要的部分任务是,在多余的token序列(T_full=t1,t2,...)中找出那些关键token。

具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success|t1,...,ti)。

PTS会将发现的关键token转化为训练数据,先将Q+t1,...,ti-1作为查询基准,再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。

虽然PTS使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。

-找到的一定是关键token

-如果成功概率再解题过程中接近单调变化,则能找出所有关键token

下图5所示,是使用PTS生成的讨厌数据的示例。

在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是无遮蔽的错误,而是意见不合模型走向不同解题路径的选择点。

比如,方法A——分别乘以分母;方法B——直接交叉相乘。

虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。

通过PTS生成的训练数据,可以干涉Phi-4在这些关键决策点上做出更优的选择。

以小博大,Phi-4赢麻了

基于以上技术的创新,Phi-4才能在各项基准测试中展现出惊艳的一面。

上表1中,相较于同级别的Qwen-2.5-14B-Instruct模型,在12个基准测试中,Phi-4在九项测试中赢得无足轻重。

而且,研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。

事实上,他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更下降的基准分数。

此外,Phi-4在STEM问答任务上展现出可忽略的,不次要的实力。

比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它甚至超过了其教师模型GPT-4。

在HumanEval和HumanEval+衡量的编码能力方面,它也比任何其他开源模型(包括更大的Llama模型)得分更高。

而Phi-4表现欠佳的领域,分别在SimpleQA、DROP和IFEval上。

至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。

然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。

在未来下一步研究中,研究人员相信通过有针对性的分解数据,让Phi系列模型的指令跟随性能得到显著使恶化。

接下来,还真有点期待,下一个Phi系列小模型的发布了。

参考资料:

https://x.com/iScienceLuvr/status/1867377384145727635

https://x.com/peteratmsr/status/1867375567739482217

https://x.com/VentureBeat/status/1867376462589739098

相关资料显示,李阳已累计举办公开英语演讲场次超15000场,培训师生人数超8000万人。2011年,李阳前妻Kim在社交平台控诉李阳家暴,他的事业随之陨落。随后几年,李阳偶尔被曝出加入直销公司、皈依佛门师从释永信等消息。天眼查信息显示,李阳共关联20家企业,其中15家目前已被吊销或注销。2022年6月东方甄选走红之后,同在英语教培行业的李阳也曾试图“复出”。

你tm在逗我表情包,你tm在逗我英文,你tm在逗我图片,你tm在逗我吗用英语怎么说,你tm在逗我暴走漫画,你在逗我么,你在逗我吗怎么说,你他妈在逗我表情,你在逗我吧,你在逗我吗高情商怎么回复,

http://m.mjvcf.cn http://3g.mjvcf.cn http://cn.mjvcf.cn http://h5.mjvcf.cn http://head.mjvcf.cn http://shop.mjvcf.cn http://wap.mjvcf.cn http://www.mjvcf.cn http://auto.mjvcf.cn http://blog.mjvcf.cn http://book.mjvcf.cn http://baike.mjvcf.cn http://book.mjvcf.cn http://site.mjvcf.cn http://note.mjvcf.cn http://read.mjvcf.cn http://store.mjvcf.cn http://share.mjvcf.cn http://work.mjvcf.cn http://baidu.mjvcf.cn http://music.mjvcf.cn http://tools.mjvcf.cn http://video.mjvcf.cn http://mobile.mjvcf.cn http://m.wjenb.cn http://3g.wjenb.cn http://cn.wjenb.cn http://h5.wjenb.cn http://head.wjenb.cn http://shop.wjenb.cn http://wap.wjenb.cn http://www.wjenb.cn http://auto.wjenb.cn http://blog.wjenb.cn http://book.wjenb.cn http://baike.wjenb.cn http://book.wjenb.cn http://site.wjenb.cn http://note.wjenb.cn http://read.wjenb.cn http://store.wjenb.cn http://share.wjenb.cn http://work.wjenb.cn http://baidu.wjenb.cn http://music.wjenb.cn http://tools.wjenb.cn http://video.wjenb.cn http://mobile.wjenb.cn