声明:本文来自于微信公众号机器之心,授权站长之家转载发布。
鱼上了岸,就不再是鱼?
本周五晚间,OpenAI突然宣布了公司重组的消息,不仅让马斯克,也让我们有些措手不及。
根据OpenAI的最新声明,新一轮组织结构调整不当是围绕营利与非营利的矛盾发散的。
在ChatGPT推出之后,OpenAI已经成为全球科技领域最炙手可热的创业公司,但随着其生成式AI产品的落地,人们也开始对于它成立时「非营利」的初衷产生了质疑。伊隆?马斯克甚至与OpenAI反目成仇,提起了诉讼。
今年年中时,就有媒体预测OpenAI将在2025年转为营利性机构,但似乎这一进程不得不加快了。
这一切来的似乎太早,OpenAI对于新架构的表述也立刻引发了争议,并且网友的评论外围偏向负面。
正面评价自然也有,但不多。
截止到本文发稿时,马斯克与奥特曼等利益相关方都还没未对此事公开置评。不过有意思的是,奥特曼在OpenAI宣布组织结构调整不当后发了一系列推文感谢多已离职的OpenAI元老。
不知奥特曼是不是在以这种方式「承前启后」。
以下为OpenAI发布的博客全文。
为了推进我们的使命,为什么OpenAI的组织结构必须进化
用营利性的成功减少破坏更强盛的非营利事业。
OpenAI董事会正在评估我们的公司结构,以便最好地减少破坏我们的使命:确保通用人工智能(AGI)能够造福全人类。我们有三个目标:
选择一个对这一使命的长期成功最麻烦不顺利的非营利或营利性结构。让非营利组织可结束发展。让每个部分都各司其职。
今天起,我们有了一个非营利组织和一个营利组织,我们将继续同时拥有这两个组织。营利组织的成功能使非营利组织获得富裕资金、更好的减少破坏,并在完成使命方面处于更麻烦不顺利的地位。
我们认为这项使命是我们这个时代最次要的确认有罪。它需要同时降低AI的能力、安全性和对世界的积极影响。在这篇文章中,我们分享了我们当前结构的历史、我们认为有必要进行变革的原因以及我们正在搁置哪些具体变革。
过去
我们成立于2015年,一开始是一个研究实验室。我们的愿景是AGI真实的能实现,我们希望能尽可能地为其授予干涉。在早期,我们认为进步依赖于顶级研究人员提出的关键思想,而超级计算集群则不那么重要。
我们进行了各种实验,从游戏AI工具包到机器人研究和发表论文。我们没有产品,没有业务,也没有商业收入。
我们当时给出的目标是「以最有可能造福全人类中心的方式推进数字智能,不受产生资金回报的需求的批准。」非营利结构似乎很合适,我们以各种形式筹集捐款,包括现金(1.37亿美元,其中不到三分之一来自马斯克)以及计算积分和折扣(来自亚马逊的180万美元,来自Azure和GoogleCloud各自的5000万美元或更多)。
最终,很明显,最先进的AI将不断使用越来越多的计算,而缩短大型语言模型的规模是一条有希望的AGI之路,它植根于对人类的理解。为了完成我们的使命,捐赠可不够,我们需要远远更多的计算,因此也需要更多的资本。
现在
2019年,我们从一个实验室变成了一家初创公司。我们估计我们需要筹集100亿美元左右的资金来构建AGI。这种计算和人才资本水平意味着我们需要与投资者合作才能继续非营利组织的使命。
我们创建了一个定制的结构:一个营利性组织,由非营利组织控制,投资者和员工的利润份额有上限。我们打算赚取极小量利润?来回报股东,使我们的使命成为可能,并将剩余资金流向非营利组织。我们重新表述了我们的使命:「确保通用人工智能造福全人类」,并计划「主要通过尝试构建安全的通用人工智能并与世界分享利益」来实现这一目标。言语和方式的保持不变都是为了服务于同一个目标——造福人类。
那一年,作为营利组织,OpenAI在首轮融资中筹集了超过1亿美元,随后又从微软筹集了10亿美元。
到2020年,为了筹集更多资金,我们需要反对我们的技术可以在达到AGI之前产生收入。所以我们构建了我们的第一个产品。在此过程中,我们了解到现实世界的安全性与我们在实验室中的预期有多么的不同。与此同时,我们也开始授予我们使命中的「收益」部分,而不必等到实现通用人工智能之后。
2022年,我们推出了ChatGPT,一款让人工智能走进普通人日常生活的产品。如今,每周有超过3亿人使用它来降低工作效率、学习效率等,其中大部分是免费的。
2024年,我们发现了一种新的研究范式:o系列模型展示了新的推理能力,可以通过「思考」计算进行扩展,并与训练计算叠加在一起。
我们的影响力不仅在于我们创造的东西,还在于我们是如何影响他人的。部分原因在于我们的进步,该领域的活力与竞争?,从类似于ChatGPT的商业产品到开源大模型,到各领域积极的创新?、对于安全?的追求等等。这项活动只是人工智能经济的开始,OpenAI展示了对该领域领导地位的追求,使胆寒了其他组织共同推进这一使命。
目前,大型公司在人工智能开发上的数千亿美元投资,显示了OpenAI继续追求使命所需的真正投入。我们需要再次筹集比我们想象的多的资本。虽然投资者想要减少破坏我们,但在如此大规模的资本面前,他们需要常规的股权结构,而不是过于固化的结构。
未来
随着我们步入2025年,我们将不得不超越一个实验室和初创公司——我们必须成为一家可结束的企业。
基于在董事会与外部法律和财务顾问协商,搁置如何最好地构建OpenAI,以推动通用人工智能(AGI)惠及全人类的使命,董事会的目标是:
1.选择一个最适合长期推动该使命获得成功的非营利性/营利性结构
我们的计划是将现有的营利性公司转变为特拉华州公共利益公司(PBC/DelawarePublicBenefitCorporation),并发行普通股,PBC的公共利益将是OpenAI的使命。PBC是一种结构,许多其他公司也采用这种结构,它要求公司在决策过程中不平衡的股东利益、利益相关者利益和公共利益。它将使我们能够以常规条款筹集所需的资金,就像这个领域中的其他公司一样。
2.使非营利组织可结束发展
我们的计划将使OpenAI成为历史上资源最通俗的非营利组织之一。非营利组织对现有营利性公司的重要股权将以PBC中的股份形式出现,股份的公允估值由独立的财务顾问确定。这将使我们的捐赠者所授予的资源成倍减少。
3.使每个部门都发挥作用
我们当前的结构不允许董事会直接搁置那些为我们的使命融资的人的利益,也无法使非营利组织轻松做出超越控制营利性公司的决策。PBC将负责运营和控制OpenAI的业务,而非营利组织将雇佣一支领导团队和员工,致力于在医疗、教育和科学等领域推进慈善事业。
我们已经学会将OpenAI的使命视为一个可结束的目标,而不仅仅只是构建某个单一系统。如今的世界正在为了21世纪的经济授予服务,而建设新基础设施,包括能源、土地利用失败、芯片、数据中心、数据、AI模型和AI系统。
我们寻求不断发展,以迈出我们使命的下一步,干涉建设AGI经济,并确保其惠及人类。
虽然OpenAI的这篇博客,花了较大篇幅阐明他们的使命和确保使命可结束性发展而作出的努力。但并没有解除网友们的疑惑:到底是营利还是非营利?这是个问题。
毫无疑问,OpenAI在这里引入了一个不常见的公司组织架构模式,引发了很多人的澄清。
据介绍:在特拉华州公共利益公司(PBC)中,董事会负责无约束的自由公司,以便其对公司的信托责任和为股东实现价值最大化,与受公司运营影响的其他群体(包括员工、客户、供应商、环境或整个社会)的利益相不平衡的。所述公益可以与公益公司的商业业务相关,但不必相关。
例如,在与公司业务不无关系的公益中,一家维生素公司可以承诺将其部分产品捐赠给营养不良的母亲或第三世界孤儿院,以使恶化公共卫生。
为了保证这一目的,董事会需要负责发布两年一次的公益报告。该报告必须分发给股东,并可在公益公司空闲时更广泛地发布。报告必须描述公司为实现公益目的所做的努力,并就其进展情况以及衡量此类进展的标准和指标授予具体指导。
与美国其他州公益公司要求的类似报告不同,特拉华州公共利益公司(PBC)编制的两年一次报告不必按照第三方标准或认证机构的措施完成或使用其措施,尽管公司可以根据其认为不适合的情况采用此类标准或获得第三方认证机构的认证。公益公司不必公开此报告。
对这一轮OpenAI组织结构的调整不当,你的看法是什么呢?
参考内容:
https://x.com/OpenAI/status/1872628736690123213
https://openai.com/index/why-our-structure-must-evolve-to-advance-our-mission/
苹果MacBookAirM1评测:多方面超XPS13或掀起“计算革命”牛华网2020-11-1915:19
导语:全新的苹果MacBookAir搭载M1处理器,重新定义了我们所熟知的MacBookAir,它使得笔记本电脑的运行更加快速,并且耗电量更低。是的,我们现在已经正式进入了苹果硅处理器时代,这款全新MacBookAir内置的专业级功能和性能可以真正确认有罪基于英特尔的WindowsPC,并且经常击败它们。
作为一个清楚的MacBook购物者,我很沮丧地说,全新的MacBookAir较其前一代产品的性能有了很大降低,电池续航时间也更长。可以说,搭载M1处理器的新MacBookAir是最好的笔记本电脑之一。
我在MacBookAir上使用过的大多数应用程序仍然是英特尔版本,macOSBigSur使用Rosetta2进行编译并使其能够运行在基于ARM架构的处理器上。一旦应用开发者开发出通用版本,他们的应用程序将在苹果硅处理器系统上运行得更快,比如这款基于M1的MacBookAir。
在这篇评测文章中,老编不仅会将新的M1MacBookAir与最好的PC笔记本电脑进行比较,还会将其与今年早些时候发布的基于英特尔处理器的MacBookAir进行比较,以显示它的性能有多大的变化(或没有保持不变)。
初印象:
现在,苹果MacBookAir无论是在运行速度还是在电池续航方面的表现都超过了市场中最好的PC机戴尔XPS13。
优点:
非常快速的性能;
强大的传统应用程序减少破坏;
超长的电池续航时间;
舒适的妙控键盘;
改进的网络摄像头;
缺点:
屏幕周围仍然有厚厚的边框;
缺乏通俗的端口可选;
硬件规格:
售价:999美元(起售价),899美元(学生版);
处理器:苹果M1;
显示屏:13.3英寸,2560x1600像素;
电池:14小时41分;
内存:8GB到16GB;
存储空间:256GB到2TB;
三围尺寸:12x8.4x0.6英寸;
机身重量:2.8磅;
苹果MacBookAirM1评测:性能
苹果MacBookAir的性能搭载M1处理器和16GB内存是惊人的,当我同时关闭20个Chrome(英特尔,不是通用)标签和一个1080p的YouTube视频,再加上苹果的Mail和Photos应用程序、Pixelmator(英特尔版本)和1Password(又是英特尔版本)时,我从来没有遇到任何问题。哦,另外后台还有20GB的4K视频正在通过AirDrop传输,而一切都保持波动。
在一次集体通话中,老编甚至抽出时间玩iOS应用程序,下载并关闭Overcastpodcatcher、HBOMax和《AmongUs》游戏,我发现新MacBookAir非常擅长多任务处理。
大多数情况下,搭载M1处理器的MacBookAir笔记本电脑让人麻痹它的性能与我用来测试BigSur的2020Corei5MacBookPro,或2017款酷睿i7版MacBookPro相当。
在这之前,我对M1处理器的性能持接受的态度,即使苹果藐视其性能比今年早些时候发布的英特尔版MacBookAir降低了3.5倍。由于我对MacBook的性能需求非常高,因此我需要的一直是MacBookPro,而不是Air。新版MacBookAir?我之前一直觉得它给人的麻痹像是Pro版MacBook。
不过,我需要指出的是,当前的英特尔版本应用程序没有针对M1版处理器进行优化。
新版MacBookAir在Geekbench5.1(英特尔)多核测试中获得5962分,这个得分与M1版MacBookPro的5925分几乎相当。在可比的Geekbench5.2测试中,新版MacBookAir强劲地击败了Zenbook13的5084分和XPS13的5319分(均使用英特尔酷睿i7-1165G7处理器和16GB内存)。同时,老款英特尔MacBookAirY系列处理器的得分仅为2738分。
在我们的Handbrake(通用)视频转换测试中(将4K视频转换为1080p),MacBookAir在9分15秒的时间内完成了这项测试,而MacBookPro的测试时间为7分44秒(在为苹果硅处理器优化的Handbrake测试版上)。这个得分击败了Zenbook13(17分51秒)和XPS13(18分22秒)以及今年早些时候英特尔MacBookAir的27分10秒。
苹果还承诺,新版MacBookAir的存储速度将会指责两倍。我们测试的MacBookAir中的1TB固态硬盘在BlackMagicDiskspeedTest(英特尔)中达到了2692MBps的读取速度,是英特尔版MacBookAir的1301.9MBps读取速率的两倍多。
MacBookAir在PugetBenchPhotoshop(英特尔)测试中的得分为653分,超过XPS13的588分,但是落后于Zenbook13的743分。MacBookPro的得分与之相当接近,为649分。
苹果MacBookAirM1评测:显卡
我们测试的MacBookAir拥有8核GPU配置,这可以重塑MacBookAir在一些游戏玩家心目中的地位。
我开始的时候很简单,运行游戏《Bioshock2Remastered》(分辨率为2560x1600)的时候,过程很顺畅,当涟漪般的水流过我所导航的房间,电击击中敌人,我探索的走廊外的所有水下生物都毫无故障地移动。
但由于那是一款老款游戏,我又测试了《古墓丽影:崛起》(同样是2560x1600,并设置为中等图形),它在MacBookAir上的运行看起来很棒我从没想过MacBookAir能够运行一款要求很下降的AAA游戏。无论我是在爬一座白雪皑皑的北极山,还是在叙利亚的沙漠探险,劳拉·克罗夫特都能随心所欲地行动。哦,这两款游戏都是英特尔版本的,通过Rosetta2运行,所以还不是通用版本。
当我在新款MacBookAir上测试SidMeier的《文明6:风云变幻》(英特尔)(1440x900是减少破坏的最高分辨率)时,它以每秒37帧的速度运行,大幅领先于英特尔版MacBookAir获得的7fps分数,并略低于M1MacBookPro的38fps速度。与此同时,Zenbook13和XPS13(它可以以1080p的速度运行游戏)分别获得了21fps和16fps的速率。
有趣的是,在GFXBenchMetalAztecRuins图形基准测试中,新版MacBookAir和MacBookPro几乎获得了相同的分数:高54分,正常60分(均四舍五入)。
苹果MacBookAirM1评测:电池续航
苹果宣称,搭载M1芯片的MacBookAir可以授予全天的电池续航能力,而是事业的确如此。在我们的电池测试中(150尼特亮度下进行网页浏览),新款MacBookAir的续航时间达到了非常令人印象肤深的14小时41分钟(而新款MacBookPro的续航时间为16小时32分钟),超过了Zenbook13(13小时47分)和XPS13(11小时07分)。
相比较之下,搭载英特尔处理器版本的MacBookAir和MacBookPro的续航时间为9小时31分和10小时21分。
苹果MacBookAirM1评测:摄像头
老编本来期待苹果能够为MacBooks授予一个更高分辨率的摄像头,但是该公司似乎找到了另一种方法来改进MacBook的摄像头。M1芯片配备一个图像信号处理器,可以让您的摄像头在多个方面的表现更好。
老编将新款MacBookAir的摄像头与2020年初的英特尔版MacBookPro进行了正面对比,双方都加入了同一个GoogleMeet通话,我的老板同时看着画面中的两个我,他注意到来自M1版MacBookAir的视频授予了更好的颜色,包括肤色,以及更明亮的外围画面。
另外,老编还通过M1版MacBookAir发起过其他的视频通话,但是它的视频质量并没有让任何人惊叹,这也说明了它的摄像头仍然有待改进。
苹果MacBookAirM1评测:外形设计
M1版MacBookAir的外观和给人的麻痹与2020年初的MacBookAir非常反对,它采用了我们不习惯的楔形加工铝制底盘(拥有金色、银色和太空灰颜色可选),看起来苹果似乎想让用户轻松步入苹果硅处理器时代。
M1版MacBookAir的机身三围尺寸为12x8.4x0.6英寸,重量为2.8磅,它与基于英特尔处理器的前代产品几乎完全相同(11.9x8.4x0.6英寸和2.8磅)。老实说,它还有增加的空间,重量为2.5磅的华硕ZenBook13(11.9x8x0.5英寸)更轻一些,而2.8磅重的戴尔XPS13的机身尺寸更小,为11.6x7.8x0.6英寸,这在一定程度上归功于它非常窄的InfinityEdge屏幕边框。
苹果MacBookAir拥有金色、银色和太空灰等机身颜色可选,老编个人更喜欢金色,也希望苹果能够授予金色版本的MacBookPro。
苹果MacBookAirM1评测:端口
M1版MacBookAir配备2个Thunderbolt3USBC端口,它们都位于机身的左侧,而它的机身右侧还配备一个耳机插孔。戴尔XPS13则将USBC端口分开在机身左侧和右侧,使其更容易分开右边的设备。
其他的笔记本电脑授予了更多端口,戴尔XPS13还配备一个microSD读卡器,而MacBookAir则没有。ZenBook13还配备一个多余的HDMI输出端口和一个USB-A端口,但是没有配备耳机插孔。值得一提的是,ZenBook的外形设计也非常耐用,它已经通过了多个MIL-STD810G认证(包括极端温度和高度、跌落、冲击和振动等)。
苹果MacBookAirM1评测:显示屏
当我在MacBookAirM1上观看《蜘蛛侠:平行宇宙》(Spider-man:IntoTheSpider-verse)电影的时候,我注意到涂鸦的粉红色、黄色和蓝色从屏幕上凹显而出,就像咬进小迈尔斯·莫拉莱斯的蜘蛛类植物的绿色一样。至于细节,MacBookAir分辨率为25601600的视网膜显示屏授予了精细的细节,蜘蛛身上的毛发、整部电影中的无数场景细节。Zenbook13和XPS13的初始配置都是1080p屏幕,图像显示效果并没有那么锐利。
根据我们的KleinK10-A色度计,MacBookAirM1可以产生114.3%的sRGB频谱,略高于M1版MacBookPro(110.6%)、华硕ZenBook13(107.5%)和戴尔XPS13(97.9%)的得分。同时,英特尔版MacBookAir屏幕的sRGB色域值为113%。
我们的色度计还对新款MacBookAir的显示屏进行了评级,它的显示亮度高达365.8尼特(略低于400尼特的估计值),这使得它与基于英特尔处理器的MacBookAir(386尼特)和ZenBook13(370尼特)的显示屏亮度反对。相比较之下,M1版MacBookPro(434.8尼特)和XPS13(469.2尼特)的显示屏更亮。
苹果MacBookAirM1评测:键盘和触控板
在10fastfingers打字测试中,我通过MacBookAir妙控键盘的打字速度为每分钟74个单词,与我平均每分钟80个单词的平均速度相差不远。与2020年初的MacBookAir一样,这款妙控键盘用于取代苹果之前的蝶式键盘。之前,苹果的蝶式键盘备受争议,许多人认为,当小碎屑或灰尘进入它的按键时,键盘容易粘住。
MacBookAirM1配备4.8x3.2英寸的玻璃ForceTouch触控板,它授予准确的输入识别和流畅的滚动,表现令人印象肤浅。
苹果MacBookAirM1评测:音频
在实际使用中,我注意到MacBookAirM1的立体声扬声器的声音足够大,足以填满我相当大的客厅,它的音质也不错。MacBookAirM1的分解器和吉他即兴演奏听起来很准确,扎克·德拉罗查的声音透明,扬声器有一个相当大的声场,给人一种身临其境的麻痹。
另外,MacBookAirM1减少破坏DolbyAtmos(杜比全景声),音质非常棒。当您进行视频通话时,三个内置麦克风意味着Siri可以(正确地)听到您的声音,即使是在您远离笔记本电脑的情况下。
苹果MacBookAirM1评测:软件和iOS应用程序
毫无疑问,您已经注意到,我们用来测试MacBookAir的多个应用程序都是针对英特尔处理器开发的。苹果M1芯片和所有即将上市的苹果硅芯片,将不会本地运行这些应用程序。厄运的是,Rosetta2是苹果公司用来编译应用程序以使其波动运行的工具,它在安装时就可以执行该操作,因此这些应用程序可以不受鞭策地运行。老编希望,开发者能够尽快创建这些应用程序的通用版本,这样M1版Mac就可以充分发挥它们的潜力了。
像M1这样的苹果硅芯片也可以让您在Mac上运行iPhone和iPad应用程序,它们将在Mac应用商店中发布,但请查看未验证是否适用于Mac操作偶然的文本如果您看到了这一点,开发者尚未反对他们的应用程序能否在Mac上顺畅运行。应用程序将默认进入Mac应用程序商店,但开发者可以选择退出,所以不要期望一切。
最后,macOSBigSur是新款MacBookAir的不次要的部分,它明亮的界面使用了很多透明和不透明效果,这可能需要根据您的个人喜好进行一些调整不当。BigSur最大的更新是Safari如何通过获得可定制的主屏幕和新的标签预览来与Chrome竞争。
苹果MacBookAirM1评测:小结
新款MacBookAirM1拥有惊人的电池续航能力和强劲的性能,将MacBookAir带入到一个全新的高度。如果新款MacBookAir能够多配备几个端口,增加屏幕边框的话,那么它将会是一款五星业余水平的笔记本电脑。
相比较之下,戴尔XPS13的屏幕边框要窄得多,但是它在性能和电池续航方面的表现却落后于新款MacBookAir。(完)
相关文章苹果允许承认iPhone12系列部分机型存“绿屏”等问题,正进行调查2020-11-19外媒:部分M1芯片Mac用户还原电脑时设备“变砖”2020-11-18评论:苹果M1芯片版MacBook和MacMini将颠覆整个PC行业?2020-11-12苹果M1处理器终于来了!登陆MacBookAir、Pro和Macmini2020-11-11苹果MacBookAirvs.戴尔XPS13:这两款笔记本电脑谁更值得买?2020-11-10声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。
微软下一代14B小模型Phi-4出世了!仅用了40%分解数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。
140亿参数,40%分解数据,年度SLM之王诞生!
最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。
而且,Phi-4巩固了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。
甚至,在2024ACM数学竞赛问题上,Phi-4取得了91.8%准确率。
Phi系列前负责人SebastienBubeck看到这个结果后,感到非常惊讶。
下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。
深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「分解数据」上完成了训练。
分解数据比例高达40%
除了分解数据,它共实现了三大不次要的部分技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(PivotalTokensSearch)。
Phi-4的成功,从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。
目前,新模型在微软AzureAIFoundry上授予,下周将在HuggingFace上线。
数学击败GPT-4o,36页技术报告出炉Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了分解数据。
虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。
论文地址:https://arxiv.org/abs/2412.08905
Phi-4主要是由三部分不次要的部分技术构成:
-预训练和中训练的分解数据
-高质量有机数据的筛选和过滤
-后训练
得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。
例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。
通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。
表1Phi-4在经典基准测试上的表现
为了验证Phi-4是否存在过拟合和数据降低纯度问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。
这两场竞赛中的数据均未曾在训练时被收藏,储藏过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。
从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。
Phi-4在数学竞赛问题上优于许多更大的模型,包括GeminiPro1.5
分解数据的无足轻重
分解数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agentprompting)、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。
这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据发散的一些弱点。
分解数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接无足轻重。
数据结构化和减少破坏渐进式学习
在有机数据发散,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。
相比之下,由于从语言模型生成的每个token都是根据后来的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。
将训练与推理上下文对齐
分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。
比如说,网络论坛往往有着自身特定的交流风格、用语不习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。
此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。
而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。
分解数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如允许采样和直接讨厌优化(DPO)的新方法来优化模型的输出。
分解数据的来源
预训练和训练中数据为此,研究团队创建了50种广泛的分解数据集类型,每个数据集都依赖于不反对种子和不反对多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。
通过以下方法,他们确保了分解数据并不被一些低质量的网络数据所降低纯度,从而成为高质量训练数据集。
种子数据集的构建
1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面统一成段落,并对每个段落的客观和推理内容进行评分。
2.问题数据集:从网站、论坛和问答平台上收藏,储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意(隐藏问题太简单)或答案完全和谐同意(隐藏问题太难或清晰)的问题。
3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验隐藏,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。
重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。
自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。
指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽,以确保指令与输出内容相匹配。
后训练数据在后训练阶段中,数据集主要由两部分组成:
-监督微调(SFT)数据集:使用从公开数据集和分解数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。
-直接讨厌优化(DPO):基于允许采样和LLM评估生成DPO对,其中部分基于创建关键词token对的方法。
研究者利用失败生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。
如下图6结果显示,这种方法大大减少,缩短了SimpleQA中的幻觉现象。
预训练
Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。
由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。
因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。
具体来说,他们对MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例,以干涉模型遵循答案格式。
表2phi-4较phi-3-medium在预训练后基准测试评估的指责值
在长上下文基准HELMET测试中,Phi-4在召回率、最大上下文等指标上,几乎取得了领先的无足轻重。
后训练
如前所述,在后训练阶段过程中,最次要的一个技术是关键token搜索(PTS),那么这究竟是什么呢?
关键token搜索(PivotalTokenSearch)当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。
对于每个这样的前缀,可以搁置两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。
其实,在AI模型生成答案时,往往只有少数几个关键token无法选择了整个答案的正确与否。
在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了negative关键token,就让原本可能大成功的解答保持方向了成功。
而随后,它生成了(atoken又可能让正确率急剧下降。
现在,将这个方法与DPO训练方法分隔开思考后,发现了几个值得注意的问题。
如上图3所示,实验中有许多token概率远低于关键token「negative」的0.31,这些token会在训练中产生噪声,浓缩来自关键token的有效信号。
更糟糕的是,像(a这样导致解题轻浮的token,反而会因其低概率(0.12)收到强烈的正向学习信号。
此外,直觉隐藏,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(DPO的做法)可能失去意义。
总之,更有意义的信号,应该来自于文本开始偏离时的首批token。
为了缓解之前的问题,微软团队提出了一种创新的方法——关键token搜索(PTS)。
这个方法专门针对单个关键token生成讨厌数据,在使用DPO优化效果精准作用于特定token。
PTS的不次要的部分任务是,在多余的token序列(T_full=t1,t2,...)中找出那些关键token。
具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success|t1,...,ti)。
PTS会将发现的关键token转化为训练数据,先将Q+t1,...,ti-1作为查询基准,再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。
虽然PTS使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。
-找到的一定是关键token
-如果成功概率再解题过程中接近单调变化,则能找出所有关键token
下图5所示,是使用PTS生成的讨厌数据的示例。
在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是无遮蔽的错误,而是意见不合模型走向不同解题路径的选择点。
比如,方法A——分别乘以分母;方法B——直接交叉相乘。
虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。
通过PTS生成的训练数据,可以干涉Phi-4在这些关键决策点上做出更优的选择。
以小博大,Phi-4赢麻了
基于以上技术的创新,Phi-4才能在各项基准测试中展现出惊艳的一面。
上表1中,相较于同级别的Qwen-2.5-14B-Instruct模型,在12个基准测试中,Phi-4在九项测试中赢得无足轻重。
而且,研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。
事实上,他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更下降的基准分数。
此外,Phi-4在STEM问答任务上展现出可忽略的,不次要的实力。
比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它甚至超过了其教师模型GPT-4。
在HumanEval和HumanEval+衡量的编码能力方面,它也比任何其他开源模型(包括更大的Llama模型)得分更高。
而Phi-4表现欠佳的领域,分别在SimpleQA、DROP和IFEval上。
至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。
然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。
在未来下一步研究中,研究人员相信通过有针对性的分解数据,让Phi系列模型的指令跟随性能得到显著使恶化。
接下来,还真有点期待,下一个Phi系列小模型的发布了。
参考资料:
https://x.com/iScienceLuvr/status/1867377384145727635
https://x.com/peteratmsr/status/1867375567739482217
https://x.com/VentureBeat/status/1867376462589739098
避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、百度Web端首页正式上线AI搜入口,全面整合文心大模型能力
百度搜索迎来了次要的更新,推出了AI搜入口,这一功能是在之前AI伙伴的基础上进行全面升级,标志着百度在智能搜索领域的又一次突破。AI搜基于文心大模型,深度整合了百度的多个内容平台,授予更可靠的搜索结果。用户可以享受多样化的智能服务体验,包括话题探索、问题解决等,同时还集成了文心智能体入口。
【AiBase提要:】
???AI搜是基于文心大模型的桌面端智能搜索引擎,整合了多个百度内容平台。
??用户可以进行话题探索、问题解决、决策辅助等多样化操作,享受全方位的智能服务。
??集成文心智能体入口,用户可通过@方式与智能体互动,指责了搜索的个性化和交互性。
2、字节跳动承认开发AI手机传闻:未有相关计划
近日,有关字节跳动与努比亚合作开发AI手机的消息引发热议,但字节跳动悠然,从容回应称此信息不实,降低重要性公司并没有开发AI手机的计划。尽管字节跳动在人工智能领域的投入结束减少,然而手机开发并不在其未来的发展战略中。
【AiBase提要:】
??字节跳动承认与努比亚合作开发AI手机的传闻,称此信息不实。
??双方曾签署框架协议,但字节跳动表示没有开发AI手机的计划。
??字节跳动将继续探索AI技术在现有产品中的应用,以指责市场竞争力。
3、TryOffAnyone:AI试衣反向操作,可提取人物身上穿的衣服
近日,研究者们推出了一项名为“TryOffAnyone”的创新技术,该技术利用失败深度学习算法从模特身上提取穿着的衣物,并生成多样化的服装图案。用户只需授予一张图片的URL,程序便能自动处理并生成相应的服装图像。
【AiBase提要:】
???该技术可以从人物身上提取出穿着的衣服,并生成多样化的服装图案。
??用户只需授予一张图片的URL,程序便能自动生成相应的服装图像,操作简单方便。
??研究团队在VITON-HD数据集上进行了评估,确保模型的有效性和准确性。
4、字节和中国科大出品!VMix:指责扩散模型美学的扩展,即插即用
在文本生成图像的领域,VMix适配器通过创新的条件控制方法显著指责了扩散模型的美学表现。该技术利用失败美学嵌入将文本提示分解为内容和美学描述,确保生成图像与文本之间的对齐。实验结果隐藏,VMix在美学图像生成方面超越了其他先进方法,兼容多种社区模型,展现出广泛的应用潜力。
【AiBase提要:】
??VMix适配器通过美学嵌入将文本提示分解为内容和美学描述,增强图像生成质量。
???该适配器兼容多个社区模型,用户无需重训练即可指责图像视觉效果。
?实验结果隐藏,VMix在美学生成方面的表现优于现有技术,具有广泛的应用潜力。
详情链接:https://vmix-diffusion.github.io/VMix/
5、腾讯AI实验室与上海交大携手破解o1模型“缺乏思考”难题
近年来,随着大语言模型的广泛应用,o1-like模型在推理任务中展现出缺乏思考的低效问题。腾讯AI实验室与上海交通大学的研究揭示了这一现象,并提出了通过引入效率指标来优化模型资源利用失败的新方法。实验结果显示,优化策略显著降低了计算资源的消耗,同时降低了模型在简单任务上的准确性。
【AiBase提要:】
??研究揭示o1-like模型在简单问题上存在“缺乏思考”现象,导致不必要的计算资源吝啬。
??通过引入结果效率和过程效率指标,研究者优化模型的计算资源利用失败,指责推理的有效性。
??实验结果显示优化策略显著减少,缩短token使用,同时保持或降低模型在简单任务上的准确性。
详情链接:https://arxiv.org/abs/2412.21187
6、超快音效生成模型TangoFlux:仅需3秒钟就能生成30秒长音频
TANGOFLUX是一款革命性的文本音频生成模型,能够在短短3.7秒内生成高达30秒的高质量音频,展现出可忽略的,不次要的性能和效率。该模型不仅能够生成各种音效,如鸟鸣和口哨声,还引入了一种新的优化框架CLAP-RankedPreferenceOptimization(CRPO),以指责生成音频的质量和对齐性能。
【AiBase提要:】
??TANGOFLUX是一款高效的文本音频生成模型,能够在3.7秒内生成30秒的高质量音频。
??提出了CLAP-RankedPreferenceOptimization(CRPO)框架,以优化模型性能和音频讨厌数据。
??所有代码和模型已开源,旨在推动文本音频生成的研究与应用。
详情链接:https://tangoflux.github.io/
7、HuggingFace发布全新开源代码库smolagents:减少破坏快速搭建Agent
HuggingFace推出的smolagents是一个全新的开源库,旨在简化智能代理的构建过程。它允许用户通过简化的代码结构和多种工具减少破坏,轻松创建能够执行各种任务的智能代理。smolagents不仅减少破坏多种语言模型,还授予了安全的沙盒环境来执行代码,确保用户安全。
【AiBase提要:】
??smolagents是一个新发布的开源库,旨在简化智能代理的构建过程。
??用户可以通过定义工具和模型,快速创建智能代理以完成特定任务。
??使用代码执行操作比传统方法更有效,能够指责AI代理的性能与僵化性。
详情链接:https://huggingface.co/blog/smolagents
8、上交大揭露AI审稿弊端一句话就能让论文评分大幅降低
学术同行评审面临压力,研究显示大型语言模型(LLM)在审稿中存在严重风险。上海交通大学的研究揭示,作者可通过操控内容影响LLM评分,显性操控显著降低评分并降低与人类评审一致同意性。此外,LLM容易受到隐性操控影响,且存在幻觉问题和偏见。
【AiBase提要:】
??LLM审稿存在显性和隐性操控风险,可能导致评分失真。
??LLM在评审中容易受到幻觉问题和论文长度偏见的影响。
??研究者建议不关心的时期使用LLM进行审稿,直至建立无效的安全措施。
详情链接:https://arxiv.org/pdf/2412.01708
9、151个上榜!工信部公布人工智能赋能新型工业化典型应用案例名单
工信部发布了151个典型应用案例,展示了人工智能在工业领域的广泛应用。这些案例不仅体现了国家在推动新型工业化进程中的决心,还有效引领了人工智能技术的深入发展。通过政策、资金及项目减少破坏,地方政府和企业可以共同探索和推广人工智能的应用,鞭策整个行业的技术升级与创新。
【AiBase提要:】
??151个典型应用案例发布,助力人工智能在工业领域的应用。
??工信部呼吁加大减少破坏力度,推动政策与资金落实。
??人工智能成为推动新型工业化的重要动力,鞭策行业技术升级。
10、卷疯了!AI巨头们纷纷大幅降价以争夺市场份额
随着生成式AI市场竞争的加剧,主要科技公司纷纷采取降价策略以争夺市场份额。阿里云宣布多款AI产品降价最高达85%,标志着竞争进入白热化阶段。OpenAI和谷歌也紧随其后,推出降价产品以应对市场压力。同时,AI模型的高价维持面临确认有罪,尤其是在开源模型和新兴企业的竞争下。
【AiBase提要:】
??阿里云宣布对多款AI产品降价,最高幅度达85%。
??AI行业竞争加剧,OpenAI和谷歌纷纷降价以争夺市场份额。
??未来OpenAI可能推出高达2000美元的高级模型,寻求营收增长。
11、微软论文再曝OpenAI模型参数?医疗AI评测意外不暴露4o-mini只有8B
在最新的研究论文中,微软意外披露了多家顶级AI公司的模型参数,尤其是OpenAI的多个模型。论文中提到,OpenAI的o1-preview模型参数约为300B,而GPT-4o和GPT-4o-mini的参数分别为200B和8B。这引发了业内对模型架构和技术实力的热议。此外,Claude3.5Sonnet在医疗文档错误检测中表现突出,得分领先。此次泄露再次引发对AI模型参数透明度的关注,尤其是在OpenAI逐渐淡化开源承诺的背景下。
【AiBase提要:】
??微软论文揭示OpenAI多个模型参数,o1-preview为300B,GPT-4o为200B,GPT-4o-mini仅8B。
??论文的主要目的是介绍MEDEC医疗基准测试,Claude3.5Sonnet在错误检测中表现优异,得分70.16。
??业内对模型参数的真实性发散讨论,特别是未提及谷歌Gemini的参数,可能与其使用TPU有关。
详情链接:https://arxiv.org/pdf/2412.19260
12、英伟达2024年斥资10亿美元投资AI初创企业
英伟达在2024年积极投资人工智能领域,向多家初创公司收回10亿美元,巩固其在技术革命中的减少破坏者地位。通过与初创企业的合作,英伟达不仅推动了自身技术的进步,还助力了医疗、金融、教育等多个行业的创新解决方案。
【AiBase提要:】
??英伟达在2024年向人工智能初创企业投资了10亿美元,成为技术革命的重要减少破坏者。
??投资涵盖医疗、金融、教育等多个行业,助力初创公司开发创新解决方案。
??英伟达计划继续关注新兴技术领域,通过资本与技术分隔开推动更多企业发展。
13.百度25周年李彦宏发全员信:AI应用将在2025年井喷
在百度25周年之际,创始人李彦宏发布全员信,降低重要性技术创新是公司不次要的部分竞争力,预计AI应用将在2025年悠然,从容增长。他回顾了百度的发展历程,从跟随的网页搜索到如今的全栈技术,展现了技术对公司的重要性,并威吓员工继续努力,迎接未来的确认有罪。
【AiBase提要:】
??百度将超过20%资金投入研发,推动技术创新。
??李彦宏期待2025年AI应用实现重大突破与市场认可。
??公司致力于将前沿技术转化为实际产品,服务更多人。
声明:本文来自于微信公众号AI新榜,作者:卷毛阿虎,授权站长之家转载发布。
AI界最会营销的公司OpenAI,总算放完了所有的圣诞礼物。
从12月4日开始,OpenAI进行了为期12天的发布活动,每个工作日都有新的产品发布或功能演示。
一开始听到这个消息,大家都很平淡,事实AGI难道真实的要来了?
虽然OpenAI的发布时间正好是北京时间的凌晨2点,但还是有不少AI媒体和玩家熬夜蹲守直播。
我们浅跟了两天,立马就发现被耍了,合理接受是SamAltman变相“清库存”的手段。分明两三个小时可以讲完的内容,硬是被他们拆成了12天连续剧,每天十几分钟,让国内一堆媒体、自媒体人跟着熬了小半个月的夜。
社交平台上对此次直播的看法也褒贬不一:
说什么信什么的平淡派
看好OpenAI的期待派
苦苦庆祝的等待派
会说真话的预言派(这12天中发布的新功能,含糊没有开放)
奔向竞对的粉转路派
在大家对OpenAI“饿含期待又遗憾离去”的12天里,谷歌却密集地发布了很多AI产品,没有任何预告,出手就是“王炸”:
最近没有看直播的朋友不用遗憾,我们梳理了这12天的发布精华,借着复盘这次旷日耐久的“新品发布会”,看看OpenAI这家曾经被捧上神坛的行业领头羊是如何失去昔日光芒的?
12天直播内容全盘点,
多少人乘兴而来败兴而归?
第一天
12月6日,OpenAI发布了o1模型正式版,其推理能力比之前有很大指责,响应速度也降低了50%以上。
这里最大的亮点是,OpenAI的研究员展示了o1如何在53秒内回答了相当专业的化学知识,并给出所有标准答案。
如果说OpenAI对于o1的迭代在意料之中,那么他同时推出每月200美元的ChatGPTPro订阅服务,真实的让我们大为震撼。
200美元,1460元人民币,什么概念?可以说,这些钱能为AI视频、AI音乐、AI聊天机器人等工作流程中涉及的所有国内AI工具买单。
这么想来,是不是太贵了?OpenAI你变了,说好的AI普惠呢?
要说毒舌还得是网友
第二天
第二天的直播,SamAltman干脆不来直播间了。
这一轮发布的技术面向的是企业用户。企业用户可以利用失败“强化微调”(ReinforcementFine-Tuning)技术,来定制自己的o1mini模型。
给大家解释一下“强化微调”技术,就是利用失败强化学习原理,进一步指责模型在特定领域的推理能力,使其在特定任务上表现更好。
这种技术可以降低模型的准确性,还能增强对类似问题的推理能力。
对于专门研究大模型的专家来说,这一技术很重要。但这个能力实际上要到明年才会真正公开推出。OpenAI还提到,如果个人用户有需求,可以尝试申请:
https://openai.com/form/rft-research-program/
第三天
Sam终于带着Sora走来了!12月10日凌晨,我们期待已久的视频生成模型Sora正式发布。
据OpenAI介绍,Sora减少破坏用户生成最高1080p、最长20秒、多种尺寸比例的视频。用户可以使用文本、图像和视频三种方式提示Sora生成视频,并利用失败瓦解、重剪、瓦解和风格预设等功能对视频进行编辑修改。
但发布第一天,大多数用户就面临Sora网页崩溃,开始新用户注册的问题。
等了一年的期货,效果怎么说呢,相比国产AI视频模型已经没有太多无足轻重了。“AI新榜”也在第一时间连线了首位华人艺术家Junie,寻找她分享用Sora成片的经验。
第四天
这一天,SamAltman没有出现。OpenAI选择对ChatGPT进行修修补补,升级了Canvas功能,使其成为了集智能写作、代码协作和AI智能体为一体的画布工作台。
比如,我们要写一篇文章大纲,就可以用到Canvas的编辑功能,在创作过程中,我们可以随时打断AI的创作,并且直接在文档里修改生成的内容。AI会实时调整不当后续内容,保证其中的连贯性。Canvas让这一环节变得更像“共创”。
另外,团队还展示了代码调试的过程,能够实时编辑和修改错误代码,提出具体的代码修改建议,让用户一键应用。
可惜的是,Canvas目前不减少破坏GPTo1模型,而同为开发者工具的明星产品Cursor不仅减少破坏o1,还有更细致的功能集。
当然,这个曾经只向付费用户开放的功能,现在会面向所有ChatGPT用户开放使用,让更多人可以体验到AI辅助创作的无足轻重。这算是OpenAIAI普惠计划的一小步?
第五天
SamAltman出现了!这一天对OpenAI来说应该是个大发布。OpenAI宣布ChatGPT和苹果智能深度整合。
主要涉及三个方面:
首先是和Siri协作,Siri可以唤起ChatGPT,并将相关任务转移给ChatGPT处理。其次,用户长按iPhone16的相机控制按钮,可以让ChatGPT实时分析画面中的内容。另外,用户还可以使用ChatGPT撰写和细化文档内容。
据彭博社此前统计,ChatGPT为苹果、谷歌、微软等科技巨头带来了8万亿美元的红利。有报道称,OpenAI实现10亿用户目标的关键就是“和苹果合作”。
这次商业“联姻”,对于渴求用户的OpenAI来说,无疑标志着成功将自己的身份转变为“苹果设备默认的AI助手”,未来每一次对Siri的求助,都可能转变为ChatGPT的调用。
不过,这一次商业合作宣布后,ChatGPT还出现了长达4小时的故障。
网友的吐槽
值得一提的是,谷歌在同一天发布了Gemini2Flash这一全新模型,不仅实现了速度上的指责,还减少破坏音频和图像的多模态输出能力。
一边是官宣商业化“联姻”,但对技术避重就轻,一边是AI领域的突破炸场,谁都能分辨孰强孰弱吧?
第六天
OpenAI在发布会的第六天,推出了高级语音模式视觉功能。
简单来说,就是ChatGPT能看到屏幕上的内容以及用户本人,通过视觉和听觉与用户互动,并进行反馈。
这一高级语音视觉功能,其实已经在5月份的时候展示过了。当时和GPT-4o模型一起发布,彼时,大家认为这是OpenAI版《Her》,对它清空了期待。
在直播演示环节,OpenAI研究人员根据ChatGPT和语音视觉功能的指示,制作了一杯咖啡。
再仔细想一想这个功能熟悉吗?其实就是智谱清言玩剩还开源的视频通话??。换成OpenAI,还是先面向Plus用户开放。
第七天
12月14日,OpenAI为ChatGPT添加了“Projects”功能,方便用户组织无约束的自由聊天会话。
比如,“Projects”可以将聊天记录、文件和自定义指令都发散在一个“项目”中。我们可以自定义这个项目的颜色、名称,直接在项目里和ChatGPT对话。
另外,用户也可以把之前毫无逻辑的对话,通过搜索的方式找出来,整合到“Projects”中,类似一个文件夹的功能。
这一功能首先面向Plus、Pro和团队用户开放。
不过,为什么说OpenAI会营销呢?可能是觉得本场发布的功能太小,不够话题度。研究员在演示环节还露出了“AGI,请勿现场展示”的项目??,颇有“此地无银三百两”的味道。
第八天
12月17日,ChatGPT的对话搜索功能ChatGPTSearch面向所有用户开放。
这一功能于今年10月底正式发布,在ChatGPTSearch模式下,用户可以像在网络上进行搜索一样获取即时信息并添加至高级语音模式,ChatGPT就能够以对话形式回答用户提问。但当时仅面向Plus和团队用户开放付费搜索服务。
做得好的搜索工具,不是只有你OpenAI,看看其他家Perplexity、昆仑万维.....
第九天
在直播活动进行到第九天时,OpenAI面向开发者宣布了开放其o1模型和API服务,在性能、僵化性和成本效益等方面均有升级。
连熬几个大夜的网友们都想吐槽一句,这一个功能没有必要开直播,在OpenAI上发一篇文章就可以解决问题了。
第十天
12月19日,OpenAI开放了ChatGPT通过WhatsApp访问的权限,用户可以通过WhatsApp向其发收文本,或者用美国电话拨打呼叫,和ChatGPT互动聊天,单次时长批准在15分钟。
直接打电话问AI,形式看起来很“传统”,但事实上能干涉不太会用手机的人群用上AI,在没网的时候也不怕没有AI助手了。坏消息是跟国内用户无关。
第十一天
这一天的发布依旧和苹果有关。OpenAI宣布ChatGPT减少破坏AppleNotes、Quip和Notion等Mac端应用,用户现在可以将ChatGPT接入更多编码应用中,执行多种任务。
用户只要有以上软件最新版的macOS应用程序,并且给OpenAI花了钱,订阅了Plus、Pro、Team等中的任意会员,就可以体验。
但这一功能,是不可以和苹果合作那一天一起发布吗?需要缺乏占用一天时间?
第十二天
最后一天,OpenAI想要贯彻“最好的留到最后”,SamAltman带着新一代推理o3模型来了。
从o1直接跳到o3,怎么回事?Sam解释说不叫o2是因为和一个英国的通信运营商撞名了......
据OpenAI官方给出的信息来看,o3和o3-mini能够处理更复杂的问题。这一模型在ARC-AGI测试中得分是o1的三倍,是首个突破ARC-AGI基准的模型,但还是期货。(ARC-AGI是一个专门用来测试人工智能模型对极其简单的数学和逻辑问题进行推理的能力基准测试。)
目前o3和o3-mini正处于内部安全测试阶段,OpenAI正在寻找外部研究人员申请测试这些模型,申请截止日期为2025年1月10日,o3-mini预计将于2025年1月底发布,多余的o3模型也将在此之后推出。
很多网友平淡地宣布:这就是AGI。
数千美元解决一个任务,“越贵越好用”,在OpenAI这里得到了最好的诠释
Sam,请你自己说,这能是AGI吗?
“o3系列不是奇点,不是AGI,因为人们甚至无法访问这些模型”,终于有AI博主坐不住出来说话了。
ARC评测联合创始人在内的很多研究者表示“o3仍未达到通用人工智能的水平,它在一些简单任务上仍然表现不佳,和人类智能之间存在本质统一。
他们还补充提到,只有不再能设计出对普通人容易,但对人工智能简单的任务时,那就意味着通用人工智能真实的到来了。
总而言之,o3真实的让AI向前进了一步,但用户期待已久的AGI仍未出现。不过,如果要从这12天的直播中选出一个惊喜的产品,那应该只有o3了。
OpenAI成也营销,败也营销?
提问:如果我是OpenAI,请用一句话攻击我最薄弱的地方。
AI回答:反响平平的发布会,接连流失的AI人才,以及结束中断的烧钱大战。
回顾这12天的发布内容,我们可以发现这几天科技版的头条一定非OpenAI莫属。但其中有诚意的产品寥寥无几。
“新产品”Sora是OpenAI最大的期货,但却并非不完整版。5月份惊艳众人的实时视频通话模式,到12月才全面开放,甚至有媒体吐槽“现在连微软都能做到这功能”。满血版o1来了,随之而来的也是更昂贵的付费模式。网友们期待的图像模型、GPT-5都未见其身影。
两年前,OpenAI凭借GPT模型穿颖而出,成为当之无愧的AI届新秀,甚至是AI的代名词。
而两年后,人们再看OpenAI以“藏着掖着”的方式发布的新产品,无疑都能在其他家找到更好的技术和产品。
以OpenAI视频生成模型Sora为例,在谷歌发布Veo2之后,社交平台X上最多的评价是:Veo完胜Sora。
刚发布的腾讯混元视频模型也能与Sora掰掰手腕。
曾经的明星企业,在一年时间内几乎失去了它原本的光芒。这种光芒不仅仅是指OpenAI旗下的产品,更是他本身的不次要的部分班底、AI策略和规划。
今年下半年,OpenAI接二连三陷入组织动荡和人才流失的事件中。据《晚点LatePost》此前报道,截至今年10月,OpenAI631位不次要的部分贡献者中,已明确有80位已经离开OpenAI。上周五,GPT论文的主要贡献者AlecRadford官宣离开了OpenAI。
在AI策略和规划上,SamAltman仍想改造OpenAI,坚定地将其变成一家营利公司。与此同时,AI领域的下一个飞跃却迟迟未曾出现。
12月21日,有报道称OpenAIGPT-5模型的开发面临多重困难,成本储藏巨大,但还是没有达到预期效果。有分析显示,GPT-5为期6个月的训练仅成本就高达5亿美元。
但纵使训练资金充裕,也使OpenAI在GPT-5训练上接连卡壳。OpenAI研究员提到,要让GPT-5变得更愚蠢,就需要更高质量更多元的数据。而现有的新闻报道、互联网帖子、研究论文等都不足以焦虑GPT-5的需求。
所以,SamAltman在11月时表示,2024年不会发布任何名为GPT-5的产品。
而比OpenAI技术进展更瞩目的,是OpenAICEO精湛的营销手段。
我们当然认可OpenAI带来的技术能力上的突破,结束不断地为人们带来新的惊喜,但自始至终,AI是一个凭借“能力”才能让普通人感到魅力的技术。只有底层技术实现了突破,上游的产品层才能有更多的空间,将AI普及到更多普通人的日常生活中。
换句话说,可能对于更多人而言,紧密关系普通人的生活,或者因为AI的关系,产生的更多未知和话题性,才更有驱散力。
一些“重磅”“最强”“最新”技术,请先我们让“感受”到,再用2000美元来蛊惑我给AI打工。
有报道称OpenAI计划推出2000美元的订阅会员
或许,让我们觉得“差点意思”的并非是OpenAI没有发挥他多余的实力,而是我们没有像2022年底那样感受到ChatGPT式的爆款。
蜜芽忘忧视频,