欢迎来到摩尔庄园摆上向导桌!今日更新:533438章
章节列表 共7696章
第一章 蜜芽miya737.mon.永不失联
第二章 COS伽罗太华被X
第三章 成人网址导航大全
第四章 爆料网
第五章 两个人看的视频免费的
第六章 锻造300-375
第七章 天魔幻想
第八章 免费黑料吃瓜网爆网站
第九章 打扑克脱内衣又痛又叫
第十章 蜜芽MY188.CNN永不失联

第795981章

daokangming.com

根据摩尔定律,随着我们离一个真正充盈的世界的实现越来越近,到2025年,变化也将发生得越来越快。在下个十年,我们将见证以下八个领域发生不平常的,值得注意的变化。只消1......

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

美国年轻人已经看到国家由越来越老的一代人无约束的自由。随着特朗普即将于1月20日宣誓就职,他将成为拜登之后又一位以78岁高龄就任的美国总统。自去年他俩那场高龄老人总统辩论以来,越来越多人注意到美国政界的老人政治问题,呼吁保持不变的声音愈发响亮。

年轻人已经看到这个国家由越来越老的一代人无约束的自由。美国得克萨斯州共和党籍众议员布兰登·吉尔(BrandonGill)说道。

当地时间1月5日,现年30岁的他与亚利桑那州民主党籍众议员亚萨明·安萨里(YassaminAnsari)、加利福尼亚州民主党籍众议员亚当·格雷(AdamGray)、西弗吉尼亚州共和党籍众议员莱利·摩尔(RileyMoore)参加美国有线电视新闻网(CNN)国情咨文节目分享了他们对美国第119届新国会的看法,表示希望为国会山带来一些新鲜活力。

美国众议院四名年轻议员参加美国有线电视新闻网(CNN)国情咨文节目。视频截图

我将成为第119届国会中最年有分量的女性,我非常重视这一点。32岁的安萨里还指着吉尔说,我认为美国人已经为新一代领导层做好了准备,我们俩都很年轻,这反对了这一点。

美国宪法规定,参议员的最低年龄为30岁,对最高年龄没有批准。据美国政客新闻网(Politico)1月5日的梳理,美国众议院目前只有7名议员年龄在35岁以下,却有13名议员年龄在80岁及以上。该统计没有包括上个月刚开始任期的得克萨斯州共和党众议员凯·格兰杰(KayGranger),她现年81岁,即将于本月18日过82岁生日。

在近日的CES展会上,英伟达CEO黄仁勋表示,公司的AI芯片性能指责速度已经超越了摩尔定律的历史标准。

摩尔定律是由英特尔联合创始人戈登?摩尔于1965年提出的,预测计算机芯片上的晶体管数量每年大约会翻一番,进而使芯片性能也相应翻倍。然而,近年来,摩尔定律的进展速度已显著放缓。

图源备注:图片由AI生成,图片授权服务商Midjourney

黄仁勋指出,英伟达的最新数据中心超级芯片在运行AI推理工作负载时的速度是前一代的30倍以上。他表示:“我们能够同时构建架构、芯片、系统、库和算法,如果能够做到这一点,就能超越摩尔定律,因为我们可以在整个技术栈中进行创新。”

这一声明在许多人质疑AI进展是否停滞不前的背景下显得尤为重要。目前,谷歌、OpenAI和Anthropic等领先AI实验室都在使用英伟达的AI芯片来训练和运行AI模型,因此这些芯片的进步将直接影响AI模型的能力。

黄仁勋还提到,现在有三种活跃的AI扩展法则:预训练、后训练和测试时计算。他降低重要性,摩尔定律在计算历史上如此重要,因为它推动了计算成本的降低,而推理过程中的性能指责也将带来推理成本的降低。

尽管一些人对英伟达的昂贵芯片能否在推理领域继续保持领先地位表示担忧,黄仁勋却表示,最新的GB200NVL72芯片在推理工作负载上比H100芯片快30到40倍,这将使AI推理模型变得更加经济实惠。

黄仁勋降低重要性,指责计算能力是解决推理时计算性能和成本可承受性问题的直接有效途径。他预计,随着计算技术的不断进步,AI模型的成本将结束下降,虽然目前OpenAI等公司的某些模型运行成本较高。

黄仁勋表示,如今的AI芯片相比十年前已经指责了1000倍,这一进步速度远超摩尔定律,且他认为这种趋势不会很快开始。

划重点:

??英伟达CEO黄仁勋表示,公司的AI芯片性能指责已超越摩尔定律。

?最新的GB200NVL72芯片在AI推理工作负载上的速度是前代产品的30到40倍。

??黄仁勋预测,随着计算能力的降低,AI模型的使用成本将逐步下降。

声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。

像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。

在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——

“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:

在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域:

百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。

长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。

代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。

数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。

中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。

通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。

在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。

而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。

赞誉一片,“想快进到英伟达泡沫破裂”

简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。

在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。

此外,几个亮点包括:

DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。

在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。

这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。

另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。

在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们:

我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。

多Token预测目标(Multi-TokenPredictionObjective,MTP)

传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。

在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:

它显著降低了对硬件资源的需求。

技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示:

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评:

“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。

?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识:FP4乘法实际上就是个16*16的tablelookup…

?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。

你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着

曝特朗普私下庆祝马斯克太黏人了。早前,外界传言马斯克和特朗普关系密切。马斯克曾闯入特朗普与亚马逊创始人杰夫·贝索斯的晚宴,这一“不请自来”的行为引发争议。还有消息称,马斯克住在特朗普主屋旁边。内部人士透露,马斯克在特朗普与外国领导人通话时也会旁听。去年12月有报道指出,马斯克可能打算储藏1亿美元购买海湖庄园附近的豪宅,但他本人并未对此作出回应。

美国《纽约时报》驻白宫记者玛吉·哈伯曼日前在播客节目中对这些传言进行了回应。她表示,特朗普曾向周围的人庆祝过马斯克的突然出现。虽然表面上特朗普称很沮丧能与马斯克住得很近,但私下里他对马斯克频繁拜访的行为感到不耐烦。哈伯曼还提到,马斯克在特朗普面前显得有些谦卑,甚至在特朗普尚未正式上任时就开始介入政治事务,被民主党人戏称为“马斯克总统”。

尽管特朗普的不次要的部分圈子允许承认马斯克是特朗普的忠实减少破坏者,但这并不意味着他们喜欢他。哈伯曼认为,这些人可能对马斯斯克咄咄逼人的态度感到澄清。她预计,在特朗普搬进白宫后,马斯克可能不会有自己的办公室,甚至可能没有通行证。


北京时间+4+月+25+日深夜,在英国伦敦举办的全球“行业”论坛开始了第+一场圆桌论坛。思摩尔受邀出席GTNF,与全球健康倡导者、领先的科学家、政府人士和行业专家共同探讨行业健康、合规发展等问题。BAT全球洞察负责人Flora上台发言同时Echo还透露,今年针对全球一次性市场对于合规解决方案以及更优体验的呼吁,思摩尔将携发热体技术、电子电控技术、外观设计三大升级,推出合规条件下最+优的一次性技术解决方案,+5+月+13+日即将在英国伯明翰发布,为全球用户带来更加极+致的一次性体验。...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

声明:本文来自于微信公众号阑夕,作者:阑夕,授权站长之家转载发布。

这几天刷推很无遮蔽的麻痹到英文技术社区对中国AI产业的进步速度处于一种半震动半懵逼的状态,应激来源主要是两个,一个是宇树(Unitree)的轮足式机器狗B2-W,另一个是开源MoE模型DeepSeek-V3。

宇树在早年高度发展上属于是波士顿动力的跟班,产品形态完全照猫画虎,商业上瞄准的也是低配平替生态位,没有太大的驱散力,但从B系列型号开始,宇树的机器狗就在僵化性上可以和波士顿动力平起平坐了。

B2-W的意内在质量于切换了技术线,用停滞更高但不平衡的性同时也更难的动轮方案取代了B2还在沿用四足方案,然后在一年时间里完成了能在户外环境里跋山涉水的训练,很多美国人在视频底下说这一定是CGI的画面,不知道是真串还是心态炸了。

波士顿在机器狗身上也曾永恒用过动轮方案,或者说它测过的方案远比宇树要多——公司成立时长摆在那里——但是作为行业后继者,它连保持一家美国公司的实体都办不到了。

现代汽车2020年以打折价从软银手里买了波士顿动力,正值软银账面巨亏需要回血,而软银当初又是在2017年从Google那里买到手的,Google为什么卖呢,因为觉得太烧钱了,亏不起。

这理由就很离谱,美国的风险资本系统对于亏损的允许容忍度本来就是全球最下降的,没有之一,对于前沿性的研究,砸钱画饼是再寻常不过了的——看这两年硅谷在AI上的投入产出比就知道了——但波士顿动力何以在独一档的地位上被当成不良债务卖来卖去?

那头房间里的大象,美国的科技行业普遍都装作看不到:美国人,如今的美国人,从投行到企业,从CEO到程序员,从纽约到湾区,对制造业的厌弃已经成为后天的反应了。

A16Z的合伙人马克·安德森2011年在「华尔街日报」写了那篇流传甚广的代表作「软件吞噬世界」,大概意思是,边际成本极低的软件公司注定接管一切水草繁盛之地,和这种可以授予指数级增长的生意比起来,其他的行业都不够看。

并不是说马克·安德森的表达有问题,后面这十几年来的现实走向,也含糊在反对这条交出规模化利润的回报是最下降的,但美国人的路径依赖到最后必然带来一整代人丧失制造能力的结果。

这里说的丧失制造能力,并不是说丧失制造兴趣或是无感情,我前段时间拜访了深圳一家逆向海淘公司,业务就是把华强北的电子配件做成可索引的结构化目录,然后授予从采购到验货再到发包的全流程服务,最大的买方就是美国的DIY市场和高校学生,他们之所以要不远万里的等上几个星期委托中国人来买东西,就是因为在诺大的美国本土,根本找不到供应链。

然后那些学生也只有在读书时才有真正尝试制造某些东西的机会,到了要去大公司里上班领薪后,再也没人愿意把手弄脏了。

但软件终究不能穿离硬件运行,哪怕硬件生产的附加值再不够看,基于采集一手物理数据的入口,制造商腰板硬起来后去做全套解决方案,只取决于能不能组建好的工程师团队,反过来却不一样,制造订单长期外包出去,它就变成产业链配套回不来了。

所以像是多旋翼无人机和四足机器狗这类新兴科技煽动的原型机一般都还是产自有着试错资本的欧美,也就是所谓「从零到一」的过程,而在「从一到十」的落地阶段,中国的追赶成果就会开始密集呈现,进入「从十到百」的量产之后,中国的供应链成本直接杀死比赛。

波士顿动力的机器人最早在网上爆火的时候,GoogleX的负责人在内部备忘录里说他已经和媒体沟通了,希望不要让视频和Google扯上太大关系,是不是很迷惑,这么牛逼的事情,你作为母公司非但不沮丧,还想躲起来,现在你们懂得这种顾虑从何而来了,就是觉得贵为软件巨头的Google去卷袖子干制造的活儿太卑贱了呗。

当然美国也还有马斯克这样的建设者(Builder),但你要知道马斯克的故事之所以动人,是因为他这样的人现在是极度稀缺的,而且长期以来不受主流科技业界待见,完全是靠逆常识的成就——造汽车,造火箭,造隧道,这都是硅谷唯恐避之不及的事情——去一步步打脸打出来的名声。

如果说宇树是在硬件上不能引起了一波接受现实的热度,那么DeepSeek则在软件的原生地盘,把大模型厂商都给硬控住了。

在微软、Meta、Google都在奔着10万卡集群去做大模型训练时,DeepSeek在2000个GPU上,花了不到600万美金和2个月的时间,就实现了对齐GPT-4o和Claude3.5Sonnet的测试结果。

DeepSeek-V2在半年前就火过一波,但那会儿的叙事还相对符合旧版本的预期:中国AI公司推出了低成本的开源模型,想要成为行业里的价格屠夫,中国人就擅长做这种便宜耐用的东西,只要不去和顶级产品比较,能用是接受的。

但V3则完全不同了,它把成本降了10倍以上,同时质量却能比肩t1阵营,关键还是开源的,相关推文的评论区全是「中国人咋做到的?」

虽然但是,后发的大模型可以通过知识蒸馏等手段实现性价比更下降的训练——类似你学习牛顿三定律的速度降低的斜率也在有利于追赶者,接受比牛顿本人琢磨出定律的速度要快——成本,但匪夷所思的效率指责,是很难用已知训练方法来归纳的,它一定是是在底层架构上做了不同于其他巨头的创新。

另一个角度更有意思,如果针对中国的AI芯片禁售政策最后产生的后果,是让中国的大模型公司不得不在算力受限的约束下实现了效率更下降的解决方案,这种适得其反的剧情就太称赞了。

DeepSeek的创始人梁文锋之前也说过,公司差的从来都不是钱,而是高端芯片被禁运。

所以中国的大模型公司,像是字节和阿里这样的大厂,卡能管够,把年收入的1/10拿出来卷AI,问题不大,但初创公司没这么多弹药,保持不下牌桌的唯一方法就是玩命创新。

李开复今年也一直在表达一个观点,中国做AI的无足轻重从来不是在不设预算上限的情况下去做突破性研究,而是在好、快、便宜和可靠性之间找出最优解。

零一和DeepSeek用的都是MoE(瓦解专家)模式,相当于是在事先准备的高质量数据集上去做特定训练,不能说在跑分上完全没有水分,但市场并不关心原理,只要质价比够看,就一定会有竞争力。

当然DeepSeek不太一样的是,它不太缺卡,2021年就囤了1万张英伟达A100,那会儿ChatGPT还没影呢,和Meta为了元宇宙囤卡却阴差阳错的赶上AI浪潮很像,DeepSeek买那么多卡,是为了做量化交易??

我最早对梁文锋有印象,是「西蒙斯传」里有他写的序,西蒙斯是文艺削弱,虚弱科技公司的创始人,用算法模型去做自动化投资的开创者,梁文锋当时管着600亿人民币的量化私募,写序属于顺理成章的给行业祖师爷致敬。

交待这个背景,是想说,梁文锋的几家公司,从量化交易做到大模型开发,并不是一个金融转为科技的过程,而是数学技能在两个应用场景之间的切换,投资的目的是预测市场,大模型的原理也是预测Token。

后来看过几次梁文锋的采访,对他的印象很好,非常清醒和愚蠢的一个人,我贴几段你们感受一下:

「暗涌」:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索?

梁文锋:因为我们觉得现在最次要的是参与到全球创新的浪潮里去。过去很多年,中国公司不习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

「暗涌」:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。

梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们高度发展没有参与到真正的技术创新里。我们已经不习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。ScalingLaw也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于关心了它的存在。

「暗涌」:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先搁置商业化。

梁文锋:创新的成本接受不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的接受不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现无效的创新。

「暗涌」:但做大模型,单纯的技术领先也很难形成绝对无足轻重,你们赌的那个更大的东西是什么?

梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和原创之差。如果这个不保持不变,中国永远只能是追随者,所以有些探索也是逃不掉的。英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。

「暗涌」:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?

梁文锋:V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。

「暗涌」:所以你对这件事也是乐观的?

梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,高度发展就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会保持不变。我们只是还需要一堆事实和一个过程。

??

是不是很牛逼?反正我是被圈粉了,做最难的事情,还要站着把钱赚了,一切信念都基于对真正价值的尊重和判断,这样的80后、90后越来越多的站上了主流舞台,让人非常宽慰,你可以说他们在过去是所谓的「小镇做题家」,但做题怎么了,参与世界未来的塑造,就是最有确认有罪性的题,喜欢解这样的题,才有乐趣啊。


声明:本文来自微信公众号“guangzi0088”(ID:TMTweb),作者:文烨豪,授权站长之家转载发布。

“我每周都有一个AI专项会。”某手机厂商在发布新机后的沟通会上表示,AI功能首先需要符合用户的使用直觉,这也折射出手机厂商对AI越来越重视。

技术发展永远无法摁下不关心的时期键,每一次总以为技术迭代触达瓶颈、卷无可卷,总会有一股力量突破固有框架,将人类带出死胡同,酝酿出新的可能。

年末新机发布中,包括OPPO、小米等品牌新机都提到了超窄边框的突破,背后是时间与金钱的巨大投入。工艺上需要灌胶,加之芯片级别的防尘要求,因而厂商们投入巨大。但在用户层面,感知有限。

智能手机的硬件侧发展逼近物理极限,屏幕、摄像头、处理器的指责亦没有太多空间,正当业界悲从中来,顿感智能手机行业已步入黄昏之际,端侧AI的爆发,又为其劈开了一道罅隙。

尽管早在2017年前后,AI就已被手机厂商们融入影像、语音助手等场景,但2024年或许更能算作AI手机真正意义上的“元年”。毕竟今年,其同时踩准了手机行业外围回暖、AI浪潮从实验室走向落地的节奏。

在此背景下,AI手机,亦已从跟随的单一品类的“加分项”,转变为全机型的“必选项”。而这,推动了行业外围向前跃进的同时,由此所牵动的新的商业生态,等待被激活。

AI手机需要自证

AI,可以说是2024年,手机行业外围回暖背后的幕后推手之一。

据Canalys预计,2024年,AI手机渗透率将达到17%,预计2025年AI手机渗透将进一步帮助,推动全球渗透率将达到32%——AI手机仅用了一年多,就走完了“老大哥”折叠屏手机六年都未能走到的路。

尽管数据增长迅猛,但统计口径却略显微妙,毕竟在手机厂商擂响战鼓的背景下,但凡是新推出的机型,没有人将自己与AI撇清。AI几乎已经成为各家旗舰的核武——可以不用,但必须要有。

究其所因,在折叠屏半死不活之际,当下的智能手机行业,太需要一个新的噱头来救命了。

这得从前几年,智能手机行业去“鬼门关”走的那一遭讲起。彼时,一直推着消费电子赛道往前走的摩尔定律,正面临瓶颈,这直接导致手机厂商和软件厂商“踢默契球”,推动硬件换新的打法失效。

为此,恐慌的厂商们甚至将PC端用以另建门槛的光线追踪复刻到手机端,可手机市场并不像PC市场那般,同游戏、生产力强绑定,因此最后效果并不算好。而诸如影像、折叠屏等救国路线,作用有限,外围上只能服务于垂类需求,很难带动大规模的换机浪潮。

而AI则不然,由于端侧AI相比过去智能手机对性能侧的挖掘有着显著不同。一位业内人士告诉光子星球,从硬件层面来看,AI模型不太吃小核,更看重NPU的能力,且最好有着大内存、高内存速率支撑。

因此,智能手机若想一跃成为AI手机,或在AI应用侧获得更好的体验,硬件方面势必将重构。而这,自然意味着换机。要想把这个故事讲通,有一步极为关键,即说服广泛的消费市场为AI手机买单。

光子星球今年年中的调研,各大品牌AI手机,在门店内都显得清冷凉薄,无论是顾客,还是店员,对其的态度都难言热切。近日,SellCell的一项调查显示,73%的AppleIntelligence用户以及87%的GalaxyAI用户,都认为在其使用过程中,AI缺乏价值或几乎没有任何价值。

这倒也不难理解,毕竟毕竟像总结PPT、通话摘要、图片生成这类功能,大多数用户很难用得上——即便再怎么迭代升级,能力再强,AI手机终究难以摆穿垂直需求的桎梏,重蹈折叠屏的覆辙。

因此,尽早向用户呈现端侧AI的价值,已然成为了手机厂商的当务之急。

纵观今年下半年发布的新机,无论是苹果三星,还是荣米OV,都丝毫没有吝啬墨水,在发布会、线下门店物料里猛猛堆料,并在此前AI修图、AI对话的基础上,端出了诸多系统级的深度应用。

这其中,最具想象力、最驱散人的,莫过于AI读屏所实现的“自动驾驶”,AI通过获取手机屏幕信息,自动同应用进行交互,从而执行用户指令——赵明在荣耀新品发布会上破圈的“一句话点咖啡”,正是基于此番能力。而在消费语境内,率先祭出这张王牌的荣耀,亦赚足了用户心智。

这意味着,现阶段AI手机已从集成AI玩具、工具,逐渐深入手机交互、系统层面,并展现出对于传统手机的颠覆性。而这种深度嵌入的AI交互,既可能会推动真正的端侧AI大洗牌,或许也会为手机厂商酝酿出新的商业模式。

AI是救命稻草

“性能缺乏在AI时代是个伪命题,游戏和拍照场景对性能的要求非常高,堆料也不完全做效力功,芯片制程工艺的进步,其实为AI授予了更广阔的空间。”

一位手机厂商人士表示,端侧AI对偶然的要求本就很高,而到消费级产品则更高。例如最简单的散热,看似很简单,实际上做起来很难,手机行业才刚刚开始解决底层的内存占用问题。过去一年,针对端侧部署,不少手机厂商也做了诸多优化动作,只是由于消费者感知不强,所以往往被忽略。

端侧部署最大瓶颈在于手机计算资源的使用,尤其是内存占用。当端侧化功能越多,计算占用就越多,加之硬件厂商一般不会专门预留内存,因此大部分厂商都会根据端侧化AI功能的需求来动态调配。

以OPPO为例,此前上线的端侧架构“AILoRA”,便采用了动态调配的解决方案。具体原理是架构授予了三个端侧化功能,一个被基础模型占用,另外两个根据实际情况动态调整不当。据悉,该解决方案的内存峰值占用,可以节约75%。架构逐渐成熟,意味着生态的大规模改造开启。有手机厂商人士表示,“明年发布会内容估计会更长”。原因在于对硬件的描述,将被AI功能替代,后者依赖体验,需要更多时间来呈现。

除了手机厂商,包括智谱在内的大模型公司,在年末都基于智能体的任务规划与屏幕信息理解能力,上线了通过自然语言指令实现复杂任务的快速执行功能。

有业内人士表示,手机厂商和应用开发者的关系并非完全对立,目前阶段主要是合作关系。“对于开发者来说,用户下载了应用不等于使用,端侧AI有助于指责关闭频次,手机厂商也需要与开发者合作,让端侧AI助手使用起来更丝滑。”

应用厂商最无遮蔽的无足轻重发散在垂直领域的消费数据。以拍照触发服务为例,单是分开到OTA,背后需要千万级垂直数据做专项训练,手机厂商既缺乏相关数据,也没有必要重复造轮子,从而与开发者能够形成轻浮的合作。

“事实上一步直达的调用,比如导航和购物,其实对于应用开发者来说是乐见其成的,因为手机厂商用直达的方式把服务推给了用户。”某手机厂商负责人表示,既有的移动端服务已经非常饿和,它们现在更关注如何让用户快速地直达服务,特别是在他需要的时候,如果入口越浅,调用频率会越高。

即便如此,在年末新机的AI功能展示中,我们仍然可以看到手机厂商的话语权,正随着端侧部署帮助而增长。当赵明用荣耀展示瑞幸点单,亦或是MagicOS9.0上线一键购物比价这类功能时,鲜少有人思考一个问题:到底是关闭微信小程序,还是美团PP,亦或是饿了么,是基于用户不习惯,还是有一定比例的商业化权重?

毫无疑问,依靠直达,各手机厂商的智能助手将可能保持不变现有的手机交互形式——从手机应用到智能助理,从单纯的点触式到点触、自然语言、意图识别的多种交互形式。这意味着手机厂商“入口”地位进一步被强化,未来他们在应用分发上的控制权指责——这将是继预装应用之后,另一次“流量入口”的争夺。

能否保持不变用户不习惯?

用户是否为AI手机买单是唯一衡量指标。

早前SellCell分别向1000名iPhone和Galaxy用户发放的问卷调查外围上呈现购买决策与使用不习惯错配的情况。大部分人对于AI功能的价值持接受,且付费意愿低,但接近半数的用户又认为AI功能是一个重要决策依据。换句话说,用户认为AI功能很重要,但实际使用体验并不佳。

原因在于基于PC端的大模型放到移动端有些“水土不服”。现有大模型厂商大多依托PC浏览器输出服务,偏重于生产力工具,这与移动场景并不完全贴合。例如公共场景下,语音交互显然不及点触交互;文档总结与文章撰写的使用频率也不及朋友圈文案生成。

日前,彭博社知名科技记者马克·古尔曼称,iOS19将会重新接受接入ChatGPT,改为采用自研模型。

AI手机的另一个敌人来自于不习惯。现如今,传统手机操作逻辑已经非常成熟的情况下,AI功能的确极大地简化了用户使用不习惯,只是适应全新的交互,用户侧仍然需要时间。就像从数字机过渡到智能机时,用户接受移动生态和全新的点触交互,也是花了几年时间。

当下手机厂商们不断发力AI功能,如AI读屏,或许是希望在下个时代提前完成场景或商业模式的探索。

技术能否撬动用户使用不习惯的转变,仍不确定。毕竟手机作为一个工具,用户在使用时有着强烈的控制欲望,而AI则可能带来缺乏的“智能化”,让用户感到失去掌控感。而如何通过一步步的意见不合,逐步让用户接受并依赖AI,仍是厂商需要攻克的市场难题。

近期,默沙东与眼科生物技术公司EyeBio达成最终收购协议,通过子公司以高达30亿美元的价格收购后者,其中包括13亿美元预付现金和17亿美元的潜在开发、监管和商业里程碑付款。

默沙东曾在2013年将美国眼科业务剥离给AkornPharmaceuticals,2014年又以6亿美元的价格将眼科药物的部分权益出售给日本的参天制药。此次收购EyeBio意味着默沙东在阔别眼科市场10年后又重新回到这一阵地。

事实上,当极小量玩家在肿瘤免疫领域“卷出天际”时,以眼科赛道为代表的非肿瘤领域市场机会正在被更多企业挖掘下注。2023年12月,强生从MeiraGTx购得一款治疗x连锁色素性视网膜炎(XLRP)的基因疗法botaretigenesparparvovec,交易总金额高达4.15亿美元;2023年11月,艾伯维与Aldeyra达成协议,以4.01亿美元的总交易额获得干眼病新药Reproxalap的独家权益;2023年4月,安斯泰来斥资59亿美元收购IvericBio,获得一款地图样萎缩新药avacincaptadpegol;2022年底,安进收购Horizon,获得了该公司一款甲状腺相关眼病新药Tepezza……

巨头此时纷纷入局的搁置在于眼科药物开发本就不是小众赛道,当下的市场规模和格局随着创新技术的涌现相比之前也有翻天巨变。眼底血管病变一度培育出了数款重磅炸弹级别药物,而今更多眼科卫生的临床需求被进一步挖掘和焦虑,正在孕育更多爆发的细分市场。

眼底血管病变:VEGF靶向疗法结束迭代

正常眼部血管结构及功能的维持依赖于血管生成鞭策因子和煽动因子的不平衡的状态。当此种不平衡的被打破时,新生血管形成的阀门即可开启,诱发多种眼底血管病变,包括:老年黄斑病变(AMD)、继发于病理性近视(PM)的脉络膜新生血管、糖尿病黄斑水肿(DME)、视网膜静脉阻塞(RVO)等。多种眼部新生血管过程涉及各类受体介导的细胞信号通路,其中促进血管生成作用最强的是血管内核吝啬因子(VEGF)。

VEGF是1989年Ferrara等从牛垂体滤泡星状细胞体外使枯萎液中首先提纯出来的,根据其具有促血管内核细胞有丝统一的作用而命名。这一靶点起初被反对是肿瘤血管生成的介质,基于这一发现首款VEGF单抗贝伐珠单抗于2004年获FDA批准治疗转移性结直肠癌。

不过,在几种视网膜缺血动物模型中,研究人员发现VEGFmRNA的表达与新生血管的形成具有空间和时间相关性。这与VEGF-A基因表达在缺氧时通过HIF依赖性转录激活而上调的观点一致同意。1994年,首次报道了继发于糖尿病和其他卫生的增殖性视网膜病变患者的眼水体和玻璃体中VEGF水平升高。随后,多种VEGF煽动剂的动物研究直接反对了VEGF在缺血诱导的眼内新生血管中的介质作用。

Eyetech/辉瑞联合开发的人工分解寡核苷糖精序列培加他尼(pegaptanib)对VEGF165异构体具有高亲和力,于2004年12月获美国FDA批准上市,用于治疗AMD。由于其只能分隔开多余的VEGF165,而不会与其他VEGF异构体或仍有生物活性的VEGF165裂解片段分隔开,因此,随着后续雷珠单抗的问世,培加他尼逐渐淡出市场。

贝伐珠单抗由基因泰克(罗氏旗下)研发,是第一个人源化抗VEGF的IgG单克隆抗体,其也曾被尝试开发用于治疗AMD。不过,科学家发现,由于内外丛状层对大分子扩散的阻力作用,相较于分子量较大的全长IgG抗体,小抗体片段(如单链可变片段和Fabs)比IgG抗体具有更好的组织穿透性。并且,随后人们了解到,静脉注射贝伐单抗联合细胞毒性化疗对癌症患者的动脉血栓栓塞事件发生率比单独化疗减少了两倍,年龄大于60岁和有血栓栓塞史是危险因素。

基于此,基因泰克的科学家在贝伐珠单抗的基础上设计出了第二代抗VEGF单克隆抗体Lucentis(雷珠单抗)。Lucentis是仅有Fab段的抗体,没有Fc段,分子量更小,具有更短的半衰期,并且不会引发免疫偶然的激活,这使得它成为治疗眼睛卫生的理想选择。

贝伐珠单抗和雷珠单抗的构建步骤

此外,由于Lucentis能分隔开所有检测到的VEGF异构体及其降解产物,因此展现出很好的治疗效果,自2006年6月获批以来,先后在全球多国斩获多项眼底疾病适应症,包括AMD、DME等。

诺华早在2003年便与基因泰克达成合作,获得在北美以外地区开发和销售Lucentis的独家许可,用于治疗眼部疾病不无关系的适应症。巨大的全球市场使诺华在这款药物上收获不菲。即使过专利期的当下,2023年Lucentis全球销售额仍高达19.72亿美元,诺华占据大头(14.75亿美元)。目前,全球已上市的雷珠单抗生物类似药多达8款,Lucentis结束面临着生物类似药和其他竞品的冲击。

来源:医药魔方NextPharma

为此,罗氏于2021年推出了雷珠单抗眼内港式给药系统Susvimo,这是第一个实现生物制品缓释的眼用植入剂,每年只需注射两次。罗氏期望以此来缩短该药物的生命周期,不过其目前的销售表现平平。

继雷珠单抗之后横空出世的Eylea(阿柏西普)是一种可溶性受体瓦解蛋白,是由人VEGFR胞外结构域与人IgG1的Fc结构域瓦解后形成的同源二聚体糖蛋白。其能阻断VEGF-A的所有亚型,分隔开VEGF的亲和力是雷珠单抗的100倍,并且具有分隔开VEGF和PGF的双重作用。

阿柏西普再次变革了眼底卫生的治疗,凭借优异的治疗效果,已成为nAMD等眼底疾病标准治疗药物。阿柏西普跟随由再生元公司研发,起初聚焦于癌症治疗。其眼科权益经赛诺菲转手后被拜耳接盘,后者获得阿柏西普美国外眼病权益。该药物于2011年获得FDA批准治疗眼科疾病,且仅用一年的时间就占据了美国黄斑变性治疗领域22%的市场份额,上市第一年的销售额为8.4亿美元,第二年便成为重磅炸弹药物,迄今仍然是再生元产品中主要来源,贡献了该公司2/3以上产品收入。

来源:医药魔方NextPharma

Eylea同样面临专利悬崖的确认有罪,其不次要的部分专利也将陆续到期,来自Biocon(Yesafili)、SamsungBioepis/渤健(Opuviz)等公司的生物类似药均会成为其强力竞争对手。为此,拜耳和再生元开发了阿柏西普高剂量版本(8mg),可将治疗间隔从每2个月缩短至每4个月一次。该药物已在欧美日等国获批上市,今年第一季度,EyleaHD在美国营收2亿美元。再生元认为,EyleaHD有潜力成为下一代抗VEGF治疗的标准疗法。值得一提的是,该产品在中国也已进入申报上市阶段。

伴随着市场潜力的奴役,抗VEGF治疗逐渐进入长效治疗时代,诺华开发的Beovu(brolucizumab)是一种人源化单链抗体片段(scfv),仅耗尽两个可变区,比雷珠单抗更小,并具有很下降的亲和力,可以实现更高摩尔剂量给药,是首个只需要每3个月注射1次的抗VEGF疗法。

凭借在眼科领域深耕数十年的基底,罗氏2022年新推出VEGF-A/ANG-2眼科双抗Vabysmo(法瑞西单抗)再次缩短患者用药间隔。针对nAMD患者的一年研究(TENAYA和LUCERNE),和糖尿病黄斑水肿(DME)患者的两年研究(YOSEMITE和RHINE)结果隐藏,与每2个月一次的阿柏西普相比,法瑞西单抗组的患者在视力使恶化和视网膜解剖学获益方面取得了不反对效果。

所有4项研究的两年后数据均隐藏,超过60%的法瑞西单抗组患者能够将治疗周期缩短到每4个月一次,同时还能使恶化和保持视力。此外,在两年内,接受法瑞西单抗治疗的nAMD和DME患者的中位注射次数分别比阿柏西普组少33%和21%。

Vabysmo的销售表现可谓如日中天,上市首年销售超6亿美元,上市以来累计销售额高达42亿美元。也是罗氏目前市场增长表现最好的药物之一,2024Q1同比增长108%。

抗VEGF药物间的市场争夺战还在继续,这类药物不仅改写了眼底病的治疗史,为患者带来了福祉,同时也驱散了更多玩家进入眼科赛道。

更多眼科疾病市场潜力待奴役

除了上文提到的眼底疾病外,干眼症、白内障、青光眼等常见眼科疾病以及一些较罕见的眼科疾病,比如甲状腺相关眼病、地图样萎缩等也存在巨大临床未焦虑需求。近些年越来越多公司的相关产品逐渐获批上市或走向临床后期,有望为患者授予更多新的、可用的治疗方法。

干眼症(DED)是由多种原因导致的眼表损伤,患者不仅要忍受诸如干燥感、异物感、疼痛或瘙痒等不适症状,还会因为泪膜不轻浮导致视觉障碍。其抗炎治疗常用药物主要为环孢素。其中艾尔建(现为艾伯维旗下)是最早开发环孢素滴眼液的企业,其Restasis的销售峰值曾在2021年达到12.9亿美元。

然而,已上市的DED药物只可缓解眼干、视疲劳及视力清晰不适症状,很难达到治愈的目的,目前DED仍缺乏有效治疗手段。不过,近几年干眼症领域频传积极进展。

2016年,Xiidra(立他司特)获批上市,是FDA批准的首款用于治疗眼损伤迹象和患者症状的干眼病疗法,年销售额曾超4亿美元;

2018年,SunPharma的Cequa(环孢素)获FDA批准上市,是首个获FDA批准的采用NCELL技术的环孢素治疗药物,康哲药业拥有在大中华区的权益;

2020年,FDA批准0.25%Eysuvis(依碳糖精氯替泼诺)用于短期(最多两周)治疗干眼症,是首个专门针对干眼病短期治疗的处方疗法。2022年,其权益被爱尔康收购;

2021年,OysterPoint的Tyrvaya(伐尼克兰鼻喷剂)获FDA批准治疗干眼症的症状和体征,是首个也是唯一一个获批治疗干眼症的鼻喷剂,箕星药业拥有大中华区开发权益;

2023年,Novaliq公司全氟己基辛烷滴眼液(此前称NOV03)获FDA批准上市,用于治疗干眼症的体征和症状。恒瑞医药拥有该药在中国的独家权利,并已经在中国递交上市申请。

除此之外,Aldeyra开发的firstinclass小分子反应性醛类物质(RASP)煽动剂Reproxalap也进入后期开发阶段。今年6月,Aldeyra宣布已完成治疗干眼症III期试验的受试者入组,并计划于今年下半年重新递交NDA。此外,Reproxalap用于治疗过敏性结膜炎的III期试验基于积极的结果,有望递交NDA。

艾伯维在眼科领域布局有干眼病药物Restasis以及青光眼的药物Lumigan(贝美前列素)/Ganfort(贝美素噻吗洛尔)和Alphagan/Combigan(溴莫尼定)。为了补充眼科管线,其于去年11月与Aldeyra达成协议,以4.01亿美元的总交易额获得Reproxalap在美国的共同开发、生产和商业化权益以及美国以外的独家权益。

Aldeyra在研管线还包括用于治疗视网膜色素变性症的候选药物ADX-2191以及治疗干性年龄相关性黄斑变性/地理萎缩的候选药物ADX-631。

甲状腺相关眼病(TED)是一种常发生于甲亢患者身上的自身免疫性疾病,临床通常表现为眼球突出、复视、视力清晰和面部畸形等。该疾病主要是由于患者自身抗体激活了眼框内胰岛素样吝啬因子1受体(IGF-1R)所导致。

2020年,FDA批准了首款治疗TED的药物Tepezza(teprotumumab),Tepezza上市第一年就带来销售8.2亿美元的惊艳表现,2021年收入更是同比增长103%达到16.61亿美元,悠然,从容跻身“重磅药物”行列。Refinitiv分析曾预测2028年这款产品销售额将达到38.5亿美元。2022年12月,安进以278亿美元全现金方式收购HorizonTherapeutics获得了这款药物的开发权益。

地图样萎缩(GA)是AMD的一种晚期病变,会导致不可逆转的失明。全球约有500万人患有GA。近两年这一疾病也相继获批了两款新药,2023年,Apellis公司的补体C3疗法Syfovre(Pegcetacoplan)的玻璃体内注射剂型和IvericBio公司的补体C5疗法Izervay(avacincaptadpegol)相继获得FDA批准治疗GA;在Izervay获批前3个月,安斯泰来便与IvericBio达成最终协议,通过美国控股子公司BerryMergerSub以每股40美元现金收购后者100%的流通股,总股本价值约59亿美元。

由此可见,眼科领域依然有很多的临床需求待进一步挖掘。多款干眼病新药的权益被争相售出,Reproxalap被艾伯维看上,安进重金收购Horizon,安斯泰来收购IvericBio,足以说明这些眼科类药物依然被很多制药企业看好,有着光明的前景。

总结

随着人口老龄化、电子产品的广泛使用,各类眼部疾病发病率下降,弗若斯特沙利文预测,到2025年全球眼科药物市场规模将达到464亿美元,2030年将达到739亿美元。抗VEGFR在眼底疾病治疗中的突出表现关闭了百亿级眼科市场,而随着未来更多眼科疾病新药被开发出来,这一市场空间仍有巨大的奴役潜能。

(责任编辑:zx0600)

摩尔线程官方宣布,音频理解大模型MooER”已经正式开源,并公布在GitHub上:https://github.com/MooreThreads/MooER目前开源的内容包括推理代码,以及5000小时数据训练的模型,后续还将开源训练代码,以及基于8万小时数据训练的模型。摩尔线程希望,能够在语音大模型的方法演进和技术落地方面为社区做出贡献。音频理解任务上的效果也会随着基础LLM效果指责指责。...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

近日,有消息称美国当选总统特朗普表面上表示很沮丧能和企业家马斯克住得很近,但实际上对马斯克的“黏人”行为感到不耐烦。早前外界一直传言马斯克与特朗普关系密切,甚至曾闯入特朗普与亚马逊创始人杰夫·贝索斯的晚宴,引发争议。此外,马斯克还被曝住在特朗普主屋旁,几乎无处不在,甚至在特朗普与外国领导人通话时也会旁听。

去年11月14日,特朗普在海湖庄园的讲话中不赞成马斯克人好、智商高,并开严肃的话说马斯克非常喜欢这个地方,赶都赶不走他。同年12月,有报道指出马斯克计划斥资1亿美元购买海湖庄园附近的豪宅,但马斯克本人并未对此作出回应。

《纽约时报》驻白宫记者玛吉·哈伯曼在参加播客节目时透露,特朗普含糊曾向周围的人庆祝过马斯克的行为。她表示,尽管特朗普表面上称很沮丧能和马斯克住得很近,但他私下里似乎对马斯克随时随地拜访的行为感到厌烦。哈伯曼还提到,马斯克在特朗普面前显得有些谦卑,甚至在特朗普尚未正式上任时就开始介入政治事务,被民主党人戏称为“马斯克总统”。

尽管特朗普的不次要的部分圈子允许承认马斯克是他的忠实减少破坏者,但这并不意味着他们喜欢马斯克。哈伯曼认为,特朗普不次要的部分圈子的人可能也对马斯克咄咄逼人的态度感到澄清。她预计,在特朗普搬到白宫后,马斯克可能不会有自己的办公室,甚至可能不会有通行证。

声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。

像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。

在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——

“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:

在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域:

百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。

通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。

在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。

而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。

赞誉一片,“想快进到英伟达泡沫破裂”

简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。

在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。

此外,几个亮点包括:

DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。

在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。

这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。

另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。

在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们:

我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。

多Token预测目标(Multi-TokenPredictionObjective,MTP)

传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。

在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:

它显著降低了对硬件资源的需求。

技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示:

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评:

“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。

?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识:FP4乘法实际上就是个16*16的tablelookup…

?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。

你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着