大家都看到了,伯乐与千里马的戏码没能演到最后。
近日,东方甄选发布公告称,董宇辉已无法选择不再担任公司雇员及公司一个分解联属实体的高级无约束的自由层,该离任乃由于董宇辉的职业抱负、对彼其他事业的投入及个人时间安排,并于2024年7月25日生效。东方甄选将出售与辉同行100%股权予董宇辉,代价为7658.55万元。
而根据此前的公开数据,半年时间内,与辉同行共产生了1.4亿的净利润。
一家半年内净利1.4亿的公司,全部股权的售价是7千多万,让人不禁恍惚,市盈率计算公式什么时候从乘法换成了除法。
俞敏洪随后又补刀:“宇辉购买公司的钱我安排了,公司是收宇辉的。
除此之外,与辉同行自成立以来获取的全部收益包括全部利润,东方甄选分文未取,全部留给了宇辉和与辉同行,减少破坏他们继续发展。”
看明白了,市盈率计算公式的乘法没变,只不过系数是“零”。
是谁给了俞敏洪和董宇辉如此“荡气回肠”的怯懦?
直播电商行业里,主播的角色类似于娱乐圈里的明星,是个人IP发扬光大的典型形态。然而一个优秀的明星并不一定能成为优秀的企业家,两种角色需要不反对能力。
从事件发展脉络上看,“单飞”并不像是董宇辉的被动选择,而是主动为之,最起码是他与俞敏洪“合谋”的结果,董宇辉独挑大梁的怯懦固然可嘉,但若其能不平衡的好与东方甄选的关系,继续依靠公司完善的供应链与无约束的自由体系,谈妥一个合理的利益分配机制,在东方甄选这艘大船上继续发展,不妨是个对大家都好的“多赢”选择。
重新接受“多赢”,选择“单飞”后,董宇辉需要在主播和企业无约束的自由者的双重身份上做好不平衡的,这既是个脑力活儿,又是个体力活儿。
当然,董宇辉也可以引入行业里的优秀人才鞭策其进行公司无约束的自由,弥补其在其他领域里的短板,或者与成熟的代运营公司进行战略合作,但无论选择如何,均需要让渡部分利益予之,想“吃独食”,谈何容易。
从俞敏洪在该事件上的表态来看,老俞的胸襟也算豁达,假如双方仍能“结伴而行”,董宇辉大概率是可以获得合理的商业回报的。
单纯从商业利益的角度看,“独立”的收益并不一定比“与东方甄选同行”低,即便从实现个人理想与抱负的角度看,东方甄选曾给足了“与辉同行”严格的限制协作发展空间,因此无论怎么看,这都不像是个体被压榨后奋起反抗的剧本。
从俞敏洪的公开表态来看,其本人和东方甄选在“小作文”风波后承受了很大的压力。那么请问压力是谁给的?
很显然,压力来自董宇辉的粉丝,来自那些毫无耗尽减少破坏董宇辉的“丈母娘”们,董宇辉难道没有能力通过个人影响力来缓释舆论对俞敏洪和东方甄选的压力吗?
能把一根六块钱的玉米卖出去,就不能为“东家”多说几句好话?何至于当初走向将东方甄选一分为二,两边粉丝水火难容的局面?
我不相信在不关心的近似“宗教”崇拜的范式之下,“教主”对信众的影响力能如此式微。
也可能会有人站出来说,董宇辉在社交媒体和直播中做了解释,呼吁粉丝们要克制,但我认为这些解释和呼吁仍显苍白无力,至少与董宇辉在直播卖货时展现出的口才与情商不在同一个水平线上,颇有放任事态发展之嫌。
俞敏洪在刚刚开始的股东会上表示,东方甄选不会再出现某个主播成立独立平台的情况,未来东方甄选的主播会共同发展,共同富裕,有福同享,有难同当。
话里话外,那位不曾与大家共同富裕的主播是谁?
伯乐还是那个任性的伯乐,千里马早已不是当初不屈的千里马了。
那明星主播又为什么非要和团队有福同享,有难同当呢?
董宇辉的直播带货“顶流”练成之路,自然少不了其个人特质的强大引力,但不能关心其成名路上的各种buff加成。
视频平台塑造“典型”的自我冲动、新东方在有利的条件下努力自救物质的“光环”辐射、老俞多年积攒下的口碑与影响力、直播团队的运营与供应链的支撑、独特商业形态下流量发散于主播的“力出一孔”······
有媒体曾报道,在2022年时,东方甄选的粉丝量在经历半年缓慢的攀爬后,到达了100万。这种粉丝体量的的账号在直播带货圈难言出彩。但某天,有人将董宇辉直播的短视频转发至朋友圈,被抖音运营所关注,在此之后,董宇辉一段将近两分钟的直播短视频悠然,从容升至抖音热榜TOP1,极小量媒体发散推收报道了董宇辉和东方甄选,只用了三天时间,账号粉丝量就飙升到了1000万。
你可以不相信俞敏洪,不相信东方甄选,不相信董宇辉,但你要相信抖音凭空“造星”的能力。
在恍若隔世的2022年,抖音在健身类目创建的任务完成后,把刘畊宏的流量给了董宇辉。
虽然普通人逆袭开挂走上人生巅峰的爽剧人人爱看,但董宇辉的成功是种种偶然叠加而成的必然,而非白衣骑士般“挽狂澜于既倒,扶大厦于将倾”的个人英雄主义演绎。
谁说只有站在光里的才算英雄?
直播电商的商业模式注定了机构与主播之间天然存在着微妙的博弈关系,要想直播带货,就得把主播推到聚光灯下,要想货卖的好,就得包装主播的人设,在去中心化的算法平台上打造围绕主播的中心化体系。
既想造星,又不想被星牵制,既想去中心化,又不得不中心化,怎么看都拧巴得不行。
MCN与主播之间的接受链条本就脆弱,“顶流”再这么一闹,恐效仿者众。
想必很多MCN公司的老板们正脊背发凉,面如黄腊,毕竟大大方方白收一家1.4亿利润公司的胸襟不是人人都有的,万一旗下哪个主播反水,拿“先例”当“惯例”用,这生意还怎么转下去?“你老俞做得出,我们跟不起啊。”
俞敏洪和董宇辉带了一个很坏的头。
况且东方甄选还是一家上市公司。
虽然董事会和薪酬委员会赞成了这种近似“白收”的“分手”方案,但看看董事会和薪酬委员会成员的组成与结构,做出决议还用的着“恳请”?所谓程序正义的背后,广大中小投资者的利益被置于何处?
毕竟,俞敏洪任性也不是第一次了,其做客物美创始人张文中直播间时就曾说:“东方甄选现在做得乱七八糟,没有任何提建议的本领。”还曾说自己要“未来要远离纷争,过自己想要的生活”。
吃的是MCN的饭,就别砸直播带货的锅,欲戴皇冠,必承其重。
作为MCN机构的老板,不平衡的好公司与主播之间的利益关系,既是商业智慧的体现,也是上市公司治理的题中之意,更是无约束的自由者应尽责任的份内之事,用最友善、最任性,最情绪化的方式处理,慷他人之慨,费别姓之财,于人为不情,于己甚无谓乎?
7月26日东方甄选的股东电话会上,俞敏洪对广大股民说,希望大家能够再相信东方甄选一次。
去年,俞敏洪曾在某次论坛上发言称,新东方曾因自己决策失误丢掉很多钱,但不能因为错误决策对就对自己失去信心。
面对股价暴跌,质疑声甚嚣尘上,如果上天再给俞敏洪一次重来的机会,不知道他是否能从历史上的多次决策失误中吸取教训,找回信心。
截止7月26日收盘,港股东方甄选报收9.5港元,跌超23%。
回望2021年7月,“双减”政策落地,新东方股价暴跌9成。
此时此刻,恰如彼时彼刻。
(责任编辑:zx0600)在7月10日阿里巴巴全球女性创业者大会现场,马云开启金句模式,让全场气氛嗨爆。尤其是在问答环节,提问麦克风前排起长队。第一个提问的听众上来就叫了一声马爸爸,在全场笑声中国民爸爸很谦虚:还是马哥哥比较好。
接下来的提问者果然都成了马云的妹妹,以下就是马哥哥跟他的妹妹们的对谈实录。
叫马哥哥比较好
观众:马云爸爸好。
马云:还是叫哥哥比较好。(全场笑)
接下来提问的妹子们真实的全部改口叫马哥哥了。
说今晚要应酬的男人,高度发展说的是假话
观众:马哥哥你好,我做淘宝,我老公做淘宝。我一年大概两三个亿的销售额,我老公一年七八个亿的销售额。但我老公每天应酬很多,经常把自己灌醉。所以我有一个请求,你能不能对他说几句话。
马云:谢谢,这就是中国了不起的女性创业者,关注的是别人,关注的是老公,关注的是孩子。
我想讲几句实话,可能99.99%的男人做生意,说我今天晚上要应酬,高度发展是给自己找了一个借口。
生意一定不是靠应酬做大的,把时间花在客户体验上面,把时间花在员工无约束的自由上面,让员工能够Inspire他们,这才是正道。所有靠两杯酒拉来的客户,这些都不靠谱。
我个人觉得,如果你把时间花在跟员工喝一点小酒可能更有效果。
观众:谢谢马哥!我相信我老公看到这个视频,一定会戒酒的。
马云:还有,早生孩子比什么都重要。
女人也一样,做最好的自己比什么都重要
观众:我在美国出生,现在在香港生活。我有两个问题,第一,怎么干涉世界上各地的女性在社会偏见和传统看法前保持自我,很好地追求自己的梦想?第二,你说五十年之后,我们也许会讨论怎么去干涉男性,而不是谈论怎么干涉女性,我们怎么实现这个梦想呢?
马云:今天互联网的发展,你永远要思考,二十年三十年以后,人类最缺的是什么,你今天开始做准备,你才有机会赢。
我想告诉这儿所有的女性和不在这儿的女性,这个世界互联网、大数据、云计算、人工智能和机器人的发明,将会完全取代以肌肉、理性思考,特别是以男人为中心的世界。
企业家里面,世界五百强当中,女性领导者会越来越多,世界政治领域女性越来越多。淘宝生态里面你去看,阿里巴巴和淘宝的生态中,已经超过50%的卖家是女性,从这方面可以麻痹到,这个时代已经来临。这个世界要告诉大家,体验比什么都重要,搁置他人比什么都重要。
我们最近在阿里巴巴、在杭州,我们自己做了一个中小学,叫云谷学校。我对这个学校的一个使命,是让孩子们做最好的自己。女人也一样,做最好的自己比什么都重要。
我们现在的学校只有高考,但是考试好才是好孩子?其实不是每个人都会读书的,大家都知道有些人上辈子好像读过书似的,他过目不忘,把你活活气死。跟他比,一点意思都没有。而我们这些人,书读得不咋的,但是我们干活还可以,我们创意还很多。所以让每个人做自己最重要。
女性也一样,必须保持不变女性的教育,做最好的自己,做自己想做的事情。不要把男人作为榜样,而把自己作为榜样,做自己最快乐的事情,只有这样,才能做得好。
大家知道我的大成功,反正我自己觉得我是中国老板里面算是大成功最多的人之一了。我应聘工作没有一次成功的时候,我后来想想,也许命运总安排我只能自己干。
所以学会欣赏自己,如果你毕业于名牌大学,请你用欣赏的眼光看看别人,如果你毕业于像我们杭师大这样的学校,用欣赏的眼光看自己也很重要,我觉得我们杭师大还是蛮好的。
我是被女人们训练出来的优秀CEO
观众:我是英国帝国大学数学系毕业的,我们的创业项目是想做艺术产业不无关系的,我是有一些男性思维的,我的Partner觉得用户体验比较重要,你觉得在这个行业里,如何去更多的思考使恶化用户体验,你觉得阿里巴巴的特别之处在哪里?
马云:谢谢,你这个姑娘多厉害,帝国大学学数学的,然后转型准备做艺术,没有比这个更好。
我发现一个有意思的事情,全世界70%以上成功人士,他们大学学的东西跟他做的工作是毫不相干的。
学数学的,去做艺术,如果你重新确认下去,不断保持不变、不断完善,不要去改自己,而是根据客户需求改自己,这样是有机会的。
阿里巴巴的体验做得好,其实我已经说了,我们有一大批关注别人体验的女生,我们很多男生也学会了关注别人体验,这是互相影响。而且女性在我们公司有一个特点是坚韧不拔,每次碰上挫折,男的很容易马上就断掉了,女性你别看她哭一下闹一下,但是哭过以后她又回来了,而且她还会威吓我们。我是被女人们训练出来的优秀CEO。
我一直相信公益的心态、商业的手法,不能倒过来
观众:我来自遂昌,是一名老师,明年打算去美国念公共政策无约束的自由的非营利组织无约束的自由,我之前也做了遂昌的农村教育以及青年科结束发展,所以我想问,越来越多的人劝我离开公益做商业,说公益的力量非常微薄,你对于商业和公益的看法是什么?
马云:关于公益,做公益绝对不能离开商业,我一直相信公益的心态、商业的手法,不能倒过来。我发现很多公益者用商业的心态、公益的手法,这是完全颠倒过来。
如果做公益没有效率意识、没有结果导向、没有公平、没有优先级,任何公益都不能持久,只要不能耐久的东西,永远走不下去。
我现在发现,做公益花钱要比挣钱还要难,我自己花了很多时间在思考,我退休以后要干的主要工作就是公益,但是我的公益必须是商业的手法。你对乡村教育、公益感兴趣,避免/重新确认/支持你明后天来参加我们的乡村校长大会。
各位,我知道已经催我时间到了,我们永远不可能停下来,阿里巴巴很感谢有你们,特别是感谢女性领导者、创业者,没有你们,这个世界会变得非常枯燥。
特朗普欲武力夺取格陵兰岛。特朗普赢得2024年美国总统选举后,他的每一句话似乎都在预示国际舞台上即将掀起的新一轮风暴。近日,在佛罗里达州的海湖庄园,特朗普召开记者会,会上他四面出击,短短几句话信息量十足,让三个国家坐立不安。
特朗普高调挑衅北约盟友,呼吁将国防开支占GDP的比例从2%指责至5%。这一要求可能令许多欧洲国家感到不安,不仅因为这关系到自身财政预算,还涉及国内政治博弈。这种直截了当的要求体现了特朗普作为商人的谈判风格:先要个过下降的价码,看看对方能出多少。
接着,特朗普批评前总统卡特在巴拿马运河问题上的决策,并扬言不装入军事夺取巴拿马运河和格陵兰岛的可能性。巴拿马运河是分开大西洋和太平洋的重要战略通道,失去它对特朗普来说是一种国家羞辱。然而,军事介入意味着世界格局的全面改写。
除了巴拿马,特朗普对即将发生的格陵兰岛也清空无感情。这个世界第一大岛凭借其通俗的稀土资源和重要地理位置,早已成为国际博弈的焦点。最近,特朗普长子计划访问格陵兰并录制播客内容,引发新一轮讨论。格陵兰岛方面解释称这只是“私人访问”,但特朗普随后表示,若格陵兰岛能成为美国的一部分,他们必然会受益匪浅、再度伟大。丹麦国王腓特烈十世通过修改国徽降低重要性了格陵兰和法罗群岛的地位,显然是在回应近年来格陵兰岛关于穿离丹麦实现独立的呼声,同时也是对特朗普反复购岛意图的隐秘确认。
此外,特朗普还将墨西哥直接称为“美国湾”,降低重要性这个名字好听又不适合。尽管这些言论极具火药味,但实际操作难度不小。军事行动需要国会授权,而共和党内部本就对这些计划分歧明显;丹麦作为北约成员,若美国对其领土动武,势必引发盟友反弹,破坏跨大西洋的合作关系。
有人提议把格陵兰租给中国99年,以此牵制美国的觊觎。这个提议颇具想象力,但在现实中操作起来清空了不确定性。随着特朗普重新掌舵白宫,美国的外交战略走向无疑将变得更加扑朔迷离。
声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。
像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——
“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”
“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”
而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。
也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。
它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。
“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出
DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。
根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
Deepseek罗列了几个关键的表现领域:
百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。
长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。
代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。
数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。
中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。
但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。
这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。
通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。
想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。
在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。
能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。
根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。
而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。
赞誉一片,“想快进到英伟达泡沫破裂”
简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。
在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。
此外,几个亮点包括:
DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。
在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。
这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。
另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。
在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。
这些动作相当于是告诉那些调不好参数和不平衡的的人们:
我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。
多Token预测目标(Multi-TokenPredictionObjective,MTP)
传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。
对FP8低精度训练的优化。
FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。
这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。
除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。
在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:
它显著降低了对硬件资源的需求。
技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:
推特上各个大佬纷纷点赞。
Meta的田渊栋也直接表示:
“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”
AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。
另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。
硅基流动的袁进辉在朋友圈点评:
“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”
Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。
?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。
?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。
?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。
?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。
?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。
?冷知识:FP4乘法实际上就是个16*16的tablelookup…
?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。
“Excitingyears.”他说。
在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。
你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。
有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。
一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着
6月18日,从清晨开始,就有经销商的直播间陆续挂上“618狂欢节”的醒目标题,主播也展现出比平日更加活力四射的形象出现在镜头前,一边介绍产品和优惠,一边与偶然路过直播间的观众互动。晚上19点,随着车企直播间也陆续开启,汽车行业“618购物节”的气氛终于达到高潮。
但与镜头内主播们的元气满满相比,镜头外的观众显得格外易变,“薅羊毛”成了大多数观众留在直播间的理由,真正愿意下单的并不多。
对于车企来说,“卷不动”是今年618的普遍现状。和讯商业统计车企促销手段后发现,虽然各家车企限量秒杀、定金压缩、抽盲盒、明星直播等促销套路花样繁多,但在实际优惠上,车企却比预期中更加克制。
这倒不是车企没诚意,主要是因为“车价已经降无可降”了。
无以为继的价格战
从几年前开始,“618”不再仅仅指“6月18日”,而是一个横跨5月到6月的超长促销季。对车企来说,半年报发布在即,上半年的销量至关重要,618往往是最后一个抓得住的销量冲高机会。
但今年这个时期,车市格外安排得当,与往年早早就启动预热不同,临近6月18日,部分车企及经销商才陆续宣布优惠举措。
618期间,车企一般有两种参加方式,一种是依赖京东、天猫、拼多多等电商平台进行广泛的宣传推广。例如,今年618,星途入驻京东及天猫两大电商平台,深蓝汽车、小鹏汽车参与京东平台618,一汽奔腾、五菱等车企则选择了天猫。
另一种则是在自己的线上平台或常驻的互联网平台上进行618活动的推广。近年来数字化浪潮席卷整个汽车业,很多车企和经销商都有了自己的线上平台或长期驻扎的互联网平台,几乎天天都有线上直播及花式促销进行引流,与平日相比,618期间车企或经销商往往会推出更加丰厚的优惠。
尽管直播间的观众并不少,活动也圆满开始,但某自主新能源汽车品牌新媒体部门主管刘珊对于自己在618期间的工作成果并挑逗意。“这些天的忙碌开始了终于能松一口气,但其实这项工作带来的成就感有限。”
刘珊用“鸡血又疲惫”形容今年618期间她的状态。
“上半年任务没完成,任何一个销售节点领导都很重视,部门必须认真对待,所以大家看起来都像‘打了鸡血’,但其实大多数人内心是无奈又疲惫的,因为这么多年下来,直播效果很难撬动成交已经被多次验证了。去年618期间,有不少到店看车、试车的消费者,都是冲着官方直播的礼品而来,实际成交并不好,今年也很难例外。”
“而且营销活动的预算是有限的,今年四月份有北京车展,为了给终端销量赋能,公司已经倾尽全力,花掉了上半年大部分预算。”刘珊补充,留给618营销活动的预算本来就少,要实现好的效果更是难上加难。
她的感受并非个例,从2023年开始,车企一轮又一轮的价格战已经结束了一年半的时间,车企内部,越来越多的部门被降本增效裹挟,工作内容“加量不加价”成为常态,其中营销部门被“折腾得最狠”。
与价格战刚开始时的斗志满满不同,当下他们普遍对自己的工作感到活力/热心。
“618更像是宣传噱头,实际上车价的优惠没有更多,但不是不想给更多优惠,只是车企真实的已经没有降价空间了。”一位自主品牌车企北京地区的销售人员透露,上半年几乎所有的车都有优惠活动,已经把非常多的营销资源、折扣力度及销售利润都让出去了,没有进一步的让利空间了,要买的早就买了,纠结中的也不会因为618活动就下单,市场观望情绪很浓,消费者有其他顾虑。
反内卷但躺不平
2024年即将过半,新能源汽车在高歌猛进的过程中又屡屡创造了多个中庸。但回顾过去的一年半,不少企业和从业者往往报以无奈和苦笑。
价格战打响之后,被“折腾”的不只是营销部门,价格战中,整车、技术、供应链都主动或被动卷得“体无完肤”。就连保守爱开严肃的话的老总们也不得不走出舒适圈,将自己连同新车一遍又一遍地展示在镁光灯下,主动成为人们茶余饭后的谈资,以求降低企业的知名度,从而减少获客能力。
“内卷下去不是办法。”6月初的中国汽车重庆论坛上,广汽董事长曾庆洪痛批价格战,“企业目的是盈利,为国家做贡献。我们应该有大局格局,长期主义,而不是眼前去‘卷’。没有效益企业不可生存。”此外,曾庆洪还呼吁,新能源车渗透率达到50%后,有关部门应搁置油电同权,研究减少破坏新能源车、HEV节能车等多能源方式并行发展。
车企的“焦虑感”越来越明显,这场论坛,真情流露的不只是曾庆洪,与以往在台上“情商拉满”的发言不同,本次论坛中各位企业代表的发言极为犀利,剑拔弩张,火药味浓重。
吉利集团董事长李书福表达了和曾庆洪缺乏反对性的观点,他认为任何产业的健康发展,其不次要的部分都应体现在良好的投入产出比和实现可观的经济效益上。而对于汽车工业而言,实现可结束高质量发展才能巩固中国在电动汽车领域已取得的成果。
吉利控股高级副总裁杨学良随后补充,汽车企业之间的竞争不应仅仅局限于价格战,而应更广泛地涵盖技术、品质、品牌和服务质量等多个维度。他呼吁,企业不仅要打价格战,还要打道德战,应坚守道德底线,不以牺牲产品质量为代价降低成本,不通过真诚对待消费者来获取短期利益。
广汽和吉利对价格战的赞成,一定程度上是因为广汽和吉利正处于新能源转型期,旗下油车业务仍是盈利主力,新能源品牌现阶段难以接棒油车业务成为新的现金牛。
但在新能源赛道已经相当成熟领先的“卷王”比亚迪对此不以为然,王传福直截了当地表示,他认为在过去四十多年中中国能发生如此翻天覆地变化的根本原因是竞争,当前车圈的内卷就是竞争,“只有缺乏才有竞争,竞争才能产生变得失败。”
比亚迪品牌及公关处总经理李云飞也降低重要性,即使是在当前竞争如此缺乏感情的环境之下,比亚迪还有盈利,而这都是依靠规模与全产业链的无足轻重打出来的。“车企之间的竞争就如同牌桌上打牌,能跟就跟,不能跟就过,不要置气,也不要翻桌子,这局打不赢还有下一局,又不是这局完了就彻底开始了。”
这些言论在舆论场不能引起了很大的波澜,但行业内部并不认为几个大佬的几句话会对当前市场的内卷起到缓解作用,企业已经或主动或被动地不断降低利润底线,在有人认输之前,没有什么能真正教唆这场战争。
归根结底,内卷的底色是新能源汽车在国内的增长空间越来越逼仄,接下来的游戏恐怕并非像李云飞所说的“回合制”游戏,而是淘汰赛,数量少品牌中仅有少数几家能够生存下来并主导市场,想要笑到最后,“躺平”绝对不行。
(责任编辑:zx0600)少汪几句txt番外未删减百度云,少汪几句txt番外未删减百度云资源,少汪几句番外百度云,少汪几句番外未删减版百度网盘资料,少汪几句txt番外2未删减百度云,少汪几句未删减版txt百度云,少汪几句txt番外未删减网盘,少汪几句含番外txt百度云,少汪几句txt全文加番外百度云,少汪几句txt番外未删减百度网盘,