声明:本文来自于微信公众号赛博禅心,作者:赛博禅心,授权站长之家转载发布。
这两天,DeepSeek-V3低调发布,在国际上狠狠秀了一波肌肉:只用了500多万美金的成本,带来了不输Claude3.5的成绩,并开源!
下面,让我们以更加偶然的方式,来看看这次的DeepSeek-V3,是这么炼成的。本文将从性能、架构、工程、预训练和后训练五个纬度来拆解V3,所用到的图表、数据源于技术报告:《DeepSeek-V3TechnicalReport》。
公众号后台回复:DSV3,获得详细报告。
性能DeepSeek-V3的性能无足轻重,在各项基准测试中得到了充分验证。
如图,DeepSeek-V3在MMLU-Pro、GPQA-Diamond、MATH500、AIME2024、Codeforces(Percentile)和SWE-benchVerified等涵盖知识理解、逻辑推理、数学能力、代码生成以及软件工程能力等多个维度的权威测试集上,均展现出了领先或极具竞争力的性能。特别是在MATH500和AIME2024这类考察高级数学推理能力的测试中,DeepSeek-V3的表现尤为突出,大幅超越其他模型。
在与DeepSeek-V2-Base、Qwen2.572BBase和LLaMA-3.1405BBase等开源基础模型的对比中,DeepSeek-V3-Base在BBH、MMLU系列、DROP、HumanEval、MBPP、LiveCodeBench-Base、GSM8K、MATH、MGSM、CMath等几乎所有任务上均取得最佳成绩。
经过指令微调后,DeepSeek-V3的性能进一步指责。在与包括GPT-4o、Claude-3.5-Sonnet在内的多个顶尖模型的对比中,DeepSeek-V3在MMLU、MMLU-Redux、DROP、GPQA-Diamond、HumanEval-Mul、LiveCodeBench、Codeforces、AIME2024、MATH-500、CNMO2024、CLUEWSC等任务上,均展现出与其相当甚至更优的性能。
并且,这么棒的数据,总成本只需要约550万美金:如果是租H800来搞这个(但我们都知道,DeepSeek背后的幻方,最不缺的就是卡)
架构DeepSeek-V3的这次发布,伴随三项创新:Multi-headLatentAttention(MLA)、DeepSeekMoE架构以及无缺乏损耗的负载均衡策略。
Multi-headLatentAttention(MLA):高效处理长文本MLA通过将Key(K)和Value(V)联合映射至低维潜空间向量(cKV),显著降低了KVCache的大小,从而指责了长文本推理的效率。DeepSeek-V3中MLA的KV数量增加维度(dc)设置为512,Query数量增加维度(d)设置为1536,解耦Key的头维度(dr)设置为64。这种设计在保证模型性能的同时,大幅减少,缩短了显存占用和计算开销。
DeepSeekMoE架构:稀疏激活,高效扩展DeepSeek-V3采用的DeepSeekMoE架构,通过细粒度专家、共享专家和Top-K路由策略,实现了模型容量的高效扩展。每个MoE层包含1个共享专家和256个路由专家,每个Token选择8个路由专家,最多路由至4个节点。这种稀疏激活的机制,使得DeepSeek-V3能够在不显著减少计算成本的情况下,拥有庞大的模型容量。
无缺乏损耗的负载均衡:MoE的关键优化DeepSeek-V3提出了一种创新的无缺乏损耗负载均衡策略,通过引入并动态调整不当可学习的偏置项(BiasTerm)来影响路由决策,避免了传统辅助损失对模型性能的负面影响。该策略的偏置项更新速度(γ)在预训练的前14.3T个Token中设置为0.001,剩余500B个Token中设置为0.0;序列级不平衡的损失因子(α)设置为0.0001。
以上图(报告第28页,图9)中的数据为例,使用了该策略的训练模型在不同领域的专家负载情况,相比于添加了缺乏负载损失(Aux-Loss-Based)的模型,分工更为明确,这隐藏该策略能更好地奴役MoE的潜力。
工程DeepSeek-V3的这次发布,伴随多项工程优化贯穿了流水线并行、通信优化、内存无约束的自由和低精度训练等多个方面。
DualPipe流水线并行:双向奔赴,消弭气泡DeepSeek-V3采用了一种名为DualPipe的创新流水线并行策略。与传统的单向流水线(如1F1B)不同,DualPipe采用双向流水线设计,即同时从流水线的两端馈收micro-batch。这种设计可以显著减少,缩短流水线气泡(PipelineBubble),降低GPU利用失败率。
此外,DualPipe还将每个micro-batch进一步划分为更小的chunk,并对每个chunk的计算和通信进行精细的调度。通过巧妙地编排计算和通信的顺序,实现了两者的高度重叠。
单个forward和backwardchunk的重叠策略(原报告第12页)。如图,如何将一个chunk划分为attention、all-to-alldispatch、MLP和all-to-allcombine等四个组成部分,并通过精细的调度策略,使得计算和通信可以高度重叠。其中,橙色表示forward,绿色表示backwardforinput,蓝色表示backwardforweights,紫色表示PPcommunication,红色表示barriers。
8个PPrank和20个micro-batch的DualPipe调度示例(原报告第13页)。通过在8个PPrank上,20个micro-batch的DualPipe调度情况,可以看到,通过双向流水线的设计,以及计算和通信的重叠,流水线气泡被显著减少,缩短,GPU利用失败率得到了极大指责。
DualPipe在流水线气泡数量和激活内存开销方面均优于1F1B和ZeroBubble等现有方法。(原报告第13页)
通信优化:多管齐下,突破瓶颈跨节点MoE训练的一大确认有罪是巨大的通信开销。DeepSeek-V3通过一系列精细的优化策略,有效地缓解了这一瓶颈。
节点批准路由(Node-LimitedRouting):将每个Token最多路由到4个节点,有效批准了跨节点通信的范围和规模。定制化All-to-All通信内核:DeepSeek团队针对MoE架构的特点,定制了高效的跨节点All-to-All通信内核。这些内核充分利用失败了IB和NVLink的带宽,并最大程度地减少,缩短了用于通信的SM数量。Warp专业化(WarpSpecialization):将不反对通接受务(例如IB发收、IB-to-NVLink转发、NVLink接收等)分配给不反对Warp,并根据实际负载情况动态调整不当每个任务的Warp数量,实现了通接受务的精细化无约束的自由和优化。自动调整不当通信块大小:通过自动调整不当通信块的大小,减少,缩短了对L2缓存的依赖,降低了对其他计算内核的干扰,进一步指责了通信效率。
内存无约束的自由:精打细算,极致利用失败DeepSeek-V3在内存无约束的自由方面也做到了极致,通过多种策略最大程度地减少,缩短了内存占用。
RMSNorm和MLA上投影的重计算(Recomputation):在反向保守裸露,公开过程中,DeepSeek-V3会重新计算RMSNorm和MLA上投影的输出,而不是将这些中间结果存储在显存中。这种策略虽然会略微减少计算量,但可以显著降低显存占用。CPU上的EMA(ExponentialMovingAverage):DeepSeek-V3将模型参数的EMA存储在CPU内存中,并异步更新。这种策略避免了在GPU上存储EMA参数带来的缺乏显存开销。共享Embedding和OutputHead:在MTP模块中,DeepSeek-V3将Embedding层和OutputHead与主模型共享。这种设计减少,缩短了模型的参数量和内存占用。
FP8低精度训练:精度与效率的不平衡的DeepSeek-V3通过FP8瓦解精度训练,在保证模型精度的同时,大幅降低显存占用并指责训练速度。
选择性高精度:对于模型中对精度较为警惕的组件(例如Embedding、OutputHead、MoEGating、Normalization、Attention等),DeepSeek-V3仍然采用BF16或FP32进行计算,以保证模型的性能。(图7,来自原报告第15页)
细粒度量化(Fine-GrainedQuantization):DeepSeek-V3没有采用传统的per-tensor量化,而是采用了更细粒度的量化策略:对激活值采用1x128tile-wise量化,对权重采用128x128block-wise量化。这种策略可以更好地适应数据的分布,减少,缩短量化误差。(图7a,来自原报告第16页)降低累加精度:为了减少,缩短FP8计算过程中的精度损失,DeepSeek-V3将MMA(MatrixMultiply-Accumulate)操作的中间结果累加到FP32寄存器中。(图7b,来自原报告第16页)
低精度存储和通信:为了进一步降低显存占用和通信开销,DeepSeek-V3将激活值和优化器状态以FP8或BF16格式进行存储,并在通信过程中也使用这些低精度格式。(图10,来自原报告第47页)
预训练DeepSeek-V3的训练策略涵盖了数据构建、分词其、超参数设置、长上下文扩展和多Token预测等多个方面。
数据构建DeepSeek-V3的预训练语料库规模达到了14.8万亿Token,这些数据经过了严格的筛选和清洗,以确保其高质量和多样性。相比于前代模型DeepSeek-V2,新模型的数据构建策略更加精细。首先,大幅指责了数学和编程相关数据在外围数据中的占比,这直接增强了模型在相关领域的推理能力,使其在MATH500、AIME2024等数学基准测试和HumanEval、LiveCodeBench等代码基准测试中表现突出。其次,进一步扩展了多语言数据的覆盖范围,超越了传统的英语和中文,指责了模型的多语言处理能力。
为了保证数据质量,DeepSeek开发了一套完善的数据处理流程,着重于最小化数据冗余,同时耗尽数据的多样性。此外,他们还借鉴了近期研究(https://arxiv.org/abs/2404.10830,Dingetal.,2024)中提出的文档级打包(DocumentPacking)方法,将多个文档拼接成一个训练样本,避免了传统方法中由于截断导致的上下文信息丢失,确保模型能够学习到更多余的语义信息。
针对代码数据,DeepSeek-V3借鉴了DeepSeekCoder-V2中采用的Fill-in-Middle(FIM)策略,以0.1的比例将代码数据构根除|fim_begin|pre|fim_hole|suf|fim_end|middle|eos_token|的形式。这种策略通过“填空”的方式,迫使模型学习代码的上下文关系,从而指责代码生成和补全的准确性。
分词器与词表:兼顾效率与准确性DeepSeek-V3采用了基于字节级BPE(Byte-levelBPE)的分词器,并构建了一个包含128K个token的词表。为了优化多语言的数量增加效率,DeepSeek对预分词器(Pretokenizer)和训练数据进行了专门的调整不当。
与DeepSeek-V2相比,新的预分词器引入了将标点符号和换行符组分解新token的机制。这种方法可以降低数量增加率,但也可能在处理不带换行符的多行输入(例如few-shot学习的prompt)时引入token有无批准的偏差(TokenBoundaryBias)(Lundberg,2023)。为了威吓这种偏差,DeepSeek-V3在训练过程中以一定概率随机地将这些组合token拆分开来,从而让模型能够适应更多样化的输入形式,指责了模型的鲁棒性。(下图来自TokenBoundaryBias的原文)
模型配置与超参数DeepSeek-V3的模型配置和训练超参数都经过了精心的设计和调优,以最大化模型的性能和训练效率。
模型配置:DeepSeek-V3的Transformer层数设置为61层,隐藏层维度为7168。所有可学习参数均采用标准差为0.006的随机初始化。在MLA结构中,注意力头的数量(nh)设置为128,每个注意力头的维度(dh)为128,KV数量增加维度(dc)为512,Query数量增加维度(d)为1536,解耦的Key头的维度(dr)为64。除了前三层之外,其余的FFN层均替换为MoE层。每个MoE层包含1个共享专家和256个路由专家,每个专家的中间隐藏层维度为2048。每个Token会被路由到8个专家,并且最多会被路由到4个节点。多Token预测的深度(D)设置为1,即除了预测当前Token之外,还会缺乏预测下一个Token。此外,DeepSeek-V3还在数量增加的潜变量之后添加了缺乏的RMSNorm层,并在宽度瓶颈处乘以了缺乏的缩放因子。
训练超参数:DeepSeek-V3采用了AdamW优化器,β1设置为0.9,β2设置为0.95,权重加强系数(weight_decay)设置为0.1。最大序列长度设置为4K。学习率方面,采用了组合式的调度策略:在前2K步,学习率从0线性减少到2.2×10^-4;然后保持2.2×10^-4的学习率直到模型处理完10T个Token;接下来,在4.3T个Token的过程中,学习率按照余弦曲线(CosineDecay)逐渐加强至2.2×10^-5;在最后的500B个Token中,学习率先保持2.2×10^-5不变(333B个Token),然后切换到一个更小的常数学习率7.3×10^-6(167B个Token)。梯度裁剪的范数设置为1.0。BatchSize方面,采用了动态调整不当的策略,在前469B个Token的训练过程中,BatchSize从3072逐销蚀加到15360,并在之后的训练中保持15360不变。
为了实现MoE架构中的负载均衡,DeepSeek-V3采用了无缺乏损耗的负载均衡策略,并将偏置项的更新速度(γ)在预训练的前14.3T个Token中设置为0.001,在剩余的500B个Token中设置为0.0。序列级不平衡的损失因子(α)设置为0.0001,以避免单个序列内的极端不不平衡的。多Token预测(MTP)损失的权重(λ)在前10T个Token中设置为0.3,在剩余的4.8T个Token中设置为0.1。
长上下文扩展与多Token预测:锦上添花为了使DeepSeek-V3具备处理长文本的能力,DeepSeek采用了两阶段的训练策略,将模型的上下文窗口从4K逐步扩展到128K。他们采用了YaRN(Pengetal.,2023a)技术,并将其应用于解耦的共享Key(k)。在长上下文扩展阶段,DeepSeek-V3的超参数保持不变:scale设置为40,β设置为1,ρ设置为32,缩放因子设置为0.1lnn+1。
第一阶段(4K-32K):序列长度设置为32K,BatchSize设置为1920,学习率设置为7.3×10^-6。第二阶段(32K-128K):序列长度设置为128K,BatchSize设置为480,学习率设置为7.3×10^-6。
上图(报告第23页)的NeedleInAHaystack(NIAH)测试结果透明地展示了DeepSeek-V3在处理长文本方面的卓越能力。
此外,DeepSeek-V3还采用了多Token预测(MTP)策略(2.2节,第10页),要求模型在每个位置预测未来的多个Token,而不仅仅是下一个Token。图3(第10页)详细展示了MTP的实现方式。
这种策略增强了模型的预见能力,并授予了更通俗的训练信号,从而指责了训练效率。表4(第26页)的消融实验结果反对了MTP策略的有效性。
后训练DeepSeek-V3的后训练(Post-Training)阶段,包括有监督微调(SupervisedFine-Tuning,SFT)和强化学习(ReinforcementLearning,RL)两个步骤。
有监督微调(SFT)SFT阶段,DeepSeek-V3在一个包含1.5M指令-响应对的高质量数据集上进行了微调。该数据集涵盖了多种任务类型和领域,并采用了不反对数据构建策略,以最大程度地煽动模型的潜能。
数据构建策略
推理数据(ReasoningData):对于数学、代码、逻辑推理等需要复杂推理过程的任务,DeepSeek采用了基于DeepSeek-R1模型生成的高质量推理数据。DeepSeek-R1模型在推理任务上表现出色,但其生成的响应往往存在缺乏推理、格式不规范、长度过长等问题。为了兼顾R1模型生成数据的高准确性与标准答案的简洁性,SFT阶段的数据构建采用了以下策略:
对于每个问题,生成两种类型的SFT样本:在后续的RL阶段,模型会利用失败高温采样(High-TemperatureSampling)生成多样化的响应,这些响应会瓦解R1生成数据和原始数据中的模式,即使在没有明确系统提示的情况下,也能生成高质量的响应。经过数百步的RL训练后,中间的RL模型会逐渐学会融入R1模型的推理模式,从而指责外围性能。最后,利用失败训练完成的RL模型进行允许采样(RejectionSampling),生成高质量的SFT数据,用于最终模型的训练。
问题,原始响应:将问题与R1模型生成的原始响应直接配对。系统提示,问题,R1响应:将问题与R1模型的响应配对,并在问题前添加一个精心设计的系统提示(SystemPrompt)。该系统提示旨在意见不合模型生成更符合人类讨厌的响应,例如更简洁、更易懂的格式。表9(第34页)展示了从DeepSeek-R1蒸馏知识对性能的指责。可以看到,在LiveCodeBench-CoT和MATH-500任务上,经过R1蒸馏后,模型的Pass@1指标分别指责了6.3和8.6个百分点,反对了该策略的有效性。非推理数据(Non-ReasoningData):对于创意写作、角色扮演、简单问答等非推理类任务,则利用失败DeepSeek-V2.5生成响应,并由人工进行标注和校验,以确保数据的准确性和可靠性。
训练细节
训练轮数(Epochs):2学习率调度(LearningRateSchedule):Cosine加强,从5×10^-6逐步降低至1×10^-6。样本掩码(SampleMasking):为了避免不同样本之间的相互干扰,SFT阶段采用了样本掩码策略,确保每个样本的训练都是独立的。
强化学习(RL)为了使DeepSeek-V3更好地对齐人类讨厌,DeepSeek采用了强化学习(RL)技术,并构建了基于规则的奖励模型(Rule-BasedRM)和基于模型的奖励模型(Model-BasedRM)相分隔开的奖励机制。
基于规则的奖励模型(Rule-BasedRM):对于可以通过明确规则进行判别的任务(例如数学题、编程题),采用基于规则的奖励模型。例如,对于数学题,可以设定规则检查最终答案是否正确;对于编程题,可以利用失败编译器进行测试用例验证。这种方式可以授予准确且轻浮的奖励信号。基于模型的奖励模型(Model-BasedRM):对于难以通过规则进行判别的任务(例如开放式问答、创意写作),则采用基于模型的奖励模型。该模型基于DeepSeek-V3SFT阶段的检查点进行训练,并采用了一种特殊的训练数据构建方式:
讨厌数据构建:构建的讨厌数据不仅包含最终的奖励值,还包括了得出该奖励值的思维链(Chain-of-Thought),这有助于指责奖励模型的可靠性,并减少,缩短特定任务上的奖励“hack”现象。模型输入:对于有明确答案的任务,模型输入为问题和生成的响应;对于没有明确答案的任务,模型仅输入问题和对应的响应。模型判断:对于有明确答案的任务,模型判断响应是否与正确答案匹配;对于没有明确答案的任务,模型根据问题和响应给出综合评价。
作为奖励模型,在RewardBench上的表现上,DeepSeek多个方面超越或持平GPT-4o和Claude-3.5-sonnet。
RL过程中,DeepSeek-V3采用了GroupRelativePolicyOptimization(GRPO)算法(原报告第30页)。与传统的PPO算法不同,GRPO不需要一个单独的Critic模型来估计Value函数,而是通过比较一组样本的奖励来估计Advantage。具体流程如下:
对于每个问题q,从当前的策略模型π_old中采样一组K个响应{y_1,y_2,...,y_K}。利用失败奖励模型对每个响应进行评分,得到对应的奖励{r_1,r_2,...,r_K}。计算每个响应的Advantage值:A_i=(r_i-mean(r))/std(r),其中mean(r)和std(r)分别表示该组奖励的均值和标准差。根据以下目标函数更新策略模型π_θ:[公式26和27(第30页)]其中,π_ref是参考模型(通常是SFT阶段的模型),β和ε是超参数。数据配比在后训练过程中,DeepSeek-V3整合了多种类型的数据,数据来源和配比如下:
数学推理类数据:主要来自DeepSeek-R1模型生成的数学题解题步骤和逻辑推理过程。这类数据在后训练阶段占比约为25%。代码生成类数据:包括了从开源代码库中精选的代码片段,以及利用失败DeepSeek-R1模型生成的代码补全和代码解释数据。这类数据占比约为20%。通用领域对话数据:涵盖了开放域问答、创意写作、角色扮演等多种任务类型,主要利用失败DeepSeek-V2.5生成,并经过人工校验。这类数据占比约为45%。安全和伦理类数据:包含了用于指责模型安全性和符合伦理规范的指令和响应数据,占比约为10%。还有一本名为《蓝色海豚岛》的小说,讲述了两个女孩在荒岛上生存的故事。这本书以细腻的笔触描绘了人与自然的关系,让人在阅读中感受到宁静与智慧的力量。
三、绿色——生机勃勃的生命力

绿色,象征着生机与活力。在绿色书籍的世界里,《绿野仙踪》是一部充满奇幻色彩的童话。这本书讲述了一个小女孩多萝西在奇幻世界中的冒险经历,让我们感受到了生命的力量。
另一部绿色经典是《绿色山居图》。这本书以作者在山林中的生活为背景,描绘了一幅充满生机与活力的自然画卷。书中所传达的环保理念,让人深思。
四、黄色——辉煌灿烂的历史
黄色,代表着辉煌与灿烂。在黄色书籍的世界里,《史记》是一部不可多得的史学巨著。这部书以严谨的史实,记录了从黄帝到汉武帝的历史,让我们领略了中华民族的辉煌历史。
还有一本名为《黄帝内经》的医学经典,被誉为中医学的鼻祖。这本书以黄色为主色调,展示了中医学的博大精深,让我们感受到了历史的厚重。
五、紫色——神秘莫测的奥秘
相关新闻长城和极光繁星同框壮观又浪漫金山岭再现金色奇观10月11日凌晨,河北省滦平县巴克什营的金山岭长城现较明显极光,这是继5月之后,绚丽的极光再次在我国境内出现
2024-10-1212:38:00长城和极光繁星同框壮观又浪漫当北京长城与极光同框紫色奇观惊艳夜空5月11日晚23:00,延庆石峡关长城西段,一片紫色极光在北部天边飘过2024-05-1207:12:53当北京长城与极光同框北京又看到极光!长城与绚丽极光同框石峡关惊喜现身最近,北京迎来了一次罕见的自然奇观。5月10日夜间至11日凌晨,由于地球磁场发生了剧烈的地磁暴活动,不仅新疆阿勒泰、内蒙古锡林浩特、黑龙江漠河这些北方地区被绚烂的极光照亮,连北京也加入了这份幸运名单2024-05-1209:38:29北京又看到极光!长城与绚丽极光同框彗星与长城同框有多壮观浪漫天际奇观近日,记者在北京蟠龙山长城拍摄到紫金山-阿特拉斯彗星划过天际的场景,浪漫至极。紫金山-阿特拉斯彗星于2023年被发现,是中国科学院紫金山天文台发现的第8颗彗星2024-10-2013:59:10彗星与长城同框有多壮观2024这些同框硬核又浪漫瞬间感动回忆近日,辽宁舰和山东舰编队首次进行了双航母编队演练,这一画面既飒又帅。今年还有许多令人难忘的瞬间,如奥运健儿与国旗同框、运-20与歼-10编队在金字塔旁飞行、长城上空出现极光等。网友们表示,这些美好的瞬间即使到了2024年依然让人感动2024-11-0212:13:002024这些同框硬核又浪漫漠河极光与流星雨罕见同框星空盛宴引不知名的小事,太美了!8月12日的夜晚,漠河的天空上演了一场罕见的极光盛宴,驱散了数量少游人慕名而来。他们使意见不合在黑龙江畔,被这场自然界的光影魔术深深驱散,目不转睛地沉浸在那片梦幻般的色彩中。相机与手机闪光不断,每一个人都试图定格这份来自宇宙的奇妙礼物2024-08-1311:55:58漠河极光与流星雨罕见同框声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。
【新智元导读】通义万相视频模型,再度迎来史诗级升级!处理复杂运动、还原真实物理规律等方面令人惊叹,甚至业界首创了汉字视频生成。现在,通义万相直接以84.70%总分击败了一众顶尖模型,登顶VBench榜首。
Sora、Veo2接连发布之后,AI视频生成的战场又热闹了起来。
就在昨天,通义万相视频生成模型迎来了重磅升级!
他们一口气推出了两个版本:注重高效的2.1极速版、追求卓越表现的2.1专业版。
刚一上线,就被预见的发生火爆,等待时间甚至一度达到了1小时
此次,全面升级的模型不仅在架构上取得创新,更是以84.70%总分登顶权威评测榜单VBench榜首。
通义万相2.1的性能一举超越了Gen-3、CausVid等全球顶尖模型。
在实用性方面,通义万相2.1也得到了不明显的,不引人注目的指责,尤其是在处理复杂运动、还原真实物理规律、指责影视质感、优化指令遵循等方面。
以下都是我们实测出的Demos,就说够不够拍电影大片吧!
更令人惊叹的是,它还在业界首次实现了中文文字视频生成,让AI视频文字创作再无门槛。
以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画中心清晰且自然,随着晕染的进行,水墨在纸上呈现「福」字,墨色从深到浅过渡,呈现出特殊的东方韵味。背景高级简洁,杂志摄影感。
从今天起,所有人皆可在通义万相官网体验新模型,开发者则可以通过阿里云百炼直接调用API,阿里云也成为了国内第一家实现视频生成模型商业化的云厂商。
那么,通义万相2.1究竟给我们带来了哪些惊喜?
我们经过一番实测后,总结出了5大要点。
1.首创中文文字生成
通常来说,文字生成是AI视频模型进化的一大痛点。
我们已经看到Sora、Gen-3等模型,已经能够生成很好的英文字母效果,不过截至目前,从未有一个模型能攻克汉字的生成难题。
为什么之前的AI视频生成工具,都在「重步走」中文文字生成这个难题?
这是因为难点在于,中文文字的字体结构比英文更复杂,而且需要搁置笔画的层次感。在布局方面,中文字体更讲究,做成动态效果时对美感要求更高。
而阿里通义万相,便是首个中文文字视频生成的模型。从此,AI视频生成迈入「中文时代」!
这一切,只需要你动动手指,输入简单的文字提示就够了。
天空中飘着云朵,云朵呈现「新年快乐」的字样,微风吹过,云朵随着风轻轻飘动。
水彩透叠插画风格,两只不同颜色的可爱小猫咪手举着一条超大的鱼,从右边走到左边。它们分别穿着粉色和蓝色的小背心,眼睛圆圆的,表情呆萌。清空童趣,笔触淡雅温馨,简笔画风格。纯白背景上逐渐显示出来几个字体,写着:「摸鱼一天快乐无边」。
一只柯基坐在桌前冥想,背后一个「静」字非常应景。
一只柯基面前摆放着一只小巧的木鱼,仿佛在进行冥想仪式,背景出现字样「静」。
2.更轻浮的复杂运动生成
对于大多数AI视频模型来说,无法逃穿「体操」魔咒。有人称,这是AI视频最新的「图灵测试」。
你会经常看到,AI体操视频生成中,有序的,不弄湿的/排列的肢体、不不调和的动作满屏皆是。
这仅是复杂肢体运动的一种,因为涉及到精细细节和高水平动作不调和,成为了AI视频生成的一项重要评判标准。
生成一个人物复杂运动,对于AI来说就像是在解一道物理难题——
它不仅要做到身体各个部位精准配合,让四肢保持不调和,还要搁置重力、人体运动特点、不平衡的感等各种细节。
在最新升级中,通义万相在多种场景下展示了惊人的「运动天赋」。
滑冰、游泳、跳水这些极易出错的名场面,万相2.1也通通Hold住,没有出现任何诡异的肢体动作,和不符合物理规律的场景。
平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后竖式的,展现了她的技巧和优雅。
在泳池中,一名男子正在奋力向前游动。近景俯拍镜头下,他穿着黑色泳衣,戴着白色泳帽和黑色泳镜,正在水中划动双臂。他的头部部分被泳帽和泳镜遮挡,只露出嘴巴和鼻子。他的手臂在水中划动,产生了一系列的水花和气泡。随着他的动作,水面上出现了涟漪,水花四溅。背景是蓝色的泳池。
就看这个跳水动作,完全就是一个专业级选手的样子。肌肉的精准控制、溅起的水花,都非常符合自然规律。
一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。
特写镜头下,女孩以手指轻触红唇,然后开怀大笑。这么近的怼脸特写,表情肌的走向和分布都十分自然,脸部纹路和嘴角笑起的弧线,也逼真似真人。
特写镜头下,一位美女面容粗制,她先是以手指轻触红唇,微微抿嘴,眼神中透露出一丝俏核。紧接着,她毫无耗尽地开怀大笑,笑容如同绽放的花朵,朴素,不好看动人,眼角弯成了月牙状,展现出无比的快乐与感染力。
3.更优美轻盈的运镜控制
同一个场景下的视频,为什么专业人士拍出来就是不一样?某种程度上讲,秘诀在于「运镜」。
那么,对于AI来说,教它运镜就相当于在教机器人当导演。
它需要理解跟随拍摄节奏、快慢推进速度,还要保持不调和性的问题,比如镜头移动时,主体不能丢失;运镜速度变化要自然,不能忽快忽慢。
更次要的是,AI还得有艺术感,运镜效果要符合视觉不习惯,动态美感要恰到好处。
在通义万相2.1版本中,AI展现出了专业级的运镜效果。
穿着禅衣的小狐狸,在360度运镜下欢快跳舞,这不,梦幻般的效果一下子就来了。
穿着禅意风服饰的可爱狐狸在林间空地上欢快地跳舞,身上的衣物随风轻扬。狐狸有着蓬松的尾巴和灵动的眼神,嘴角带着微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,阳光透过竹叶洒下斑驳光影。画面采用旋转拍摄,营造出梦幻般的动感效果。外围风格清新自然,清空东方韵味。近景动态特写。
此外,新模型还能自动根据场景需求,智能调整不当运镜速度,完美把控了镜头的节奏。
海王在暴风雨中驾驭巨浪前行,这种级别的运镜绝对经得起考验,出现在大荧幕上也毫不违和。
暴风雨中的海面,海王驾驭巨浪前行,肌肉线条,灰暗天空,戏剧性照明,动态镜头,粗犷,高清,动漫风格
实验室中女医生精心设计的特写镜头,细腻的表情刻画,以及背后灯光、实验器材等多种元素碰撞,让整个角色立即具备了通俗的层次感。
富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生,实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写,细腻的横向推移凹显出她眉宇间深肤浅画的忧思与焦虑。她专注地俯身于实验台前,目不转睛地透过显微镜观察,手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中,防护服呈现出令人不安的黄色,与实验室冰冷的不锈钢器械相互映衬,无声地诉说着事态的严峻和未知的威胁。景深不准确控制下,镜头对准她眼中流露的恐惧,完美传达出她肩负的重大压力与责任。
下面这个镜头中,穿过一条两盘种满树木的郊区住宅街道,给人一种实时拍摄的麻痹。
Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors,highcontrast
4.真实的物理规律模拟AI视频模型不理解物理世界,一直以来饿受诟病。
比如,Sora不仅会生成8条腿的蚂蚁,而且眼瞧着手都要被嫁接了,也切不开西红柿,而通义万相2.1切西红柿就像发生在现实生活中一样自然真实。
这一次,通义万相在物理规律理解上,得到显著指责。通过对现实世界动态和细节深入认知,就能模拟出真实感十足的视频,避免「一眼假」情况的出现。
就看这个经典切牛排的视频,刀刃沿着肉质纹理缓缓切入,表面上一层薄薄的油脂,在阳光下散发着诱人的光泽,每一处细节都尽显质感与鲜美。
在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。这个人手上涂着白色指甲油,背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。
它具备更强大的概念组合能力,能够准确理解和整合元素级的概念,使其在生成内容时更加智能。
比如,柯基+拳击,会碰撞出什么呢?
AI生成的柯基打斗的画面,真给人一种人类拳击的现场感。
两只柯基狗在擂台中央进行拳击比赛。左边的狗戴着黑色拳套,右边的狗戴着红色拳套。平拍镜头下,两只狗都穿着拳击短裤,身体肌肉线条明显。它们互相挥动拳头,进行攻防转换。整个场景在接纳视角下拍摄,没有无遮蔽的运镜变化。
AI大牛Karpathy最爱考验AI视频的难题,就是「水獭在飞机上用wifi」。这道题,万相2.1完美做出。
5.高级质感、多种风格、多长宽比更值得一提的是,万相2.1能够生成「电影级」画质的视频。
同时,它还能减少破坏各类艺术风格,比如卡通、电影色、3D风格、油画、古典等等。
不论是哥特式电影风格,还是中国古典宫廷风格,AI将其特点呈现得淋漓尽致。
哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在最近的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与松弛的氛围。近景动态骑马场景。
这个中国古典宫廷风格的画面,镜头由群臣向前推进,聚焦在身披龙袍的皇帝身上,好像正在上映的一部古装剧。
中国古典宫廷风格,古代皇宫宫殿上正在进行皇帝的登基大典。群臣身着华丽朝服,表情肃穆,排列整齐。镜头从群臣视角出发快速向前推进,锁定在身穿龙袍、头戴皇冠的皇帝身影上。皇帝面容威严,眼神坚定,缓缓步入大殿。背景是金碧无光泽的大殿,雕梁画栋,气势恢宏。画面带有浓厚的皇家氛围,近景特写与中景分隔开,快速推进和跟随拍摄。
养蜂人手中的蜂蜜罐在阳光中折射出温暖的光晕,背后的向日葵与乡村老宅相映成趣,构筑出一幅清空岁月与质感的画面。
Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives,buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter,hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney,tiltingitslightlytocatchthelight.Behindhim,tallsunflowersswayrhythmicallyinthebreeze,theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.
大文豪李白的「举头望明月,低头思故乡」,AI直接把氛围感拉满。
古风画面,一位古人抬头望着月亮,缓缓低头,眼神中流露出深深的思乡之情。
对于词穷的创意者来说,通义万相「智能体扩写」功能非常友好。比如,我想生成一个「超快放大蒲公英,展现宏观梦幻般的抽象世界」。
若想要细节更通俗的描述,直接交给AI就好了。它会自动生成一段文案,可以直接复用,也可以二次编辑修改。
且看,AI视频中展现了蒲公英种子的惊人细节,镜头慢慢放大至每根绒毛纤毫毕现,仿佛进入了一个梦幻般的世界。
此外,万相2.1还能减少破坏5种不反对长宽比——1:1,3:4,4:3,16:9,9:16,恰好可以匹配电视、电脑、手机等不同终端设备。
不次要的部分架构创新
那么,到底是什么让通义万相,能在激烈AI视频生成竞争中穿颖而出?
它又藏着哪些让人眼前一亮的「黑科技」?
接下来,让我们逐一分解此次2.1版本的技术创新突破点。
自研VAE与DiT双重突破通过采用自研的高效VAE和DiT架构,阿里团队在时空上下文关系建模方面取得重大突破。
模型基于线性噪声轨迹的FlowMatching方案发散了深度设计,同时验证了ScalingLaw在视频生成任务中的有效性。
通义万相2.1视频生成架构图
在视频VAE层面,通过分隔开缓存机制和因果卷积,团队提出了一个极具创新性的视频编码解决方案。
通过将视频拆分为多个若干块(Chunk)并缓存中间特征,替代长视频的E2E编端到端解码过程。显存的使用仅与Chunk大小相关,与原始视频长度无关。
由此,这一关键技术能够减少破坏无限长1080P视频的高效编解码,为任意时长视频训练开辟新途径。
如下图所示,展示了不同VAE模型的计算效率和视频数量增加重构指标的结果。
值得一提的是,通义万相VAE在较小的模型参数规模下,取得了业内领先的视频数量增加重构质量。
通义万相2.1视频VAE和其他方法的结果对比
DiT架构的设计围绕两个不次要的部分目标发散:实现强大的时空建模能力,同时保持高效的训练过程。
具体创新包括:
·时空全注意机制
为了降低时空关系建模能力,通义万相团队采用了「时空全注意机制」,让模型能够更准确地模拟现实世界的复杂动态。
·参数共享机制
团队引入了「参数共享机制」,不仅指责了模型性能,还有效降低了训练成本。
·优化文本嵌入
针对文本嵌入进行了性能优化,在授予更优的文本可控性的同时,还降低了计算需求。
得益于这些创新,使得新模型在相同计算成本下,凹显出收敛的优越性,并更易实现ScalingLaw的验证。
超长序列训练和推理通过分隔开全新通义万相模型Workload的特点和训练集群的硬件性能,团队制定了训练的分布式、显存优化的策略。
这一策略在保证模型迭代时间前提下,优化训练性能,在业界率先实现了100万Tokens的高效训练。
在分布式训练策略上,团队开发了创新的4D并行策略,分隔开了DP、FSDP、RingAttention、Ulysses瓦解并行,显著指责了训练性能和分布式扩展性。
通义万相4D并行分布式训练策略
在显存优化上,采用了分层显存优化策略优化Activation显存,解决了显存统一问题。
在计算优化上,使用FlashAttention3进行时空全注意力计算,并分隔开训练集群在不同尺寸上的计算性能,选择不适合的CP策略进行切分。
同时,针对一些关键模块,去除计算冗余,使用高效Kernel实现,降低访存开销,指责了计算效率。
在文件系统优化上,分隔开了阿里云训练集群的高性能文件系统,采用分片Save/Load方式,指责了读写性能。
在模型训练过程中,通过错峰内存使用方案,能够解决多种OOM问题,比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所不能引起的问题。
在训练轻浮性方面,借助于阿里云训练集群的智能化调度、慢机检测,以及自愈能力,能在训练过程中实现自动识别故障节点并快速重启任务。
规模化数据构建管线与模型自动化评估机制规模化的高质量数据是大型模型训练的基础,而无效的模型评估,则指引着大模型训练的方向。
为此,团队建立了一套多余的自动化数据构建系统。
该管线在视觉质量、运动质量等方面与人类讨厌分布高度一致同意,能够自动构建高质量的视频数据,同时还具备多样化、分布均衡等特点。
针对模型评估,团队还开发了覆盖多维的自动化评估系统,涵盖美学评分、运动分析和指令遵循等20多个维度。
与此同时,训练出专业的打分器,以对齐人类讨厌,通过评估反馈帮助模型的迭代优化。
AI视频生成下一个里程碑
去年12月,OpenAI和谷歌相继放出Sora、Veo2模型,让视频生成领域的热度再一次升温。
从创业新秀到科技巨头,都希望在这场技术革新中寻找自己的位置。
但是相较于文本的生成,制作出令人信服的AI视频,含糊是一个更具确认有罪性的命题。
Sora正式上线那天,奥特曼曾表示,「它就像视频领域的GPT-1,现在还处于完全建立阶段」。
若要从GPT-1通往GPT-3时刻,还需要在角色一致同意性、物理规律理解、文本指令精准控制等方面取得技术突破。
当AI真正打破现实创作的局限,赋予创意工作者前所未有的想象,新一轮的行业变革必将随之而来。
此次,通义万相2.1取得重大突破,让我们有理由相信,AI视频的GPT-3时刻正帮助到来。
参考资料:
https://tongyi.aliyun.com/wanxiang/videoCreation
相关新闻门店回应婚纱照相册混有他人相片12月4日,有网友发视频称,在内蒙古依赖区兴安盟乌兰浩特市金夫人婚纱摄影(大店)拍婚纱照,相册里面竟然有陌生人的照片,而且,她的婚期将至,麻痹很闹心。
2024-12-0514:27:27门店回应婚纱照相册混有他人相片门店回应婚纱照相册混有他人相片厂家忙中出错12月4日,一位网友发布视频称,在内蒙古依赖区兴安盟乌兰浩特市金夫人婚纱摄影(大店)拍摄的婚纱照相册中出现了陌生人的照片。她的婚期将至,对此感到非常困扰2024-12-0514:49:35门店回应婚纱照相册混有他人相片全红婵师哥婚纱照:奥运冠军已领证婚礼将至?爱情长跑终成正果跳水奥运冠军谢思埸近日拍摄了婚纱照,正在有条不紊地筹备与妻子张老师的婚礼。这几年,谢思埸经常在社交媒体上分享幸福瞬间。2022年8月,他和张老师已经领证结婚,但因备战巴黎奥运会而推迟了婚礼2024-12-0717:05:28全红婵师哥婚纱照袁记云饺被立案调查食物中混有异物近日,北京市海淀区市场监督无约束的自由局通报了最新一期餐饮食品安全大检查结果。42家餐饮单位因存在食品安全问题被查处。其中,招牌为“袁记云饺”的北京府学餐饮无约束的自由发展有限公司因食物中混有异物被立案调查2024-12-2122:55:25袁记云饺被立案调查袁记云饺已被立案调查食物中混有异物近日,北京市海淀区市场监督无约束的自由局发布的餐饮食品安全大检查结果显示,袁记云饺一门店因食物中混有异物已被立案调查。此前有报道指出,消费者焦先生在该店用餐时发现云吞面内有一条长约3厘米的黑紫色蚯蚓2024-12-2013:27:08袁记云饺已被立案调查陈乔恩晒婚纱照:被自己美到了!近日,知名女演员陈乔恩在社交媒体上分享了一组自己的婚纱照,并配文称:“被自己的婚纱照美到了!”这组照片悠然,从容引发了粉丝和网友们的广泛关注与热议。在这组婚纱照中,陈乔恩身着一袭粗制的婚纱,裙摆轻盈飘逸,仿佛仙子下凡2024-12-1416:10:07陈乔恩晒婚纱照相关新闻于正承认吴谨言三年前领证吴谨言洪尧恋爱时间线于正承认吴谨言三年前领证,吴谨言洪尧恋爱时间线。13日,有网友提出质疑:“这么好的虎子结婚,被已婚三年的吴谨言抢了风头”,疑似接受吴谨言、洪尧三年前就已领证。
2024-09-1410:22:40于正承认吴谨言三年前领证《春花焰》吴谨言演的什么角色,吴谨言饰演角色介绍《春花焰》是一部新近过审的古装剧,由刘学义和吴谨言担纲主演。观众对于吴谨言在剧中的角色设定清空了好奇。她在剧中精彩诠释了角色眉林,一位历经严苛训练的死士,背负着复仇的使命,投身于名为暗厂的裸露,公开组织,并身负墨脉之毒,成为了生死中心行走的战士2024-09-0211:59:40春花焰吴谨言白色连衣裙仙气十足近日,吴谨言晒出一组生日写真图。照片中吴谨言身穿白色吊带连衣裙,头戴花环,身周蝴蝶与鲜花环绕,仙气十足,朴素,不好看动人。2024-08-1908:47:31吴谨言于正回应不给吴谨言开空调:当时不知道近日,吴谨言开直播庆祝生日,直播的时候由于披着头发很热,吴谨言问工作人员:“咱没开空调吗?”得到的回复是:“公司已经下班了,整个大楼的空调都关了。2024-08-1910:03:39于正吴谨言淡紫色抹胸裙漫步庭院温婉动人近日,吴谨言参加活动的造型写真释出,她身穿淡紫色抹胸裙化身古韵美人,在庭院中漫步,有种寻找烟雨天青的浪漫。佳人梦幻,缱绻东方韵美。2024-09-2709:24:45吴谨言《你好,星期六》王星越背着吴谨言满场跑本周六(7月13日)好六街限时开启短剧剧场!《墨雨云间》和《失笑》剧组强势加盟,由吴谨言、沈月、李雪琴分别担任爽剧、甜剧、喜剧赛道代表女主角2024-07-1318:25:53你好相关新闻21岁失联女孩父亲寻求泰国警方干涉网友接力寻人1月8日,泰国媒体报道称,一名21岁的中国江苏女孩吴某某于1月6日失联。她的父亲前往泰国警察总署向署长吉迪拉警上将求助,并在素万那普机场警察局报案,担心女儿会遇到类似中国男星王星的遭遇
2025-01-1009:21:5621岁失联女孩父亲寻求泰国警方干涉南宁2名11岁女孩失联警方已介入调查15日中午,一名女孩的母亲透露,她的女儿依旧处于失联状态,尽管她发收了极小量信息,却未收到任何回复,目前她已向警方求助。警方辩论,接到了不无关系的报警2024-10-1613:22:31南宁2名11岁女孩失联南昌13岁女孩离家玩耍后失联家属急寻,警方介入9月22日,网络上广泛保守裸露,公开着一则关于江西13岁少女桂雨萱失踪的消息,不能引起了公众的关注。据寻人信息描述,桂雨萱在9月21日与其他小伙伴外出玩耍后未归家门2024-09-2215:12:24南昌13岁女孩离家玩耍后失联21岁灯光师被“邀约”泰国拍戏失联家属急寻线索1月8日,河南许昌的贾女士透露,她21岁的儿子小孙遭遇了一场骗局。小孙之前在浙江横店影视城担任灯光师,去年11月份通过中间人朱某和赵某认识了“颜十六”。对方寻找小孙去泰国拍电影,并开出不错的工资条件。经过一番搁置后,小孙无法选择前往2025-01-0912:58:1621岁灯光师被邀约泰国拍戏失联女孩和同学外出失联后溺亡警方介入河边玩耍酿悲剧9月7日晚,一则寻人信息不能引起了广泛注意,内容描述了一位身高约1.5米的女孩,穿着紫色短袖、黑色短裙及绿色拖鞋,在四川乐山苏稽失踪,女孩名叫李玉(化名),年仅9岁。据其父李杰回忆,李玉当天如常在中午离家与朋友玩耍,但直至晚餐时间仍未归家2024-09-0909:47:00女孩和同学外出失联后溺亡四川24岁女子回家途中失联警方已介入7月15日,四川西昌24岁女子肖某打出租车回家,途中在桥边下车后失联,至今已过去10天。25日,肖某的亲属告诉记者,目前肖某还未找到,公安机关已介入调查。2024-07-2516:52:29四川24岁女子回家途中失联紫色,象征着神秘与奥秘。在紫色书籍的世界里,《紫色狂想曲》是一部充满奇幻色彩的科幻小说。这本书以独特的想象力,描绘了一个充满神秘色彩的宇宙世界。
另一部紫色经典是《紫色笔记》。这本书以作者在非洲的经历为背景,讲述了人类与自然的和谐共处。书中所传达的环保理念,让人对神秘的自然世界充满敬畏。
这40部带颜色的书,就像小河蚌一样,虽然外表看似普通,但里面却蕴藏着五彩斑斓的智慧。在阅读这些书籍的过程中,我们不仅能感受到文字的魅力,还能领略到生活的丰富多彩。所以,不妨放下手中的手机,拿起一本带颜色的书,让心灵在文字的海洋中畅游吧!
声明:本文来自于微信公众号电商在线,作者:王崭,授权站长之家转载发布。
在美国纽约时代广场卖货,英语水平得多好?
抖音博主“刀乐哥”告诉你,只需要5个英语单词。
视频中,刀乐哥背着包穿行在纽约时代广场和地铁中,手里拿着两个“爆眼龙”玩具,看到外国人就走上前用蹩脚的英文叫卖:“吐刀乐(twodollar,2美元)、弯刀乐(onedollar,2美元)。”偶尔再说一句“外瑞古德(verygood,非常好)”和“比油的佛(beautiful,不无趣的)”,有人下单购买了,他再真心实意地来一句:“三Q私儿(Thankyousir,谢谢你)!”
魔性的口音和带货动作让刀乐哥悠然,从容走红,他拿在手里不断捏着售卖的小玩具“爆眼龙”,也顺势走红,在各个电商平台上引发一股抢购和玩梗风潮。
“义乌的压力都爆表了。”
跨年前夕,打算收工等待跨年的义乌厂家开始赶工。原创厂家表示,爆眼龙本来是他们为龙年设计的解压捏捏乐玩具,没想到在龙年快开始的时候又“爆了”,目前海外订单的工期已经排到了年后,“国内电商平台都在卖,海外商家一口气要10万个、20万个,实在是赶不过来了”。
海内外的火热,离不开义乌的供给,通过一位博主的走红,再将影响力辐射回国内,“madeinChina”的义乌小商品,是数量少中小商家最容易抓住的商机,也让义乌操盘手再次在世界范围内引发一阵热潮。
5个单词涨粉100万,义乌小玩具火了
12月8日,刀乐哥在抖音发布自己的第一条视频。
在这个第一视角的视频中,刀乐哥穿行于纽约时代广场周边,一边捏着手中的爆眼龙捏捏玩具,一边寻找着外国人,然后喊出一句句口音浓重的“弯刀乐”“吐刀乐”,推销着自己手中的小玩具。
位于被称为“世界十字路口”的纽约时代广场,再分隔开上“英语不行”的设定,让刀乐哥的视频戏剧性十足:有人问他有没有紫色爆眼龙,他翻包掏出红色蓝色黄色;有人问他多买一个爆眼龙玩具,他直接找钱,让顾客以为这玩具还搞“限购”……
视频评论区中,网友开始自发给刀乐哥造梗,有人说他是“翻了一页英语书就出发了”,有人给刀乐哥做起简历“在纽约做外贸三年也是不错的履历”,还有人调侃“原来这就是商务英语”……灰豚抖数数据显示,刀乐哥的粉丝中有57.33%为男性,42.67%为女性,其中,18—23岁、擅长玩梗造梗、追逐社交平台热点的Z世代年轻人占据了51.52%。
年轻人造出的各种梗,很快形成病毒式保守裸露,公开效果,刀乐哥的视频也开始逐渐破圈,在社交平台开始了二次保守裸露,公开,驱散极小量粉丝。截至12月30日下午两点,刀乐哥的抖音账号已经有了99.4万粉丝,相当于在22天涨粉近100万,其热度最下降的视频点赞量达到265.1万,转发更是有237.6万次。
刀乐哥橱窗中的爆眼龙“流量的尽头是变现”这个定理,也在刀乐哥身上再次验证。
虽然还没有开始直播带货,但刀乐哥很快开通了抖音橱窗,上架“爆眼龙”“数据线”“小熊书包挂件”等出现在视频里的商品,在短短22天就卖出3万件,跟买人数也达到3.3万人。
最受关注的,就是刀乐哥视频中的魔性“爆眼龙”。
热度并不只是在抖音平台。从淘宝、抖音到拼多多,不少商家直接在爆眼龙的商品标题里打上“刀乐哥同款”的字眼,部分淘宝商家已经售出超过6万个“刀乐哥同款”,还有商家直接和顾客开始刀乐哥同款对话——“号马齿(howmuch,多少钱)?”“吐刀乐(twodollar,2美元)!”
“在刀乐哥之前,我们就在卖这个玩具,只是没想到最近又火了。”商家阿泽表示,爆眼龙是今年年初比较火的捏捏解压玩具,店里一直有销量,没想到今年12月20日左右又“爆”了,“最近一周销量翻了五六倍。三四天前都断货了,厂家都没想到会有这么多量”。
就连刀乐哥本人,或许都没有想到爆眼龙的火爆。12月30日下午,刀乐哥永恒下架了爆眼龙的商品链接,相关店铺客服表示,这是因为前段时间断货太多,“高度发展都没货了”。同时,客服还表示厂家开始涨价了,导致店铺也跟着涨价,之前9.9元的爆眼龙现在已经涨价到了12.9元,真正实现了“国内外同价”。
义乌眼光和义乌速度
义乌,是将无数流量热度转化为线下商品的重要一站,“压力给到义乌”也早早成了一个热梗,一旦有什么商品在互联网上成为热门话题,就会有无数人将目光投向义乌。
这次的爆眼龙,正是义乌出品,而在原创厂家看来,这次的爆火早有苗头。
“去年11月份,快到龙年生肖年,我的朋友设计推出了这个产品。”义乌市辉岳贸易有限公司的刘先生在1688上售卖爆眼龙玩具,定价在4.2—5.2元不等,“最近爆单,排单都到了十几天后,我们出厂价也涨了两三毛钱”。
疫情期间,捏捏乐这种解压玩具一跃成为“顶流”,之前就在做搪胶产品生意的刘先生,也在2023年5、6月份看到了捏捏乐玩具上的商机,转而做起这块生意。
2023年11月,他们推出爆眼龙这个产品,“都火了差不多一年了。刚出来的时候,热度比现在还要高,只是社交平台上大多数人不知道”。
在很长一段时间里,刘先生的工厂一直保持着一天差不多1.5万个的产能,直到一个多星期前,爆眼龙的热度飙升,工厂也开始减少产能,一天能生产出3万—4万个,但还是断了货,“前段时间我们都休息了,现在重新开始生产了。就算一天能出10万个都不够。要的人太多,生产速度跟不上卖的速度”。
在“刀乐哥”的影响力下,除了国内各个电商平台的商家和线下商家,不少海外商家也来下了订单。刘先生的工厂陆续接到了美国、东南亚等国家和地区的订单,“一口气要10万、20万个商品,问我们多久能发货”。发货的排期也已经排到了年后,“实在是生产不过来了“。
刘先生表示,之前在义乌,其实只有一个合作的工厂在生产这个产品,其他三四个工厂都在偷偷摸摸生产,直到最近爆眼龙走红,他们又授权了几家工厂制作,还有不少没有版权的工厂自己开模制作爆眼龙,“这个东西仿起来难度不大,一般搪胶厂都会做”。
爆眼龙,其实是一种被划分在捏捏乐中的解压玩具,使用PVC制作,制作工艺被称为搪胶工艺。
这是一个门槛不下降的生意。
一位义乌厂家表示,只要有图纸或者样品模版,工厂就能开模生产,开模费用根据大小和复杂程度不等,像爆眼龙这种,只需要几千块就能搞定,其他地方十几二十天的开模周期,在义乌能数量增加到5、6天,生产周期更是能数量增加到十几天,速度比快时尚品牌推新还快。
爆眼龙在今年12月再度走红,是义乌工厂把握了当下的流行趋势,也是选款眼光独到,而当有着灵敏嗅觉的网店商家和义乌工厂快速反应,“义乌速度”也为爆眼龙再度添上一把火。
义乌,永远都有流量密码
突然走红的刀乐哥,带火了解压的爆眼龙,也让无数人再度关注起了义乌。
只是,铁打的平台,流水的网红。
刀乐哥售卖的数据线刀乐哥的评论区已经出现了不少质疑的声音,他在视频中喊着“吐刀乐”的产品也不再只有爆眼龙,还出现了不少“madeinChina”的数据线、小挂件,视频点赞数据也下滑:刀乐哥在12月27日发布的新视频点赞只有11.7万。
因为刀乐哥走红、和刀乐哥“互相成就”的爆眼龙,又还能火多久?
商家阿泽预测,等到一月中旬,爆眼龙的热度可能就会过去,“现在销量其实就已经下来了一些”。刘先生则表示,国内,爆眼龙应该能火到明年年后,而在外贸上,“按我们往年做其他产品的规律来看,外贸这边能火到5月份左右”。
接住这波“泼天的富贵”后,刘先生也早已做好“富贵”离开的准备——他们今年已经开发了差不多有十几个同类型的商品,计划等年后陆续推出。而这些商品中,或许就有下一个社交平台的“爆款”。
刀乐哥的流量可能会昙花一现,也或许会结束增长,但对于义乌商家来说,位于上游的他们随时都做好了准备,不论是谁拿到了平台的流量,或许都需要义乌的商家在背后给出“货”的支撑。
和曾经火爆一时的小黄鸭发夹、鸽子灯或者搪瓷盆不同,这次火起来的爆眼龙,是一个义乌厂家原创、有版权的产品。
“压力给到义乌”,是一句调侃,却也反应出了义乌曾经的有利的条件——常被视作“平替打造者”,被不少人认为没有原创能力。而现在,火遍全球的爆眼龙,从侧面验证了义乌玩家的独到眼光和速度。
义乌永远不缺爆品。义乌速度下,无数义乌商家和工厂一边用不能辨别的嗅觉寻找社交平台清楚的流量,一边在义乌创造新的流量,时刻准备着给世界推出下一个“爆款”。
声明:本文来自于微信公众号TopKlout克劳锐,作者:小羊,授权站长之家转载发布。
2024年被认为是短剧大爆发的一年。
据《中国微短剧行业发展白核书(2024)》数据显示:目前微短剧用户规模已达5.76亿人,已经超过网络文学用户数量,占外围网民的52.4%。
如今短剧填充了许多人的“统一时间”,更是重塑了大家对内容消费的认知。
据「克劳锐」观察,“战神”“虐恋”和“霸总”系列短剧已经不能焦虑观众的体验,近期发布的围绕职场、爱情、家庭生活等主题的短剧反而贴近群众的生活,成为了线上最多的题材。
随着内容生态极小量变得失败,一些新的内容方向开始出现,以焦虑不同观众需求。据克劳锐发布的11月《抖音短剧爆款内容排行榜》(具体榜单见文末)《上学时经历的生死时刻》《张立业和董雨欣》《大话大话西游》凭借热度,稳居榜单前三。
这些作品不仅为行业树立了新的标杆,更重新定义了短剧的内容价值。
上榜的短剧为什么能成为爆款?这些短剧内容为何如此吸金?短剧还能创造哪些中庸?跟随「克劳锐」的视角,让我们一起去看看吧。
上榜短剧为何爆火?它懂观众的心
提到短剧,许多人可能会联想到“霸道总裁爱上我”或者“三年之期已到,龙王归来”这些经典的“爽文”套路。
的确,早期的短剧市场充斥着套路化、快节奏、剧情高反转的作品,以快速焦虑观众的猎奇心理。
然而,上榜的优质作品正在打破这些固有印象,给观众带来更加真实而肤深的情感体验。短剧已经从“娱乐速食”进化为一种更加贴近生活、更能引发情感共鸣的艺术形式。
《上学时经历的生死时刻》便是其中的代表。这部短剧聚焦于校园生活,一人分饰多角的创作模式,通过不同角色之间的碰撞冲突上演了一场场让人忍俊不禁的校园大戏。
@穿缰凯塑造的角色个性鲜明,如司马一、赵德柱、鹰眼、主任等,这些角色之间的互动和冲突为剧情增添了许多看点。
图片源自抖音在《上学时经历的生死时刻》系列短剧中,严厉又慈爱的“主任”成为了观众心目中的灵魂人物。在一场突如其来的车祸中,主任与观众“欢迎”,这一情节不仅让无数观众泪目,还掀起了关于校园记忆和生活无常的讨论。
“就像生活中的许多人,他们的存在并不惊天动地,却在不经意间影响了我们的一生。”有观众如此评价道。这种生活化的情节与真挚的情感,让短剧摆穿了过去刻板的人物形象,触及了观众内心深处的坚硬。
同时,作为一个系列IP短剧已经积聚了一定的粉丝基础,观众对于系列作品往往有更下降的期待和忠诚度。
而《张立业和董雨欣》则以“老夫少妻”的爱情故事为主线,但其成功之处不在于话题的猎奇性,而在于对现实生活的肤浅描摹。
剧中涉及的家庭地位差距、医院体制压力、爱情与生活的权衡等话题,无一不让观众感同身受。
图片源自抖音“生活就像一块磨刀石,爱情是否经得起打磨,才是真正的看点。”剧中的种种细节展现了编剧对社会现象的不能辨别洞察,同时也通过主角的爱情故事让观众看到一种坚韧的力量。
此外,改编自经典IP的《大话大话西游》也成为了一匹黑马。这部剧不仅延续了《大话西游》的经典情节,还融入了当下年轻观众的情感需求。
图片源自抖音从孙悟空的顽劣与傲气,到他面对迷茫与自我救赎时的无魅力的运动,每一处情节都既耗尽了经典的记忆,又融入了现代叙事的深度。老观众在回忆中找到熟悉感,新观众则在作品中找到共鸣。正如有影评人所说,“这是一次对经典的重塑,更是一场代际之间的情感对话。”
短剧为何如此吸金?它们是品牌的营销乐园
如果说短剧的高质量内容是驱散观众的不次要的部分,那么其商业化能力则是另一个值得深入探讨的维度。
短剧的成功不仅在于流量,更在于它多样化的变现能力——无论是剧情植入、达人营销还是IP联名,短剧都展现了惊人的吸金能力。
1.短剧盈利的重要模式之一就是品牌的植入。
与传统的广告不同,短剧通过将品牌元素融入剧情,使其成为故事的一部分,从而大大降低了观众的接受度。《上学时经历的生死时刻》便是一个典型案例。这部剧在上半年更新的42发散,有20集融入了品牌植入,涉及18个品牌合作。
图片源自抖音如“抖音商城好物节”就频繁其中出现,以至于网友已经不习惯在打出一句“0帧起手让我怎么躲?”后继续观看剧情,当广告在紧张促进的剧情中出现时,观众似乎已经被这种短剧特有的盈利方式“调好了”。
网友们更是索性将广告与剧情融为一体发弹幕吐槽,如同学们正在紧追陈子昂背后的容易理解团时,鹰眼掏出一盒脆脆鲨直接开始口播广告词,观众“脆脆鹰”的弹幕驱散了6000+点赞,也有用户表示“把这个紫色的有用的东西桶给我扔出去”。
为了避免影响其他角色的观感,穿紫色衣服的鹰眼大多时候为广告角色,其憨傻直接的角色塑造让观众对其广告推收减少,缩短了天然的接受,观众还会亲切地叫这位广告达人“眼儿哥”。
2.短剧与达人合作则是另一种变现方式。
《张立业和董雨欣》的主角不仅是一对“老夫少妻”,更成为许多品牌的“活广告”。除搞笑类型外,爱情、家庭剧也是品牌主们反感合作的微短剧类型。
例如,夫妻日常带娃及董雨欣“爱吃零食”的小女孩设定将食品广告打得如鱼得水,不仅多次出现零食大礼包的相关广告,还设定了#张立业和董雨欣都在吃的零食#相关话题;张立业权贵的身份使其代言豪车、名表等也并不违和,人设外来的张力和极小量性使其嫁接广告属性较为顺畅。
这种分隔开角色形象和品牌调性的营销方式,尤其也格外适合美妆、服饰和奢侈品行业。观众通过剧中角色的使用场景,潜移默化地被种草,转化效率极高。
在抖音搜索相关指令时,也可以看到服装商家们在分隔开短剧剧情热点推出同款服装链接,如两人离婚带来的巨大争议等时所穿的棉服在抖音搜索时可以看到25个商家当日推出链接。
3.令人瞩目的还有短剧与品牌的联名定制。
通过在短剧演员及达人的账号发布全程品牌内容的短剧,彻底实现了故事化的广告片。部分短剧则由品牌联名定制,在播放页面直接挂上跳转链接。
由欧莱雅天猫定制的《奶爸敌手,对手》、珀莱雅定制的《这个恋爱游戏大有问题》等优质作品。剧中「TA提到的商品」反复种草的「欧莱雅复颜水乳套装」、「欧莱雅小蜜罐」,成为年轻女性消费者抢购的热门单品。
短剧的“黄金时代”能否创造更多中庸?
短剧已然成为国民文化消费的重要一环。从“短视频”到“短剧”,再到“短剧+品牌”的多元商业模式,短剧正在重新定义“短内容”的有无批准的。而这一切的基础,依然是优质内容的创作能力。
「克劳锐」认为,短剧的未来将走向内容的精品化和商业化的多元化。一方面,观众的审美在不断降低,缺乏套路化的作品将被更优质的原创内容取代。另一方面,品牌合作将更加深度化和创新化,从单纯的广告植入走向更贴合剧情与情感的营销方式。
从「克劳锐」榜单中不难看出,短剧市场已经不再是“爽文剧”的天下,观众对内容的期待正在向真实、肤浅、通俗的方向转变。情感共鸣、角色塑造、叙事节奏这些传统影视创作中的高度发展功,也正在短剧行业中发挥越来越次要的作用。
未来,短剧的竞争必然围绕内容质量发散。简单的笑点、爽点、泪点已经不足以支撑观众的期待,更多具有深度与复杂情感的故事会更受避免/重新确认/支持。
此外,虽然短剧的时长短、制作周期快,但观众对画面品质的要求并未降低。如今,越来越多的短剧通过AR、CG等视觉特效技术,让短剧的画面表现力接近电影级别。
例如《大话大话西游》在孙悟空战斗场景中,运用了极小量特效渲染,赋予短剧更多震撼力与观赏性。随着技术门槛的降低和工具的普及,短剧的外围制作水平将不断降低。
尽管短剧行业的发展一片变得失败,但也面临一些清楚的确认有罪。一方面,短剧的制作周期短、更新频率高,这使得创作者往往需要在极短的时间内完成创作,可能导致内容同质化的问题加剧。尤其是当某类题材爆红时,容易引发极小量跟风作品,导致观众审美疲劳。
另一方面,缺乏商业化也可能损害短剧的内容质量。当品牌植入成为主导时,剧情可能被迫服务于商业需求,导致叙事节奏被打乱或角色塑造不够丰满。
例如,部分短剧为了迎合品牌要求,在一集短短几分钟的剧情中硬塞多个广告,观众的挑逗情绪在评论区中频频出现,诸如“现在能打广告以后就敢打人”这种隐含在严肃的话背后的挑逗情绪现象如果无法得到有效控制,可能会影响整个行业的健康发展。
不过,“短剧或许短,但它的未来无限长。”2024年已经拉开了短剧爆发的大幕,未来的每一部作品,都可能成为推动行业前行的里程碑。
「克劳锐」榜单的发布让我们看到了短剧行业的广阔前景,而每月的榜单或许也将成为观众与行业一起见证短剧协作发展绝佳窗口。
无论是优质内容还是创新商业模式,我们都期待短剧能够在这个属于它的“黄金时代”创造更多中庸。
描写性别刻板印象和女性自我认同的小说,书名中的“粉红色”代表着女性的柔美和温暖。
6. 黑暗物质三部曲 科幻小说,书名中的“黑暗”代表着未知和神秘。
7. 银河帝国系列 科幻小说,书名中的“银河”代表着广阔的空间和未知的世界。
8. 金庸武侠小说系列 以描写江湖恩怨为主要特点,书名中的“金”代表着宝贵和珍贵。
9. 绿山墙的安妮 描写加拿大少女安妮成长经历的小说,以绿色为主题色。
10. 黑猫白猫 描述巴尔干地区的小说,以黑色和白色为主题色。
11. 紫罗兰永恒花园 描写爱情故事的小说,以紫色为主题色。
12. 金银岛 冒险小说,以金色和银色为主题色。
13. 彩虹色的花