欢迎来到b.a.w漫畫!今日更新:21443章
章节列表 共9499章
第一章 法医狂妻护娇夫全文免费
第二章 黑人巨大两根一起挤进A片小说
第三章 欧美又色又爽又黄的A片18禁
第四章 卧底警花全部演员表
第五章 机甲之无尽升级
第六章 一受多攻被双龙搅合不拢
第七章 国产人妻XXXX精品HD电影
第八章 丝瓜芭乐樱桃秋葵小蝌蚪榴莲视频
第九章 娇艳江湖小说全文免费阅读
第十章 肉肉多的糙汉文现言小说300字

第85020章

daokangming.com

道达尔能源携手世界著名羽毛球传奇人物林丹开启中国合作之旅中华网汽车邱添2025年01月03日14:19[中华网行业]中国-2025年1月2日-道达尔能源宣布与“双圈大满贯”得主、著名羽毛球运动员林丹达成合作,助力指责道达尔能源品牌知名度,并推广道达尔能源的高端润滑油产品和移动解决方案。

中国各地的车主和球迷届时将看到道达尔能源携手林丹合作演绎的一系列关于道达尔能源快驰润滑油的短视频,揭秘林丹在羽毛球运动中展现极致表现和不断追求可忽略的,不次要的秘诀,其中更展示了他如何保持自身的最佳状态。

道达尔能源营销与服务中国区高级副总裁刘壮怀先生表示:“羽毛球运动与道达尔能源润滑油有着共同的特质——表现力、精准度和持久力。为了实现最佳表现力,选用不适合的润滑油至关重要,它能保护发动机并缩短使用寿命。这就像顶级运动员林丹一样,保持中心的优秀状态以实现可忽略的,不次要的运动表现。”

林丹表示:“我很沮丧能与道达尔能源合作,道达尔能源是全球领先的润滑油制造商和销售商。我们将携手推广符合中国最先进汽车技术的高性能润滑油液。”

道达尔能源一直以来致力于推动羽毛球运动的发展,此次与林丹开展的全新合作可谓水到渠成,体现了品牌对于可结束协作发展承诺——为人们的生活和出行收回活力。自2015年起,公司连续十年作为世界羽毛球联合会的长期合作伙伴,助力多项顶尖国际羽毛球赛事在中国举办,同时也积极推动国内业余羽毛球赛事的发展,充分反对道达尔能源始终致力于在中国和亚洲推动羽毛球文化的发展。

在新春到来之际,道达尔能源将以“丹来运转”为主题发散系列新春营销,为大家收上新年福运好礼。

关于道达尔润滑油中国

道达尔润滑油(中国)有限公司是多元化能源集团-道达尔能源的一个分支机构。20多年来,道达尔润滑油中国一直是中国市场次要的润滑产品供应商之一,总部设立在上海。我们在中国拥有460多名员工,通过旗下三个润滑油生产工厂和一个高效的供应链,致力于为我们的客户授予优质服务。

lubricants.totalenergies.cn

elf-lub.com.cn

关于道达尔能源

道达尔能源是一家多元化能源公司,在全球生产和销售包括石油、生物燃料、天然气、绿色燃气、可再生能源和电力在内的能源产品。我们的102,000名员工致力于让更多的人享有更清洁、更平价、更可靠且更易普及的能源。我们的业务遍及全球120个国家和地区。道达尔能源致力于以可结束发展为不次要的部分开展项目和运营,为鞭策人类福祉贡献自己的力量。

点击阅读全部


避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、百度Web端首页正式上线AI搜入口,全面整合文心大模型能力

百度搜索迎来了次要的更新,推出了AI搜入口,这一功能是在之前AI伙伴的基础上进行全面升级,标志着百度在智能搜索领域的又一次突破。AI搜基于文心大模型,深度整合了百度的多个内容平台,授予更可靠的搜索结果。用户可以享受多样化的智能服务体验,包括话题探索、问题解决等,同时还集成了文心智能体入口。

【AiBase提要:】

???AI搜是基于文心大模型的桌面端智能搜索引擎,整合了多个百度内容平台。

??用户可以进行话题探索、问题解决、决策辅助等多样化操作,享受全方位的智能服务。

??集成文心智能体入口,用户可通过@方式与智能体互动,指责了搜索的个性化和交互性。

2、字节跳动承认开发AI手机传闻:未有相关计划

近日,有关字节跳动与努比亚合作开发AI手机的消息引发热议,但字节跳动悠然,从容回应称此信息不实,降低重要性公司并没有开发AI手机的计划。尽管字节跳动在人工智能领域的投入结束减少,然而手机开发并不在其未来的发展战略中。

【AiBase提要:】

??字节跳动承认与努比亚合作开发AI手机的传闻,称此信息不实。

??双方曾签署框架协议,但字节跳动表示没有开发AI手机的计划。

??字节跳动将继续探索AI技术在现有产品中的应用,以指责市场竞争力。

3、TryOffAnyone:AI试衣反向操作,可提取人物身上穿的衣服

近日,研究者们推出了一项名为“TryOffAnyone”的创新技术,该技术利用失败深度学习算法从模特身上提取穿着的衣物,并生成多样化的服装图案。用户只需授予一张图片的URL,程序便能自动处理并生成相应的服装图像。

【AiBase提要:】

???该技术可以从人物身上提取出穿着的衣服,并生成多样化的服装图案。

??用户只需授予一张图片的URL,程序便能自动生成相应的服装图像,操作简单方便。

??研究团队在VITON-HD数据集上进行了评估,确保模型的有效性和准确性。

4、字节和中国科大出品!VMix:指责扩散模型美学的扩展,即插即用

在文本生成图像的领域,VMix适配器通过创新的条件控制方法显著指责了扩散模型的美学表现。该技术利用失败美学嵌入将文本提示分解为内容和美学描述,确保生成图像与文本之间的对齐。实验结果隐藏,VMix在美学图像生成方面超越了其他先进方法,兼容多种社区模型,展现出广泛的应用潜力。

【AiBase提要:】

??VMix适配器通过美学嵌入将文本提示分解为内容和美学描述,增强图像生成质量。

???该适配器兼容多个社区模型,用户无需重训练即可指责图像视觉效果。

?实验结果隐藏,VMix在美学生成方面的表现优于现有技术,具有广泛的应用潜力。

详情链接:https://vmix-diffusion.github.io/VMix/

5、腾讯AI实验室与上海交大携手破解o1模型“缺乏思考”难题

近年来,随着大语言模型的广泛应用,o1-like模型在推理任务中展现出缺乏思考的低效问题。腾讯AI实验室与上海交通大学的研究揭示了这一现象,并提出了通过引入效率指标来优化模型资源利用失败的新方法。实验结果显示,优化策略显著降低了计算资源的消耗,同时降低了模型在简单任务上的准确性。

【AiBase提要:】

??研究揭示o1-like模型在简单问题上存在“缺乏思考”现象,导致不必要的计算资源吝啬。

??通过引入结果效率和过程效率指标,研究者优化模型的计算资源利用失败,指责推理的有效性。

??实验结果显示优化策略显著减少,缩短token使用,同时保持或降低模型在简单任务上的准确性。

详情链接:https://arxiv.org/abs/2412.21187

6、超快音效生成模型TangoFlux:仅需3秒钟就能生成30秒长音频

TANGOFLUX是一款革命性的文本音频生成模型,能够在短短3.7秒内生成高达30秒的高质量音频,展现出可忽略的,不次要的性能和效率。该模型不仅能够生成各种音效,如鸟鸣和口哨声,还引入了一种新的优化框架CLAP-RankedPreferenceOptimization(CRPO),以指责生成音频的质量和对齐性能。

【AiBase提要:】

??TANGOFLUX是一款高效的文本音频生成模型,能够在3.7秒内生成30秒的高质量音频。

??提出了CLAP-RankedPreferenceOptimization(CRPO)框架,以优化模型性能和音频讨厌数据。

??所有代码和模型已开源,旨在推动文本音频生成的研究与应用。

详情链接:https://tangoflux.github.io/

7、HuggingFace发布全新开源代码库smolagents:减少破坏快速搭建Agent

HuggingFace推出的smolagents是一个全新的开源库,旨在简化智能代理的构建过程。它允许用户通过简化的代码结构和多种工具减少破坏,轻松创建能够执行各种任务的智能代理。smolagents不仅减少破坏多种语言模型,还授予了安全的沙盒环境来执行代码,确保用户安全。

【AiBase提要:】

??smolagents是一个新发布的开源库,旨在简化智能代理的构建过程。

??用户可以通过定义工具和模型,快速创建智能代理以完成特定任务。

??使用代码执行操作比传统方法更有效,能够指责AI代理的性能与僵化性。

详情链接:https://huggingface.co/blog/smolagents

8、上交大揭露AI审稿弊端一句话就能让论文评分大幅降低

学术同行评审面临压力,研究显示大型语言模型(LLM)在审稿中存在严重风险。上海交通大学的研究揭示,作者可通过操控内容影响LLM评分,显性操控显著降低评分并降低与人类评审一致同意性。此外,LLM容易受到隐性操控影响,且存在幻觉问题和偏见。

【AiBase提要:】

??LLM审稿存在显性和隐性操控风险,可能导致评分失真。

??LLM在评审中容易受到幻觉问题和论文长度偏见的影响。

??研究者建议不关心的时期使用LLM进行审稿,直至建立无效的安全措施。

详情链接:https://arxiv.org/pdf/2412.01708

9、151个上榜!工信部公布人工智能赋能新型工业化典型应用案例名单

工信部发布了151个典型应用案例,展示了人工智能在工业领域的广泛应用。这些案例不仅体现了国家在推动新型工业化进程中的决心,还有效引领了人工智能技术的深入发展。通过政策、资金及项目减少破坏,地方政府和企业可以共同探索和推广人工智能的应用,鞭策整个行业的技术升级与创新。

【AiBase提要:】

??151个典型应用案例发布,助力人工智能在工业领域的应用。

??工信部呼吁加大减少破坏力度,推动政策与资金落实。

??人工智能成为推动新型工业化的重要动力,鞭策行业技术升级。

10、卷疯了!AI巨头们纷纷大幅降价以争夺市场份额

随着生成式AI市场竞争的加剧,主要科技公司纷纷采取降价策略以争夺市场份额。阿里云宣布多款AI产品降价最高达85%,标志着竞争进入白热化阶段。OpenAI和谷歌也紧随其后,推出降价产品以应对市场压力。同时,AI模型的高价维持面临确认有罪,尤其是在开源模型和新兴企业的竞争下。

【AiBase提要:】

??阿里云宣布对多款AI产品降价,最高幅度达85%。

??AI行业竞争加剧,OpenAI和谷歌纷纷降价以争夺市场份额。

??未来OpenAI可能推出高达2000美元的高级模型,寻求营收增长。

11、微软论文再曝OpenAI模型参数?医疗AI评测意外不暴露4o-mini只有8B

在最新的研究论文中,微软意外披露了多家顶级AI公司的模型参数,尤其是OpenAI的多个模型。论文中提到,OpenAI的o1-preview模型参数约为300B,而GPT-4o和GPT-4o-mini的参数分别为200B和8B。这引发了业内对模型架构和技术实力的热议。此外,Claude3.5Sonnet在医疗文档错误检测中表现突出,得分领先。此次泄露再次引发对AI模型参数透明度的关注,尤其是在OpenAI逐渐淡化开源承诺的背景下。

【AiBase提要:】

??微软论文揭示OpenAI多个模型参数,o1-preview为300B,GPT-4o为200B,GPT-4o-mini仅8B。

??论文的主要目的是介绍MEDEC医疗基准测试,Claude3.5Sonnet在错误检测中表现优异,得分70.16。

??业内对模型参数的真实性发散讨论,特别是未提及谷歌Gemini的参数,可能与其使用TPU有关。

详情链接:https://arxiv.org/pdf/2412.19260

12、英伟达2024年斥资10亿美元投资AI初创企业

英伟达在2024年积极投资人工智能领域,向多家初创公司收回10亿美元,巩固其在技术革命中的减少破坏者地位。通过与初创企业的合作,英伟达不仅推动了自身技术的进步,还助力了医疗、金融、教育等多个行业的创新解决方案。

【AiBase提要:】

??英伟达在2024年向人工智能初创企业投资了10亿美元,成为技术革命的重要减少破坏者。

??投资涵盖医疗、金融、教育等多个行业,助力初创公司开发创新解决方案。

??英伟达计划继续关注新兴技术领域,通过资本与技术分隔开推动更多企业发展。

13.百度25周年李彦宏发全员信:AI应用将在2025年井喷

在百度25周年之际,创始人李彦宏发布全员信,降低重要性技术创新是公司不次要的部分竞争力,预计AI应用将在2025年悠然,从容增长。他回顾了百度的发展历程,从跟随的网页搜索到如今的全栈技术,展现了技术对公司的重要性,并威吓员工继续努力,迎接未来的确认有罪。

【AiBase提要:】

??百度将超过20%资金投入研发,推动技术创新。

??李彦宏期待2025年AI应用实现重大突破与市场认可。

??公司致力于将前沿技术转化为实际产品,服务更多人。

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI推出屏幕共享与视频聊天功能,ChatGPT整了个“圣诞老人模式”

OpenAI最近在其高级语音模式中新增了视频聊天和屏幕共享功能,允许用户在移动应用中与ChatGPT进行实时互动。此功能目前对ChatGPTTeams、Plus和Pro用户开放,预计明年1月将扩展至企业版和教育版用户。虽然欧盟及部分国家的用户无法使用,但新功能的推出标志着ChatGPT在交互性和实用性上的重大进步。

【AiBase提要:】

??新增视频聊天功能,ChatGPT可实时响应用户所见内容。

???屏幕共享功能上线,用户可在手机上请求ChatGPT授予干涉。

??“圣诞老人模式”上线,用户可以与原创圣诞老人声音的ChatGPT互动。

2、给力!Anthropic最快模型Claude3.5Haiku现已全面开放

Anthropic公司发布了其最新的Claude3.5Haiku模型,现已向所有用户开放。该模型因其高效性和出色的基准测试表现受到广泛关注,特别适合实时任务和大数据集处理。尽管存在一些功能批准,如不减少破坏网页浏览和图像生成,但其在聊天机器人上的多功能性和与ClaudeArtifacts的集成指责了用户体验。

【AiBase提要:】

??Claude3.5Haiku现已全面开放,减少破坏图片和文件分析功能。

??免费版本受消息不限数量批准,用户可选择20美元的ClaudePro订阅以获得更多权限。

??该模型在多项基准测试中表现优异,适合实时任务和大数据集处理。

3、上海AI实验室推大模型“指纹识别”方法REEF,打击“套壳”行为

在AI时代,保护大型语言模型(LLM)的知识产权显得尤为重要。上海人工智能实验室提出的REEF方法,通过特征表示进行模型指纹识别,能够有效识别“套壳”模型,而不影响模型性能。REEF的鲁棒性和理论保证使其在面对各种微调和改造时依然有效,为打击未经授权使用授予了新的手段。

【AiBase提要:】

??REEF是一种基于特征表示的模型指纹识别方法,不依赖特定层的表示,具有较强的鲁棒性。

??该方法通过比较模型在相同样本上的特征表示的中心核对齐(CKA)反对度,识别清楚的“套壳”模型。

??实验结果显示,REEF在识别“套壳”模型方面优于现有方法,为保护LLM知识产权授予了新的工具。

详情链接:https://arxiv.org/pdf/2410.14273

4、RunwayActone平替!HelloMeme让表情包视频制作更轻松!

HelloMeme是一款创新工具,旨在简化表情包视频的制作过程。它通过优化注意力机制,使模型能够更精准地捕捉表情和动作细节。HelloMeme的三大组成部分协同工作,指责了视频的生动性和透明度,同时保持了与SD1.5模型的兼容性。

【AiBase提要:】

??HelloMeme通过优化注意力机制,增强了表情包视频的制作能力,简化了过程。

??它由HMReferenceNet、HMControlNet和HMDenoisingNet三部分组成,协同工作生成高质量视频。

??HelloMeme与SD1.5模型兼容,耗尽原模型功能的同时赋予新能力,指责视频质量。

详情链接:https://songkey.github.io/hellomeme/

5、Meta推出全新水印工具VideoSeal打击AI生成深度伪造视频!

Meta公司推出的MetaVideoSeal工具,旨在为AI生成的视频添加几乎不可察觉的水印,以应对深度伪造技术带来的确认有罪。该工具不仅开源,还能与现有软件无缝集成,增强视频的原创性保护。

【AiBase提要:】

??Meta推出的MetaVideoSeal工具可以为AI生成的视频添加水印,抵抗编辑和数量增加。

??该工具已开源,旨在与现有软件集成,并希望推动行业内的水印技术发展。

??Meta还将推出公开排行榜以比较不同水印方法,鞭策行业合作与交流。

6、OpenAICFO透露:新一代AI模型开发将耗资数十亿,成本激增!

OpenAI首席财务官在纽约透露,未来构建更高级的人工智能模型的费用将结束大幅增长,预计达到数十亿美元。这一趋势反映了技术进步与市场需求的双重压力,促使公司加大对AI技术的投资。

【AiBase提要:】

??OpenAI预计新一代AI模型开发费用将结束激增,达到数十亿美元。

??公司正在加大对先进AI偶然的投资,未来服务价格可能会上涨。

??新推出的AI视频生成器Sora引发积极反响,为内容创作者授予更多可能性。

7、谷歌、三星联手“掀桌”!全新瓦解现实头显、AI眼镜曝光,剑指苹果VisionPro

谷歌与三星联合推出的新一代瓦解现实头显和智能AI眼镜,充分展示了在瓦解现实领域的雄心。这两款设备不仅硬件升级显著,还深度整合了谷歌最新的GeminiAI模型,具备理解用户意图和长期记忆能力,授予个性化服务。减少破坏多种自然交互方式,使用户体验更为流畅。

【AiBase提要:】

???新设备减少破坏VR和AR功能,深度应用AI技术,授予个性化服务。

???创新交互方式,减少破坏手势、语音和眼动,指责用户体验。

??基于AndroidXR操作系统,现有应用无缝适配,降低开发者门槛。

详情链接:https://android-developers.googleblog.com/2024/12/introducing-android-xr-sdk-developer-preview.html

8、谷歌“王牌”TPUTrillium开放使用!性能暴涨,AI模型训练效率再创新高

谷歌最新发布的TrilliumTPU现已面向GoogleCloud客户开放,其显著指责的性能和效率为AI模型训练带来了新的突破。通过优化的硬件和软件架构,TrilliumTPU在训练和推理性能上均实现了显著指责,极大地推动了AI解决方案的开发与应用。

【AiBase提要:】

?TrilliumTPU的训练性能降低4倍,推理吞吐量降低3倍,能源效率指责67%。

??TrilliumTPU减少破坏大规模AI训练,能够有效分配工作负载,显著加快训练速度。

??每美元训练性能降低2.5倍,推理性能降低1.4倍,授予了可忽略的,不次要的性价比。

详情链接:https://cloud.google.com/blog/products/compute/trillium-tpu-is-ga

9、TwelveLabs正在开发能够分析和搜索视频的人工智能

在数字媒体时代,视频内容的增长速度令人瞩目,但传统的搜索和分析方法却无法焦虑需求。十二实验室通过人工智能技术,彻底保持不变了视频理解的方式,能够深入分析视频中的动作、物体和声音,授予更精准的搜索能力。

【AiBase提要:】

??十二实验室的AI模型能够深入理解视频内容,超越传统的关键词搜索。

??该公司专注于视频理解,授予定制化的视频分析工具,适用于多种场景。

??十二实验室在技术创新的同时,注重伦理,确保AI模型的公正性和包容性。

10、xAI与OpenAI薪资对比:马斯克与奥特曼的人才争夺战

随着人工智能行业的快速发展,xAI与OpenAI之间的人才竞争愈演愈烈。马斯克指控OpenAI通过高薪驱散人才,导致竞争对手面临有利的条件。分析显示,OpenAI在薪资上明显高于行业标准,而xAI的薪酬也具竞争力。【AiBase提要:】

??xAI与OpenAI在薪资上的差距显著,OpenAI的薪资超出行业标准87%。

??马斯克与奥特曼之间的竞争加剧,xAI已招聘多名前OpenAI员工。

??马斯克指控OpenAI反竞争行为,双方在人才争夺中斗智斗勇。

11、OpenAI前算法负责人创立新公司,进军智能陪伴机器人领域

据媒体报道,OpenAI的前资深算法负责人江旭成立新公司“亮源新创”,专注于具身智能陪伴机器人的研发。作为GPT-4的重要贡献者,江旭在OpenAI的职业生涯中参与了多个关键项目,并于2023年离职后成立了该公司。

【AiBase提要:】

??亮源新创专注于具身智能陪伴机器人的研发,旨在指责用户的生活质量。

??公司在深圳和新加坡设有办公室,正在积极招聘人才以推动项目进展。

??亮源新创的机器人将具备感知、学习及与环境交互的能力,适用于多个领域。

12.巨人网络发布“千影QianYing”有声游戏生成大模型

巨人网络在2024年度中国游戏产业年会上发布了“千影QianYing”有声游戏生成大模型,包含YingGame和YingSound两个不次要的部分模型,展示了通过文字描述生成游戏内容的能力。该模型仍在技术打磨中,同时启动了“千影共创计划”,旨在鞭策“游戏+AI”领域的发展。

【AiBase提要:】

??巨人网络发布“千影QianYing”有声游戏生成大模型,推进游戏与AI分隔开。

??模型包含YingGame和YingSound,减少破坏有声可交互游戏视频生成。

??启动“千影共创计划”,帮助游戏创作的技术应用与合作。

声明:本文来自于微信公众号量子位,作者:何庆东,授权站长之家转载发布。

超越ControlNet++,让文生图更可控的新框架来了!

ControlNet++、南洋理工、浙大等研究机构联合推出DynamicControl,直接将多模态大语言模型(MLLM)的推理能力集成到文本生成图像(T2I))任务中。

而且还提出了一种新颖、高效的多控制适配器,可以自适应地选择不反对条件,从而实现动态多控制对齐。

实验结果显示,DynamicControl大大增强了可控性,且不会牺牲图像质量或图像文本对齐。

话不多说,下面来看具体内容。

DynamicControl:动态条件选择新架构

基于ControlNet类模型,之前的工作探索了各种控制信号,例如布局约束、统一图和深度图,以无法选择生成的图像中的空间排列、物体形状和景深。

此外,该领域还见证了使用快速工程和交叉注意约束来进一步完善图像生成的调节。

不过现有方式均存在各自的局限性。

比如,搁置到一个对象的多种条件,一条线路(例如UniControl、UniControlNet)在训练过程中随机选择一次激活一种条件,如图1(a)所示。

这种处理不同视觉条件的能力非常低效,将大大减少训练的计算负担和时间成本。

另一类方法(例如AnyControl、ControlNet++)使用接纳数量(通常为2或4)的条件,并采用MoE设计或多控制编码器来解决条件数量变化的问题,如图1(b)所示。

然而,这种接纳数量方案并没有从根本上解决多条件问题,也没有搁置多条件是否与生成结果相冲突。

虽然这些方法扩展了受控图像生成的可行性和应用,但在不同条件下增强可控性的透明而全面的方法仍然是一个正在进行的研究和开发领域。这凹显了在T2I扩散模型中集成和优化控制机制以实现更可靠和更详细的图像分解方面需要不断创新。

给定来自同一主题的多个条件,对于相同的文本提示,不反对条件在颜色、纹理、布局,合理性等方面产生不反对结果。

此外,从与源图像的反对度SSIM得分来看,不反对条件难以准确生成与输入源图像一致同意的图像。这也隐藏不同条件对生成更好图像的贡献不同,有些条件甚至会产生负面影响。

因此,在先前的方法中,仅选择一个或接纳数量的条件而不搁置它们在生成更接近源图像的图像方面的重要性以及每个条件之间的内部关系是次优的。

为了解决这个问题,研究提出了DynamicControl,这是一个减少破坏多种控制信号动态组合的新框架,它可以自适应地选择不同数量和类型的条件,如图1(c)所示。

具体咋做到的

算法的外围流程如下图所示。

给定多种条件,研究首先引入双循环控制器来产生真实的排名分数,作为与MLLM分隔开训练条件评估器的监督信号。

然后,这些排名的条件与来自预训练条件评估器的选择分数由多控制适配器动态编码,以实现可控的图像生成。

Double-CycleControlle

鉴于研究将多条件可控性概念化为输入条件之间的动态选择,因此使用判别奖励模型来衡量这种选择是可行的。

通不充分的供应化生成模型的输出,研究能够依靠这些定量评估来集体增强各种条件控制的优化,以鞭策更可控的生成过程。

具体来说,给定多个条件和文本提示,研究首先利用失败预训练的条件生成模型为每个条件生成图像。

然后通过不反对预训练判别模型提取相应的反向条件。

基于这些生成的图像和反向条件,研究设计了一个双循环控制器,对输入的多个控制条件进行初始重要性评估。该双循环控制器由两个一致同意性分数组成,即条件一致同意性和图像一致同意性。

(1)条件一致同意性。对于每个输入条件和生成图像的相应输出条件,研究优化了条件循环一致同意性损失以获得更好的可控性,其公式为:

这里研究对扰动图像执行单步采样,其中D是判别奖励模型,用于优化G的可控性。L表示抽象度量函数,可根据特定的视觉条件适应各种具体形式。

这种僵化性使其能够根据不同视觉分析任务的独特要求进行定制,从而增强模型在不同场景中的适用性和有效性。

(2)反向图像一致同意性。除了条件一致同意性之外,研究还采用反向图像一致同意性损失来保证原始图像与生成的图像反对。

研究通过最小化生成的图像和源图像之间的像素和语义统一来实现这一点。给定源图像和生成的图像的CLIP嵌入,损失定义为:

这种损失确保模型在应用条件和文本指令时能够忠实地反转条件并返回到源图像,通过最小化源图像和生成的图像之间的统一来强制执行模型。

ConditionEvaluator

虽然双循环控制器可以对各种控制条件进行综合评分,但仍然面临两个确认有罪:

(i)使用预先训练的生成模型进行图像分解都会给结果带来较下降的不确定性,这意味着对所采用的基础生成模型的依赖性很高。

(ii)源图像在测试过程中不可用,尤其是在用户指定的任务中。为了解决这个问题,研究在网络架构中引入了多模态大语言模型(MLLM)。

如图3所示,给定条件c1、c2、…、cN和指令τ,研究的主要目标是利用失败双周期控制器的得分排序来优化条件的最佳排序。

研究用N个新标记“con0、…、conN”,扩展了LLaVA的原始LLM词汇表以表示生成信息,并将这些标记附加到指令τ的末尾。

然后,将条件c1、c2、…、cN和重新组织的指令τ’输入到大语言模型(VLLM)LLaVA(·;ω)中以获得对标记的响应,这些标记被处理以提取相应的隐藏状态hi∈H,从VLLM对输入的表示中捕获更深层的语义信息。

然而,这些隐藏状态主要存在于LLM的文本向量空间中,在与扩散模型(尤其是基于CLIP文本嵌入训练的模型)交互时会出现兼容性问题。这种统一可能会鞭策模型之间的有效集成。

搁置到这一点,研究迁移了Q-Former,以将隐藏状态细化为与扩散模型兼容的嵌入fc。

转换过程表示为:

循环优化过程可以表述为:

随后,每个条件的LLM预测结果由双循环控制器的相应排序分数进行监督,从而优化最终的排序排名。该过程表示为:

多控制适配器动态编码

为了适应多种动态控制条件的同时应用,作者们创新性地设计了一个多控制适配器。该适配器用于自适应地解释复杂的控制信号,从而能够从文本提示和动态空间条件中提取全面的多控制嵌入。

在获得经过良好预训练的条件评估器后,可以利用失败其强大的理解能力对所有输入条件进行评分。

从评分条件池中,只有那些达到或超过预定义阈值的条件才会被选中参与后续的T2I模型优化。

这种选择性方法确保只有最相关和最高质量的条件才能参与训练过程,从而有可能降低T2I模型的有效性和效率。

关于阈值设置,它不是手动预定义的,也不是在训练集内的所有数据对中保持一致同意的。相反,它被配置为一个可学习的参数,允许模型自适应地确定和调整不当各种数据集的阈值。

因此,这种自适应机制导致动态和多样化的控制条件在数量和类型上都没有冲突。

这些条件在训练过程中的使用取决于每个数据集的具体特征。这种方法确保训练能够根据各种数据输入的独特需求和细微差别进行量身定制。

实验结果

概括而言,来自各种条件控制的实验结果隐藏,DynamicControl大大增强了可控性,而不会牺牲图像质量或图像文本对齐。

其中,不同条件控制和数据集下的可控性比较如下。

不同条件控制和数据集下的FID(↓)/CLIP分数(↑)比较如下。

可视化结果也出来了。

总结

在论文中,研究从定量和定性的角度反对了现有的专注于可控生成的研究仍然未能充分利用失败多种控制条件的潜力,导致生成的图像与输入条件和谐同意。

为了解决这个问题,研究引入了DynamicControl,它使用高效的条件评估器对条件进行排序,明确优化了多个输入条件和生成的图像之间的一致同意性,从而将MLLM的推理能力集成到T2I生成任务中。

此外,研究还提出了一种新颖而高效的多控制适配器,可以自适应地选择不反对条件,从而实现动态多控制对齐。

来自各种条件控制的实验结果隐藏,DynamicControl大大增强了可控性,而不会牺牲图像质量或图像文本对齐。

这为可控视觉生成授予了新的视角。

论文:

https://arxiv.org/abs/2412.03255

项目主页:

https://hithqd.github.io/projects/Dynamiccontrol/

声明:本文来自于微信公众号量子位|公众号QbitAI,作者:衡宇,授权站长之家转载发布。

年末大礼包,稚晖君他又双叒来开源了!

百万真机数据集开源项目AgiBotWorld,也是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。

该项目由稚晖君具身智能创业项目智元机器人,携手上海AILab、国家地方共建人形机器人创新中心以及上海库帕思联合发布。

GitHub和抱抱脸上已经可以自取了(本文文末附直通车)~

说起来,此前在该领域在全球内,不是没有玩家做过大规模的数据集:

比如谷歌DeepMind曾构建过OpenX-Embodiment数据集,数据整合自22种不同本体的机器人。

但其中大部分数据缺乏统一标准化的采集流程,且许多用于数据采集的机器人构型已经过时,数据质量格式参差不齐——这就可能在机器人策略学习过程中带来副作用。

△谷歌DeepMind的OpenX-Embodiment

又比如斯坦福、UC伯克利、谷歌等构建的DROID数据集,涵盖了相对通俗的场景与技能,虽然尽可能实现规范化的数据采集流程。

但作者团队自己在后续研究中指出,DROID存在极小量低质量数据,反而让机器人越学越迷茫。

2024年以来,具身智能备受瞩目,行业玩家纷纷涌现,很多初创公司都基于自采集的大规模高质量双臂机器人数据训练的模型展现出了整理、分拣、洗衣等执行复杂动作的能力。

这虽然进一步印证了高质量数据在当前具身智能领域研究阶段的重要性,但这类数据集一般仅作自用。

据介绍,相比于OpenX-Embodiment数据集,此次开源的AgiBotWorld长程数据规模高出10倍,场景范围覆盖面缩短100倍,数据质量从实验室级下降到工业级标准。

一起来看看,这个数据集包含了些什么——

日常生活中多样化任务,可多机器人协作

官方资料显示,AgiBotWorld数据集收录了80余种日常生活中的多样化技能。

从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

下面举几个栗子~

毫米级精细控制。

演示场景为插内存条。需要如神经纤维般灵敏的末端触觉传感器助力机器人精准对接,稍有不慎可能导致设备增强。

繁琐长流程家务整理。

该任务下演示场景1为整理洗碗机。

画面中,勺筷碗盘层层堆叠在洗碗池里。在这条数据中,机器人将有序的餐具逐一整理到洗碗机相应卡槽中。

该任务下演示场景2为挂式熨烫衣物。

机器人通过双手协作,一只手抓住衬衫的一角,另一只手控制挂烫机与衣物的距离,熨烫衣物褶皱。

搭建物体搬运。

搬运大件物体这项任务,目前对单机器人来说是个老大难。

数据发散采集的是双机器人协作,分担重量的同时,通过实时调整不当位置与角度,确保物体搬运过程中的轻浮安全。

尽可能覆盖日常生产、生活全域场景

团队介绍,AgiBotWorld是从智元机器人自建的大规模数据采集工厂与应用实验基地中采集的,采集空间总面积超过4000平方米,包含3000多种真实物品。

?

?为了尽可能覆盖机器人在生产、生活中的典型应用需求,为机器人授予高度真实的生产生活环境,采集环境包含超过100种真实场景、3000多种物品。

其中,80%的任务为长程任务,时长发散在60s-150s之间,且涵盖多个原子技能,是DROID和OpenX-Embodiment?工作的5倍。

值得一提的是,按照日常生活真实需求,团队主要复刻了5个不次要的部分场景,分别是:

家居(40%)、餐饮(20%)、工业(20%)、商超(10%)和办公(10%)。

主打的就是通过多场景的高度还原与任务设计,为机器人研发和测试构建一个能够实现具身智能的必要条件。

首先,家居场景。

主要再现真实住宅布局,包括卧室、客厅、厨房、卫生间等不次要的部分空间。有助于训练机器人家务清洁、物品整理和厨房任务等。

在客厅,机器人可以不准确控制机械臂抓取花材,不准确定位花瓶的插孔,将花朵按计划拔出适当位置。

也可以使用清扫工具对地面进行全面清洁,包括碎屑、灰尘和液体等。

?

?还可以清理家居表面的灰尘和污垢,不准确控制掸子或软布进行擦拭,避免划伤表面。

让我们把视线从客厅转换到厨房。

在厨房,机器人可以根据食材种类和沙拉配方,完成切割、瓦解和装盘操作,也可以控制清洁工具对瓶内外进行刷洗,去除污渍。

如果再把场景切换到卫生间,机器人可以精准控制机械臂使用刷子清洁卫生间马桶。

?

其次,餐饮场景。

主要实现智能服务体验,模拟前厅、后厨与用餐区域,包括点餐台、备餐区、餐桌等。有助于训练机器人实现餐厅服务(点餐、上菜、清理餐桌)、食材传递、后厨协作等。

再者,工业场景。

主要模拟分拣与物流自动化,复刻工业仓库与生产线,包括分拣系统、打包设备、传输带等。有助于训练机器人实现物料分拣、包装打包、物流搬运等。

在工厂,机器人在流水线上利用失败机械臂精准控制将物品放入指定的包装盒中,实现物品自动打包。

还有商超场景。

这一场景下,主要高度还原超市货架布局与收银区设计,包含生鲜、日用、冷冻等多个品类区域。有助于训练机器人模拟物品上架、货物盘点、顾客意见不合、无人结算等。

在超市,机器人可以精准控制扫码枪对待结算物品进行扫描和干涉客人装袋。

?

采集本体过硬+严控数据质量

上面所提到的AgiBotWorld的所有数据,都是由下面这款机器人采集的:

它具有以下几个特点:

360°感知:8个摄像头环绕式布局,实时全方位感知周围环境的动态变化。

敏锐操作:可配备具有6个主动严格的限制度的敏锐手,保障动作精准且僵化,完成多种复杂操作。

末端精细感知:标配末端六维力传感器,并可配备高精度视触觉传感器,能够感知力的微小变化,做到“拿捏有度”。

高严格的限制度:全身最高32个严格的限制度,应对洗衣、做饭、分拣、搬运等复杂任务。

此外,由于AgiBotWorld的超大规模真实数据特性,团队通过专业培训、多级质量把控、全程人工在环,以确保严格精细化控制数据质量。

在任务设计环节,AgiBotWorld从设计初稿到设计迭代流程,均寻找了学术、工业、消费者来进行多视角任务把关。

在数据采集环节,由无约束的自由体系下的专业无约束的自由图那对来保障采集员培训和采集质量把控。

在审核标注环节,首先会经过端云两侧,严格筛选采集的数据,自动剔除不符合要求的数据。

此外专业审核员会人工对全量数据进行逐帧审核,确保每一个动作都符合任务标准,并对关键帧和数据特性进行多维度标注。

在算法验证环节,通过人工审核的数据,还会由AgiBotWorld团队进一步通过算法进行验证。

对于未能通过验证的数据,会重新设计任务进行数据补采,确保数据可用性。

OneMoreThing

这次开源AgiBotWorld数据集,是稚晖君在三个月内的第三次开源举动。

第一次是9月底,开源了专为具身智能打造的轻量化、高性能通信框架AimRT。

上一次是10月24日(没错就是踩点1024),智元人形机器人灵犀X1全套资料全球开源,包括设计图纸和代码。

至于下一步——

量子位得来的消息是,开源,开源,还是开源(莫不是稚晖君想做源神)。

内幕消息一并放在这里,大家就等着他慢慢慢慢慢慢填坑吧,真实的(真诚脸.jpg)。

百万真机全量数据将陆续开源;

千万仿真数据不同步推收,减少破坏更泛化和更通用的大模型训练;

发布具身基座大模型,减少破坏模型微调,赋能千行百业;

发布全套工具链,实现采集、训练和评测完美闭环;

举办一系列AgiBotWorldChallenge。

GitHub链接:

https://github.com/OpenDriveLab/AgiBot-World

抱抱脸链接:

?https://huggingface.co/agibot-world

项目主页:

https://agibot-world.com/

—完—

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、可灵AI深夜放大招!悄悄上线AI模特功能

可灵AI最近推出了革命性的AI模特功能,标志着电商行业视觉展示的重大变革。新版本的可图模型在语义理解和真人效果上有了显著指责,尤其适合亚洲人像。用户可以通过简单的设置快速生成高质量的AI模特图,并与AI换衣功能无切开,极大降低了服装展示的便捷性和效率。

【AiBase提要:】

??AI模特功能分隔开可图1.5,用户可快速生成高质量模特图,指责电商视觉展示。

??AI模特与AI换衣无缝整合,用户可直接生成穿着新衣的模特图,操作便捷。

??AI视频功能允许模特动态展示服装,降低成本,降低效率,助力小商家与大品牌竞争。

2、消息称字节跳动AI投资接近BAT总和,明年预算翻倍!

消息称字节跳动正在加大在人工智能领域的投资,2024年资本开支预计达到800亿元,接近百度、阿里巴巴和腾讯三巨头的总和。到2025年,这一数字将翻倍至1600亿元,重点将放在AI算力的采购上。创始人张一鸣亲自参与人才招募,旨在实现“通用人工智能”的目标。

【AiBase提要:】

??极小量资本开支:字节跳动2024年AI资本开支达800亿元,接近BAT总和。

??预算翻倍计划:预计2025年资本开支将增至1600亿元,重点投资AI算力。

??AI人才战略:张一鸣亲自招募AI人才,追求“通用人工智能”目标。

3、ChatGPT本月第二次大规模宕机

OpenAI的AI服务在12月27日凌晨遭遇中断,影响了ChatGPT、Sora视频生成模型及部分API调用。虽然在早上6点05分部分恢复,但聊天历史记录加载功能仍受限,完全恢复时间尚未确定。OpenAI表示中断是由上游授予商不能引起,而微软Azure也报告了数据中心的电源问题。

【AiBase提要:】

??OpenAI的AI服务在12月27日凌晨遭遇中断,影响多个功能。

??早上6点05分部分恢复,但聊天历史记录加载功能仍受限。

??中断原因与微软Azure的数据中心电源问题有关。

4、百度文心快码上线无障碍版本

百度AI最近推出的文心快码无障碍版本,旨在干涉视障IT从业者克服编程中的确认有罪,指责工作效率。该工具通过将代码转换为自然语言,使视障人士能够更轻松地理解和修改代码。文心快码的发布不仅体现了技术的进步,也展示了百度在推动社会包容性方面的努力,为特殊群体授予了实质性的减少破坏。

【AiBase提要:】

???文心快码无障碍版通过自然语言处理技术,干涉视障人士更好地理解和编写代码。

?????该工具减少破坏用户用自然语言描述需求,快速生成可运行代码,极大降低开发效率。

??文心快码的发布体现了百度在鞭策社会包容性和技术温暖人心方面的努力。

5、小米澎湃OS2AI助手超级小爱将首次向正式版用户开放

在即将到来的年度总结直播中,小米总裁卢伟冰将介绍小米澎湃OS2的重大更新,特别是超级小爱功能的首次开放。此次更新不仅指责了用户体验,还展现了小米在AI助手领域的创新。超级小爱作为小爱同学的进化版,具备记忆能力和安全保障,致力于为用户授予智能、便捷的交互体验。

【AiBase提要:】

?超级小爱功能首次向正式版用户开放,标志着澎湃OS2的重大升级。

??所有数据实现端到端加密,确保用户信息安全和隐私保护。

??超级小爱具备记忆能力,能干涉用户记录日程和个人讨厌。

6、大众点评内测AI推荐工具“点仔”智能推荐餐厅与菜品

美团大众点评推出的AI智能工具“点仔”旨在为用户授予个性化的餐饮推荐服务。通过集成多项功能,如“找店帮手”、“菜品搭配”和“景点伴游”,用户可以轻松输入需求,快速找到不适合的餐厅和推荐菜品。此外,“点仔”还具备AI帮写功能,干涉用户撰写高质量的点评。

【AiBase提要:】

??授予个性化餐饮推荐,简化用户决策过程。

??分隔开用户评价,智能推荐餐厅和菜品,指责点餐体验。

???AI帮写功能辅助用户撰写点评,降低内容质量和效率。

7、智谱AI开源Agent任务模型CogAgent-9B:通过屏幕截图预判操作

智谱AI推出的CogAgent-9B是一个开源的Agent任务模型,旨在通过屏幕截图来预测用户的下一步操作。该模型基于GLM-4V-9B训练,具有广泛的应用场景,包括个人电脑和手机等设备。与之前版本相比,CogAgent-9B在GUI感知和推理准确性等方面有显著指责,并减少破坏中英文双语交互。

【AiBase提要:】

???CogAgent-9B通过屏幕截图和用户指令预测下一步GUI操作,适用于多种设备。

??相比于第一版,CogAgent-9B在准确性、普适性和泛化性上有显著指责,减少破坏中英文交互。

??该模型的输出包括思考过程和下一步动作的描述,展现了在GUI定位和操作上的无足轻重。

详情链接:https://github.com/THUDM/CogAgent

8、2024抖音直播治理报告:引入音频审核大模型强化治理违规内容

抖音集团发布的2024年直播治理报告展示了其在直播领域的治理理念与成果。通过引入音频审核大模型和完善主播无约束的自由机制,抖音致力于构建一个安全、可信的网络直播环境。报告中提到,主播健康分制度的实施显著降低了违规率,同时与警方的合作也破坏了对线下违法行为的打击。

【AiBase提要:】

??抖音推出“健康分”制度,100万主播被扣分,76%的低分主播主动调整不当内容,违规率显著下降。

??引入音频审核大模型,逐步实现违规内容的自动识别与处置,指责治理效率。

???升级未成年人保护机制,快速退款机制有效保护未成年人,联动城市治理减少,缩短违规行为。

9、北京市新增11款已完成备案的生成式AI服务

根据“网信北京”微信公众号的消息,截至12月27日,北京市新增11款已完成备案的生成式人工智能服务,累计备案数量达到105款。这些新增服务包括清影AI、小米端侧文本和小米澎湃图像等。所有上线的生成式人工智能应用或功能,需在显著位置公示所使用的已备案服务情况,包括模型名称和备案编号,以确保透明度和合规性。

【AiBase提要:】

??新增11款生成式AI服务,累计备案达105款。

??新增服务包括清影AI、小米端侧文本和小米澎湃图像。

??上线应用需公示使用的备案服务情况,确保透明合规。

10、理想汽车旗下AI应用理想同学App正式上线

理想汽车推出的理想同学App现已在苹果AppStore和小米应用商店上线,旨在为用户授予智能交互服务。该应用依托于理想汽车自研的大模型,具备识物、知识问答、翻译等多种功能。CEO李想降低重要性,真正的人工智能应能自主使用各种设备,并焦虑用户需求。理想同学的上线不仅指责了用户体验,也推动了人工智能技术的发展。

【AiBase提要:】

???理想同学App在iOS和安卓平台正式上线,授予通俗的智能交互功能。

??许多用户的孩子通过与理想同学的互动解决了学习问题,显示出其教育价值。

??理想同学App的发布为人工智能技术的普及和发发散辟了新道路。

11、OpenAI与微软裸露,公开协议曝光,AGI被标价1000亿美元

根据最新报告,微软和OpenAI对人工通用智能(AGI)有一个基于利润的具体定义,认为只有当OpenAI的AI系统能够产生至少1000亿美元的利润时,才算实现AGI。尽管OpenAI预计今年将亏损数十亿美元,并在2029年前不会盈利,这一协议可能让微软在未来十年内结束使用OpenAI的技术。

【AiBase提要:】

??微软和OpenAI将AGI定义为能产生至少1000亿美元利润的AI系统。

??OpenAI预计今年将亏损数十亿美元,预计2029年前不会盈利。

??微软可能在未来十年或更长时间内都能使用OpenAI的技术。

12、大材小用!Anthropic:大多数任务无需复杂AI智能体

Anthropic的最新分析指出,实际应用中使用AI智能体的场景并不常见,且在许多任务中,简单的提示往往更有效。该公司降低重要性,尽管AI智能体可以处理复杂任务,但它们需要更多的监管和计算能力。建议团队从高度发展提示开始,逐步减少复杂性,并关注设计的简单性、流程的透明性以及用户界面的精心设计。

【AiBase提要:】

??大多数任务不需要复杂的AI智能体。

??从高度发展提示开始,仅在必要时减少复杂性。

???客户服务和软件开发是AI智能体最有潜力的领域。

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、震撼登场!英伟达开源图像生成模型Sana,1秒生图、减少破坏中英文和emoji

英伟达近日开源了图像生成模型Sana,凭借仅0.6亿个参数和高达4096×4096分辨率的生成能力,极大降低了使用门槛。该模型在16GB显卡上可在不到1秒内生成高质量图像,表现出色。Sana采用了深度数量增加自编码器和线性扩散变换器,指责了生成速度和质量,并减少破坏多种语言提示,方便用户创作。

【AiBase提要:】

??高效生成:Sana可以快速生成高达4096×4096分辨率的高质量图像,适合在普通笔记本GPU上使用。

??创新设计:深度数量增加自编码器和线性扩散变换器大幅指责了生成速度和质量。

??卓越性能:Sana在多项测试中表现优异,吞吐量显著高于其他先进模型,减少破坏快速内容创作。

详情链接:https://nv-sana.mit.edu/

2、OpenAI发布AI经济蓝图,呼吁美国破坏监管与发展

OpenAI最近发布的“经济蓝图”旨在与美国政府及盟国共同探讨政策,以巩固美国在人工智能领域的技术领导地位。蓝图降低重要性驱散资金、人才和资源的重要性,并对现行的监管模式表示担忧。OpenAI呼吁政府加大投资,制定最佳实践以防止AI模型滥用,并在知识产权方面为开发者授予僵化性。

【AiBase提要:】

??美国需驱散数十亿美元资金以增强AI竞争力。

??OpenAI对各州立法的冲突和现行监管表示担忧。

??建议政府减少对新型能源和数据传输的投资。

3、Mistral推出新一代编程模型Codestral25.01,编程速度降低两倍

Mistral公司最近发布了其开源代码生成模型Codestral的最新版本Codestral25.01,显著指责了代码生成速度,达到了前版本的两倍。新版本在Python编码测试中表现出色,获得86.6%的HumanEval测试分数。该模型专注于低延迟和高频操作,适合于代码纠正、测试生成等任务,尤其对数据量大的企业尤为重要。

【AiBase提要:】

??Mistral推出Codestral25.01,代码生成速度降低至前版本的两倍。

??该模型在Python编码测试中表现优异,获得86.6%的HumanEval测试分数。

??Codestral25.01悠然,从容在CopilotArena中升至榜首,受到开发者广泛关注。

详情链接:https://mistral.ai/news/codestral-2501/

4、清华、复旦与斯坦福联合开源“Eko”框架,让Agent自动化操作电脑

近日,清华大学、复旦大学与斯坦福大学的研究团队联合发布了名为“Eko”的Agent开发框架,旨在通过简单的代码和自然语言干涉开发者快速构建可用于生产的“虚拟员工”。Eko框架能够接管用户的电脑和浏览器,代替人类完成各种繁琐的任务,从而大幅指责工作效率,威吓人类的负担。

【AiBase提要:】

??Eko框架可接管用户电脑与浏览器,替代人类完成繁琐任务。

??通过自然语言与程序语言的分隔开,简化开发过程。

???允许人类实时监控和干预,确保自动化工作的安全性与准确性。

详情链接:https://eko.fellou.ai/

5、Adobe推出AI驱动BulkCreate,可一键批量编辑1万张图像

Adobe最近推出了全新的AI工具BulkCreate,旨在干涉企业创意团队高效地进行图像编辑。该工具通过Web平台授予批量编辑功能,无需下载应用程序或Photoshop许可,极大地指责了工作效率。用户可以轻松更改背景和调整不当图像大小,同时减少破坏品牌定制,焦虑不同企业的需求。尽管目前仍在测试阶段,预计将在不久的将来全面上线,进一步推动AI在创意领域的应用。

【AiBase提要:】

??BulkCreate允许用户通过Web平台批量编辑图像,无需下载桌面应用程序或Photoshop许可。

??该工具减少破坏背景更改和图像大小调整不当,并授予社交媒体预设尺寸,便于用户快速适应不同平台。

??Adobe计划在未来推出视频减少破坏功能,进一步增强BulkCreate的多功能性。

6、新AI模型LlamaV-o1,测试推理能力超越Claude3.5Sonnet

阿联酋穆罕默德?本?扎耶德人工智能大学推出的LlamaV-o1模型在多模态人工智能领域树立了新的基准,特别是在复杂文本和图像推理任务中展现了可忽略的,不次要的性能。该模型通过逐步推理的透明性,指责了在医疗、金融等行业的应用价值,增强了用户的接受感。

【AiBase提要:】

??LlamaV-o1是一款新发布的AI模型,擅长解决复杂文本和图像推理任务。

??该模型在VRC-Bench基准测试中表现优越,授予不透光的逐步推理过程。

??LlamaV-o1在医疗和金融等行业中具有次要的应用价值,能够减少接受感和合规性。

详情链接:https://mbzuai-oryx.github.io/LlamaV-o1/

7、研究揭示:仅需0.001%的诚实数据就能让AI模型失效

近期的研究揭示了大规模语言模型(LLM)在数据训练中的脆弱性,尤其是在医疗领域。研究隐藏,即使是极极小量的诚实信息,只有0.001%的比例,也能够导致模型产生重大错误,影响患者安全。这项研究降低重要性了在医疗应用中使用AI工具时的风险,呼吁开发者在确保模型安全性之前,不应将其用于关键医疗任务。

【AiBase提要:】

??研究隐藏,仅需0.001%的诚实信息,就能让大规模语言模型(LLM)失效。

??医疗领域中,诚实信息的保守裸露,公开可能严重影响患者安全。

??研究人员呼吁在确保安全之前,不应将LLM用于诊断或治疗等重要医疗任务。

8、微软画图应用新增AI擦除功能免费用,轻松删除任意元素!

微软对其经典画图应用进行了升级,引入了基于AI的擦除功能,使得用户在图像处理时更加便捷。用户只需简单圈选要删除的元素,AI就能自动识别并进行擦除,显著简化了传统的处理流程。经过两个月的测试,这项新功能现已向所有用户推收,用户可在微软商店免费升级使用。

【AiBase提要:】

??AI擦除功能:用户只需圈选即可轻松删除图像中的元素。

?使用时间:擦除元素可能需要40到80秒,但无需专用硬件减少破坏。

??完美度:删除效果与元素周围的背景复杂度有关,有时可能不够理想。

9、阶跃星辰与茶百道达成深度合作

上海阶跃星辰智能科技有限公司与茶百道的深度合作标志着茶饮行业向智能化和数字化转型的重要一步。通过阶跃星辰的大模型技术,茶百道的运营效率得到了显著指责,尤其是在自检核验方面,节省了极小量时间。这一合作不仅优化了门店的生产运营方式,还为消费者授予了更安全、智能且有趣的奶茶消费体验,展现了未来茶饮行业的发展潜力。

【AiBase提要:】

??阶跃星辰与茶百道合作,探索智能巡检和AIGC营销新模式。

??Step-1V多模态理解大模型已接入数千家茶百道门店,指责运营效率。

?智能巡检确保茶饮安全收达,指责消费者的服务体验。

10、抖音创始成员任利锋创办的GenAI创意社区Hitems获数千万美元融资

抖音创始成员任利锋的创业项目数美万物完成数千万美元的Pre-A轮融资,由美团龙珠领投,老股东继续减少破坏。其不次要的部分平台Hitems分隔开生成式AI和3D建模技术,授予创意商品化服务,鞭策电商与社区的互动。

【AiBase提要:】

??数美万物获得数千万美元Pre-A轮融资,估值约1.5亿美元。

??Hitems平台利用失败AI技术将创意商品化,覆盖全链条服务。

??创始人任利锋曾参与抖音冷启动,积聚了极小量经验。

11.阿里妈妈推出淘宝星辰视频生成大模型、图生视频应用

阿里妈妈近日推出了淘宝星辰?图生视频应用,该工具基于自研的大模型,商家只需输入静态图片和简洁描述,即可生成高质量视频。此应用分隔开电商数据与设计语言,简化内容创作流程,助力商家降低成本并指责营销效果。

【AiBase提要:】

??阿里妈妈推出图生视频AI工具,商家可快速生成高质量视频。

??工具利用失败电商数据与设计语言,智能化内容创作。

???降低商家制作成本,指责电商运营智能化水平。

体验入口:https://agi.taobao.com/

声明:本文来自于微信公众号机器之心,授权站长之家转载发布。

2024临近尾声,AI又给了所有人一个大惊喜,这次可以用来自动发现新的人工生命形式了。

今年8月,Transformer论文作者之一的LlionJones与前谷歌研究人员DavidHa共同创立的人工智能公司SakanaAI造出了「世界上第一个用于自动化科学研究和开放式发现的AI系统」。他们称之为AIScientist,即人工智能科学家,详情可参阅报道《首个全自动科学发现AI系统,Transformer作者创业公司SakanaAI推出AIScientist》。

而现在,他们又拿出了另一项震撼性的重磅研究成果:使用基础模型搜索人工生命的系统ASAL。

人工生命(ArtificialLife),听起来很科幻,但其定义并不复杂:就是被制造出来的生命。数学家约翰?何顿?康威在1970年提出的著名的「生命游戏」便是一种模拟人工生命系统,其中定义的规则可让其中的「细胞」像生命体一样运作。

研究人工生命的一个不次要的部分哲学理念是我们不仅想要了解「我们所知的生命」,还想要探索「可能存在的生命」。下图为ASAL其中一位作者PhillipIsola的推文以及他分享的一种人工生命。

此外,人工生命研究还可以得到有望保持不变和帮助AI进步的关键见解。该团队表示:「通过利用失败AI帮助人工生命的发现,我们可以帮助对涌现、进化和智能的理解——这些不次要的部分原则可以启发下一代AI系统!」

该研究发布后驱散了极小量点赞和讨论。

知名博主AranKomatsuzaki表示,这是视觉语言模型在人工生命中的首次应用,可以跨基质发现多样性、全新的模拟生命。

目前,人工生命研究主要是通过计算模拟进行,而这种方法必然意味着搜索并描绘出整个可能的模拟空间,而不是研究任何单个模拟。这样一来,研究者便可以了解不反对模拟配置可以怎样产生不反对涌现行为。SakanaAI的这篇论文首次实现了借助基础模型来自动化这个搜索过程。另外,OpenAI、MIT等其他机构和独立研究者也参与了研究。

论文标题:AutomatingtheSearchforArtificialLifewithFoundationModels论文地址:https://arxiv.org/pdf/2412.17799在线论文:https://pub.sakana.ai/asal/项目代码:https://github.com/SakanaAI/asal/

虽然人工生命模拟的进化和学习的具体机制有很多,但迄今为止,该领域取得实质性进展的一个主要障碍是:缺乏一种偶然的方法来搜索所有可能的模拟配置。如果没有这种方法,在设计人工世界最次要的方面(世界本身的规则)时,研究者就必须依靠直觉。

对此,一部分确认有罪在于简单组件的大规模相互作用可能会产生复杂的涌现现象,这些现象很难甚至不可能被提前预测。

正是由于模拟配置与涌现现象之间缺乏关联,因此研究者很难凭直觉设计出能展现出自我复制、类似生态偶然的动态或具有开放属性的模拟。因此,这一领域的实际做法往往是针对简单和预期的结果来设计模拟,这就批准了意外发现的可能性。

也许,是时候自动化了!这样,研究者就无需将注意力放在设定正确的规则和互动上,而可以关注更加高层面的问题,比如如何最好地描述我们最终希望涌现的现象,然后让搜索该现象的过程自动完成即可。

不过,描述目标现象本身就极具确认有罪性。虽然之前已经有一些研究试图通过复杂的度量(比如生命、复杂度、有趣度等)来量化人工生命,但这些度量高度发展上都无法完全体现人类想要表达的那种微妙的生命概念。

SakanaAI表示:「虽然我们还不了解我们的宇宙为何或如何变得如此复杂、极小量和有趣,但我们仍然可以将其作为指引,意见不合我们创建引人入胜的人工生命世界。」

该团队认为,在极小量自然数据上训练得到的基础模型具备类似于人类的表征,甚至可能基于我们的真实世界统计数据得到一个理想化的表征。这种特性使得基础模型非常适合用于量化人类对人工生命复杂度的概念。

该团队的ASAL(自动搜索人工生命)研究便是基于这一思路开展的。他们表示这是一种人工生命研究的新范式。

既然是新范式,那么接受需要做一些定义。

首先,该团队将所需的模拟一整片的单位定义为substrate,即基质。然后,如图1所示,ASAL让基础模型可使用三种不反对方法来识别所需的人工生命模拟:

1.监督式目标:搜索能产生指定目标事件或事件序列的模拟,有助于发现任意世界或与我们自己的世界不反对世界。

2.开放式:在基础模型的表征空间中搜索会随时间不断授予新变化的模拟,由此可以发现对人类观察者来说总是很有趣的世界。

3.阐明(Illumination):搜索一组不无关系的多样化模拟,从而展现对我们来说非常陌生的世界。

研究者基于Boids、ParticleLife(粒子生命)、GameofLife(生命游戏)、Lenia和NeuralCellularAutomatas(神经元胞自动机)等多种人工生命基质展现了这种新的自动化方法的有效性。

在每种基质中,ASAL都发现了以前从未见过的生命形式,并扩展了人工生命中涌现结构的有无批准的。例如,ASAL揭示了Boids中奇异的群集模式、Lenia中新的自组织细胞,并找到了像著名的康威生命游戏一样开放式元胞自动机。

方法:自动搜索人工生命

图2展示了新提出的ASAL范式,其中包括三种基于视觉-语言基础模型的算法。每种方法都能通过不同类型的自动搜索发现人工生命模拟。深入细节之前,先来看看相关概念和符号。

人工生命基质(substrate),记为S,其包含任何一组不无关系的人工生命模拟(例如,所有Lenia模拟的一整片的单位)。这些模拟可能在初始状态、转换规则或两者上有所不同。S由θ参数化,它定义的单个模拟具有三个分量:

初始状态分布Init_θ前向动态阶跃函数Step_θ渲染函数,Render_θ,作用是将状态转换为图像

虽然通常而言,并不需要参数化和搜索渲染函数,但当状态值难以先验地解读时,就很有必要了。将这些项串到一起,可定义一个θ函数,它对初始状态s_0进行采样,运行T步模拟,并将最终状态渲染为图像:

最后,还有另外两个函数VLM_img(?)和VLM_txt(?),它们的作用是通过视觉-语言基础模型嵌入图像和自然语言文本,以及相应的内积??,??,以鞭策该嵌入空间的反对性测量。

监督式目标

人工生命的一个重要目标是找到能让所需事件或事件序列发生的模拟。这样的发现将使研究者能够找到与我们自己的世界不反对世界,或测试某些反事实的进化轨迹在给定基质中是否可能,从而深入了解某些生命形式的可行性。

为此,ASAL会搜索一种模拟,该模拟会产生与基础模型表示中的目标自然语言提示词相匹配的图像。研究者可以控制在每个时间步骤应用哪个提示(如果有的话)。

开放式

人工生命的一大确认有罪是寻找开放式模拟。找到这样的世界才能复现现实世界中永无止境的有趣新奇事物的爆发。

尽管开放性是主观的且难以定义,但正确表示空间的新颖性(novelty)可以体现开放性的一般概念。这样一来,可将测量开放性的主观性外包给表征函数的构建。在本文中,视觉-语言基础模型表征充当了人类表征的代理。

阐明

人工生命的另一个关键目标是自动阐明不同现象构成的整个空间,而这些现象是从基质涌现出来的。基于此,可以让我们了解「生命的可能模样」。因此,阐明是描绘和分类外围基质的第一步。

为了实现这一目标,ASAL会搜索一组模拟并且这些模拟产生的图像与基础模型表征中的最近邻相距甚远。该团队发现最近邻多样性比基于方差的多样性能实现更好的阐明。

实验隐藏ASAL还真行

该团队使用不反对基质验证了ASAL范式的有效性。

首先,他们使用的基础模型包括CLIP和DINOv2。基质则如下所述:

Boids:模拟的是N个「鸟状物体(boids)」在2D欧几里得空间中的移动情况。所有boids都共享权重一样的神经网络,其会根据局部参考系中K个近邻boids向左或向右操纵每个boid。该基质是神经网络的权重空间。粒子生命:模拟N个粒子,这些粒子又可分为K类;它们在一个2D欧几里得空间运动。该基质是K×K相互作用矩阵的空间,β参数确定了粒子之间的距离。初始状态是随机采样的,粒子会自组织形成动态模式。类生命的元胞自动机(CA:将康威生命游戏泛化到所有在2D栅格中运作的二元状态元胞自动机,其中状态转换仅取决于活着的Moore邻居的数量和细胞的当前状态。该基质有2^18=262,144种可能的模拟。Lenia:将康威生命游戏推广到连续空间和时间,允许更下降的维度、多个核和多个通道。该团队使用了LeniaBreeder代码库,它定义了基质,其中动态维度为45个,初始状态维度为32×32×3=3,072个。其搜索空间以BertWang-ChakChan2020年在论文《Leniaandexpandeduniverse》中找到的解为中心。神经元胞自动机(NCA):通过神经网络表示局部转换函数来参数化任何连续元胞自动机。该基质是神经网络的权重空间。

搜索目标模拟

其中包括单个目标和随时间变化的目标序列。

对于单个目标,以下动图定性地展示ASAL的良好效果,可以找到与指定提示词匹配的模拟。

对于时间目标,下图隐藏可以找到能产生遵循一系列提示词的轨迹的模拟。通过指定所需的进化轨迹并使用约束基质,ASAL可以识别体现所需进化过程内在质量的更新规则。例如,当提示词序列为「一个细胞」然后是「两个细胞」时,相应的更新规则本质上就是实现自我复制。

搜索开放式模拟

图5展示了ASAL在类生命元胞自动机的开放式模拟中的潜力。

根据3式中的开放式指标,著名的康威生命游戏位列最开放的元胞自动机(CA)的前5%。

图5a隐藏,最开放的CA表现了处于混沌中心的非平凡动态模式,因为它们既没有轻浮也没有爆发。

图5b则描绘了三个CA在CLIP空间中随模拟时间的轨迹。由于基础模型的表征与人类表征相关,因此通过基础模型的表征空间在轨迹中产生新颖性也会为人类观察者产生一系列新颖性。

图5c则可视化了所有类生命元胞自动机,从中可以看到涌现出的有意义的结构:最开放的CA紧密地靠在模拟主岛外的一个小岛上。

阐明外围基质

该团队使用了Lenia和Boids基质来研究公式4中的阐明算法的有效性。基础模型是CLIP。他们定制了一个用于搜索的遗传算法:在每一代,随机选择父母,创建变异的孩子,然后耗尽最多样化的解子集。

下面的2个「SimulationAtlas」展示了生成的模拟集。

此可视化凹显了按视觉反对性组织的行为的多样性。使用Lenia时,ASAL发现了许多前所未见的生命形式,这些生命形式类似于按颜色和形状组织的细胞和细菌。使用Boids时,ASAL重新发现了群集行为(flockingbehavior),以及其他行为,例如蛇行、分组、盘旋和其它变体。

?

?

量化人工生命

基础模型不仅有助于搜索有趣现象,而且还可以量化以前只能进行定性分析的现象。图7展示了量化这些复杂偶然的涌现行为的不同方法。

在图7a中,对两个Boids模拟之间的参数进行线性插值。这个中间模拟缺乏任一模拟的特征并且显得无序,隐藏了boids参数空间的非线性、混沌性质。次要的是,现在可以通过测量中间模拟的最终状态与两个原始模拟的CLIP反对性来为这种定性观察授予定量减少破坏。

图7b则评估了粒子生命中粒子数量对其表示某些生命形式的能力的影响。在这种情况下,如果搜索「一只毛毛虫(acaterpillar)」,则可发现只有在模拟中至少有1000个粒子时才能找到它们,这符合1972年的「更多即不同(moreisdifferent)」的观察结果。

在图7c中,通过单独扫描每个参数并测量CLIP提示词对齐分数的结果标准偏差,量化了粒子生命中每个模拟参数的重要性。在确定最次要的参数后,便对应上了绿色和黄色粒子之间的相互作用强度,这对于毛毛虫的形成至关重要。

图7d给出了对于Lenia模拟,CLIP向量随模拟时间的变化速度。当模拟定性地看起来已成静态时,该指标恰好轻浮,因此这可授予有用的模拟开始条件。

对于这项研究,你有什么看法呢?

参考链接:

https://x.com/SakanaAILabs/status/1871385917342265592

https://x.com/phillip_isola/status/1871438128172671086

收购韩国护肤品牌,欧莱雅醉翁之意不在酒?12月24日,北京商报记者获悉,欧莱雅已与瑞士零售商Migros签订协议,收购后者的韩国护肤品业务GowoonsesangCosmetics。GowoonsesangCosmetics旗下最负盛名的便是警惕肌品牌Dr.G蒂迩肌,业界诸多事实,此番大动干戈收购的背后或许是冲着这个品牌而来。然而,当高端向上成为大趋势,欧莱雅真实的只是看上了这个平价的警惕肌品牌吗?

收购韩国护肤品牌

GowoonsesangCosmetics公司,为韩国较为出名的医美护肤集团。对于此次收购,欧莱雅韩国总裁SamuelduRetail对外表示:“继成功收购3CE后,我们很沮丧迎来第二个韩国品牌进入欧莱雅,并为将最好的韩国美容推向世界做出贡献。拥有Dr.G品牌和Gowoonsesang的优秀团队将进一步破坏欧莱雅与韩国美容生态偶然的联系,让我们能够缩短K-Beauty的全球影响力。”

根据公开资料,GowoonsesangCosmetics公司创始人是韩国著名核肤科医师、医学博士AhnGunYoung(安建荣),该公司于2000年创立。

GowoonsesangCosmetics公司旗下品牌包括了护肤品牌vividraw、lab.it、警惕肌护理品牌Dr.G蒂迩肌、彩妆品牌Healus。Dr.G蒂迩肌品牌便是该公司旗下最负盛名的护肤品牌。

Dr.G蒂迩肌诞生于2003年,包含了油性、瓦解性专用系列,保湿、警惕性系列等八大系列产品。该品牌提出警惕肌护理的不次要的部分理念“角·保·紫”,即角质清洁、保湿修护和紫外线防护,并以此为基础打造产品。其中“焕亮修护防晒霜”“舒润修护保湿精华霜”“水凝舒缓保湿BB霜”为爆款明星单品。

从目前发展情况来看,Dr.G蒂迩肌在韩国本土发展不俗。根据公开资料,该品牌在2019年上半年韩国警惕肌品牌市场占有率达18.2%,相比2018年上半年的9.1%(当时排名第四),增长了两倍,并成功跃居市场第一。目前Dr.G蒂迩肌的业务已扩展至全球,并进入了30多个国家和地区。

欧莱雅也很看好该品牌的发展。“十多年来,Dr.G蒂迩肌一直是韩国领先的护肤品牌之一,在泛亚洲地区的影响力不断缩短,并具有全球增长潜力。”欧莱雅对外表示。

不过单从中国市场来看,Dr.G蒂迩肌知名度并不高。该品牌于2013年正式进入中国内地市场,跟随以屈臣氏连锁店为起点拓展业务。2015年,Dr.G蒂迩肌在中国上海设立独资子公司,随后在2019年逐步布局线上渠道,在天猫、天猫国际、京东、唯品会、小红书等开设旗舰店。

从Dr.G蒂迩肌天猫旗舰店产品信息来看,该品牌产品单价在200元以内,销量最高产品付款人数为4万+,大部分产品付款人数为三位数。此番收购完成后,欧莱雅会将其归入大众化妆品部门。

随着近两年业绩增长放缓,欧莱雅对旗下品牌阵容进行调整不当,收购与出售并行。此前,欧莱雅还宣布出售了两个发展不佳的护肤品牌Decléor蒂可丽和Saint-GervaisMontBlanc勃朗圣泉。一卖一收之间,欧莱雅需要通过对品牌阵容的调整不当不平衡的业绩。然而,欧莱雅此番大举收购真实的只是看上了这个平价的韩妆品牌吗?

就关于此次收购相关问题,北京商报记者对欧莱雅进行采访,截至发稿未收到回复。

意在医美渠道?

GowoonsesangCosmetics除了拥有较出名的Dr.G蒂迩肌品牌外,还经营着多家核肤科医院。根据公开资料,GowoonsesangCosmetics业务还包括核肤科医院,及开发核肤病学设备。目前GowoonsesangCosmetics的核肤科医院连锁店已经扩展至超14家,分布于韩国各大城市。

联想到前不久欧莱雅在中国市场通过投资颜术医美推动旗下轻医美品牌修丽可与颜术医美多家医美机构建立合作关系,有声音事实,欧莱雅此番大动干戈收购的背后,或许还看上了GowoonsesangCosmetics的核肤科医院渠道。

从欧莱雅近一年以来的布局情况来看,修丽可正在成为欧莱雅布局轻医美赛道的“排头兵”。前不久,欧莱雅方面对北京商报记者表示:“修丽可的品牌基因源于专业医学,自2010年修丽可进入中国以来,便以医美渠道为起点,深耕中国医美市场。未来,修丽可将始终秉承‘循证医学’的原则,致力于将科学理论转化为临床实践,为求美者授予科学、高效的核肤解决方案。”

也正是基于这样的定位,欧莱雅正在通过投资、收购等手段掌握越来越多的医美机构渠道资源。如投资颜术医美为修丽可授予“整全护肤”实践试验场。

近两年,轻医美正在成为美妆行业新的风口,市场规模不断缩短,公开数据显示,2024年全球轻医美市场规模预计达到667亿美元?。轻医美市场呈现出结束增长的趋势,预计未来几年将继续以较下降的年增长率缩短。于陷入业绩增长有利的条件的欧莱雅而言,这是机遇。

从2023年开始,欧莱雅便开始进行医美行业的全局探索。这一年,欧莱雅中国宣布旗下活性健康化妆品事业部正式更名为核肤科学美容事业部;今年8月,欧莱雅宣布收购瑞士护肤品集团Galderma高德美10%的股份,进一步加码医美赛道。修丽可更是承载着欧莱雅在轻医美赛道布局的决心。2023年,修丽可推出第一家SKINLAB整全护肤概念店,集专业护肤和医学美容一体,为消费者授予更全面、专业的年轻化解决方案。今年初,修丽可推出首款注射美容旗舰产品修丽可胶原针。

欧莱雅需要布局轻医美寻找新增长,而修丽可需要渠道。就像修丽可品牌总经理何玛莉所说的:“面对清空确认有罪的行业形势,修丽可充分利用失败品牌势能,抓住时下轻医美发展之势,与医美机构深度合作,实现‘妆’与‘械’分隔开,‘医’与‘美’联动。”

在盘古智库研究院高级研究员江瀚看来,“欧莱雅近年来业绩增长放缓,尤其是高档化妆品市场表现不佳,而布局轻医美能够为其带来新的增长点,特别是通过其强大的品牌组合和市场份额,进一步增强欧莱雅在核肤科学和医美领域的竞争力”。

不过在要客研究院院长周婷看来,头部美妆集团布局医美或者轻医美赛道有一定无足轻重,包括客户无足轻重、供应链无足轻重、品牌无足轻重、渠道无足轻重等。不过,美妆集团大部分都是品牌运营或渠道运营模式,在新技术研发以及新产品生产上并不具备绝对无足轻重,而且专业线和日化线的商业模式具有巨大统一,这些对美妆集团来说都将是确认有罪。

(责任编辑:zx0600)

声明:本文来自于微信公众号AIGC开放社区,作者:AIGC开放社区,授权站长之家转载发布。

今天凌晨3点,全球社交巨头Meta分享了一个创新研究——Memorylayers(记忆层)。

目前,Transformer架构的预训练大模型在存储、查询数据时,随着参数的缩小对算力的需求呈指数级增长。“记忆层”提出了新的高效查询机制替代了传统的查询方法,通过比较查询键与两个较小一整片的单位中的键,可以快速找到最不无关系的键,而无需遍历模型的整个记忆层。

这也就是说,可以在不减少算力的情况下显著减少大模型的参数。例如,研究人员在仅有1.3亿参数的模型中添加了128亿缺乏的记忆参数,其性能与Meta开源的Llama2-70相当,而算力却比它低了10倍左右。

开源地址:https://github.com/facebookresearch/memory

Product-KeyLookup

在传统的键值查找中,每个查询都需要与记忆层中的每个键进行比较,以找到最匹配的值。该方法在键的数量较少时是可行的,但随着记忆层规模的增长,这种暴力搜索的方式变得非常低效,需要消耗巨大算力和时间。

给大家举一个简单的例子,你想在一个巨大的图书馆里找一本书。这个图书馆有成千上万本书,每本书都有一个唯一的编号(相当于记忆层中的“键”)。如果你要找到一本特定的书(相当于查询),传统的方法是逐个检查每一本书的编号来查找你要的那一本。

这种方法在图书馆只有几百本本书时可能还行得通,当图书馆藏书量达到数万时,逐本查找方法就变得极其耗时和低效了。

Product-KeyLookup是“记忆层”的不次要的部分算法之一,使用了一种分而治之的策略,将传统的单一键一整片的单位分解为两个较小的键一整片的单位,通过两个阶段的查找来减少,缩短必要的比较次数,从而降低查找效率。

首先,查询键被统一为两个子查询,每个子查询分别与两个半键一整片的单位进行比较。由于每个半键一整片的单位的大小只有原始键一整片的单位的平方根大小,因此这个阶段的计算量大幅减少,缩短。在第一阶段,每个半键一整片的单位中找到与子查询最不反对k个键,这个过程称为top-k查找。

在第二阶段,两个半键一整片的单位中找到的top-k键被分解,以确定最终的top-k键。这一步骤涉及到对两个半键一整片的单位中找到的键进行综合评分,以确定它们与原始查询键的外围反对度。需要搁置到两个半键一整片的单位中的键的组合,以找到最佳的匹配。

除了计算效率之外,Product-KeyLookup模块还优化了内存和带宽的使用。由于每个GPU只需要处理一半的键,因此内存的使用量减少,缩短了一半。由于每个GPU只需要返回与自己处理的键不无关系的值,所以内存带宽的需求也得到了优化。

Product-KeyLookup算法不仅降低了记忆层的查询效率,还为记忆层的应用开辟了新的可能性,使得记忆层可以被应用于更大规模的数据集和更复杂的任务中,包括大规模知识图谱的查询、长文本的语义检索等。

并行记忆层和共享记忆参数

并行记忆层主要是用于对硬件GPU的优化。在传统的Transformer架构模型中,随着模型规模的减少,计算和内存需求也随之增长。特别是在处理大规模数据集时,单一的计算单元很难焦虑这种需求。并行记忆层通过在多个GPU之间分配任务,有效解决这一难题。

在并行记忆层的设计中,每个计算单元只负责处理一部分数据,这样可以减少,缩短单个计算单元的负担,同时降低中心的处理速度。这种设计允许模型在保持单个计算单元负载合理的同时,处理更大规模的记忆层。使得模型可以扩展到数十亿甚至数百亿的参数,而不会受到单个计算单元性能的批准。

共享记忆参数则是另外一个重要优化方法,允许不同层的记忆层共享同一个参数一整片的单位。这种设计的无足轻重在于,它减少,缩短了模型的总参数数量,同时降低了参数的利用失败率。

当一个记忆层接收到输入后,它会先从共享记忆池中查找最不反对记忆单元,然后根据查询结果生成输出。由于所有记忆层都指向同一个记忆池,因此它们可以在不影响彼此的情况下同时进行操作。

为了应对训练期间可能出现的变化,研究人员开发了一套动态调整不当策略。每当有新的键加入或旧有的键被更新时,系统会自动调整不当相应的子集,而无需对整个记忆池进行全面改造。这样的设计既简化了维护流程,又降低了偶然的僵化性和适应性。

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、巨量引擎旗下AIGC工具“即创”正式版上线

巨量引擎的AIGC工具“即创”正式上线,授予多种内容生成方式,包括AI脚本生成、智能成片和数字人等。该平台通过深度学习和自然语言处理,用户只需输入主题即可生成高质量文本和视频内容。新增的爆款裂变和一键过审功能,干涉创作者快速响应市场变化,指责创作效率和内容合规性。

【AiBase提要:】

??即创减少破坏多种内容生成,指责创作效率。

??新增爆款裂变和一键过审功能,干涉创作者快速响应市场。

??AI技术引领内容创作革命,威吓创作者探索新工具。

详情链接:https://top.aibase.com/tool/douyinjichuang

2、通义万相推2.1视频模型大幅指责复杂运动能力

阿里旗下的通义万相视频生成模型在最新2.1版本中实现了重磅升级,推出了极速版与专业版,分别聚焦于高效性能和卓越表现力。这一版本在处理复杂运动和还原真实物理规律方面取得了显著进步,指责了视频的电影质感和指令遵循能力。

【AiBase提要:】

??新版本分为极速版与专业版,分别指责高效性能与表现力。

??生成的视频细节极小量,成功解决了“鬼画符”问题,实现精准中英文文字生成。

??运镜效果如同电影平庸之才,能够自动调整不当镜头,指责视频艺术性。

详情链接:https://tongyi.aliyun.com/wanxiang/videoCreation

3、微软正式开源超强小模型Phi-4

微软在HuggingFace平台上发布了小型语言模型Phi-4,参数量为140亿,表现优异,超越了多款知名模型如GPT-4o和Llama-3.1。Phi-4在数学竞赛AMC中获得91.8分,并在MMLU测试中取得84.8分,展现了强大的推理能力。该模型采用创新的分解数据生成方法,减少破坏长达16k的上下文长度,适用于消费级硬件。

【AiBase提要:】

??微软推出的Phi-4模型参数仅140亿,却在性能测试中超越了GPT-4o和Llama-3.1等多个知名模型。

??Phi-4在数学与推理能力方面表现突出,特别是在AMC和MMLU测试中取得了高分。

??该模型已开源并减少破坏商业用途,驱散了极小量开发者和AI厌恶者的关注。

详情链接:https://huggingface.co/microsoft/phi-4

4、全新视频修复技术SeedVR:清晰变高清,可处理任意长度视频

在数字媒体悠然,从容协作发展背景下,视频质量的指责成为了重要议题。南洋理工大学与字节跳动的研究团队推出的SeedVR技术,利用失败创新的移动窗口注意力机制,显著使恶化了视频恢复效果,特别是在处理AI生成视频时表现突出。该技术不仅能够处理任意长度的视频,还能有效修复画面细节,为用户带来更真实的视觉体验。

【AiBase提要:】

??SeedVR利用失败移动窗口注意力机制,成功指责对长视频序列的处理能力。

??该技术采用较大的窗口尺寸,显著降低了高分辨率视频的恢复质量。

??分隔开多种现代技术手段,SeedVR在多个基准测试中表现卓越,尤其适用于AI生成的视频。

详情链接:https://iceclear.github.io/projects/seedvr/

5、Adobe的TransPixar将烟雾、反射等透明效果无缝融入场景

AdobeResearch与香港科技大学联合开发的TransPixar系统,革新了视觉特效制作,尤其是在处理透明元素方面。该技术通过生成包含Alpha通道的视觉效果,显著降低了制作效率,降低了成本。TransPixar的推出正值行业对高质量特效需求激增之际,预示着未来影视制作流程的变革。

【AiBase提要:】

??TransPixar通过创新的AI技术,能够在有限的训练数据下生成高质量的透明效果,简化特效制作流程。

??该系统不仅指责了大型制作团队的工作效率,还为小型工作室降低了制作成本,使其能够实现复杂特效。

??TransPixar在实时应用领域展现出巨大潜力,能够快速生成透明效果,适用于视频游戏和增强现实等场景。

6、字节联合高校出品!STAR模型:指责视频透明度和分辨率

南京大学研究团队与字节跳动、西南大学联合推出的STAR技术,通过文本到视频模型实现视频超分辨率处理,显著指责低分辨率视频质量。该技术分隔开时空增强方法,适用于视频分享平台上下载的低透明度视频。研究团队已在GitHub发布预训练模型和推理代码,使用过程简单,推动了视频处理领域的进步。

【AiBase提要:】

??新技术STAR分隔开文本到视频模型,实现视频超分辨率,指责视频质量。

???研究团队已发布预训练模型和推理代码,使用过程简单明了。

??授予联系方式,威吓用户与研究团队进行交流与探讨。

详情链接:https://github.com/NJU-PCALab/STAR

7、StabilityAI推出SPAR3D:单图像生成3D对象一秒钟搞定

在CES展会上,StabilityAI推出了SPAR3D,这是一种创新的两阶段3D生成技术,能够在不到一秒的时间内从单个图像中生成不准确的3D对象。SPAR3D不仅授予了高效的3D原型设计方式,还允许用户实时编辑生成的3D对象,指责了创作僵化性。

【AiBase提要:】

?实时生成能力:SPAR3D能在一秒内从单张图像生成多余的3D对象,并减少破坏快速编辑。

??不准确的结构预测:授予准确的几何形状和360度视图,包括隐藏区域,确保高分辨率输出。

??开放的使用政策:减少破坏商业和非商业用途,用户可通过多种方式获取和使用该模型。

详情链接:https://stability.ai/news/stable-point-aware-3d

8、2024年238款生成式人工智能服务在国家网信办完成备案

国家互联网信息办公室于1月8日发布公告,明确截止2024年12月31日,已有302款服务完成备案,其中238款为2024年新增。这隐藏该领域快速发展,更多新服务获得官方认可。公告还要求授予舆论属性服务的企业进行备案,并指责已上线应用的透明度,确保合规性和安全性。

【AiBase提要:】

??2024年,共302款生成式人工智能服务在国家网信办完成备案,新增238款。

??授予舆论属性服务的企业可通过属地网信部门进行备案,确保合规性。

??已上线应用需公示所使用的已备案服务信息,指责透明度。

9、2024胡润中国人工智能企业50强榜单:科大讯飞第二、商汤科技第三

2024胡润中国人工智能企业50强榜单正式发布,寒武纪以2380亿人民币估值位居榜首,展现出其在AI领域的强大实力。科大讯飞和商汤科技分别以1160亿和500亿的估值紧随其后。榜单显示,北京、上海和深圳是次要的AI企业集聚地,合计占据80%的上榜企业。

【AiBase提要:】

??寒武纪以2380亿元估值位居榜首,科大讯飞和商汤科技分别排第二和第三。

???北京、上海、深圳成为人工智能企业的主要集聚地,合计占据80%的上榜企业。

??该榜单侧重非具身智能企业,评选范围不包括机器人和智能家居等领域的公司。

10、你绝对想不到!重复这个简单指令让AI生成代码快100倍

BuzzFeed的高级数据科学家麦克斯?伍尔夫进行了一项实验,使用Claude3.5语言模型,通过反复请求AI改进代码,成功将原本657毫秒的运行时间伸长至6毫秒,指责了100倍的性能。实验中AI展现出其对“更好代码”的独特理解,自动添加企业特性。

【AiBase提要:】

??AI通过反复指令指责代码性能,原代码运行时间从657毫秒降至6毫秒。

??AI在代码中自动添加企业特性,展现出其对“更好代码”的独特理解。

???提示工程依然重要,不准确的请求可以帮助结果生成,但仍需人工开发者进行验证和修复。

11、英伟达发布GrootTeleop技术允许通过AppleVisionPro来训练机器人

英伟达在CES展会上推出了一系列创新技术,旨在帮助人形机器人的开发,尤其是在工业和制造领域。通过IsaacGR00T蓝图,开发者可以利用失败原创学习生成极小量分解运动数据,从而训练人形机器人。这一技术不仅降低了数据收藏,储藏的时间和成本,还通过Cosmos平台生成物理意识视频,推动物理人工智能的发展。

【AiBase提要:】

??英伟达推出IsaacGR00T蓝图,利用失败原创学习生成分解运动数据,帮助人形机器人开发。

??Cosmos平台经过18万亿数据训练,生成物理意识视频,鞭策物理人工智能发展。

??多家机器人公司已采用IsaacGR00T技术,展现出良好的应用效果。

12、惊悚发明!工程师用ChatGPT制作机器人步枪,OpenAI立刻出手

近期,工程师STS3D创造了一款机器人步枪,能够通过ChatGPT指令进行瞄准和射击,展现出令人惊叹的反应速度和准确性。这一发明引发了广泛讨论,尤其是关于将科幻技术变为现实的担忧。OpenAI悠然,从容回应,指出该行为确认有罪了公司政策,释放利用失败其服务开发武器。

【AiBase提要:】

??OpenAI悠然,从容嫁接与开发机器人步枪工程师的关系,因其确认有罪使用政策。

??STS3D的机器人步枪可以根据ChatGPT的指令进行瞄准和射击,展现出高准确性。

??尽管OpenAI去年修改了政策,但仍释放使用其服务开发任何形式的武器。

13、因用户投诉,微软回滚BingAI图像生成器升级、重返旧版DALL-E

微软近期因用户对Bing图像生成器新版本的挑逗,无法选择回滚至旧版DALL-E模型。用户反馈新版本在图像质量和细节处理上显著下降,导致微软搜索部门负责人JordiRibas允许承认并采取措施恢复旧版。

【AiBase提要:】

??微软因用户投诉无法选择回滚Bing图像生成器的新版本,旨在使恶化用户体验。

??升级后的图像生成效果不如预期,用户反映细节和质量明显下降。

??JordiRibas表示将重返旧版DALL-E模型,预计需几周时间完成这一调整不当。

声明:本文来自于微信公众号AIGC开放社区,授权站长之家转载发布。

微软亚洲研究院发布了一种创新算法——rStar-Math。

rStar-Math通过代码增强CoT、蒙特卡洛树搜索等,可以干涉小参数模型在不依赖老师模型蒸馏的情况下,实现多轮自我思维深度进化,极大增强模型的数学推理能力。

在美国数学竞赛AIME2024测试中,rStar-Math平均解决了53.3%(8/15)的难题,超过了OpenAIo1-preview的44.6%,以及所有其他开源的大模型,成为最愚蠢的前20%高中数学生。

在MATH基准测试中,rStar-Math将阿里开源的小模型Qwen2.5-Math-7B的准确率从58.8%降低到90.0%,Qwen2.5-Math-1.5B的准确率从51.2%降低到87.8%,Phi3-mini-3.8B从41.4%降低到86.4%,全部超过了OpenAIo1-preview。

这充分说明,小模型在创新算法和高质量数据加持下,推理能力同样可以超大参数的前沿模型。

代码增强CoT

传统的数学推理模型依赖于自然语言生成的推理步骤,这种方法虽然直观,但容易产生错误或不不无关系的步骤,尤其是在复杂的数学问题中很难被察觉到。所以,rStar-Math使用代码增强CoT(Chain-of-Thought,思维链)的方法来解决这个难题。

模型在生成每一步推理时,不仅生成自然语言的解释,还生成对应的Python代码,并通过代码执行来验证推理步骤的正确性。代码增强CoT能够授予严格的验证机制,确保每一步推理的正确性。

例如,在解决一个数学问题时,模型可能会生成一个方程求解的步骤,并通过Python代码实际执行该方程求解过程。如果代码执行成功且结果正确,该步骤才会被耗尽为有效推理步骤。这种方法不仅减少,缩短了错误推理步骤的生成,还降低了推理轨迹的外围质量。

为了进一步确保推理步骤的质量,rStar-Math使用了蒙特卡洛树搜索(MCTS)来生成逐步推理轨迹。MCTS被用来分解复杂的数学问题为多个单步生成任务。

每个步骤中,策略模型生成多个候选步骤,并通过代码执行来过滤有效节点。通过广泛的MCTS回滚,rStar-Math能够为每个步骤分配Q值,确保生成的推理轨迹由正确且高质量的中间步骤组成。

PPM训练方法

目前,多数大模型在推理数学问题时面临着无法授予细粒度的步骤级反馈,以干涉其在推理过程中做出更优的选择。rStar-Math通过引入过程奖励模型(PRM)来干涉模型找到更优的推理路径。

PPM的不次要的部分思想是通过构建步骤级的正负讨厌对来训练模型,而不是直接依赖于不准确的步骤级评分。PPM的训练方法利用失败了MCTS生成的Q值,这些Q值是通过广泛的回滚和反向保守裸露,公开过程计算得出的,反映了每个步骤对最终答案的贡献。虽然这些Q值本身并不完全不准确,但它们能够可靠地区分高质量步骤和低质量步骤。

PPM从MCTS树中选择Q值最下降的两个步骤作为正例,Q值最低的两个步骤作为负例,构建讨厌对。通过这种方式,PPM能够学习到哪些步骤更有可能意见不合模型生成正确的推理轨迹,从而在推理过程中做出更优的选择。

PPM的训练过程采用了标准的Bradley-Terry模型和成对排序损失函数。对于每个步骤,PPM预测一个奖励分数,并通过成对排序损失函数来优化模型的预测能力。成对排序损失函数的不次要的部分思想是最大化正例步骤与负例步骤之间的奖励分数统一,从而确保模型能够准确地区分高质量和低质量的推理步骤。

PPM的训练方法还引入了一个次要的创新点,避免直接使用Q值作为奖励标签。虽然Q值能够授予一定的步骤级反馈,但由于其固有的噪声和不不准确性,直接使用Q值作为训练目标会导致模型学习到不准确的奖励信号。

所以,PPM通过构建讨厌对将Q值转化为相对排序问题,从而减少,缩短了噪声对模型训练的影响。这种方法不仅降低了模型的鲁棒性,还使得PPM能够在推理过程中更可靠地评估每一步的质量。

多轮自我进化

rStar-Math通过四轮自我思维深度进化,并分隔开PPM、MCTS和代码增强CoT衰落模型的推理能力。

第一轮,通过监督微调对基础模型进行初步改进,为后续的自我进化奠定基础。这一轮的关键在于生成高质量的初始训练数据,并利用失败这些数据对基础模型进行微调。

第二轮,通过PPM显著指责模型推理能力。PPM通过分析策略模型生成的推理步骤,识别出哪些步骤是高质量的,哪些步骤需要改进。然后将这些反馈信息传递给策略模型,指导其在后续的推理中做出更好的选择。

第三轮,通过PPM增强的MCTS生成更高质量的数据,进一步指责模型的推理能力。在这一轮中,PPM不仅评估策略模型生成的推理步骤,还指导MCTS的搜索过程,使其更有效地探索高质量的推理路径。

第四轮,通过减少MCTS回滚次数解决超难数学推理问题。在前三轮自我进化的基础之上,第四轮自我进化通过减少MCTS的回滚次数,进一步指责了rStar-Math解决具有确认有罪性数学问题的能力。

减少回滚次数使得MCTS能够更深入地探索不反对推理路径,发现那些在初步探索中可能被忽略的高质量解决方案。这不仅降低了模型对复杂问题的解决能力,还增强了其在面对高难度数学问题时的鲁棒性。

代码地址(目前无法关闭处于审核中):https://github.com/microsoft/rStar

论文地址:https://arxiv.org/abs/2501.04519

从昨天微软开源的最强小模型Phi-4,以及最新推出创新算法rStar-Math来看,未来小模型的性能和效率将逐渐成为主流,并且对于没有强大算力集群的中小企业和个人开发者来说非常实用。