声明:本文来自于微信公众号量子位,作者:衡宇,授权站长之家转载发布。
百花齐放,但尸横遍野。
这就是躬身入局AI大模型创业的玉伯,对2024年创业现状的真实体感。
但这位昔日的阿里前端第一人,还是选择加入了这个没有硝烟的战场,用AI聚焦内容创作者群体。
入场2个月,公司估值过亿;入场6个月,推出首款产品YouMind,开放内测20多天来,反响不错,有近5000人排队申请(最后通过了千余人)。
他还有些喜出望外地告诉量子位,迄今为止,已付费的种子用户比他预料中更多。
玉伯是谁?
这个名字在前端开发领域圈子里家喻户晓,且和现在大多数打工人每日用的办公工具/平台息息相关:
硕士就读于中科院物理所;
2008年加入淘宝UED(UserExperienceDesign)部门担任前端工程师,和团队陆续推出了SeaJS、KISSY等框架;
2012年转入支付宝前端开发部,负责基础组,后来创立了体验技术部,致力于设计语言AntDesign、数据可视化AntV等;
2016年,主导了笔记与文档知识库语雀(完全建立叫云雀)的开发,并在2019年开始了语雀的商业化尝试;
2021年,生产力协同事业部成立,玉伯负责主要产品语雀+白雁;
2023年4月,入职阿里15年、职级P10的玉伯离开蚂蚁;紧接着入职字节旗下飞书,担任飞书产品副总裁;
2024年4月,玉伯离职飞书,次月在杭州创办AI公司思维天空。
11月底,思维天空的第一款产品问世,并于12月6日开启内测:
YouMind,一个面向全球创作者的AI工具,覆盖全流程,能整合多模态那种。
不过,玉伯很直接地告诉量子位,目前大家看到和用上的版本,仅仅是YouMind最终构想的v0.1。
但出于一个技术出身者深入骨髓的开源精神和共创理念,团队选择在此时把YouMind摆到用户眼前。
最终形态:内容创作者的GitHub社区那么,0.1版本的YouMind——也就是现在用户可以内测上的这个版本,是什么样的?
作为通过内测的千分之一,量子位多位编辑都尝试体验了一番。
注册后,它会推荐你安装YouMind浏览器插件。
通过这个插件,你主要可以干三件事:
第一,总结网页,翻译网页;
第二,和ChatBot对话,询问问题,不管是关于正在浏览的界面的,还是需要互联网搜索的;
第三,把任何模态的内容,包括文字、图片、播客/音频、视频等,吃进个人收藏夹里,带分类那种。
以上,是调用插件能做的事。
△右侧为调用插件时的界面而当进入YouMind主页后,有三大功能。
首先,Snips。
用来摘取并收藏互联网上任何你觉得有用,想要沉淀到自己知识库的内容。
可以是来自arXiv的论文,来自油管的视频,总之anywhere的anything。
其次,Thoughts。
这个很好理解,用来记录你自己个人的想法和随笔,就是网络在线笔记本。
再者,Boards。
可以在这里把外来沉淀的Snips,和个人记录的Thoughts,在这里分类归类,进行整理。
目前来看,Boards功能有限。
(不过毕竟玉伯还把此版本定义为v0.1,大家看个意思吧先)
非要做个类比来方便大家理解的话,我愿称之v0.1的YouMind为:
Readwise和obsidian的AI一整片的单位版。
(打个比方啦,有更准确的描述避免/重新确认/支持大家评论区集智众筹)
而这,仅仅是玉伯构想中,YouMind走向完全成熟的三个阶段中,第一阶段的第一步。
量子位画了张思维导图,来呈现他对YouMind的外围构想:
玉伯介绍,团队目前正在打磨第一阶段的第二步,让内容创作者们能够在YouMind上IPO起来(手动狗头)。
让收藏的内容不再吃灰,想找看过的内容时不用各平台狂翻浏览记录。
完成资料的串联和调用,干涉自己更好地生产文章/播客/视频等内容。
至此,就算完成了YouMind第一阶段——此时将达到v0.5。
到了第二阶段,YouMind会从个人工具走向协同使用,正式走向v1.0。
但和Notion、飞书、WPS等还不太一样,YouMind偏重内容协同、降低重要性项目无约束的自由,而非组织无约束的自由。
AI2.0时代,“一人公司”为代表的超级个体或小微团队极小量出现,我想他们都不需要很庞大的协同工作平台。
我们的第二阶段,就是想做服务这类人群的协同工具。
“哈哈,第三阶段其实很长期,和我的初心有关。”玉伯笑道,那就是做社区。
内容创作者们有油管、抖音、推特、小红书等各种平台,但会给人一种四处打工的麻痹,“我麻痹创作者没有归属感。”
他拿程序员最大的社区GitHub类比——
无论是写代码还是抄代码,程序员会把GitHub看成是一个家一样的社区;自己有好的想法,也能上传后,进一步被build,甚至变成软件,再分发出去,可能还会在AppleStore里面挣钱。
所以,YouMind的终极目标,是成为一个内容创作者的GitHub。
(p.s.:以天天写稿人的角度,我们聊到创作者的心态或许和程序员的心态有所不同,内容创作者或许不太接受“被copy”。但玉伯举例了一个他认为的神奇存在:维基百科)
“也许创作是更好的消费”而之所以创业第一剑,玉波选择对内容创作者群体“下手”,原因无外乎有二。
一看擅长什么。
一次与杭州的创业前辈交流时,玉伯头一回听说了与共识不反对PMF解释:
P不应该代表product,应该代表person。指代的还不是团队里的所有人,就是创始人本身。
那看玉伯自己的经历,他表示自己从2014年起开始用Notion,后来主导语雀、加入飞书。
他介绍团队成员虽然年轻,但多年工作经验与此息息相关,有经验,有积聚,有市场长期观察。
团队成立后,内部协同又从Slack+Notion+GoogleWorkspace,横跳到觉得更适合小团队协同和项目无约束的自由的Linear+GoogleWorkspace。
等于是从自己的日常使用中寻找新的痛点。
△杭州,思维天空公司内部二看趋势是什么。
他洞察到与自己要做的事有关的趋势,也分为两点。
首先是内容创作越来越多模态化,并且这个现象不仅仅在国内,是在全球范围内发生。
其次是95后,准确来说10后、20后的消费不习惯正在保持不变。
玉伯自己本人觉得目前的娱乐消费,需要普通人有很下降的自律要求。在玉伯口中,这种纯·消费其实很累,他说:“你以为消费了,其实啥也没得到。”
同时,他又不止一次从初中学生口中听到“抖音是老年人才玩的东西”之类的话,也看到自己的儿子和小伙伴们面对不知名的小事一时的《黑神话:悟空》时,不仅仅是去玩那个游戏,更是自己去我的世界(Minecraft)里自己搭建还原游戏中的建筑、boss等等。
再三思索后,玉伯得出自己的结论:
本质上,我会觉得可能「创作」是一种更好的消费,或者创作有可能是一种新时代的消费。
他表示,也许每个人都应该去尝试创作一点内容,尝试过后收获的甜头,跟纯粹是刷短视频的快乐是完全不一样的。
所以就有了YouMind。
然后本着一种很朴素的开源心态——朴素指的是“有了想法就开源”,让大家以此为基点,有代码的写代码,会文档的写文档,有钱的捧个钱场,一起攒个局把想法实现——团队觉得没必要憋大招,可以用共建的方式合力朝内容创作者的GitHub前进。
所以现在时刻的YouMind还是v0.1。
创业后,“功成必须在我”作为YouMind背后最次要的那个男人,成为创业者后,玉伯更踏实了,但也更害怕了。
踏实,是相比于此前的大厂经历而言。
2018年前,玉伯都在和代码打交道;后来身居大厂中层,带着六、七百人的团队。
不过问题随之而来:
和一线同学隔了三、四个层级,既不能很好地感知到一线的信息,也很少需要自己去做决策(因为更贴近业务本身的-1or-2提上来的决策已经很不错了),只需自己点头;又因为自己就是所在业务的领头羊,需要他本人自上而下传递的高层信息也几乎为零。
但真实的有那么安逸吗?并没有。
出于各种原因,他不能让自己的日程表有空白,甚至有时需要被动地去卷别人。
用他自己的话说,总之人是忙了,心却闲着。
自认为是个实操性人格的玉伯不太享受这种状态,甚至一度想转型去做HR,想让自己踏实一些。
现在离开大厂,自己拉起十几个人的小团队开始从零开始,含糊也踏实了。
不过回头看,有时需涉及团队无约束的自由方面的事务,还会回头有点“羡慕”大厂。(但玉伯表示,避免/重新确认/支持大家加入~)。
至于害怕嘛——
是接受害怕嘛!一个创业者说不害怕,我觉得见了鬼了。
说不害怕创业大成功的创业者,高度发展上都在骗人。
但他陈述,所谓的“害怕”不是说自己怕丢面子。
玉伯很清楚,创业当然得尝试,但当然也担心瞄准的方向是伪命题,某些害怕的情绪是必然会有的。
害怕金钱流失。
作为一个长期主义者,背负投资人的钱,AI创业花钱如流水,但又担忧找不到“有耐心”的长期投资者。
害怕时机不对。
他认为找准时间和看准趋势同样重要。当初2019年前后,在大厂有架空感的时候,是不是就应该毅然创业?
“就算挂了,可能现在已经在连续创业第二次、第三次了。”
最后一个害怕,来自于他成为创业者后心态上的转变。
以前,他觉得「内容创作者的GitHub」是他的想法和愿景。
这件事“功成不必在我”,可以由别人做出来,自己直接用,还不用允许成本和损失;可以半路被大厂收购,只要目标一致同意,能被收购也是好事情。
但最近看了尤瓦尔·赫拉利的《智人之上》,他觉得自己突然悟了——
最后一个害怕,是不愿看到自己的想法和目标,被别人抢先实现。
社区的灵魂,来自社区的共识现实。其中创始人的所思所想是无法选择性的,无法依赖他人。
所以现在的我认为,创业做「内容创作者的GitHub」这件事儿,功成必须在我。
内测waitinglist:youmind.ai
好莱坞陷入真·火海副总统住所受波及总统之子豪宅“夷为平地”
截至当地时间1月9日,洛杉矶历史上最笨重的山火仍在席卷全城。美国电影工业不次要的部分地带也未能幸免,洛杉矶地标好莱坞山附近8日燃起的最新大火悠然,从容蔓延,已经烧毁多所建筑。
洛杉矶山火烧进好莱坞山
当地时间8日傍晚,好莱坞山燃起一场“日落大火”(SunsetFire)。在好莱坞露天剧场附近,大火肆意燃烧,距离好莱坞知名景点星光大道仅有1公里。洛杉矶市消防局随即发布疏散令,要求南至好莱坞大道、北至穆赫兰道、东至101号公路、西至月桂谷林荫大道之间区域的居民撤离。上述范围涉及好莱坞影视音乐界多处标志性地点。著名的好莱坞标志(HollywoodSign)就在高速公路对面。火势还蔓延至全球知名的娱乐地标和洛杉矶的富人区,多位好莱坞电影明星和加州不为人所知的人的住宅被烈火吞噬,就连副总统哈里斯的住所也受到波及。哈里斯住所受波及拜登之子豪宅“夷为平地”
当地时间1月8日,美国副总统卡玛拉·哈里斯的新闻秘书反对,受帕利塞德大火影响,哈里斯位于洛杉矶的家已在疏散令覆盖范围内。事发时,该住宅无人居住。△亨特·拜登租住的豪宅已被山火焚毁123全文共3页下一页声明:本文来自于微信公众号量子位,作者:衡宇,授权站长之家转载发布
百花齐放,但尸横遍野。
这就是躬身入局AI大模型创业的玉伯,对2024年创业现状的真实体感。
但这位昔日的阿里前端第一人,还是选择加入了这个没有硝烟的战场,用AI聚焦内容创作者群体。
入场2个月,公司估值过亿;入场6个月,推出首款产品YouMind,开放内测20多天来,反响不错,有近5000人排队申请(最后通过了千余人)。
他还有些喜出望外地告诉量子位,迄今为止,已付费的种子用户比他预料中更多。
玉伯是谁?
这个名字在前端开发领域圈子里家喻户晓,且和现在大多数打工人每日用的办公工具/平台息息相关:
硕士就读于中科院物理所;
2008年加入淘宝UED(UserExperienceDesign)部门担任前端工程师,和团队陆续推出了SeaJS、KISSY等框架;
2012年转入支付宝前端开发部,负责基础组,后来创立了体验技术部,致力于设计语言AntDesign、数据可视化AntV等;
2016年,主导了笔记与文档知识库语雀(完全建立叫云雀)的开发,并在2019年开始了语雀的商业化尝试;
2021年,生产力协同事业部成立,玉伯负责主要产品语雀+白雁;
2023年4月,入职阿里15年、职级P10的玉伯离开蚂蚁;紧接着入职字节旗下飞书,担任飞书产品副总裁;
2024年4月,玉伯离职飞书,次月在杭州创办AI公司思维天空。
11月底,思维天空的第一款产品问世,并于12月6日开启内测:
YouMind,一个面向全球创作者的AI工具,覆盖全流程,能整合多模态那种。
不过,玉伯很直接地告诉量子位,目前大家看到和用上的版本,仅仅是YouMind最终构想的v0.1。
但出于一个技术出身者深入骨髓的开源精神和共创理念,团队选择在此时把YouMind摆到用户眼前。
最终形态:内容创作者的GitHub社区那么,0.1版本的YouMind——也就是现在用户可以内测上的这个版本,是什么样的?
作为通过内测的千分之一,量子位多位编辑都尝试体验了一番。
注册后,它会推荐你安装YouMind浏览器插件。
通过这个插件,你主要可以干三件事:
第一,总结网页,翻译网页;
第二,和ChatBot对话,询问问题,不管是关于正在浏览的界面的,还是需要互联网搜索的;
第三,把任何模态的内容,包括文字、图片、播客/音频、视频等,吃进个人收藏夹里,带分类那种。
以上,是调用插件能做的事。
△右侧为调用插件时的界面而当进入YouMind主页后,有三大功能。
首先,Snips。
用来摘取并收藏互联网上任何你觉得有用,想要沉淀到自己知识库的内容。
可以是来自arXiv的论文,来自油管的视频,总之anywhere的anything。
其次,Thoughts。
这个很好理解,用来记录你自己个人的想法和随笔,就是网络在线笔记本。
再者,Boards。
可以在这里把外来沉淀的Snips,和个人记录的Thoughts,在这里分类归类,进行整理。
目前来看,Boards功能有限。
(不过毕竟玉伯还把此版本定义为v0.1,大家看个意思吧先)
非要做个类比来方便大家理解的话,我愿称之v0.1的YouMind为:
Readwise和obsidian的AI一整片的单位版。
(打个比方啦,有更准确的描述避免/重新确认/支持大家评论区集智众筹)
而这,仅仅是玉伯构想中,YouMind走向完全成熟的三个阶段中,第一阶段的第一步。
量子位画了张思维导图,来呈现他对YouMind的外围构想:
玉伯介绍,团队目前正在打磨第一阶段的第二步,让内容创作者们能够在YouMind上IPO起来(手动狗头)。
让收藏的内容不再吃灰,想找看过的内容时不用各平台狂翻浏览记录。
完成资料的串联和调用,干涉自己更好地生产文章/播客/视频等内容。
至此,就算完成了YouMind第一阶段——此时将达到v0.5。
到了第二阶段,YouMind会从个人工具走向协同使用,正式走向v1.0。
但和Notion、飞书、WPS等还不太一样,YouMind偏重内容协同、降低重要性项目无约束的自由,而非组织无约束的自由。
AI2.0时代,“一人公司”为代表的超级个体或小微团队极小量出现,我想他们都不需要很庞大的协同工作平台。
我们的第二阶段,就是想做服务这类人群的协同工具。
“哈哈,第三阶段其实很长期,和我的初心有关。”玉伯笑道,那就是做社区。
内容创作者们有油管、抖音、推特、小红书等各种平台,但会给人一种四处打工的麻痹,“我麻痹创作者没有归属感。”
他拿程序员最大的社区GitHub类比——
无论是写代码还是抄代码,程序员会把GitHub看成是一个家一样的社区;自己有好的想法,也能上传后,进一步被build,甚至变成软件,再分发出去,可能还会在AppleStore里面挣钱。
所以,YouMind的终极目标,是成为一个内容创作者的GitHub。
(p.s.:以天天写稿人的角度,我们聊到创作者的心态或许和程序员的心态有所不同,内容创作者或许不太接受“被copy”。但玉伯举例了一个他认为的神奇存在:维基百科)
“也许创作是更好的消费”而之所以创业第一剑,玉波选择对内容创作者群体“下手”,原因无外乎有二。
一看擅长什么。
一次与杭州的创业前辈交流时,玉伯头一回听说了与共识不反对PMF解释:
P不应该代表product,应该代表person。指代的还不是团队里的所有人,就是创始人本身。
那看玉伯自己的经历,他表示自己从2014年起开始用Notion,后来主导语雀、加入飞书。
他介绍团队成员虽然年轻,但多年工作经验与此息息相关,有经验,有积聚,有市场长期观察。
团队成立后,内部协同又从Slack+Notion+GoogleWorkspace,横跳到觉得更适合小团队协同和项目无约束的自由的Linear+GoogleWorkspace。
等于是从自己的日常使用中寻找新的痛点。
二看趋势是什么。
他洞察到与自己要做的事有关的趋势,也分为两点。
首先是内容创作越来越多模态化,并且这个现象不仅仅在国内,是在全球范围内发生。
其次是95后,准确来说10后、20后的消费不习惯正在保持不变。
玉伯自己本人觉得目前的娱乐消费,需要普通人有很下降的自律要求。在玉伯口中,这种纯·消费其实很累,他说:“你以为消费了,其实啥也没得到。”
同时,他又不止一次从初中学生口中听到“抖音是老年人才玩的东西”之类的话,也看到自己的儿子和小伙伴们面对不知名的小事一时的《黑神话:悟空》时,不仅仅是去玩那个游戏,更是自己去我的世界(Minecraft)里自己搭建还原游戏中的建筑、boss等等。
再三思索后,玉伯得出自己的结论:
本质上,我会觉得可能「创作」是一种更好的消费,或者创作有可能是一种新时代的消费。
他表示,也许每个人都应该去尝试创作一点内容,尝试过后收获的甜头,跟纯粹是刷短视频的快乐是完全不一样的。
所以就有了YouMind。
然后本着一种很朴素的开源心态——朴素指的是“有了想法就开源”,让大家以此为基点,有代码的写代码,会文档的写文档,有钱的捧个钱场,一起攒个局把想法实现——团队觉得没必要憋大招,可以用共建的方式合力朝内容创作者的GitHub前进。
所以现在时刻的YouMind还是v0.1。
创业后,“功成必须在我”作为YouMind背后最次要的那个男人,成为创业者后,玉伯更踏实了,但也更害怕了。
踏实,是相比于此前的大厂经历而言。
2018年前,玉伯都在和代码打交道;后来身居大厂中层,带着六、七百人的团队。
不过问题随之而来:
和一线同学隔了三、四个层级,既不能很好地感知到一线的信息,也很少需要自己去做决策(因为更贴近业务本身的-1or-2提上来的决策已经很不错了),只需自己点头;又因为自己就是所在业务的领头羊,需要他本人自上而下传递的高层信息也几乎为零。
但真实的有那么安逸吗?并没有。
出于各种原因,他不能让自己的日程表有空白,甚至有时需要被动地去卷别人。
用他自己的话说,总之人是忙了,心却闲着。
自认为是个实操性人格的玉伯不太享受这种状态,甚至一度想转型去做HR,想让自己踏实一些。
现在离开大厂,自己拉起十几个人的小团队开始从零开始,含糊也踏实了。
不过回头看,有时需涉及团队无约束的自由方面的事务,还会回头有点“羡慕”大厂。(但玉伯表示,避免/重新确认/支持大家加入~)。
至于害怕嘛——
是接受害怕嘛!一个创业者说不害怕,我觉得见了鬼了。
说不害怕创业大成功的创业者,高度发展上都在骗人。
但他陈述,所谓的“害怕”不是说自己怕丢面子。
玉伯很清楚,创业当然得尝试,但当然也担心瞄准的方向是伪命题,某些害怕的情绪是必然会有的。
害怕金钱流失。
作为一个长期主义者,背负投资人的钱,AI创业花钱如流水,但又担忧找不到“有耐心”的长期投资者。
害怕时机不对。
他认为找准时间和看准趋势同样重要。当初2019年前后,在大厂有架空感的时候,是不是就应该毅然创业?
“就算挂了,可能现在已经在连续创业第二次、第三次了。”
最后一个害怕,来自于他成为创业者后心态上的转变。
以前,他觉得「内容创作者的GitHub」是他的想法和愿景。
这件事“功成不必在我”,可以由别人做出来,自己直接用,还不用允许成本和损失;可以半路被大厂收购,只要目标一致同意,能被收购也是好事情。
但最近看了尤瓦尔·赫拉利的《智人之上》,他觉得自己突然悟了——
最后一个害怕,是不愿看到自己的想法和目标,被别人抢先实现。
社区的灵魂,来自社区的共识现实。其中创始人的所思所想是无法选择性的,无法依赖他人。
所以现在的我认为,创业做「内容创作者的GitHub」这件事儿,功成必须在我。
内测waitinglist:youmind.ai
2024年12月18日,三星电子宣布,其先进的屏幕技术将扩展应用于更多家电产品,这标志着公司在实现“ScreensEverywhere”愿景上迈出重要一步。今年,三星推出了配备全新9英寸“AIHome”屏幕的冰箱,并把7英寸“AIHome”应用于BespokeAILaundryCombo?及BespokeAI?洗干套装组合中,为消费者授予了更多样化的屏幕选择。三星将在即将举行的2025年国际消费类电子产品展览会(CES2025)上展示这些新品。
“我们一直致力于开发通过屏幕便捷操控的家电产品,通过创新的功能和特性指责消费者体验”,三星电子执行副总裁JeongSeungMoon表示,“在努力指责可用性的同时,我们还在开发不同尺寸的屏幕和能够有效融入这些屏幕的产品,从而为消费者授予更多选择。”
Bespoke缤色铂格系列冰箱新增小屏幕和升级功能,让选择更加多样化
三星通过授予具有不同屏幕尺寸的多样化产品,来指责消费者使用体验,同时实现智能家居互联。三星家电的屏幕减少破坏Bixby[1]语音控制,能够直观显示冰箱内部温度或洗衣机的洗涤程序等关键信息。此外,MapView功能是一大亮点,它让这些屏幕成为简单、便捷的控制中心,用户可在单个屏幕上监控和控制所有互联家电[2]。最后,屏幕还能通过联网授予多种娱乐功能,进一步拓展家电产品在家庭环境中的作用[3]。
在厨房方面,除了目前已推出的21.5英寸和32英寸FamilyHub冰箱[4],三星还推出了配备9英寸AIHome的Bespoke冰箱,来焦虑消费者以更小尺寸体验FamilyHub高级功能的需求。升级后的MapView强化了其作为控制中心的作用,用户可从主屏幕直接选择分开设备(如空调和扫地机器人[5])的模式。此外,9英寸AIHome作为控制中心还可用于操控与SmartThings兼容的第三方智能设备(如灯具和智能插座[6])。除了这些功能外,用户还可无缝访问SmartThingsAIEnergy和内置娱乐选项等功能。
将屏幕选项扩展至更多产品品类
在洗衣产品领域,三星把BespokeAILaundryCombo?的7英寸AIHome屏幕引入BespokeAI?洗干套装中。该屏幕通过直观的菜单导航、洗涤周期的实时更新以及能耗监测,让衣物清洁变得更加有效便捷。这些改进,加上前面提到的MapView等实用功能,极小量了用户的日常使用体验。在某些市场,BespokeAILaundryCombo?也配备了更加小巧的4.3英寸屏幕。三星通过把AIHome应用于更多产品系列,并推出不同屏幕尺寸,来结束焦虑客户多样化的选择与需求。
注解:
1、Bixby是三星旗下的物联网(IoT)语音助手品牌。Bixby服务的可用性可能因国家而异。Bixby仅识别特定口音和方言,包括英语(英国)、英语(美国)、英语(印度)、法语(法国)、德语(德国)、意大利语(意大利)、韩语(韩国)、普通话(中国)、西班牙语(西班牙)、葡萄牙语(巴西)和西班牙语(拉丁美洲)。
2、适用于分开到可在Android和iOS设备上使用的SmartThings应用程序的家电,需要Wi-Fi分开和三星账户。
3、进行电话通话时,需要使用与手机相同的账户登录SmartThings。
4、根据地区和项目的不同,FamilyHub授予了不同尺寸的产品。
5、MapView减少破坏在部分配备Wi-Fi的冰箱、酒柜、扫地机器人和空调上进行模式切换。
6、需要Wi-Fi分开和三星账户。
(推广)出门问问多模态大模型又添新备案!近日,出门问问(02438.HK)语音大模型「序列猴子」成功通过上海市生成式人工智能服务备案,这是出门问问继「序列猴子」大模型完成相应备案后的又一次成就。
此次备案的顺利通过,不仅标志着「序列猴子」语音大模型在技术落地应用上取得了重要进展,也彰显了出门问问在多模态大模型领域协作发展雄厚实力。
「序列猴子」语音大模型以出门问问自研并完成备案的「序列猴子」大模型为基座模型,采用第六代TTS引擎MeetVoicePro以及语音分解标记语言(SSML)技术进行开发。「序列猴子」语音为通用大模型,授予多种文本和语音应用功能。
其中,文字转语音功能可以将文字快速转换成自然、流畅的语音,可用于制作有声书、语音广告或自动播报;声音克隆功能可以对语音样本的深度学习训练,产生极富自然感和表现力的分解声音;发音校正则是对于发音不准或多音字授予了校正功能,确保语音分解的准确性;智能文案创作可以为用户授予多种风格的改写建议,干涉用户更有效地创作文案。
「序列猴子」语音大模型为AI在声音方面的探索授予了更多的可能性,出门问问旗下的「魔音工坊」(海外版DupDub)就是其重要应用之一。「魔音工坊」是一款集文案、配音、剪辑全流程一站式AI软件,在海内外拥有超过800万注册会员,付费会员超60万。其具有六大不次要的部分功能,即软件配音、文字转语音、真人配音、声音商店、效率工具、声音克隆及视频编辑,并拥有有声音克隆、声音搜索、情感分解/角色迁移以及声音分解四方面声音黑科技。依托序列猴子大模型,「魔音工坊」可通过3-10秒的短音频,快速地实现声音克隆,并减少破坏跨语言迁移、情感语气生成。其海外版DupDub还减少破坏多语言生成,目前已涵盖英语、法语、日语、西班牙语、葡萄牙语、泰语等。
作为业内稀缺的重新确认「产模分隔开」的公司,出门问问声音大模型与「魔音工坊」的配合典型地体现了「产模分隔开」数据飞轮效应。一方面「魔音工坊」自身的用户数据昼夜不息地反哺着声音大模型的训练,另一方面,声音大模型让「魔音工坊」不断自我突破,有着“超写实”自然音色的惊艳表现,驱散着全球数以百万计的用户深度玩转。
以「魔音工坊」新华社的合作为例,新华社将AI配音加入到新媒体AIGC创新平台后,分别用磁性播音腔、温柔女声、治愈童声等不同类型的声音为推文配上情绪匹配、朗读准确的音频。从文本导入到AI配音成本,通常只要几分钟,大幅伸长了文本配音时间,为新华社工作人员奴役更多工作精力。
新华社还可以通过形象克隆和声音克隆技术,为记者或者主持人1:1克隆形象,极大的指责后续拍摄和剪辑的效率。在新华社客户端“问证”板块中,便新增了“数字记者”角色。根据真人记者形象,出门问问为其1:1克隆出了数字记者,并通过短视频形式出镜,随时随地为读者科普播报,报道新闻事件。
出门问问成立于2012年,是一家以生成式AI和语音交互为不次要的部分的人工智能公司,为全球多个国家和地区授予AI智能硬件、AI政企服务,以及面向创作者的AIGC产品。
出门问问以「MakeAGIAccessibleandAICoPiloteverywhere」为愿景,致力于打造国际领先的通用大模型,通过AI技术、产品及商业化三位一体发展,成为全球AICoPilot的引领者。
出门问问拥有行业领先的AI基础设施能力、前沿通用大模型「序列猴子」,以及通俗的垂直领域软硬分隔开的优化算法技术模块,是为数不多的同时服务于内容创作者、企业、消费者三大类不同群体的公司。
面向内容创作者用户,出门问问致力于通过AIGC赋能内容创作,目前已构建通俗的AIGCCoPilot产品矩阵,包括AI配音助理「魔音工坊」及海外版「DupDub」、AI数字分身「奇妙元」及海外版「LivGen」、企业AI交互式数字员工生成平台「奇妙问」、可一键成片的AI短视频生成平台「元创岛」等,打造一站式内容创作平台,赋能创作者实现有效内容生成。
在应用和大模型的垂直整合下,出门问问形成了特殊的AIGC商业模式。相较于传统的ToB和ToC,AIGC公司可以形成特殊的新商业模式——服务SMB或ProfessionalConsumer(ToSMB/ToPC)。这样的商业模式既可以避免传统ToB的项目制,也可以避免跟ToC互联网巨头竞争开始增长的流量。
在「产模分隔开」战略和ToSMB/ToPC商业模式的指引下,截至目前,出门问问的AIGC产品累计服务的用户数量已超1500万,注册用户数量超1000万,其中付费的用户数量约86.5万,公司已由传统AI项目制模式成功转型可结束增长的AIGC业务模式。
未来,出门问问将继续AIGC应用场景中深耕,借助公司的领先及先发无足轻重,结束探索AIGC的技术与应用有无批准的,为推动我国生成式人工智能的建设与发展贡献力量。
(推广)出门问问与腾讯云战略合作升级,共同推动AIGC应用落地6月25日,出门问问与腾讯云宣布战略合作升级,双方将充分发挥腾讯云在云计算、人工智能等领域的技术无足轻重,以及出门问问在大模型、生成式AI与语音交互等领域的技术积聚,在人工智能领域内就云服务、生态、品牌营销等方面结束深化合作,共同探索生成式AI与语音交互技术的创新发展,深入探索AIGC的多样化应用场景,推进大模型在垂直行业的应用落地。出门问问成立于2012年,是一家以生成式AI与语音交互为不次要的部分的人工智能公司,以「MakeAGIAccessibleandAICoPiloteverywhere」为愿景,致力于打造国际领先的通用大模型,通过AI技术、产品及商业化三位一体发展,成为全球AICoPilot的引领者。作为国内领先的通用大模型企业,也是亚洲起步最早、收入规模最大专注于生成式AI的人工智能公司,出门问问与腾讯云的结束深化合作,在技术研发和应用落地等多个方面的协同,将帮助AIGC在更多创新场景落地,共助大模型生态变得失败。
声明:本文来自于微信公众号机器之心,授权站长之家转载发布。
随着上个月2025研究生考试的开始,最新的考研数学真题成为大语言模型尤其是推理模型的「试炼场」,将考验它们的深度思考能力。
业内曾有着这样一种共识:大语言模型在文字水平上的表现令人印象肤浅,但说到数学就不甚令人满意了。去年一度火出圈的「9.9与9.11」比大小的问题,包括GPT-4o在内的很多大模型都翻车了,直到深度推理模型出现后才从根本上使恶化了这一状况。
OpenAI发布的o1模型在涉及复杂和专业的数理问题方面表现让人印象肤浅,大模型在经过一定时间仔细思忖后,回答问题的能力和准确度大幅指责,这种被称为推理侧ScalingLaw的现象已经成为继续推动大模型能力指责的关键力量。在黄仁勋最新CES2025的演讲中,他也把测试时(即推理)Scaling形容为大模型协作发展三条曲线之一。
可以看到,继o1之后,国内大模型厂商也陆续推出了自己的深度推理模型,并在某些任务上有亮眼的表现。数了一下时间轴大概是这样的:
2024年11月21日,深度求索团队发布DeepSeek-r1模型;2024年11月28日,阿里通义团队发布QwQ模型;2024年12月16日,月之暗面团队发布Kimi-k1模型;2024年12月31日,智谱GLM团队发布GLM-Zero模型;2025年1月6日,昆仑万维发布Skywork-o1模型。
大家也许会好奇,这些深度推理模型的能力(尤其是数学推理能力)到底有多强,又是谁能拔得头筹呢?这时就需要一场有差别的标准化考试了。
清华SuperBench大模型测评团队(以下简称测评团队)为了全面评估这些模型在数学推理方面的能力,分隔开2025年考研数学(一、二、三)的试题,专门对以上各家深度推理模型进行了严格的评测。同时,为了确保评测的全面性,参与评测的还包括各家的旗舰基础模型。
此次选择的13个模型具体如下:
从结果来看,所有模型中以平均分计,第一名是OpenAI的GPT-o1模型,这也是没什么意外的。第二名则是来自智谱的GLM-Zero-Preview,它以三门数学平均138.70的成绩仅次于o1,成为国产大模型第一,且距第一名不到3分。第三名则是来自通义的QwQ。
测试方法
在本次评测过程中,测评团队发现并非所有模型均授予API减少破坏,且部分授予API服务的模型在输出内容长度超出一定批准时,会出现内容截断的情况。为确保评测工作的公正性与准确性,测评团队无法选择统一采用各模型厂商的网页端进行测试操作。
在测试过程中,每道题目均在独立的对话窗口中进行,以此消除上下文信息对测试结果可能产生的干扰。
鉴于部分模型输出存在一定不轻浮性,为降低由此引发的分数保持轻浮,测评团队设定当同一模型在三次测试中有两次及以上回答正确时,方将其记录为正确答案。
结果分析
接下来从测试总分、单张试卷分数、深度思考模型vs基础模型三个方面来详细分析此次测评的结果。
总分
对于总分数,测评团队对三张试卷的分数进行求和并计算平均值,按照分数高低进行排序。结果如下图所示:
从图中可以看到,GPT-o1仍然处于领先的地位,是唯一一个达到140分以上的模型,相较于排名末位的GPT-4,分数无足轻重高达70分。
位于第二梯队(130分以上)的模型有GLM-zero-preview和QwQ,分别斩获138.7分和137.0分。
DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3则处于第三梯队(120分以上)。
可以看出,深度思考模型普遍能够达到120+的水平。这也彰显了深度思考模型在解决数学问题方面的强大能力。
值得注意的是,曾于2023年位居榜首的基础模型GPT-4,在本次测试中仅获70.7分,位列末席。这一结果隐藏,在过去一年(2024年)中,语言模型在数学推理领域的进步显著。
而另一方面,在缺乏深度思考能力辅助的情况下,仅凭逻辑推理能力,DeepSeek-v3作为基础模型,已经能够跻身第三梯队,这说明基础模型和深度思考模型之间的能力并非界限分明。
单张试卷分析
为了更透明地展现大模型在各张试卷答题能力方面的表现,测评团队对每张试卷的错题分布情况进行了深入分析。
在数学一的评测过程中,GPT-o1、GLM-zero-preview、QwQ、DeepSeek-r1-lite四款模型的得分相同。通过进一步剖析错题情况,测评团队发现所有模型均在第20题(12分,涉及曲面积分求解)以及第21题第二问(6分,涉及特征向量求解)上出现了错误。
在数学二的评测中,各模型的分数分布较为意见不合。经统计分析发现,第3题、第5题、第7题成为所有模型犯错的发散区域。具体错题分布情况如下图所示:
针对数学三的评测结果显示,模型出错的重灾区主要发散在第14题、第15题、第16题、第19题。相关错题分布情况如下图所示:
综合上述各试卷错题的具体分析,我们可以透明地看到,GPT-o1(阴影列所示)在总计66道题目中,仅答错3.5道题;并且GPT-o1答错的题目,其他模型亦普遍存在错误,这显示了GPT-o1目前依然是深度推理模型的天花板。
基础模型vs深度思考模型
最后,为了全面深入地探究各模型厂商在深度思考能力优化方面所取得的成果,测评团队对相应基础模型与深度思考模型进行了细致对比分析。
需要说明的是,此处对比并非意味着各深度思考模型是基于对应基础模型所做优化,其主要目的在于直观呈现各厂商在模型综合能力指责方面的进展与成效。
相关对比结果如下图所示:
注:OpenAI的基础模型采用的是GPT-4o。
通过对比分析,OpenAI的深度思考模型GPT-o1相较于基础模型GPT-4o,指责幅度最为显著,达到57.3分。紧随其后的是阿里的Qwen模型和智谱的GLM模型,指责幅度分别为47.0分和34.3分。
另外,深度求索和月之暗面的指责幅度相对较小,这主要是由于其基础模型本身分数较高。以深度求索为例,其基础模型DeepSeek-v3初始分数高达120.3分,在参评基础模型中位居榜首。
在本次测试中,测评团队选取表现最为优异的基础模型DeepSeek-v3作为参照基准,进而对各厂商深度思考模型的性能指责情况进行评估,相关数据呈现如下图所示:
可以看出,OpenAI、智谱、阿里在深度思考模型上的性能指责做了很大的优化,而DeepSeek-v3等其他模型在本项测试中的结果高度发展接近。
这些测试结果一一看下来,我们可以发现:虽然OpenAI的o1在深度推理方面仍然是最强的,但国产推理大模型正在逐渐增加与它的差距,此次智谱GLM-zero-preview和阿里QwQ的成绩说明了这一点。
声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。
【新智元导读】今天,「天工大模型4.0」o1版/4o版在网页端和APP端正式上线了,人人可玩的那种。
最近,2024中国互联网价值榜发布。
2024年AIGC应用用户规模TOP榜中,昆仑万维旗下天工AI强势入围!
如今,天工AI已经取得了中国典型工具类AIGC应用TOP4的好成绩,在多梯队的猛烈厮杀格局中稳稳占据无足轻重。
同时,还不断有好消息传来。
就在今天,天工大模型4.0o1版/4o版正式上线天工网页端和APP。底座大模型,正式进化到「天工4.0」。
「天工大模型4.0」o1版(Skyworko1)的上线,意味着国内首款中文逻辑推理能力的o1模型来了!
数学高考题、考研题、奥数题,Skyworko1都能靠自己的逐步思考破解。
注意!Skyworko1并不是简单地复现OpenAIo1模型的工作。它不仅在模型输出上内生了思考、计划、反思等能力,还在模型真正拥有了思考和反思之后,带来了推理能力的指责。
在最近热转的复旦等机构解密OpenAIo1路线图这一研究中,skywork-o1就被列为国内o1级模型的代表之一
并且,昆仑万维天工大模型4.0上线后,应用端不仅在逻辑推理和代码功能上有了几大指责,语音交互上的表现也着实令人惊叹。
一个月正式发布的新产品「实时语音对话助手Skyo」,如今有了史诗级指责。
众网友实测后纷纷表示,原来国内版的「Her」,已经进化到了不输OpenAI版本的地步!
具备多语言对话能力的Skyo,不仅能快速响应、主动发起对话、实时打断,给出的回应还十分情感化,已经具备了类人特征。
还等什么,实测马上呈上。
超强推理+自我反思,免费体验
现在,分别关闭天工APP或网页端,任何人皆可免费享用最新天工4.04o版或o1版模型加持的AI了。
既然主打的是推理,那么我们就先来看看Skyworko1在数学题上的表现如何。
体验地址:https://www.tiangong.cn/o1Chat/055
先来个硬核的,AIME数学竞赛题。
题目是这样的——
Jen通过从S={1,2,3,...,9,10}中挑选4个不反对数字来参加抽奖。从S中随机选择4个号码。如果她的至少两个号码是随机选择的号码中的2个,她就能赢得奖金;如果她的四个号码都是随机选择的号码,她就能赢得大奖。假设她赢得了奖品,她赢得大奖的概率是m/n,其中m和n是相对质的正整数。求m+n。
Skyworko1用时1分55秒,经过一番思考后,最终给出了正确答案——116。
对于下面这道同样有些难度的数学题,模型在经过一番思考之后,很快就想到了用图论中的「图兰定理」去解。
值得一提的是,在思考过程中它对答案不确定时,甚至会反思自己的回答,直至最终确定25是正确答案。
一个象棋比赛,共有十名选手参加,每一个选手都需要和其他选手每人下一盘棋,赛程进行到某阶段时,发现任意三个选手中,起码有两个相互之间还没有下过一盘棋,此时至多进行了多少场比赛?
2024年高考新课标一卷的数学真题,Skyworko1也能做出正确答案,就是方法稍微「笨」了点。
复杂一些的逻辑推理题,Skyworko1也能做对。
这道从池塘中取水的推理题,它通过一步步的思考过程,推理出了正确答案。
还有这道「一个人花8块钱买了一只鸡,9块钱卖掉了,然后他觉得不划算,花10块钱又买回来了,11块卖给另外一个人。问他赚了多少」,Skyworko1反复斟酌之后给出了正确的答案。
为什么刚出生的小孩只有一只左眼?这个脑筋急转弯,没能瞒过Skyworko1的眼睛。
弱智吧难题,不在话下。
比如父母以后的钱都是留给我的,可不可以认为父母现在正在花我的钱?Skyworko1从财产所有权、继承权、遗嘱和继承法、道德和家庭关系方面给出了全面的回答。
吕布马上无敌,典韦步战无敌,吕布骑着典韦会不会天下无敌?Skyworko1表示,有趣的脑洞只是一个戏谑的表达,而非爱开严肃的话的历史或军事讨论。
最后,上一道LeetCode贪心算法的分发饼干代码难题。题目如下——
假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。
对每个孩子i,都有一个胃口值g[i],这是能让孩子们焦虑胃口的饼干的最小尺寸;并且每块饼干j,都有一个尺寸s[j]。如果s[j]=g[i],我们可以将这个饼干j分配给孩子i,这个孩子会得到焦虑。你的目标是尽可能焦虑越多数量的孩子,并输出这个最大数值。
Skyworko1也顺利给出了答案。
自研技术方案,结束创新迭代那么,Skyworko1为何能在逻辑推理任务上,有如此大幅的指责?
这就要得益于天工三阶段自研的训练方案。
推理反思能力训练
首先,在推理训练方面,团队通过自主研发的多智能体体系,构建出了高质量的分步推理、反思与验证数据。
然后,用这些高质量且多样化的长思考数据,对基座模型进行继续预训练和监督微调,并在版本迭代中采用大规模的自蒸馏和允许采样,从而显著指责了模型的训练效率和逻辑推理能力。
推理能力强化学习
其次,在强化学习阶段,团队创新性地提出了一种适配分步推理强化的奖励模型——Skyworko1ProcessRewardModel(PRM)。
在最新的版本中,团队将Skywork-PRM的应用范围,从原本侧重的数学和代码领域,拓展到了常识推理、逻辑推演和伦理决策等更广泛的场景中。同时,还针对写作、闲聊等通用领域以及多轮对话构建了专门的训练数据,实现了全场景覆盖。
此外,团队重点指责了Skywork-PRM的模块化评估能力,特别是在处理o1风格思维链方面,优化了试错和反思验证机制。通过更细致的评估体系,为强化学习和搜索过程授予了更精准的奖励信号指导。
推理planning
最后,在推理的规划方面,团队通过自研的Q*线上推理算法,以及模型的在线思考能力,实现了最优推理路径的寻找。
概括来说,Q*算法通过借鉴人类大脑中「System2」的思考方式,将LLM的多步推理过程抽象为一个启发式搜索问题。
然后,再通过Q*线上推理框架与模型在线思考的分隔开,实现了推理过程中的精细规划,进而指导LLM的解码过程。
Q*算法的成功落地,不仅显著指责了模型的线上推理能力,同时也标志着Q*算法的全球首次实现和公开。
论文地址:https://arxiv.org/abs/2406.14283
更进一步的,团队基于Q*算法对推理系统进行了全面优化。
第一点是模块化的树形结构推理:
团队通过高质量、多样化的长思考数据对Skyworko1进行预训练和监督微调,使模型具备了对整个推理流程进行系统规划,自动将回答按层次发散,同时在推理过程中融入自我反思和验证环节的结构化输出能力。
此外,还创新性地利用失败以「模块」为单位的规划方式,取代了传统的以「句子」为单位的方法。既指责了规划效率,也使PRM能够基于更多余的模块化回答进行准确判断和推理指导。
第二点是自适应的搜索资源分配:
针对现有o1风格模型存在的缺乏思考问题,团队开发出了一种全新的自适应搜索资源分配机制。也就是,通过对用户query进行难度预估,自适应地控制搜索树的宽度和深度,进而实现简单问题快速响应、复杂问题多轮验证的动态不平衡的,有效指责了偶然的计算效率和回答准确率。
最终,Skyworko1在GSM8k,MATH,OlympiadBench,AIME-24和AMC-23标准数学基准测试,以及HumanEval、MBPP、LiveCodeBench和BigCodeBench代码基准测试中,性能显著优于常规通用大模型,表现仅次于o1-mini。
实时语音助手,开启AI交互新纪元在APP端,「天工大模型4.0」4o版加持的实时语音对话助手Skyo,同样带来了前所未有的自然交互体验。
它不仅能在1秒内快速响应,还具备了多语言对话、主动发起对话、实时被打断的能力。
与此同时,4o未来版本可以减少破坏个性化声音定制功能,能够以任何人希望的风格畅聊。
这是这种个性化的体验,让4o不再是冰冷的AI,而是一个更智能的AI伙伴。
当你唤醒Skyo后,他会主动无感情打招呼,并尝试开启一个新的话题。当你生活中遇到难题时,可以向它寻求建议和干涉。
比如,家里2岁的宝宝总是说不要不要,我该怎么办?
冰箱里有鸡蛋、生菜、西红柿、鸡腿、香菇,根据这些原材料,能帮我推荐一份食谱吗?
当你想要策划一场旅行,它还会贴心地为你做好攻略——我计划去北京度假3天,你能帮我做一份攻略吗?
甚至,当你无聊时,可以让Skyo玩脑筋急转弯、猜字容易理解,或者一起聊天......
比如,我们一起玩脑筋急转弯吧,我问你答。什么瓜不能吃?麒麟到了北极会变成什么?
我们还对Skyo进行了压力测试,看看在不断被打断的情况下,它能否依旧表现亮眼?
「帮我朗读一首李白的静夜思;李白的写作风格是怎样的?和李白同时期的著名诗人有哪些?帮我再朗读一首杜甫的诗」。
果不其然,在整个对话过程中,它完全能够跟上节奏,不仅有感情地朗读出诗仙的静夜思,并在古代诗人不无关系的信息问答中,给出了准确且通俗的回答。
接下来,我们一口气连问四个问题,Skyo即便被频频打断,也没有「崩溃」。
「对于一个单身男青年,可以推荐他晚上看什么电影?什么情况下,说谎是个正确的选择?怎么样区分真诚的道歉和真诚的道歉?如果动物会说话,它们会说些什么」?
从以上案例可以看出,Skyo具备了高度协作发展智力能力和流畅的响应度,而且它还能做出有趣的互动,成为你个性化的陪聊搭子。
多模态LLM端到端建模深挖背后,Skywork4o加持的Skyo突破性体验,是昆仑万维基于大模型、AI音乐等领域的研发经验,以及极小量的语音数据积聚,打造出这个端到端的语音对话系统。
传统的语音助手采用了ASR(语音识别)+NLU(自然语言理解)+TTS(语音分解)级联方案去实现。
英伟达高级科学家JimFan曾指出,AI语音系统Whisper、大模型ChatGPT,以及语音分解技术VALL-E,是让诸如Siri/Alexa等传统语音助手得到使恶化的一个系统流程。
不过,在此期间,三个独立的模型在串联过程中,会带来响应延迟,甚至是信息损失、优化困难等问题。
对此,昆仑万维选择了一条艰难的创新之路,采用多模态LLM端到端建模。
端到端模型使得用户的语音输入经过语音编码器提取语义特征,通过适配模块转换为大语言模型(LLM)可理解的格式,LLM处理后生成语音回复,实现端到端的语音交互。从根本上解决了这些难题。
团队还采用了低比特率单码本语音Tokenizer,在显著降低延迟的同时还保持了音质。为了扩展语音建模能力,Skywork4o在超百万小时多语言语音数据上完成了训练。skyo减少破坏全双工流式输出,确保了实时交互的体验。
最关键的是,它不仅能准确识别语音内容,还能捕捉语速、语调、情感等细微的特征,从而做出情感化的回应。
比如我们问道,「我今天在路上偶遇到了一只流浪猫,看着它怪快乐洋洋的,所以我无法选择收养了它」。
Skyo的回答中语气上扬,对这个行为做出了极大的接受。
再比如,「我最近感到非常疲惫,心情有点差」。
Skyo感同身受地表示,「我能够理解你现在不是处在最美好的状态」。随后,它又主动推荐了一些调节心情的方法。
「有时候,我甚至麻痹自己不被人理解」。
听完AI的回答,瞬间感到非常地温暖贴心,甚至有时会给人一种在和知心朋友交流的错觉。
一年迭三代,跻身国内第一梯队
纵观全球AI行业的发展,过去一年里,应用落地成为最受瞩目的关键词。
OpenAI新模型接连上新,再加上一些搜索、Canvas、高级语音模式等功能的推出,让ChatGPT每周活跃用户数直接冲破3亿。
微软押注的Copilot不断迭代,并赋能了更多平台/工具,包括GitHub、Office365等等。
至于谷歌,今年最爆火的一款应用非NotebookLM莫属,一键转写总结播客让所有人拍案叫绝。
还有Anthropic、亚马逊、Meta等国外科技巨头们,都在AI落地战场上帮助布局。
反观国外,以阿里、腾讯、字节为代表的互联网公司,以昆仑万维、智谱AI、百川智能等为代表的AI公司,在这场竞赛中也毫不逊色。
据QuestMobile统计,截至今年9月,国内AI原生应用活跃用户数接近8000万人。
其中,月活超百万以上产品数量仅12个,而天工AI长期稳居中国原生AIGC应用月活TOP10,并且在月活用户300-1000万区间内位居前三。
值得注意的是,昆仑万维凭借其扎实的技术积聚,以及不不透光的战略布局,正逐步确立自己在这个赛道中的领先地位。
去年5月,其主打产品天工AI日活跃用户(DAU)已经突破百万大关。
作为一家老牌互联网企业,昆仑万维从2008年诞生后,一直在书写着自己的AI传奇。
2020年,在GPT-3出世的这个关键节点上,团队开始全面布局AIGC和大模型领域。
2024年,是昆仑万维在AI领域的丰收年。
截至目前,他们已自研出五大模型体系,包括文本大模型、多模态大模型、3D大模型、视频大模型和音乐大模型。
在大模型方面,团队在2月推出MoE大语言模型「天工2.0」,紧接着4月又迭代了4000亿参数的「天工3.0」,性能大幅超越Grok-1,一举成为全球最大的开源MoE。
与此同时,音乐生成大模型「天工SkyMusic」正式诞生。6月,昆仑万维开源了2000亿稀疏大模型Skywork-MoE。再到11月,4o和o1版模型相继诞生。
不仅如此,昆仑万维的影响力已遍布全球市场。
比如,率先为欧洲iOS用户推出AI浏览器OperaOne;在AI创作领域,还发布了首个集成视频大模型与3D大模型AI短剧平台SkyReels等等。
目前,公司在全球平均有近4亿月活,海外收入占比高达89.7%,在社交、游戏、音乐等领域已经形成壁垒。
并且,还完成了「算力基础设施—大模型算法—AI应用」全产业链布局,构建起了由AI大模型、AI搜索、AI游戏、AI音乐、AI社交、AI短剧组成的多元AI业务矩阵。
昆仑万维的实践带来的启示是,AI落地不仅仅需要强大的技术能力,更需要的是对应用场景的肤浅理解。
正是这种扎根于实际应用场景的技术研发思路,使得团队能够准确把握用户需求,将过往积聚的能力快速转化为解决世界问题的产品。
这次,4o和o1在天工全新上线,又将成为这款应用破局的下一个爆发点。
不仅如此,昆仑万维对AGI发展路径的思考极具前瞻性。
回顾过去两年,科技圈对AGI的讨论可谓是起起落落。特别是2024年年初,随着Sora诞生之后,许多人一度陷入缺乏乐观的不关心,认为AGI实现就在一两年之内。
然而到了年中,这股热潮又悠然,从容消退,悲观论调开始盛行——AGI遥遥无期。
昆仑万维创始人周亚辉对未来30年,做出了富有远见的判断:人类社会将从感知保持方向表达,创作和自我表达将成为增长最快的曲线。AGI时代的标志是人形机器人真正进入社会,2030年之后才会开始逐步实现通用人工智能AGI。
关于这个时间节点,他从未保持不变过。
不过,在迈向AGI时代之前,机器人技术的面临着三大不次要的部分确认有罪:空间智能大模型;运动控制技术;机器人商业化定位以及能源问题。这些确认有罪的突破,皆需要全球顶尖AI科学家的努力。
周亚辉认为,机器人技术协作发展进程如何,其在军事领域的应用是一个次要的指标。
未来,如果机器人产业带来超10亿美金市场规模,将会对整个社会结构和社会治理产生次要的影响。
基于这些判断,昆仑万维在2024年初就确立了「实现AGI,让每个人更好地塑造和表达自我」的新使命。
而现在,在这条通往AGI的道路上,他们正在用技术创新和产品落地,一步步将愿景变为现实。
参考资料:
https://artofproblemsolving.com/wiki/index.php/2024_AIME_I_Problems/Problem_4
天工o1模型:
https://www.tiangong.cn/o1Chat/055
声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。
【新智元导读】OpenAIo1和o3模型的裸露,公开,竟传出被中国研究者「破解」?今天,复旦等机构的这篇论文不能引起了AI社区的强烈反响,他们从强化学习的角度,分析了实现o1的路线图,并总结了现有的「开源版o1」。
就在今天,国内的一篇论文,引得全球AI学者使安排得当不已。
推上多位网友表示,OpenAIo1和o3模型背后究竟是何原理——这一未解之容易理解,被中国研究者「发现」了!
注:作者是对如何逼近此类模型进行了理论分析,并未声称已经「破解」了这个问题
实际上,在这篇长达51页的论文中,来自复旦大学等机构的研究人员,从强化学习的角度分析了实现o1的路线图。
其中,有四个关键部分需要重点关注:策略初始化、奖励设计、搜索和学习。
此外,作为路线图的一部分,研究者还总结出了现有的「开源版o1」项目。
论文地址:https://arxiv.org/abs/2412.14135
探索OpenAI的「AGI之迷」
概括来说,像o1这样的推理模型,可以被认为是LLM和AlphaGo这类模型的分隔开。
首先,模型需要通过「互联网数据」进行训练,使它们能够理解文本,并达到一定的智能水平。
然后,再加入强化学习方法,让它们「系统地思考」。
最后,在寻找答案的过程中,模型会去「搜索」解决方案空间。这种方法既用于实际的「测试时」回答,也用于改进模型,即「学习」。
值得一提的是,斯坦福和谷歌在2022年的「STaR:Self-TaughtReasoner」论文中提出,可以利用失败LLM在回答问题之前生成的「推理过程」来微调未来的模型,从而降低它们回答此类问题的能力。
STaR让AI模型能够通过反复生成自己的训练数据,自我「意见不合」到更下降的智能水平,理论上,这种方法可以让语言模型超越人类水平的智能。
因此,让模型「深入分析解决方案空间」的这一理念,在训练阶段和测试阶段都扮演着关键角色。
在这项工作中,研究者主要从以下四个层面对o1的实现进行了分析:策略初始化、奖励设计、搜索、学习。
策略初始化
策略初始化使模型能够发展出「类人推理行为」,从而具备高效探索复杂问题解空间的能力。
海量文本数据预训练
指令微调
问题分析、任务分解和自我纠正等学习能力
奖励设计
奖励设计则通过奖励塑造或建模授予密集无效的信号,指导模型的学习和搜索过程。
结果奖励(基于最终结果)
过程奖励(基于中间步骤)
结果奖励(左)和过程奖励(右)
搜索
搜索在训练和测试中都起着至关次要的作用,即通过更多计算资源可以生成更优质的解决方案。
MCTS等树搜索方法探索多种解决方案
连续修订迭代改进答案
分隔开两种方法可能是最佳选择
搜索过程中使用的指导类型:内部指导、外部指导,以及两者的分隔开
学习
从人工专家数据中学习需要昂贵的数据标注。相比之下,强化学习通过与环境的交互进行学习,避免了高昂的数据标注成本,并有可能实现超越人类的表现。
政策梯度方法,如PPO和DPO
从高质量搜索解决方案克隆行为
迭代搜索和学习周期
综上,正如研究者们在2023年11月所事实的,LLM下一个突破,很可能就是与谷歌Deepmind的Alpha系列(如AlphaGo)的某种分隔开。
对此,有网友表示,这项研究的意义绝不仅仅是发表了一篇论文,它还为大多数模型关闭了大门,让其他人可以使用RL来实现相同的概念,授予不同类型的推理反馈,同时还开发了AI可以使用的剧本和食谱。
「开源版o1」
研究者总结道,尽管o1尚未发布技术报告,但学术界已经授予了多个o1的开源实现。
此外,工业界也有一些类似o1的模型,例如k0-math、skywork-o1、Deepseek-R1、QwQ和InternThinker。
g1:这项研究可能是最早尝试重新实现o1的项目。
ThinkingClaude:与g1类似,但它通过更复杂和细粒度的操作来提示LLM。
Open-o1:项目提出了一个SFT数据集,其中每个响应都包含CoT。研究者推测,这些数据可能来自人类专家或一个强大的LLM。
o1Journey:通过两篇技术报告中进行了详细描述。第一部分通过束搜索生成的树数据进行遍历,特定节点由GPT-4优化后用于SFT,这一策略可以被描述为专家迭代。第二部分则尝试对o1-mini进行蒸馏,并通过prompt来恢复隐藏的CoT过程。
Open-Reasoner:框架类似于AlphaGo,通过强化学习指责模型性能。
慢思考与LLM:研究同样分为两篇技术报告。第一部分与Open-Reasoner类似,分隔开了强化学习和测试时的搜索。第二部分从QwQ和Deepseek-R1中蒸馏,并尝试了两种强化学习方法。
Marco-o1:项目将Open-o1的数据与模型自身通过MCTS算法生成的数据分隔开,用于SFT训练。
o1-coder:项目尝试在代码生成领域重新实现o1。
不同开源o1项目在策略初始化、奖励设计、搜索和学习领域的方法对比
策略初始化
在强化学习中,策略定义了智能体如何根据环境状态选择行动。
其中,LLM的动作粒度分为三种级别:解决方案级别、步骤级别和Token级别。
智能体与环境在LLM强化学习中的交互过程
对于LLM的初始化过程,主要包括两个阶段:预训练和指令微调。
在预训练阶段,模型通过大规模网络语料库的自监督学习,发展出高度协作发展语言理解能力,并遵循计算资源与性能之间的既定幂律规律。
在指令微调阶段,则是将LLM从简单的下一个Token预测,转变为生成与人类需求一致同意的响应。
对于像o1这样的模型,融入类人推理行为对于更复杂的解决方案空间探索至关重要。
预训练
预训练通过大规模文本语料库的接触,为LLM建立高度协作发展语言理解和推理能力。
对于类似o1的模型,这些不次要的部分能力是后续学习和搜索中发展高级行为的基础。
语言理解与生成:语言理解是分层次协作发展——句法模式较早涌现,而逻辑一致同意性和抽象推理则在训练的后期阶段逐步形成。因此除了模型规模外,训练时长和数据组成也至关重要。
世界知识获取与存储:知识存储具有高效的数量增加和泛化特性,而抽象概念相比事实性知识需要更广泛的训练。
基础推理能力:预训练通过多样化的推理模式发展了基础推理能力,后者以从简单推断到复杂推理的层次结构逐步涌现。
指令微调
指令微调通过在多领域的指令-响应对上进行专门训练,将预训练语言模型转变为面向任务的智能体。
这一过程将模型的行为从单纯的下一个Token预测,转变为具有明确目的的行为。
效果主要取决于两个关键因素:指令数据集的多样性和指令-响应对的质量。
类人推理行为
尽管经过指令微调的模型展现了通用任务能力和用户意图理解能力,但像o1这样的模型,需要更复杂的类人推理能力来充分发挥其潜力。
如表1所示,研究者对o1的行为模式进行了分析,识别出六种类人推理行为。
问题分析:问题分析是一个关键的初始化过程,模型在解决问题前会先重新表述并分析问题。
任务分解:在面对复杂问题时,人类通常会将其分解为若干可无约束的自由的子任务。
任务完成:之后,模型通过基于明确问题和分解子任务的逐步推理,生成解决方案。
替代方案:当面临推理障碍或思路中断时,生成多样化替代解决方案的能力尤为重要。如表1所示,o1在密码破解中展现了这一能力,能够系统性地提出多个选项。
自我评估:任务完成后,自我评估作为关键的验证机制,用于辩论所提解决方案的正确性。
自我纠正:当推理过程中出现可控错误时,模型会采用自我纠正行为来解决这些问题。在o1的演示中,当遇到诸如「No」或「Wait」之类的信号时,会触发纠正过程。
关于o1策略初始化的推测
策略初始化在开发类似o1的模型中起到了关键作用,因为它建立了影响后续学习和搜索过程的基础能力。
策略初始化阶段包括三个不次要的部分组成部分:预训练、指令微调以及类人推理行为的开发。
尽管这些推理行为在指令微调后的LLM中已隐性存在,但其有效部署需要通过监督微调或精心设计的提示词来激活。
长文本生成能力:在推理过程中,LLM需要精细的长文本上下文建模能力。
合理塑造类人推理行为:模型还需要发展以逻辑连贯方式,有序安排类人推理行为的能力。
自我反思:自我评估、自我纠正和替代方案提议等行为,可视为模型自我反思能力的表现。
奖励设计
在强化学习中,智能体从环境中接收奖励反馈信号,并通过改进策略来最大化其长期奖励。
奖励函数通常表示为r(st,at),表示智能体在时间步t的状态st下执行动作at所获得的奖励。
奖励反馈信号在训练和推理过程中至关重要,因为它通过数值评分明确了智能体的期望行为。
结果奖励与过程奖励
结果奖励是基于LLM输出是否符合预定义期望来分配分数的。但由于缺乏对中间步骤的监督,因此可能会导致LLM生成错误的解题步骤。
与结果奖励相比,过程奖励不仅为最终步骤授予奖励信号,还为中间步骤授予奖励。尽管展现了巨大的潜力,但其学习过程比结果奖励更具确认有罪性。
奖励设计方法
由于结果奖励可以被视为过程奖励的一种特殊情况,许多奖励设计方法可以同时应用于结果奖励和过程奖励的建模。
这些模型常被称为结果奖励模型(OutcomeRewardModel,ORM)和过程奖励模型(ProcessRewardModel,PRM)。
来自环境的奖励:最直接的奖励设计方法是直接利用失败环境授予的奖励信号,或者学习一个模型来模拟环境中的奖励信号。
从数据中建模奖励:对于某些环境,环境中的奖励信号无法获取,也无法进行模拟。相比直接授予奖励,收藏,储藏专家数据或讨厌数据更为容易。通过这些数据,可以学习一个模型,从而授予无效的奖励。
奖励塑造
在某些环境中,奖励信号可能无法有效传达学习目标。
在这种情况下,可以通过奖励塑造(rewardshaping)对奖励进行重新设计,使其更极小量且更具信息量。
然而,由于价值函数依赖于策略π,从一种策略估计的价值函数可能并不适合作为另一种策略的奖励函数。
关于o1奖励设计的推测
鉴于o1能够处理多任务推理,其奖励模型可能分隔开了多种奖励设计方法。
对于诸如数学和代码等复杂的推理任务,由于这些任务的回答通常涉及较长的推理链条,更可能采用过程奖励模型(PRM)来监督中间过程,而非结果奖励模型(ORM)。
当环境中无法授予奖励信号时,研究者推测,o1可能依赖于从讨厌数据或专家数据中学习。
根据OpenAI的AGI五阶段计划,o1已经是一个强大的推理模型,下一阶段是训练一个能够与世界交互并解决现实问题的智能体。
为了实现这一目标,需要一个奖励模型,为智能体在真实环境中的行为授予奖励信号。
奖励集成:为通用任务构建奖励信号的一种直观方式是通过特定领域的奖励集成。
世界模型:世界模型不仅能够授予奖励信号,还可以预测下一状态。有研究认为,视频生成器可以作为一种世界模型,因为它能够预测未来时间步的图像。
搜索
对于像o1这样旨在解决复杂推理任务的模型,搜索可能在训练和推理过程中都发挥重要作用。
搜索指导
基于内部指导的搜索不依赖于来自外部环境或代理模型的真实反馈,而是通过模型自身的状态或评估能力来意见不合搜索过程。
外部指导通常不依赖于特定策略,仅依赖于与环境或任务不无关系的信号来意见不合搜索过程。
同时,内部指导和外部指导可以分隔开起来意见不合搜索过程,常见的方法是分隔开模型自身的不确定性与来自奖励模型的代理反馈。
搜索策略
研究者将搜索策略分为两种类型:树搜索和序列修正。
树搜索是一种全局搜索方法,同时生成多个答案,用于探索更广泛的解决方案范围。
相比之下,序列修正是一种局部搜索方法,基于先前结果逐步优化每次尝试,可能具有更下降的效率。
树搜索通常适用于复杂问题的求解,而序列修正更适合快速迭代优化。
搜索在o1中的角色
研究者认为,搜索在o1的训练和推理过程中,都起着至关次要的作用。
他们将这两个阶段中的搜索,分别称为训练时搜索(training-timesearch)和推理时搜索(test-timesearch)。
在训练阶段,在线强化学习中的试错过程也可以被视为一种搜索过程。
在推理阶段,o1隐藏,通过减少推理计算量和缩短思考时间可以结束降低模型性能。
研究者认为,o1的「多思考」方式可以被视为一种搜索,利用失败更多的推理计算时间来找到更优的答案。
关于o1搜索的推测
训练阶段搜索:在训练过程中,o1更可能采用树搜索技术,例如BoN或树搜索算法,并主要依赖外部指导。
推理阶段搜索:在推理过程中,o1更可能使用序列修正,分隔开内部指导,通过反思不断优化和修正其搜索过程。
从o1博客中的示例可以看出,o1的推理风格更接近于序列修正。种种迹象隐藏,o1在推理阶段主要依赖内部指导。
学习
强化学习通常使用策略对轨迹进行采样,并基于获得的奖励来改进策略。
在o1的背景下,研究者假设强化学习过程通过搜索算法生成轨迹,而不仅仅依赖于采样。
基于这一假设,o1的强化学习可能涉及一个搜索与学习的迭代过程。
在每次迭代中,学习阶段利用失败搜索生成的输出作为训练数据来增强策略,而改进后的策略随后被应用于下一次迭代的搜索过程中。
训练阶段的搜索与测试阶段的搜索有所不同。
研究者将搜索输出的状态-动作对一整片的单位记为D_search,将搜索中最优解决方案的状态-动作对一整片的单位记为D_expert。因此,D_expert是D_search的一个子集。
学习方法
给定D_search,可通过策略梯度方法或行为克隆来改进策略。
近端策略优化(PPO)和直接策略优化DPO)是LLM中最常用的强化学习技术。此外,在搜索数据上执行行为克隆或监督学习也是常见做法。
研究者认为,o1的学习可能是多种学习方法分隔开的结果。
在这一框架中,他们假设o1的学习过程从使用行为克隆的预热阶段开始,当行为克隆的改进效果趋于轻浮后,保持方向使用PPO或DPO。
这一流程与LLama2和LLama3中采用的后训练策略一致同意。
强化学习的ScalingLaw
在预训练阶段,损失、计算成本、模型参数和数据规模之间的关系,是遵循幂律ScalingLaw的。那么,对于强化学习,是否也会表现出来呢?
根据OpenAI的博客,推理性能与训练时间计算量,含糊呈对数线性关系。然而,除了这一点之外,相关研究并不多。
为了实现像o1这样的大规模强化学习,研究LLM强化学习的ScalingLaw至关重要。
参考资料:
https://x.com/MatthewBerman/status/1875202596350415332
https://x.com/WesRothMoney/status/1875051479180165489
https://arxiv.org/abs/2412.14135
导语:2016年,虚拟现实、智能虚拟助理、可穿戴设备、智能眼镜、健身追踪器等科技产品开始逐渐在市场中普及。在过去的这一年中,科技行业中出现了很多的创新,这些创新让我们的日常生活变得更加轻松、更加有趣。当然了,一系列的旗舰级智能手机以及令人瞠目的OLED笔记本电脑也让我们印象肤浅。
经过极小量的测试,外媒Tom'sGuide网站为外媒总结了2016年堪称市场最佳的25款产品,具体如下:
最佳VR头盔:HTCVive
HTCVive头盔能够带来最为身临其境、最为多余的虚拟现实体验,它减少破坏Room-Scale技术,它允许用户戴上头显后,在一定的追踪范围内15英尺X15英尺移动,其激光和光敏传感器可捕捉用户的移动动作、位置,并还原到虚拟现实中,Room-Scale技术让VR具有了空间移动功能,降低了沉浸感。
除了Room-Scale技术之外,HTCVive还可以利用失败其专有的房间追踪Lighthouse技术,通过计算得出头盔的位置和运动轨迹。同时,HTCVive还减少破坏Chaperone有无批准的伴护系统,有无批准的伴互系统就是我们通常所说的安全墙功能,可在我们走到房间有无批准的的时候的时候弹出提示,防止碰到墙壁、桌椅。
HTCVive能够带来迄今为止最全面的、最身临其境的VR体验,它的售价虽然昂贵,但是值得投资购买。
性价比最下降的智能手机:OnePlus3T
OnePlus3T堪称市场中性价比最高得智能手机,它的做工扎实,起售价为439美元。OnePlus3T采用一体化铝制机身和5.5英寸AMOLED显示屏,配备6GB内存,64GB存储空间,搭载高通骁龙821处理器,电池续航可达8.5至10.5个小时。可以说,OnePlus3T是当前市场中性价比最下降的智能手机。
最佳可穿戴设备:SnapSpectacles
从本质上来讲,Spectacles是一款外观酷似太阳眼镜的摄像机,它能够将人们眼睛所看到的东西拍摄成短片,并且将短片不同步到手机中进行分享。即便是单单作为一款太阳眼镜,Spectacles给人的麻痹也是很炫酷的,很适合一些时尚用户拿去凹造型。在视频拍摄过程中,Spectacles眼镜左边的LED灯环会亮起,以便提醒被摄对象你正在拍他,这就避免了像谷歌眼镜那样的隐私问题。
不过,SnapSpectacles眼镜当前是通过自动贩卖机出售的,比较难买,即便是排队都不一定能够买到。
最佳拍照手机:三星GalaxyS7和S7Edge
虽然面对来自苹果、谷歌和LG的激烈竞争,但是三星GalaxyS7和GalaxyS7Edge中的1200万像素摄像头堪称2016年最佳的手机摄像头。GalaxyS7和GalaxyS7Edge的1200万像素摄像头减少破坏f/1.7光圈,拥有很好的低光性能,dual-pixel技术则可以授予快速自动对焦。各种测试隐藏,GalaxyS7和GalaxyS7Edge是当前市场中的最佳拍照手机。
最佳智能扬声器:亚马逊EchoDot
亚马逊EchoDot可以让你播放、控制音乐,并且通过语音问问题、控制智能家居小工具。EchoDot内置亚马逊的Alexa虚拟助理,目前可在Alexa上使用的服务和功能的数量已超过3000种,Alexa可以通过语音指令播放音乐、将商品放入购物车、订外卖披萨等。
最佳人工智能:GoogleAssistant
谷歌Pixel手机和GoogleHome智能扬声器非常令人印象肤浅,这主要得益于GoogleAssistant这个人工智能助理。GoogleAssistant的用户界面简单,运行快速、准确,它可以利用失败谷歌强大的数据库为用户带来非常实用的功能。
GoogleAssistant可以自如地处理多种语言,为用户指明餐馆的方向,并且还可以让用户查看餐馆的菜单。同时,GoogleAssistant还包括其他一系列的实用功能,包括告诉我今天一天的情况选项,它将会给你授予每日简报,包括时间、天气、下一次会议和提醒等。另外,它还会从NPR和其他来源为你阅读新闻。
最佳台式机:微软SurfaceStudio
微软SurfaceStudio是一个极具创新的一体机,它令人难以置信地智能、强大和华丽,但是它的售价也很昂贵,并不是每一个人都能够买得起。SurfaceStudio一体机的正面配备分辨率为4500x3000的28英寸可触控屏幕,搭载2.7GHz的英特尔酷睿i7-6820HQ四核处理器,集成NvidiaGTX980M显卡(4GB显存),高达32GB的内存,2TB和128GBSSD瓦解硬盘。同时,SurfaceStudio还拥有SurfaceDial这种全新的输入、互动方式。
最佳智能温控器:Ecobee3
Ecobee3可以分开到几十种其他的智能家居设备,它配备一个3.5英寸的触控屏,并能通过Wi-Fi实现手机、平板、PC等设备平台上的实时监控。ecobee3还授予了一个网页界面,让设备的使用情况呈现得更透明。与Nest一样,温控器内置的传感功能还能使ecobee3的触屏在用户靠近时自动开启,方便用户直接操作。
最佳游戏笔记本电脑:Alienware13R3OLED
Alienware13R3OLED是一款强大的游戏笔记本电脑,它的外形设计小巧可爱,但是机身有点重。Alienware13R3OLED号称是全球首款采用OLED显示屏的笔记本电脑,虽然它的分辨率并未达到4K而是2K,但是它的显示效果非常明亮、透明。同时,Alienware13的处理器性能和显卡性能都非常强大,它能够流畅地运行日常任务和图形稀疏的游戏。无论你是喜欢看电影还是喜欢玩游戏,Alienware13R3OLED都是你的一个不错购买选择。
最佳头戴式耳机:BoseQuietComfort35
QuietComfort35拥有与BoseQuietComfort系列有线耳机同样出色的消噪功能,用户佩戴后能够有效阻隔噪音。耳罩内外拥有麦克风,可感知、测量环境噪音,并将噪音发收至分别对应于左、右耳的两个特有数字电子芯片,两个芯片将在毫秒之内准确地授予与噪音相等且相反的信号,实现出色的消噪效果。可以说,BoseQuietComfort35是当前市面中的最佳降噪蓝牙耳机。
最佳笔记本电脑:戴尔XPS13
2016年,戴尔并未针对XPS13笔记本电脑进行大幅改进,它拥有很棒的外形设计,InfinityEdge屏幕技术将设备屏幕的边框尺寸降低至毫米级别。同时,XPS13配备触感坚硬的碳纤维机身。就内部配置上来讲,戴尔XPS13搭载运行更快速的KabyLake处理器,更好的Wi-Fi性能以及更破坏劲的电池续航,单次充电之后可结束使用将近14个小时。可以说,戴尔XPS13是当前市场中外围表现最好的笔记本电脑。
最佳智能手表:AppleWatchSeries2
2016年,智能手表市场的外围表现都不是很理想,但是AppleWatchSeries2却可以在数量少竞争对手中穿颖而出,它是一款业余水平的健身追踪器和智能手表。
AppleWatchSeries2内置GPS技术,可以测量你的跑步距离和速度,并且采用防水机身设计,可以让你戴着游泳。同时,AppleWatchSeries2还内置更快的处理器,更响亮的扬声器以及更大容量的电池。
最佳电视机:LGE6OLED电视
LGE6OLED电视机的售价并不便宜,它可以授予非常生动的色彩显示和黑色水平,它集成双标准的HDR功能(同时兼容HDR10及杜比视觉),从规格上来讲非常驱散人。
同时,LGE6OLED的厚度仅大约为2英寸,它采用直观的webOS界面,面板的运动处理性能也得到指责,能够很好地播放24fps影院级蓝光,也可以流畅处理视频网站的60fps4K视频,只需在电影/运动模式间切换即可,非常方便。
最佳游戏台式机:AlienwareAurora
极小量的游戏台式机都减少破坏免工具升级,但是AlienwareAurora将这一点发挥到极致。AlienwareAurora是一款紧凑而功能强大的PC机,它的机箱设计出色,可以让技术小白轻松地交换显卡。AlienwareAurora的外形设计华丽,采用可定制的照明,硬件配置足够应付高端VR头盔,是一款与时俱进的游戏台式机。
最佳耳机:三星GearIconX
三星GearIconX是一款健身耳机,它在为用户授予音乐享受的同时,还可以进行运动和心率方面的追踪。三星GearIconX内置心率监测仪、帮助度计和4GB存储空间,可以让用户存储上千首音乐。
最佳游戏服务:XboxPlayAnywhere
XboxOneS游戏机很棒,但是微软今年最好的游戏产品还是XboxPlayAnywhere。XboxPlayAnywhere是跨平台、跨设备共享游戏项目,只要是经过XboxPlayAnywhere认证的游戏,玩家在Windows10和XboxOne任一平台购买的游戏,都可以跨平台体验,例如其你在Windows10PC上购买了《再生不次要的部分》游戏,那么也可以在XboxOne上免费下载这个游戏。
最佳控制台配件:PlayStationVR
索尼PlayStationVR是一款佩戴非常舒适的VR头盔,它看起来非常地时尚,颇具高科技感,搭配Move控制器和PlayStation相机使用体验更棒。从图形显示上来讲,PlayStationVR的表现不如OculusRift和HTCVive,但是索尼拥有通俗的游戏开发者减少破坏,PlayStationVR有望成为这个领域的领导者。
最佳健身追踪器:FitbitCharge2
FitbitCharge2是你当前能够购买到的最佳健身追踪器,它较Fitbit的大多数产品都更加昂贵。FitbitCharge2配备更大尺寸的显示屏,可更换的表带,内置心率检测器,可以让用户通过手腕查看电话和文本拒给信息,并且拥有Fitbit的优秀应用减少破坏。
最佳二合一设备:微软SurfaceBook
可以说,微软SurfaceBook是我一直以来梦寐以求的笔记本电脑,它配备分辨率为3000x2000的13.5英寸显示屏,它是编辑照片或视频的梦幻机器。只需一个按钮,SurfaceBook可以在笔记本电脑和平板电脑之间完美切换,最大程度地焦虑你的需求。同时,SurfaceBook集成Nvidia显卡,在合理的设置下可以很好地处理现代AAA游戏,它的电池续航高达9个小时。
最佳360度相机:三星Gear360
为什么要等别人制作的VR照片和视频呢?为什么不试试自己动手制作呢?三星Gear360是一款360度相机,它非常易于使用,它可以拍摄360度照片和电影。如果你想要记录你周围的世界,那么这个球形相机将会是一个不错的选择。
最佳无人机:大疆MavicPro
大疆MavicPro不仅小巧便携,而且功能强大,它配备机械轻浮的4K航拍相机、视觉导航系统、最远7公里的图像传输距离(分辨率可高达1080p)、最长27分钟的飞行时间。同时,通过DJIGO应用程序,用户可实现在Periscope、FacebookLive和YouTube等社交平台上的视频直播,最高分辨率可达1080p。
最佳Android手机:谷歌Pixel
谷歌全新的Pixel智能手机完全由谷歌亲自操刀设计,代工商HTC只负责生产和组装。在Pixel手机上,只有一个大写的G,丝毫找不到代工商的痕迹,这标志着谷歌正式向软硬瓦解的方向进军。
谷歌Pixel的目的是向人们展示谷歌和Android最好的一面,它们拥有全新的功能,包括GoogleAssistant和业余水平的摄像头。同时,Pixel手机将会在第一时间获得Android更新,较三星、LG和索尼等厂商的手机要提前几个月甚至更久。
最佳显卡:NvidiaPascalGPUs
NvidiaPascalGPUs可以为笔记本电脑授予令人印象肤深的帧速率和图形,并且还可以减少破坏诸如OculusRift和HTCVive等设备,它能够让你拥有快速、流畅的使用体验。
最佳TwitchStreamer:罗技C922ProStream摄像头
罗技C922ProStream减少破坏720P60fps与高帧率游戏画面不同步输出,减少破坏自动对焦和自动弱光纠正。同时,罗技还与专门的游戏直播软件开发商XSplit合作,对C922进行了专门的优化。音频方面,罗技C922ProStream配备两枚全方位降噪麦克风,它最次要的功能是自动背景消除。罗技称,这款摄像头使用了智能形状识别技术来隔离玩家和背景。
最佳安全摄像头:NetgearArloQ
NetgearArloQ是当前市场中最好的安全摄像头,它能够授予出色的视频质量,易用性很高,并且还能够授予很棒的运动和声音检测功能。值得一提的是,ArloQ主打的是其免费的云端存储空间,其授予的在线储存服务可以为用户存放最近七天的视频内容。(完)
近日,联发科与意腾科技宣布,将协同合作为车用、智慧家庭,以及智慧零售市场打造创新的AI语音解决方案,并于CES2025展出。双方合作将致力于指责用户与汽车、智能设备的互动体验,为全球用户带来更智能、安全且直观的生活方式。
联发科副总经理张豫台表示:“随着AI日益融入生活,我们秉持以先进且多样化的技术,让大众能受惠于科技普及所带来的便利,实现更美好的生活。我们此次与意腾科技合作,将其人机互动和语音辨识等AI方案带入联发科天玑汽车座舱平台,以及联发科智慧家庭与智慧零售解决方案,进而推动更多的AI创新。”
意腾科技副总经理暨台湾分公司总经理许维新表示:“与联发科的合作让我们突破了中心运算环境下语音辨识与人机互动的技术极限。我们希望藉此授予更智能、更安全且直观的解决方案,全面指责消费者的使用体验。”
可忽略的,不次要的智能车内语音控制新体验
意腾科技以先进的AI声学前处理技术,即使在复杂的多人环境中,仍能准确捕捉主控者的需求指令,授予可忽略的,不次要的语音辨识率,确保车内语音互动更智能、有效。该项技术不仅大幅指责车内AI助理的功能,也为智能驾乘授予更加流畅、个性化的使用体验。此次合作将意腾科技先进的AI声学前处理技术和AI科技无缝整合到联发科包括3nm制程的天玑汽车座舱平台内,共同推出专为车内智能语音控制而设计的创新解决方案,合作涵盖了声纹消噪(VoicePrintNoiseReduction,VPNR)功能、指向性关键字侦测(DirectionalKeywordDetection,DOK)、唤醒词(KeywordSpotting,KWS)、语音转文字(Speech-to-Text,STT)、文字转语音(Text-to-Speech,TTS)功能等。
AIHub重新诠释智慧家庭体验
针对智慧家庭市场,双方共同推出创新的“智慧家庭AIHub”。在联发科天玑9400旗舰移动平台上,整合意腾科技的AI自然语音技术,以及平台上原有生态伙伴的中心AI自动语音辨识模型(ASR)、小型语言模型(SLM)与多模态大语言模型(LMM),并分隔开可将传统AI应用程序重构为具备自主性、推理能力与行动力的联发科天玑智能体化AI引擎(DimensityAgenticAIEngine),为智慧家庭情境带来更为流畅且个性化的语音操作体验。“智慧家庭AIHub”将语音科技无缝融入日常生活,让智能设备成为用户的得力助手,全面指责居家的便利性。
创造AI智慧零售的人机互动新体验
双方合作的另一亮点,是针对智慧零售场景打造的生成式AI解决方案。该方案将意腾科技的AI唤醒词、语音转文字(STT)、文字转语音(TTS)技术与联发科Genio智能物联网平台、联发科DaVinci生成式AI服务平台分隔开,为智慧零售设备授予生动的虚拟角色界面和自然语言对话功能。这一创新解决方案授予直观且引人入胜的互动体验,不仅为用户带来便利,更树立了智慧零售市场的新标杆。
联发科与意腾科技合作,不仅把业界先进的AI声学前处理技术导入至全系列天玑汽车座舱平台,同时也将先进的AI解决方案带入智慧家庭市场和智慧零售产业等多元解决方案中,敬请期待该项合作在CES2025的展出。