撰文 | 新皮层小组
编辑 | 吴洋洋
这一周,我们看到了越来越多的矛盾现象。
一方面,人工智能公司对生成式AI的布局都又往前进了一步。模型领域,Meta表示将推出编程AI模型Code Llama,使其Llama家族再增加一名新成员(此前已有大语言模型Llama和Llama 2)。按照传统,Meta同样会将新模型Code Llama开源。你可能已经了解了一点Meta的Llama系列模型及其开源后带给行业的影响,专门用于文字生成的Llama和Llama 2开源后,那句「闭源模型没有护城河」的说法正慢慢变成现实。接下来,你可能会看到不少小型开发生成式模型的公司寻求出售的消息。因为一大批基于更好的开源模型调优出的模型将如雨后春笋,文生图起家的Stability(没错,现有文生图模型基于的Stable Diffusion Model就是这家公司开发的)本周发布聊天机器人Stable Chat,所基于的基础模型就是Meta的Llama 2。
智能体(Agent)领域,斯坦福大学和Google研究部门联合开发的「AI小镇」项目宣布开源,对agent好奇的开发者们都可以去玩,看看这种可以自主决策的AI相较于只会聊天的AI到底有何差别。智能体是个既旧又新的概念,旧是因为最担心人类会被AI毁灭的Hinton所担心的,正是AI拆解复杂任务成多个子任务、再逐一完成各子任务的能力,他认为,人能控制AI的总目标,但难以控制其推理、拆解出来的子目标。ChatGPT刚推出不久,Hinton就表达了这种担心,所以agent并不是个新议题。不过,业内真的有公司动起来布局这种「高级AI」,并且还是OpenAI,就是个新故事了。
目前,业内可能只有GPT-4具有agent所需的推理能力,其他模型的推理能力都达不到,而GPT-4正是OpenAI开发的。本周,这个最具agent开发潜力的公司投出了它成立以来的第一笔投资,收购了一家游戏公司,这家游戏公司擅长的就是类似《我的世界》的那种具有高开放度和自由度的沙盒游戏(Sandbox Game)。这种场景最适合训练agent了。
当然,中国公司在生成式AI领域也有新进度。从华为离职才半年,稚晖君(彭志辉)就代表新公司智元科技发布了人形机器人「远征 A1」和控制系统WorkGPT,成为国内第一个由生成式AI支持的人形机器人。如此快的进度部分也要感谢开源模型,WorkGPT中语言模型就是基于开源模型调优形成的。此外,字节跳动本周也开始测试其类ChatGPT产品「豆包」「小宁」等。
好了,让我们回到开头所说的「矛盾现象」。在看到各大人工智能公司都在各自既有业务基础上又向前迈出了一步的同时,我们也看到生成式AI领域最先商业化的两个产品都遇到了市场困境。其中,ChatGPT的流量已连续两个月下降,虽然有分析师认为这是由于放暑假的缘故,毕竟之前不少ChatGPT用户实际上是用它来写作业的学生。此外,分析公司的数据显示,微软旗下的搜索引擎Bing在7月的市场份额与今年1月刚推出时并没有什么变化,用户量仍仅为Google的1%。
这些矛盾现象令不少人困扰,生成式AI到底具不具备商业价值?甚至,它是否只是个昙花一现的骗局?产生这些疑问的人有不少。不过,在商学院教材中,这个阶段其实很正常。我们所处的这个阶段,只是 「产品-市场匹配」( Product-Market Fit ,PMF) 的尴尬期,聊天机器人、搜索引擎,都不一定是最适合生成式AI的终端形态。
以下内容为新皮层团队制作,欢迎关注和来信。
Key Points
智能体(Agent)篇
斯坦福AI小镇开源
OpenAI收购游戏制作公司Global Illumination
开源篇
Stability发布聊天机器人Stable Chat
Meta将推出编程AI模型Code Llama,同样会开源
中国公司篇
稚晖君发布人形机器人「远征 A1」和控制系统WorkGPT
字节跳动测试类ChatGPT产品「豆包」「小宁」等
商业篇
ChatGPT流量连续两个月下降
Bing AI没有带动微软搜索市场增长
监管篇
斯坦福AI小镇开源
8月11日,由斯坦福大学和Google研究部门联合开发的AI项目——SmallVille(小镇)宣布开源。该项目创造了一个完全由AI居民组成的小镇,可以视为一个微型AI元宇宙。
AI小镇到底长啥样?
SmallVille的字面含义是「小镇」,该项目的首版论文于今年4月发布,8月又做了修订。这个小镇由25个AI智能体(agent)组成,这些AI是由ChatGPT支持的拥有各自不同人格、工作、愿望的单独个体。开发者为这些AI设计了小镇的物理模板,包括街道、住宅、家具陈设、公共区域,他们会根据各自的逻辑在小镇中生活,比如当它们看到早餐在燃烧时,会关掉炉子;在浴室有人时,会在外面等待;与其他智能体交谈时,还会停下来聊天。
小镇格局。
在这场AI社区实验中,智能体们具体完成了什么?
一个更为具体的场景是:一个名为Isabella的智能体计划举办一场情人节派对,并向外传播了这个信息。模拟结束时,有12个角色知道了这件事,其中7个AI「犹豫不决」,3 个AI表示「已有其他计划」,4个AI没有表露想法。这些表现和人类的表现几乎一致。
一个叫John Lin的AI的早晨是这样度过的
最终,Isabella的情人节派对顺利举办,总共5个AI参加了这场派对,原本答应来的AI也有的「放了鸽子」,理由是「太忙,没顾上」。60岁的Tom在被邀请时就拒绝了,因为相较于参加派对,他更加关心选举,拒绝Isabella的邀请时他还顺便问了问Isabella对选举的看法。
游戏业或将受重大影响
看上去,斯坦福AI小镇有点像游戏《模拟人生》的简化版,但其实很不一样。原来电子游戏中虚拟角色(NPC)的对话脚本基本都在事先就已写定,它们几乎没有后天自由发挥的空间。而斯坦福小镇中的角色对话则由大语言模型(Large Language Models, LLMs)生成,不需要事先确定。这些AI角色在拥有自主性的同时还能彼此互动,一起完成任务。
这种模式有望极大增强电子游戏中NPC的真实感,也有助于大幅降低相关的开发成本。开发者可以把更多精力放到游戏角色的策划上,而原来需要人工撰写的大量对话文案则有望逐步用AI来取代。这种模式甚至已经被用来开发简单的游戏。新皮层曾报道,今年7月,清华大学就有个名为「ChatDev」的项目,他们「雇佣」了几个AI建立了一家游戏公司,其中的AI CEO、AI工程师和AI项目经理一起合作,最终成功开发一款五子棋游戏。
参考链接:
https://github.com/joonspk-research/generative_agents
OpenAI收购游戏制作公司Global Illumination
8月16日,OpenAI宣布已收购初创公司Global Illumination,目前该公司整个团队已加入OpenAI,参与包括ChatGPT在内的核心产品的开发。
Global Illumination是什么公司?
Global Illumination成立于2021年,专注于开发与在线游戏制作相关的开源技术,团队仅有8人,来自Facebook、Instagram、YouTube、Google等公司,其中,首席执行官Thomas Dimson曾任Instagram工程总监。
目前,该公司唯一的产品是基于Web的沙盒类大型多人在线角色扮演游戏Biomes,被称为开源版《我的世界》,玩家只需要打开浏览器,就可以建造、觅食、玩小游戏以及参与更多活动。游戏使用AI技术,根据玩家的行为和喜好,生成并调整地形、植被、动物、天气等。
Biomes游戏界面
为什么收购这家公司?
这是OpenAI首次公开收购,交易的条款尚未透露。不过,OpenAI收购Global Illumination可能意在智能体(Agent)的研发。
沙盒游戏(Sandbox Game)是一种电子游戏类型,它在游戏中提供了开放式的、自由度高的世界,让玩家可以在其中自由探索、创造和互动,而不受严格的预设目标限制。这种游戏类型得名于儿童在沙箱中玩耍时的自由创造性。
这种游戏相当于为AI提供了一个开放性的训练场景,有利于收集大量人机交互数据,在完成复杂任务时帮助构建更先进的GPT。
智能体与普通聊天机器人(比如ChatGPT)的区别就在于,其具有更强的推理能力,能够将复杂任务拆解成多个小任务,然后调用相应软件、数据或者其他AI模型的API接口,逐一完成这些小任务,从而整体上完成一个复杂任务。
相较而言,目前的ChatGPT无论在拆解复杂任务,还是将为小任务生成代码去调用其他程序的能力上,都准确性不足。更强大的基础模型——比如GPT-5可能有助于解决这一问题,但仅仅基于语言训练可能不足以使其推理能力到达这一点——玩点游戏可能更有帮助。
微软此前也在积极收购游戏公司动视暴雪。
智能体(Agent)正在成为生成式AI领域的新热点
新皮层曾报道过的AI小镇(SmallVille),它由斯坦福大学和Google研究部门联合开发,以及美国人工智能初创公司Simulation用多个人工智能重拍的连续剧《南方公园》(South Park)、清华大学NLP实验室孙茂松教授带队用10多个聊天机器人开发的五子棋小游戏,都相当于将生成式AI训练成一个个可以独立决策的智能体,相互合作共同完成一项任务。
不过,这些项目中都有不少的工程师介入,并非完全交给AI去决策,也就是说它们距离真正的agent还有些距离。
沙盒游戏Biomes体验链接:
https://www.biomes.gg/
参考链接:
https://openai.com/blog/openai-acquires-global-illumination
开源篇
Stability发布聊天机器人Stable Chat
8月13日,Stability.ai在官网推出了类ChatGPT的对话式生成式AI产品——Stable Chat,基于开源大语言模型StableBeluga开发。
Stable Chat支持中文、多轮连续问答,国内可直接访问。
Stability不止有文生图模型,还有语言模型
Stability最为人熟知的就是其文生图模型Stable Diffusion,这一扩散模型是现有文生图模式的主流模式。不过最近,这家公司也在努力扩充其产品类型。
7月21日,Stability在Huggingface社区上开源了大语言模型Stable Beluga 1和Stable Beluga 2。
两个模型分别基于Meta的两代开源模型微调,其中,Stable Beluga 1基于Meta 650亿参数的一代模型Llama;Stable Beluga 2基于Meta 700亿参数的二代模型Llama 2。两代Stable Beluga使用的训练数据相同。
目前,Stable Beluga 2在Huggingface的下载量超过55万。
Stable Chat响应速度很快
大模型由于其计算速度限制常常反应速度缓慢,Stable Chat则能快速响应用户提问,1秒就能重新生成内容。
此外,基于Llama开发意味着,Llama具备的推理、数学解答、生成创意文本、文本翻译、提取摘要、知识问答等功能,Stable Chat同样具备。
参考链接:
https://www.geeky-gadgets.com/stability-ai-stable-chat-model-featured-at-defcon31/
论文地址:
https://arxiv.org/pdf/2304.03442.pdf
Meta将推出编程AI模型Code Llama,同样会开源
据The Information 8月18日消息,Meta计划推出帮助开发人员自动生成代码的开源软件,其模型名为Code Llama,基于开源大语言模型Llama 2,该模型最快将在下周发布,并计划开源。
今年5月初,Meta已在内部推出一个AI辅助代码生成模型CodeCompose,其功能与GitHub的Copilot类似。目前尚不清楚Code Llama是否与CodeCompose有关。加上之前推出的Llama和Llama 2两代大语言模型,Meta已经推出了至少3个开源模型。
中国公司篇
稚晖君发布人形机器人「远征 A1」和控制系统WorkGPT
8月18日,稚晖君的创业公司发布了第一款产品人形机器人「远征 A1」。
稚晖君是谁?
稚晖君本名彭志辉,毕业于电子科技大学,他2020年加入「华为天才少年计划」,负责华为昇腾计算产品线的全栈研发。此前,彭志辉就职于OPPO研究院AI实验室,任算法工程师。
去年12月27日,彭志辉发帖表示将离开华为,投身机器人创业项目。
「远征 A1」长这样。
今年2月27日,智元机器人关联公司上海智元新创技术有限公司成立,彭志辉参与创立。这家公司的业务时发展通用人形机器人和具身智能。公司成立三个月后便完成了第三轮融资,估值超10亿美元,成为独角兽公司。李彦宏旗下三亚百川致新私募股权投资基金、鼎晖、经纬、高榕等均有参投。
「远征A1」的硬件
远征A1是一个人形机器人,其身高175cm,重53kg,最高步速可以达到7km/h。此外,它可以承重80kg,单臂最大负载5kg,相当于可以用一只手臂举起一袋常规体积的面粉。
特斯拉的「擎天柱」长这样。
远征A1是一款面向工业制造领域的产品。目前常见的机器人,比如小米的人形机器人「CyberOne」,只有21个自由度,但远征A1全身有49个自由度,可以完成汽车生产过程中整理线束、拧螺丝、总装等任务。并且,机器人的全身可以模块化组装,比如把机械手换成螺丝刀,或者把腿变成轮式。
小米的「CyberOne」长这样——你分清楚了吗?
彭志辉称,远征A1的硬件系统基本由公司自主研发。比如功率高、不需要传感器、价格低的关节PowerFlow,它可以帮助机器人膝关节向后弯曲,从而更高效地完成任务。再比如指尖安装传感器、有12个主动自由度、5个被动自由度的机械手SkillHand。
「远征A1」的软件
「远征A1」基于的模型被称为「WorkGPT」。这是一个囊括了多个模型在内的智能体模型,其内部包括一个类似ChatGPT的语言模型、一个视觉控制模型以及其他用于本体控制、感知等在内的模型。其中,视觉控制模型为智元自研,语言模型来自对百亿参数开源模型的调优,能过为机器人提供理解任务、编排动作的能力,它相当于机器人的大脑——你可以不用告诉机器人什么是垃圾,它就能自己分辨出来。
WorkGPT不止要Chat,还要Work。
发布会上,彭志辉表示,希望将整机成本控制在20万元以内,并将以此为基础推出第一代商用产品。
除人形机器人之外,智元机器人还做什么?
EI-Brain具身智脑框架:该框架中的机器人系统被分为不同层级,包括部署在云端的超脑,部署在端侧的大脑、小脑以及脑干,其中,「大脑」负责抽象思考与多位推理,「小脑」控制运动指令生成,「脑干」负责电机控制等底层硬件。这套系统可以连接云端以实现复杂任务调度,电机控制等任务则可以在本地完成。
动作库平台:该平台用于离线轨迹优化。
未来还将搭建一个开放平台:包含整个机器人的开发套件、一些预训练大模型,以及为开发者提供资金奖励和合作机会。
参考链接:
https://mp.weixin.qq.com/s/cgfbJgl9enzGXGTb6q6FGA
字节跳动测试类ChatGPT产品「豆包」「小宁」等
8月18日,字节跳动大模型对话产品「豆包」开放测试,用户可通过网页或者下载 App体验。
「豆包」是什么?
「豆包」是字节跳动研发的大模型对话产品,具备自然语言处理、知识回答、语言翻译、文本摘要、情感分析等功能,其训练数据截至2023年。「豆包」还处于早期开发验证阶段,目前只是小范围的邀请制测试。在展示案例中,「豆包」可以生成健身计划、心理学书籍、奇幻小说开头等。
「豆包」的问答表现。
除聊天机器人「豆包」外,同一测试页面还出现了其他各种AI助手,包括「英语学习助手」「全能写作助手」「超爱聊天的小宁」等。其中「全能写作助手」主要负责生成电影评价、视频脚本、诗歌或歌词;而「小宁」则更侧重聊天。
这个路线类似于Meta,后者也曾计划推出一系列不同性格的机器人。
字节家最爱的产品矩阵。
字节跳动的大模型进程
今年2月,字节跳动已经在大模型上有所布局,聚焦语言和图像两种模态,其中语言大模型团队在今年组建,由字节搜索部门负责;图片大模型团队则由产品研发与工程架构部下属的智能创作团队负责,均向Tik Tok产品技术负责人朱文佳汇报。不过在当时,虽然技术中台有所探索,但还处于初期阶段。
今年3月,阿里达摩院AI大模型M6的前主要负责人杨红霞加入字节跳动AI lab,参与语言生成大模型的研发,向字节跳动副总裁杨震原汇报。
4月11日,飞书宣布将推出AI助手「My AI」,可以自动生成会议纪要、撰写报告、润色文本,用户还可以通过与其对话,创建日程、搜索公司内部知识库;
4月18日,字节跳动旗下的云计算平台「火山引擎」推出大模型服务平台「火山方舟」,引入百川智能、IDEA研究院、MiniMax、智谱AI等人工智能公司的大模型。
「豆包」测试链接:
https://www.doubao.com/
商业篇
ChatGPT流量连续两个月下降
据数据分析公司Similarweb披露,今年6月和7月,ChatGPT的流量连续两个月下跌,6月环比下降9.7%,7月又下降9.6%。
学生放假可能是主要原因
由于ChatGPT去年11月才推出,目前尚无去年同期数据可用来对比。Similarweb推测,流量连续下跌可能与暑假有关。之前教育服务公司Chegg曾承认,原本使用其作业辅助系统的学生正在流失,转而使用ChatGPT完成作业。随着夏季学期结束,学生用户短期内会有明显流失。6月,Chegg的流量同比下降28.3%,幅度远超ChatGPT的环比降幅(9.7%)。
根据Similarweb的统计模型,ChatGPT 28.6%的用户是18岁至24岁之间的青年人,仅次于占比33.6%的25岁至34岁年龄段。
由于Similarweb的统计仅涉及网页版ChatGPT,不涉及API调用,因此也有观点认为,随着接入其API的应用越来越多,更多访问ChatGPT的流量被API调用分流。
印度市场不降反升
7月,使用ChatGPT的主要国家中,除印度外访问量全部大跌。比如访问量最高、占ChatGPT访问总量12.85%的美国,访问量环比下降3.5%。访问量居第三第四位的日本和巴西,访问量环比分别下降8.7%和11.7%。但访问量居第二位的印度环比上升了2.1%,占ChatGPT总访问量的比重达到8.5%。
参考链接:
https://www.similarweb.com/website/chat.openai.com/#overview
https://www.similarweb.com/blog/insights/ai-news/chatgpt-schools-out/
Bing AI没有带动微软搜索市场增长
据《华尔街日报》8月18日报道,分析公司StatCounter和Similarweb最新报告显示,7月,微软旗下的搜索引擎Bing占据搜索市场的份额仅为3%,且月度用户量仅为Google的1%,这与1月搭载ChatGPT的Bing AI推出前情况基本一致。生成式AI对微软搜索引擎市场份额提升看起来没有太多帮助。
微软对分析公司的数据提出异议
微软称,第三方研究人员没有统计对Bing聊天的所有访问。
今年2月,微软在推出Bing AI时,公司高管在与分析师的电话会议上表示:「搜索市场的份额每增加1个百分点,我们的业务就有望增加20亿美元的收入。」
不过,搜索业务一直都不是微软的核心业务
虽然微软的业务主要来自Bing,但其占总收入的比例不到6%。7月末公布的2023财年第四财季业绩报告中,包括Office 365软件在内的生产力和业务流程营收同比增长10%,但被视作未来业绩增长引擎的Azure云业务增速放缓,这一轮AI热潮也没有给云业务带来显著的增长。
参考链接:
https://www.wsj.com/tech/ai/microsoft-bing-search-artificial-intelligence-google-competition-6e51ec04