北京光明报2月9日报道(记者金浩天)我们可以利用人工智能(IA)技术来实现人工智能图像或机器人的应用…但是,我们可以利用人工智能技术来实现人工智能技术的发展,并为机器人提供技术支持。大脑智能的独立性或三项功能?北京致远人工智能研究所在国际自然科学研究所的公共研究进展中,提出了“可见、合理、稳定”的人工智能总体发展的新方向。这也是中国科研机构主导的独特大型模型的研究成果首次在《自然》官方期刊上发表。论文第一作者、北京驰远人工智能研究院院长、教授黄铁军北京大学的ssor指出,该研究的核心思想很简单:用统一的架构来教AI“捡龙”。 “无论是阅读文字、欣赏照片、观看视频还是生成动作,在新开发的致远鸸鹋模型的‘眼’里,一切都转化为一系列‘数字积木’。这个模型的任务是不断预测‘下一个积木’将如何出现,就像玩抒情纸牌一样。”该公司的GPT模型沿着“预测下一个单词”路线进行训练,ChatGPT于2022年推出,标志着大规模语言模型的突破。 “黄铁军团队推测‘预测下一个单词’架构不仅可以应用于语言,还可以扩展到多种模态、图像、文本和视频。在同一架构下统一训练数据的能力使得能够开发“一脑多模”的大规模多模态模型。据团队成员介绍,目前全球出现的此类模型大多采取“专用工具组合”的方式,即理解语言和图像,生成图像和视频。每个模型或工具都有独立的模型或工具来执行其功能。这种分工模型虽然目的明确,但也增加了协作成本。能否训练“多面手”使用集成架构处理各类数据并获得多种技能?研究团队的 Emu3 模型给出了肯定的答案。 Emu3就是这样一个“多面手”AI,给定一个文本描述,它可以生成具有许多细节和合理结构的图像,当你提供图像和相关问题时,你可以结合视觉信息和常识来准确理解图片问题和答案,此外,你还可以从头开始生成连续的视频片段。逐帧显示年龄,您甚至可以为每个图像添加文字描述,就像在漫画中一样。在Emu3.5的改进版本中,研究团队引入了大规模长序列视频训练,将模型从“预测下一个单词元素”扩展到“预测下一个状态”,并开始学习世界随时间演化的统计规律,探索一条通往更完整“世界模型”的可行路径。黄铁军表示,这意味着原本被多模态模型分割开来的“理解”和“生成”两类技能,现在首次在同一个简单统一的建模范式下系统地连接起来。这种“统一建模”的关键在于它的潜力超出了多模式内容生成的范围。这可以扩展到物理世界,提供对机器人操纵的可行运动序列的洞察,并且还可以解释各种复杂的数据,例如大脑信号。黄铁棍介绍,这些“预测接下来会发生什么”这个看似简单的想法包含了发展一般智力的基因。 《自然》编辑评论称,致远Emu3的成果对于构建多模态、集成、可扩展的智能系统具有重要意义。黄铁棍表示,这一结果证实了生成式人工智能技术道路的普适性,人类已经学会了如何让不同的智能出现在同一个系统内,并稳步开启了人工智能持续发展的进化之路。他说
(编辑:韩璐)