通用人工智能AGI(Artificial General Intelligence),亦被称为强AI。AGI指的是在任何你可以想象的人类的专业领域内,具备相当于人类智慧程度的AI,一个AGI可以执行任何人类可以完成的智力任务,甚至可以说AGI是一种在大多数具有经济价值的工作上超越人类的系统,其中包括近期大热概念AIGC(人工智能生成内容),现今AI生成的文本、图片、影音频等等在某种程度上已经超越了部分由人力创造的内容。
元宇宙的概念众说纷纭,广义的元宇宙(Metaverse)指的是一个虚拟的现实世界,由数字化的环境和虚拟实体组成,可以与现实世界进行交互和融合。它包罗万象,可以通过各种设备(如智能手机、计算机、VR/AR头戴设备)来访问和体验。狭义的元宇宙则指的是特定平台或系统下的虚拟空间,如Facebook的Horizon Workrooms、Roblox、Fortnite等。这些平台提供了一种集成了社交、娱乐、商业和创造力的虚拟环境,用户可以在其中与其他人互动、探索虚拟世界、参与游戏或创建内容。
(资料图片)
虽然AGI目前来看和元宇宙一样,都是一个发展中的概念,但我认为,元宇宙体验的升级必将依靠AGI才能做得到。现如今市面上的所谓“元宇宙”只不过是一个片面的虚拟空间,从场景人物建模到虚拟人智能化等等做得都不够到位,看起来甚至有些滑稽可笑。但即便如此,这样一个虚拟世界的打造仍需投入大量成本,而这显然成为了影响元宇宙构建的关键因素。是AGI让我看到了广义元宇宙愿景实现的可能。
01 空间计算时代与元宇宙的差异及共性
近日,苹果在其年度全球开发者大会上发布了混合现实产品Vision Pro。这款产品被认为是苹果公司对于虚拟现实(VR)和增强现实(AR)技术的重要突破,被寄予了很高的期望。事实上,这的的确确是一款惊艳的产品,在发布会上,库克避而不谈“AI”“元宇宙”等大热概念,而是说“如同Mac将我们带入个人计算时代,iPhone将我们带入移动计算时代,Apple Vision Pro将带我们进入空间计算时代。”
“空间计算时代”,这个“空间”自然是指现实空间。很显然,这明显是要与“元宇宙推广大使”扎克伯格的all in的虚拟空间(及狭义元宇宙)区分开来。
这或许是出于对市场和消费者的考量,苹果可能认为元宇宙这个词已经被过度使用或滥用,导致其真正的含义变得模糊不清,因此更倾向于使用其他术语或概念来描述他们的产品和愿景;也或许是认为人们过度沉浸在虚拟世界中一定程度必将削弱与真实世界的联系和体验,这与他们的品牌理念不合。
当然,对于苹果刚刚发布的MR(混合现实)头显Vision Pro,扎克伯格是这样评价的:“这可能是未来计算的愿景,但这不是我想要的。”扎克伯格坚持Meta将致力于创建人工智能模型,与竞争对手相比,这些模型可供更多人使用,并最终符合他的元宇宙计划。
总之,无论是“空间计算时代”还是“元宇宙”,每个公司都有其独特的价值观和战略选择,这赋予了消费者更多选择的空间。然而作为一名元宇宙以及AI行业的从业人员,我认为虽然苹果避免直接将自己与元宇宙联系在一起,但其卓越的技术生态系统、前沿的增强现实技术与元宇宙存在着契合之处。
二者共同追求将虚拟和现实世界融合,为用户创造更加沉浸式、个性化和连接性强的数字体验。这种契合使得增强现实技术成为构建元宇宙的重要工具之一,为用户打开了通往数字化未来的大门。也就是说“空间计算”和广义的“元宇宙”某种程度上殊途同归——实现物理世界和数字世界的更好融合。
02 AGI实现物理世界和数字世界的更好融合
在追求物理世界和数字世界的更好融合这个过程中,必将应用到AGI去提升融合效率。还是以刚刚提到的苹果Vision Pro为例,从体验者的口中可以窥见这款眼镜的优缺点。优点自然是苹果延续了一贯的高标准黑科技,注重用户体验感等,比如,头显外部搭载“Eyesight”透视功能,通过扫描面部生成虚拟与现实交界中的3D化身;配备了12颗摄像头、5个传感器以及6个麦克风,使得空间定位更为精准等。当然也存在机器自重过重、体验空间局限、智能化程度有待提高等问题。
从其中我关注到的是,想提升这类增强现实设备的使用感受,最终实现空间计算时代,离不开AGI的帮助,也就是说,无论是在元宇宙中还是苹果推崇的空间计算时代里,凭借着纯粹的人力,根本支撑不起元宇宙中用户们的内容需求。
想要物理世界和数字世界的更好融合首先就要解决五感(视觉、听觉、嗅觉、味觉、触觉)等方面的真实性,无论是视觉内容、元宇宙智能数字人(或许也可以说是空间计算时代智能NPC)等都需要由AI作为主力去进行创造。
在视觉内容方面,在生活中,3D视觉是人类的本能,但是3D需要的设备、环境、技术等等的专业程度比之2D数据成几何级翻倍,单单依靠个人进行元宇宙3D场景的构建、人物的建模将会是巨大的工作量。依靠AI相关技术例如卷积神经网络的训练可以很好的提升3D人物场搭建效率。
同时,AI也可以为元宇宙提升互动体验,例如提升智能数字人交互能力,可以应用到一些AI技术,例如自然语言处理(NLP),使计算机能够与用户进行自然的对话和交互;强化学习(RL)训练智能体在环境中做出决策和行动,更好地培养虚拟角色或代理人,使其具有自主决策和智能行为,增强用户与虚拟环境的互动体验。类似数绽科技这样的公司就在和多个上市公司一起合作,打造逼真的AI互动角色。
03 更多AI技术的发展与崛起
随着AIGC的出现,计算机可以通过学习和模仿人类的创造力,自动生成各种丰富多样的内容,AI可以带来更智能化的互动体验、供个性化的元宇宙体验以及智能化的帮助和支持。只有应用到AI的智能化、学习能力以及工作效率才能使得元宇宙成为一个充满智能、包罗万象的虚拟空间。
AI很多相关的技术都可以初步帮助我们达成上述愿景。我最近在阅读一些AI书籍就关注到了LangChain技术。自 ChatGPT 发布以来,大型语言模型 (LLM) 广受欢迎。很多人没有足够的资金和计算资源从头开始训练自己的大语言模型,所以使用预训练的大语言模型成为了很多人的选择。
LangChain 是一个开源 Python 库,支持人们使用它来构建 LLM 支持的应用程序。它提供了工具、组件和接口,以简化与大型语言模型(LLM)和聊天模型的交互,并管理这些组件的连接。此外,LangChain还可以集成额外的资源,如API和数据库,以增强应用程序的功能。这样拥有编写代码能力的人们就可以开发属于自己的程序,包括自然语言处理、对话系统、智能助手等,十分高效灵活。这样的AI驱动产品越来越多,让更多包括公司掌握开发自己的GPT的能力。
在元宇宙中,LangChain就可以利用自己的组件比如Prompt Templates and Values(提示模板和值)将用户输入和其他动态信息转换为适合语言模型的格式,可以作为输入传递给语言模型进行处理和生成智能组件化的回应;利用Chat Message History(聊天消息历史)记住先前的聊天交互数据,并将其传递回模型,以维护上下文并提高模型对对话的理解。
除了AI驱动产品,如今文字生成视频的体验工具也步入了公众视野,Stable Diffusion和《瞬息全宇宙》背后技术公司Runway出品的AI视频编辑工具Gen2近日开放了免费试用渠道。Gen1和Gen2的发展是人工智能领域的一大进步,尤其在视频生成领域。Gen1通过引入时间层和联合训练图像和视频数据,成功将潜扩散模型扩展到视频生成领域。这使得Gen1能够生成细粒度可控的视频,并能对参考图像进行定制。此外,引入的全新引导方法也为生成结果的时间一致性提供了精确的控制。
Gen2进一步扩展了功能,直接实现了文本+参考图像生成视频、静态图片转视频、视频风格迁移等7大功能。这意味着用户可以更加灵活地利用Gen2进行视频创作和编辑。无论是根据文本和参考图像生成视频,还是将静态图片转化为动态视频,或者进行视频风格迁移,Gen2提供了更多的创作可能性和个性化选项。
总之,AI行业的发展日新月异,我在这一波波浪潮之中无数次坚定了自己的看法:无论是在元宇宙中还是苹果推崇的空间计算时代里,AGI将会提升空间计算时代(元宇宙)的体验感,其中AIGC将会是主要的生产力。AI就是虚拟以及真实的未来。
本文作者李逸群,人工智能科技公司CEO,关于通用人工智能、人工智能生成工具、应用模型训练等AI前沿领域。系福布斯中国撰稿人,发表观点仅代表个人。
标签: