简介:
Niantic公司在地理空间模型领域的创新和其对未来人工智能和空间计算的影响。它强调了“空间智能”这一概念,并暗示了Niantic在这一前沿技术中的领导地位。同时,标题中的“创新”一词传达了这一技术变革的深远意义,吸引读者对文章内容产生兴趣。
在Niantic,我们正在开创大型地理空间模型的概念,该模型将使用大规模机器学习来理解场景,并将其与全球数百万其他场景连接起来。当你看到一个熟悉的结构类型时,无论是教堂、雕像还是城市广场,你都很容易想象出它从其他角度看起来会是什么样子,即使你没有从各个角度看过它。作为人类,我们有“空间理解力”,这意味着我们可以根据我们以前遇到的无数类似场景来填充这些细节。但对于机器来说,这项任务非常困难。即使是当今最先进的人工智能模型也很难可视化和推断场景中缺失的部分,或者从一个新的角度想象一个地方。这种情况即将改变:空间智能是人工智能模型的下一个前沿。
作为Niantic视觉定位系统(VPS)的一部分,我们已经训练了超过5000万个神经网络,拥有超过150万亿个参数,能够在超过100万个位置进行操作。在我们对大型地理空间模型(LGM)的愿景中,这些本地网络中的每一个都将为全球大型模型做出贡献,实现对地理位置的共享理解,并理解尚未完全扫描的地方。
LGM将使计算机不仅能够感知和理解物理空间,而且还能够以新的方式与它们进行交互,形成AR眼镜和其他领域的关键组成部分,包括机器人技术,内容创作和自主系统。随着我们从手机转向与真实的世界相连的可穿戴技术,空间智能将成为世界未来的操作系统。
大型语言模型(LLM)对我们的日常生活和多个行业产生了不可否认的影响。在互联网规模的文本集合上训练,LLM可以理解和生成书面语言,挑战我们对“智能”的理解。
大型地理空间模型将帮助计算机以同样先进的方式感知、理解和导航物理世界。与LLM类似,地理空间模型是使用大量原始数据构建的:数十亿张世界图像,都锚定在地球仪上的精确位置,被提炼成一个大型模型,可以基于位置理解空间,结构和物理交互。
从基于文本的模型到基于3D数据的模型的转变反映了近年来人工智能发展的更广泛轨迹:从理解和生成语言,到解释和创建静态和移动图像(2D视觉模型),以及随着当前研究工作的增加,对物体的3D外观建模(3D视觉模型)。
地理空间模型甚至比3D视觉模型更进一步,因为它们捕获植根于特定地理位置的3D实体,并具有度量质量。与生成未缩放资产的典型3D生成模型不同,大型地理空间模型绑定到度量空间,确保以比例度量单位进行精确估计。因此,这些实体代表下一代地图,而不是任意的3D资产。虽然3D视觉模型可能能够创建和理解3D场景,但地理空间模型理解该场景如何与世界各地数百万其他场景在地理上相关。地理空间模型实现了一种形式的地理空间智能,其中模型从先前的观察中学习,并能够将知识转移到新的位置,即使这些位置仅被部分观察到。
虽然具有3D图形的AR眼镜距离大众市场还有几年的时间,但地理空间模型有机会与纯音频或2D显示眼镜集成。这些模型可以引导用户浏览世界,回答问题,提供个性化建议,帮助导航,并增强现实世界的交互。大型语言模型可以集成,使理解和空间结合在一起,让人们有机会更多地了解和参与他们的周围环境和社区。从大型地理空间模型中产生的地理空间智能还可以生成、完成或操纵世界的3D表示,以帮助构建下一代AR体验。除了游戏之外,大型地理空间模型还将有广泛的应用,包括空间规划和设计、物流、观众参与和远程协作。
在过去的五年里,Niantic一直专注于构建我们的视觉定位系统(VPS),该系统使用来自手机的单个图像来确定其位置和方向,使用3D地图,该地图是通过人们扫描我们游戏和Scaniverse中的有趣位置而构建的。
通过VPS,用户可以以厘米级的精度定位自己。这意味着他们可以精确而逼真地看到与物理环境相对应的数字内容。这些内容是持久性的,因为它在您离开后会保留在某个位置,然后可以与其他人共享。例如,我们最近开始在Pokemon GO中推出一项实验性功能,称为Pokemon Playgrounds,用户可以将Pokemon放置在特定位置,它们将留在那里供其他人观看和互动。
Niantic的VPS是根据用户扫描构建的,从不同的角度和一天中的不同时间,在多年的许多时间,并附有定位信息,创造了对世界的高度详细的了解。这些数据是独一无二的,因为它是从行人的角度获取的,包括汽车无法到达的地方。
今天,我们在全球拥有1000万个扫描位置,其中超过100万个已激活并可用于我们的VPS服务。我们每周接收大约100万次新扫描,每次扫描包含数百张离散图像。
作为VPS的一部分,我们使用运动结构技术构建了经典的3D视觉地图,但也为每个地方构建了一种新型的神经地图。这些神经模型基于我们的研究论文ACE(2023)和ACE Zero(2024),不再使用经典的3D数据结构表示位置,而是将它们隐式地编码在神经网络的可学习参数中。这些网络可以迅速将数千张映射图像压缩成精简的神经表示。给定一个新的查询图像,它们可以提供厘米级精度的精确定位。
到目前为止,Niantic已经训练了超过5000万个神经网络,其中多个网络可以贡献给一个位置。所有这些网络组合起来包含超过150万亿个使用机器学习优化的参数。
我们目前的神经地图是一个可行的地理空间模型,现在作为Niantic VPS的一部分是活跃和可用的。当然也是“大”。然而,我们对“大型地理空间模型”的设想超出了目前独立的地方地图系统。
完全本地化的模型可能无法完全覆盖其各自的位置。无论我们在全球范围内有多少数据可用,在本地,它通常是稀疏的。局部模型的主要故障模式是无法从模型已经看到的地方进行外推。因此,局部模型只能定位与它们已经训练过的视图相似的相机视图。
LGM在全球大规模模型中提取公共信息,从而实现跨本地模型的通信和数据共享。LGM将能够内化教堂的概念,以及这些建筑物通常的结构。即使对于一个特定的位置,我们只绘制了教堂的入口,LGM也能够根据它以前见过的数千座教堂,对建筑物的背面进行智能猜测。因此,LGM允许前所未有的定位鲁棒性,即使是从VPS从未见过的视点和角度。
全球模型实现了对世界的集中理解,完全来自地理空间和视觉数据。LGM通过全局内插进行局部外推。
上述过程类似于人类感知和想象世界的方式。作为人类,我们自然会认识到我们以前见过的东西,即使是从不同的角度。例如,我们几乎不费什么力气就能沿着欧洲老城区蜿蜒的街道往回走。我们识别出了所有正确的交叉点,尽管我们只从相反的方向见过它们一次。这需要对物理世界和文化空间有一定程度的理解,这对我们来说很自然,但用经典的机器视觉技术很难实现。它需要了解一些基本的自然规律:世界是由固体物质组成的物体组成的,因此有正面和背面。外观根据一天中的时间和季节而变化。它还需要大量的文化知识:许多人造物体的形状遵循特定的对称规则或其他通用类型的布局-通常取决于地理区域。
虽然早期的计算机视觉研究试图破译其中的一些规则,以便将它们硬编码到手工制作的系统中,但现在的共识是,我们所渴望的这种高度理解只能通过大规模机器学习来实现。这就是我们的LGM的目标。我们在最近的研究论文MicKey(2024)中首次看到了令人印象深刻的相机定位功能。MicKey是一个神经网络,能够定位两个相机视图相对于彼此,即使在剧烈的视点变化。
米奇甚至可以处理对手的投篮,这需要人类付出一些努力才能弄清楚。MicKey接受了我们数据的一小部分培训-我们向学术界发布的数据,以鼓励此类研究。MicKey仅限于双视图输入,并且在相对较少的数据上进行了训练,但它仍然代表了关于LGM潜力的概念证明。显然,要实现本文所述的地理空间智能,需要大量的地理空间数据--一种许多组织无法访问的数据。因此,Niantic处于一个独特的位置,可以引领大型地理空间模型成为现实,并得到我们每周收到的100多万个用户贡献的真实世界地点扫描的支持。
LGM将不仅仅用于定位。为了解决定位问题,LGM必须将丰富的几何、外观和文化信息编码到场景级特征中。这些功能将使新的方式的场景表示,操纵和创建。像LGM这样的通用大型AI模型,对于许多下游应用都很有用,通常被称为“基础模型”。
不同类型的基础模型将相辅相成。LLM将与多模态模型交互,而多模态模型又将与LGM进行通信。这些系统一起工作,将以任何单一模型都无法单独实现的方式来理解世界。这种互联是空间计算的未来-感知,理解和作用于物理世界的智能系统。
随着我们向更具可扩展性的模型迈进,Niantic的目标仍然是领导大型地理空间模型的开发,无论我们在哪里都可以为用户提供新颖,有趣,丰富的体验。此外,除了游戏之外,大型地理空间模型还将有广泛的应用,包括空间规划和设计、物流、观众参与和远程协作。
从LLM到LGM的路径是人工智能进化的又一步。随着AR眼镜等可穿戴设备变得越来越普遍,世界未来的操作系统将取决于物理和数字现实的融合,以创建一个以人为中心的空间计算系统。本文来源于网络
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...