来自AI中国网http://www.cnaiplus.com
导读:文|晓静编辑|萌萌8月25日,群核科技在首届技术开放日(TechDay)上发布了其最新的空间大模型成果:新一代空间语言模型 SpatialLM 1.5和空间生成模型 SpatialGen,并分享了未来的开源进度。SpatialLM 1.5是一款基于大语言模型训练的空间语言模型,支持通过对话系统 SpatialLM-Chat 实现可交互场景的端到端生成。与传统大语言模型在空间理解上的局限相比,SpatialLM 1.5 能够理 ......文|晓静
编辑|萌萌
8月25日,群核科技在首届技术开放日(TechDay)上发布了其最新的空间大模型成果:新一代空间语言模型 SpatialLM 1.5和空间生成模型 SpatialGen,并分享了未来的开源进度。
SpatialLM 1.5是一款基于大语言模型训练的空间语言模型,支持通过对话系统 SpatialLM-Chat 实现可交互场景的端到端生成。
与传统大语言模型在空间理解上的局限相比,SpatialLM 1.5 能够理解文本指令,并输出包括空间结构、物体关系与物理参数的“空间语言”。
图:空间语言模型SpatialLM1.5能力示意图
SpatialGen则是一款基于扩散模型架构的多视角图像生成模型,专注于“生成与呈现”。它可以根据文字描述、参考图像及 3D 空间布局生成具有时空一致性的多视角图像,并支持生成3D高斯(3DGS)场景和渲染漫游视频。
群核科技成立于2011年,起步于空间设计平台酷家乐。截止到2025年6月30日,酷家乐平台已积累数亿级3D模型与结构化室内场景数据。有了这些数据积累,SpatialLM 构建了一个全新的包含 3D 结构化信息的合成点云数据集,覆盖超1.2万场景、5.4万个房间,数据规模远超现有数据集,如 ScanNet(1,513 个场景)。
群核科技控股实体Manycore Tech Inc. 于8月22日更新了港交所招股书,继续推进主板上市。最新财报显示,2025年上半年,群核科技实现约4亿元人民币营收,毛利率为82.1%,经调整净利润1783万元,净利率4.5%。若成功上市,群核科技将成为杭州“六小龙”中首家完成IPO的公司。
群核科技首席科学家周子寒,在发布会上进一步解读了空间智能的技术路径。当前,空间智能被视为AI迈向物理世界的重要突破,但这一领域仍处于早期阶段。现有的世界模型主要分为两大路线:基于2D图像序列的视频生成模型(如Sora),受限于空间一致性问题;以及基于3D场景还原的世界模型(如李飞飞的World Labs),面临3D数据稀缺和视角局限性。
在现场,周子寒也对科技新闻表示,SpatialLM的主要竞争对手为通用大模型,如GPT、通义千问等,而SpatialGen 的竞争对手则是3D场景世界模型。群核科技还强调了其“空间语言”概念,提出通过 X、Y、Z 坐标和物理参数精确描述空间中物体位置和属性,从而解决传统大语言模型在空间理解中的缺陷。在现场演示中, SpatialLM 能够成功规划空间布局并完成复杂空间推理任务,在空间理解上效果超越了GPT-5。
发布会结束后,群核科技与少数科技媒体深入交流了关于模型路线、开源节奏、商业落地场景等话题。
图:群核科技首席科学家 周子寒
以下为问答实录(有删减):
一、专注空间理解而非多模态融合Q1:空间语言模型相比市面上的多模态语言模型有什么特点?大语言模型在其中起什么作用?
周子寒:这个问题很有意思,需要先介绍一下背景。我们为什么叫空间语言模型,以及它与VLM、LLM的区别。
VLM是视觉语言模型,主要将图像识别理解能力与大语言模型连接。从技术角度讲,大语言模型基于Token进行计算,视觉语言模型通过将图像切成网格状的多个token实现,比如256×256的图像切成16×16的token,即256个token,然后将这些Token与文字token对齐。
多模态大语言模型是对语言模型更通用的描述,多模态不限于语言文本,还包括图像、视频、点云、语音等。它们的共同特点是,无论什么模态,都会将其转化成类似文本的token进行融入。
空间语言模型本质上就是一个语言模型,不像视觉语言模型引入了另外模态,它使用的语言叫做空间语言。就像GPT可以说中文、英文、法文等,我们希望它在已会100种语言基础上学会第101种语言空间语言。空间语言是以数字文本方式描述场景的语言。
目前的大模型,比如GPT5,不需要真正的视觉内容也可以进行问答,但能力很基础,需要很多引导,就像没学过这种语言的人一样。在我们看来,这是对大语言模型的拓展,并不是要加入另外的模态。
Q2:今天发布会上提到了视频生成模型、通用大模型、SpatialLM和SpatialGen未来的主要竞争对手是哪类模型?主要在哪些场景上拓展?
周子寒:这个问题很有意思。首先,SpatialLM主要的竞争对手就是通用大模型,比如GPT或通义千问等任何通用大模型。对他们来说,从原理上讲也可以做到类似的事情,只是没有我们做得好,因为他们更关注数学推理等其他方面,在空间这块比较缺失。我们相信有先发优势,也有很好的数据和工具帮助我们做得更好,这块对通用大模型来说体系没有我们完整。
未来演进路线有很多种可能性,我们持开放态度。如果我们可以将空间语言整个体系做得非常完善,也许它可以和其他开放模型融合成一个模型,未来通义就天生支持这种空间语言,对开源来说未必不是好事。
对于SpatialGen而言,主要竞争对手是世界模型。世界模型有两个流派,一个基于视频,另一个基于3D场景,后者跟我们相似度更高。我们都希望在不同相机、不同位置创建可以漫游且保持空间一致性的场景目标。大家的技术路线目前还是百花齐放,由于业务驱动力方向不同,技术路线也有所不同。
Q3:SpatialLM和SpatialGen是什么时候开始训练的?是从头训练还是基于开源模型?训练过程中遇到哪些问题?
周子寒:SpatialLM是基于Qwen3底模进行训练的。我们的目标是让大语言模型在掌握了100种语言后,再学会第101种语言,因此我们选择在现有语言底模的基础上进行训练。训练过程中,模型会重点关注空间语言的语料,其技术路线与当前的大语言模型训练方法相似。
SpatialGen则是基于扩散模型进行训练的。它使用的数据通过我们的渲染引擎在多种场景中生成了不同视角的图像,随后这些图像被用来进一步训练模型。我们在PPT中也展示了相关数据。
Q4:关于3D高斯生成技术,目前是否还是利用scaling law的方法?未来在多视角一致性问题上是否有新的想法?
周子寒:目前的图像生成和多视角生成模型主要依赖于图像训练,能够呈现较好的空间一致性,尤其得益于我们在室内空间数据上的优势,能高效获取大量不同视角的图片进行训练。随着训练的深入,未来模型的空间一致性会不断提升。
与视频模型不同,我们一开始就没有将其局限于时间轴,而是让模型在空间中自由跳跃。这种方式在AIGC工作流中进行灵活运镜时,比纯视频模型更为便捷。虽然这是一种新视角,但并不代表全新的技术路线。
在多轮迭代后,空间一致性可能会受到影响,尽管我们相信随着模型规模的扩大,性能会越来越好,但这个问题无法完全消除。
我们也在探索从文本直接生成 3D高斯或 3D表征,跳过中间的多视角图像。当前,这种方式在视觉效果和空间一致性之间有取舍。直接从文本生成 3D 时,视觉效果稍逊于使用图像中介,但这两条技术路线未来都可能迎来突破。
二、数据训练依赖业务闭环而非单纯存量数据Q5:空间语言是数字文本方式,它和自然语言之间是怎样转化连通的?如果训练时使用空间语言,数据量是否受限制?
周子寒:先回答第一个问题,空间语言和自然语言的区别。
空间语言用英文字母和数字描述空间场景的3D信息,从历史上讲有悠久来源,就是计算机辅助设计领域。计算机辅助设计从一开始就通过几何的点、线、面再到更复杂物体进行建模,进行空间创作。当然CAD是工具,要基于人的操作。它用几何语言加参数创建空间,今天的SpatialLM极大受到了CAD语言影响。
当设计师用CAD软件时,每个操作背后都是计算机指令,跟今天你们看到的空间语言指令没太大区别,所以背后有很强的历史基础,不是我们新创造的。
第二个问题,空间语言的训练素材来自平台上沉淀的3D场景,显然不可能是无限的,我们也没指望一直将它作为唯一数据来源。我相信只要搭建一个可反馈、自己运转的系统,我们希望它能很快脱离任何存量数据,不光是群核的。我们希望存量数据教会它基础能力,会增删改的基础操作,有一定空间感,剩下的事情让它自己慢慢探索。
Q6:如果脱离了群核的数据库,空间语言模型是否还能成立?兼容性如何考量?
周子寒:这是很好的问题。我们在设计时,刻意让资产库与模型本身解耦,可以让这个模型对接任何资产库。
这个解耦可以从多个维度理解。首先,搜索资产库可以通过function call或MCP,理论上可以调用任何搜索引擎。其次,搜索内容也是用纯文本形式描述的,在对接任何别的资产库,哪怕是公开的物体资产库时都可以直接对接,最终对接效果取决于多方面,比如资产库本身的物体多样性。
这个东西跟群核自己的资产库没有任何特定绑定关系,这是为什么我们可以将整个系统做开源的原因。只要大家用任何资产库都可以同样使用,如果实在没有,也可以用其他方式进行实时生成,让SpatialLM生成物体描述再加上大小,这在未来都是可以实现的。
Q7:能否详细展开群核数据积累的优势?从数据积累与数据合成角度来看有什么特点?
周子寒:确实如此。大家对三维视觉有所了解的话,我原来做的是这方面研究。与文本图像最大的不同在于数据无法通过互联网方式很快捷地得到,大家获取3D数据无非两种路径,一种是实地扫描,有些做硬件的公司,比如苹果更倾向于这样的路径。
还有一些通过写规则生成大量的,虽然数量大,但质量显然不会有真实场景的好,所以大家一直处于"两难"境界中。
群核比较特殊,它找到了第三个路径,通过家装设计的业务切入点,建造了这样一套工具到数据再到模型的闭环。
当然,这件事也是因为有多个时代机遇,群核也比较幸运,可以将这个"飞轮"搭起来,包括之前做的CAD软件和实时渲染引擎,不是一两天可以做的。当做完后再回头看,你会觉得这件事很自然,有了这些东西后可以非常快捷,相比其他玩家来说可以很低成本地生成数据,它就是时代机遇被抓住了,在一路上运气也不错,所以这个路径跟另外两种不一样,不是说想要数据就去获取,而是一种业务闭环,ROI与其他的没办法比。
三、机器人训练与虚拟环境交互或成未来核心Q8:除了空间装饰和电商场景,还有哪些新拓展场景?在定制化开发上怎么做?
周子寒:在室内空间的不同场景,除了家、电商之外,群核的工具也在不断拓展新的应用场景,比如办公场景、办公楼,我们有对应的工具,酷空间专门做商业场景,其实和家也不太一样。
在空间场所探索维度,我们从大的室内场景到小的局部,只要是室内场景,我们都在不断探索,没有给自己设定任何限制,当然探索节奏取决于具体业务效果。
首先,群核现阶段的能力优势更多在室内空间,但室内空间不只限于家庭场景,还包含商业空间、连锁空间,以及咖啡厅、工厂、办公室等各类室内空间。
从商业模式层面,我们现在的核心是大家熟悉的酷家乐室内空间设计场景,第二是从去年开始快速发展的电商,尤其是跨境电商领域的3D AI设计工具。
除此之外,还有两个部分:一是围绕机器人展开的SpatialVerse,通过合成数据训练给机器人提供训练场景、训练数据,有点像美国的Scale AI形式,只是我们生成的是独有的结构化结果,数据本身就带结构化结果,不需要人来做劳动力打标。
二是我们相信未来机器人一定在我们生活中需要极强协同的智能体。当机器人需要进入工厂完成工作时,我们首先需要完成它在工厂场景下的训练。其次,上岗前我们怎么合理安排机器人在工厂中的整体流转调度,怎么完成在工厂中的运作,是否有类似指令官的角色可以指挥这些机器人在空间中运转动作,与人协同。这需要通过打造结构化数字孪生世界去完成线上训练,再投放到线下,甚至投放后还需要指令官角色去控制和协调他们。这是群核很重要的部分,在内部称为Industrial AI。
Q9:目前机器人训练业务对公司带来的增长驱动力如何?市场增长情况怎样?未来商业化路径是什么?
周子寒:机器人是群核空间智能平台SpatialVerse的核心,通过自身能力进行物理正确的仿真数据与训练,是一种数据训练解决方案模式。机器人只是它能够面向的场景之一,还包括AIGC、视频生成公司、VR/AR等,以及具身智能公司。
从去年到今年,具身智能公司与群核在这部分的合作非常多。国内做机器人大脑训练的机器人公司都是我们的合作伙伴。这部分增长要跟随具身智能板块本身的增长。这个板块还在小步快跑阶段,所以机器人板块的收益也跟着行业在小步快跑。
Q10:具身模型的瓶颈是数据有限和场景落地,SpatialLM下一步要提升的场景是什么?
周子寒:SpatialLM的泛化性问题是未来需要重点提升的重要环节。与具身的区别在于,交互环境是在虚拟环境中完成的,不是所有交互都要在真实环境中。虚拟环境中很多AI Agent都是机器人,同样也有交互动作和泛化性问题。
对于SpatialLM,好处在于需要在虚拟世界进行交互,可以自己反思自己的行动,自己纠正自己的行动。我相信这种泛化性提升会比真实世界机器人的泛化性提升快很多倍,不需要受到实地训练约束。我持非常乐观的态度,只要将基础工作和工具,包括反思、增减物体的基础能力给到它,它就可以在环境中不断自成长。
Q11:空间大模型达到GPT-2程度,接下来的卡点会在什么方向?如果达到GPT-3或GPT-4的水平 ,会不会反哺普通通用大模型?
周子寒:这是一个很好的问题,确实很有启发性。GPT-1是首次将Transformer架构应用于语言建模,而GPT-2则将语言建模扩展为一个通用训练框架,能够支持多个任务,这也是我们SpatialLM正在做的工作通过空间语言支持各种任务,而不仅仅解决某个特定问题。
SpatialLM不仅仅是GPT-2的延续,它是基于GPT-4的模型进行训练的,类似于Qwen3,它在多种能力上表现得非常强大。当某些能力较弱时,其他能力的强大会触发有趣的“化学反应”,这在我们内部研究中发现是一个非常值得深入探讨的现象。
目前我们仍在研究阶段,但当我们有了更充分的理解后,计划通过技术报告公开这些发现。这些研究的方向与传统模型有一些不同。
关于何时能够达到GPT-3的水平,GPT-3的定义之一是它能够展现出一些新的能力,甚至是从未在训练语料中明确教过的任务,而是通过Prompt的引导自动完成。这是因为其底模本身具备这种能力。虽然在某些情况下,我们已经看到类似的输出,但要实现稳定且可控的执行,还需要更多时间去深入理解。
另外,一个更明确的路径是通过自我反思与行为调整,让模型通过线上强化学习不断生成数据,提升自身能力。这个过程看起来相对清晰,并且我们相信通过多次验证可以实现目标。
Q12:群核的空间智能大模型效果很好,是否证明我们在空间智能技术基础上已经跟世界没有差距,甚至领先了?
周子寒:在空间智能,我感觉在这波AI潮流中,中美是两个最大的玩家。我们现在的进展,从通用大语言模型方面也和美国没有明显差距,我们也处于世界领先地位。
到了空间语言和空间维度时,我相信我们也是在世界上可以引领技术路线的,这一点我很有信心。群核相比其他玩家来讲无论是在基础要素,比如数据、用户这方面都有天生的巨大优势。
来自AI中国网http://www.cnaiplus.com
本文网址: