近日,高通用性具身智能技術(shù)研發(fā)公司「跨維智能」完成由聯(lián)想創(chuàng)投領(lǐng)投的戰(zhàn)略輪融資,融資資金將主要用于產(chǎn)品研發(fā)、團(tuán)隊(duì)擴(kuò)充和市場(chǎng)拓展等方面。
圖片來(lái)源:攝圖網(wǎng)
跨維智能成立于 2021 年 6 月,是一家以 Sim2Real 為核心,研發(fā)高通用性具身智能技術(shù)的國(guó)家高新技術(shù)企業(yè)??缇S智能憑借在 3D 生成式 AI、多模態(tài)大模型及三維成像方面的長(zhǎng)期技術(shù)積累,基于 Sim2Real 打造軟硬一體產(chǎn)品矩陣,且已在多場(chǎng)景中實(shí)現(xiàn)商業(yè)化落地,是具身智能規(guī)模化商業(yè)落地的引領(lǐng)者。
通用具身智能的發(fā)展與落地路徑
聯(lián)想集團(tuán)高級(jí)副總裁、聯(lián)想創(chuàng)投集團(tuán)總裁賀志強(qiáng)介紹:具身智能作為 AI 與物理世界交互的載體,具有高度通用性和泛化性的核心特點(diǎn)。傳統(tǒng)機(jī)器人為單一或固定任務(wù)設(shè)計(jì),泛化性較差,難以完成復(fù)雜或未知任務(wù),并且需要大量的編程、示教,部署復(fù)雜、時(shí)間成本高。而具身智能具有高通用性,可在各類(lèi)場(chǎng)景完成復(fù)雜任務(wù)。聯(lián)想創(chuàng)投作為聯(lián)想集團(tuán)旗下的全球科技產(chǎn)業(yè)基金,十年來(lái)堅(jiān)持投資 AI 機(jī)器人領(lǐng)域,不僅是基于對(duì)具身智能的信仰,也是作為聯(lián)想的 CVC 和科技瞭望塔的定位與使命。此次對(duì)跨維智能的投資,也是聯(lián)想創(chuàng)投長(zhǎng)期看好跨維智能在具身智能路徑的選擇以及商業(yè)化落地的領(lǐng)先性。
具身智能宏觀地講包含 " 具身 " 與 " 智能 " 的結(jié)合,智能是為不同具身形態(tài)的機(jī)器人 / 物理智能體服務(wù)的。這些具身形態(tài)可以包含主要應(yīng)用于非結(jié)構(gòu)化場(chǎng)景下(例如商業(yè)、家庭等)的人形機(jī)器人,也可以包含人形上肢、靈巧手,甚至是應(yīng)用于各種半結(jié)構(gòu)化場(chǎng)景下(例如工業(yè)、物流等)的傳統(tǒng)形態(tài)機(jī)械臂 / 協(xié)作臂與特種機(jī)器人,以及更廣義的無(wú)人車(chē)、無(wú)人機(jī)等。跨維智能認(rèn)為后者應(yīng)該是當(dāng)前具身智能技術(shù)發(fā)展和落地的重點(diǎn)考慮對(duì)象。為服務(wù)于不同形態(tài)的物理智能體,智能技術(shù)本身也應(yīng)該不同于以人為服務(wù)目標(biāo)的當(dāng)前的大模型技術(shù)(例如 ChatGPT、Sora 等服務(wù)于知識(shí)搜索和分享,內(nèi)容創(chuàng)作等)。
跨維智能創(chuàng)始人賈奎認(rèn)為:隨著操作對(duì)象、環(huán)境和任務(wù)復(fù)雜性逐漸增強(qiáng),通用具身智能將會(huì)經(jīng)歷 L1-L5 五個(gè)階段。從半結(jié)構(gòu)化場(chǎng)景和特定機(jī)器人形態(tài)處理特定任務(wù),逐步升級(jí)到對(duì)任意 / 未知場(chǎng)景,以自適應(yīng)的通用機(jī)器人形態(tài),完成任意任務(wù)。
具身智能學(xué)習(xí)需要海量的帶標(biāo)注數(shù)據(jù),而真正實(shí)現(xiàn)具身智能的落地,更需要海量的高精度高質(zhì)量和豐富標(biāo)注類(lèi)型的數(shù)據(jù)。不同于 LLM/VLM 等大模型的訓(xùn)練,訓(xùn)練具身智能大模型的數(shù)據(jù)是與物理智能體相關(guān)的,是在物理世界絕對(duì)坐標(biāo)系下的精確測(cè)量數(shù)據(jù),在數(shù)據(jù)獲取難度、數(shù)據(jù)獲取成本、標(biāo)注周期等因素都會(huì)存在多重掣肘,極大影響具身智能落地的周期及成本。因而通過(guò)仿真獲取合成數(shù)據(jù)成為了一個(gè)必然的選擇。
跨維智能的進(jìn)階之路:自研仿真引擎、3D 大模型、AnyGrasp
跨維智能創(chuàng)始人賈奎表示:Sim2Real 是通過(guò)物理仿真機(jī)器人操作場(chǎng)景,并引入各種與任務(wù)相關(guān)的真實(shí)世界的干擾(視覺(jué)的、物理的、任務(wù)描述的干擾,環(huán)境 distractors 等),再通過(guò)渲染、軌跡數(shù)據(jù)記錄、關(guān)節(jié)數(shù)據(jù)記錄等方式形成海量的帶絕對(duì)精確標(biāo)準(zhǔn)的合成數(shù)據(jù),用這樣的合成數(shù)據(jù)訓(xùn)練具身智能大模型。
跨維智能以 Sim2Real 為核心,持續(xù)打造底層技術(shù)核心能力。打造了獨(dú)有的 DexVerse 數(shù)據(jù)與具身智能仿真引擎,用于數(shù)據(jù)生成與大模型訓(xùn)練。該引擎基于概率建模的程序化生成仿真方案與生成式 AI 技術(shù)相結(jié)合,解決現(xiàn)有技術(shù)無(wú)法合成形式多樣的高質(zhì)量三維仿真數(shù)據(jù)資產(chǎn)、以及難以人為介入控制所導(dǎo)致生成不遵循現(xiàn)實(shí)物理約束的缺陷,實(shí)現(xiàn)高效零成本且更加真實(shí)可靠的仿真數(shù)據(jù)生成引擎,具備低成本獲取海量豐富數(shù)字資產(chǎn)的能力,為持續(xù)低成本生成數(shù)據(jù)打造了堅(jiān)實(shí)的數(shù)據(jù)資產(chǎn)基礎(chǔ)。同時(shí),結(jié)合在具身智能多模態(tài)大模型上的長(zhǎng)期積累,跨維智能打造了基于 3D VLA ( 3D Vision Language Action ) 大模型的成像感知套件,從而逐階段支撐各行業(yè)趨近實(shí)現(xiàn) AnyGrasp/AnyManipulation,而不是針對(duì)不同的操作對(duì)象進(jìn)行定制的任務(wù)編程。
聯(lián)想創(chuàng)投史晨星認(rèn)為:跨維智能擁有最優(yōu)秀的 Sim2Real 和大模型相關(guān)技術(shù),是實(shí)現(xiàn)高通用性具身智能的核心底座。目前跨維智能依托 Sim2Real 和相關(guān)技術(shù),在具身智能領(lǐng)域擁有深厚產(chǎn)品積累,已打造軟硬一體產(chǎn)品矩陣,包含基于 3D 生成式 AI 的 Sim2Real AI 引擎、基于 3D VLA 大模型的成像感知套件,并且在具身智能領(lǐng)域商業(yè)化落地處于領(lǐng)先位置。
由半結(jié)構(gòu)化啟程,邁向全場(chǎng)景非結(jié)構(gòu)化通用智能
如前所述,跨維智能優(yōu)先將技術(shù)應(yīng)用在大規(guī)模的半結(jié)構(gòu)化場(chǎng)景:如工業(yè)制造領(lǐng)域。通過(guò)賦能較為成熟的機(jī)械臂 / 機(jī)器人,在半導(dǎo)體、汽車(chē)、光伏等行業(yè)均已有較好的落地應(yīng)用,跨維方案對(duì)比傳統(tǒng)技術(shù)能有效地節(jié)省大量部署時(shí)間,降低成本,提升穩(wěn)定性及通用性,支撐柔性化生產(chǎn)。
跨維智能創(chuàng)始人賈奎透露:公司未來(lái)會(huì)根據(jù)通用性本身的技術(shù)發(fā)展軌跡,依次覆蓋從半結(jié)構(gòu)化到非結(jié)構(gòu)化場(chǎng)景。如典型的工業(yè) / 協(xié)作機(jī)械臂場(chǎng)景,逐步實(shí)現(xiàn)支撐(接近)任意物體與場(chǎng)景抓取 / 操作的具身智能成像、感知與控制系統(tǒng)、支撐在各類(lèi)機(jī)器人上快速自動(dòng)完成新任務(wù)部署的機(jī)器人控制器、能夠自主完成單輪及多輪任務(wù)的自主機(jī)器人系統(tǒng)。以上實(shí)現(xiàn)后,也將開(kāi)啟通用 / 人形機(jī)器人在包括家庭在內(nèi)的更廣泛場(chǎng)景落地的可能性。