Facebook 改名后不久,其在官方博客中概述了其在開發(fā)硬件、模擬器、庫、基準(zhǔn)測試和數(shù)據(jù)集等方面的進展,想必扎克伯格推崇的元宇宙離不開這些技術(shù)的支持。
幾天前,在 Facebook Connect 2021 線上大會中,扎克伯格正式宣布了 Facebook 的新名字——Meta。扎克伯格表示:「隨著時間的推移,我希望我們被視為一家元宇宙公司」。此處的元宇宙本質(zhì)上是一個虛擬現(xiàn)實平臺,人們可以在這個平臺上的數(shù)字環(huán)境中聚集、交流。實現(xiàn)這一愿景,當(dāng)然離不開技術(shù)的加持。
就像改名一樣始料未及,幾年前扎克伯格曾認(rèn)為 Facebook 沒有理由要進行機器人方面的研究,但現(xiàn)在機器手上的觸覺感知已經(jīng)是 Meta 一個重要的新興研究方向。
觸覺感知旨在理解和復(fù)制物理世界中人類的觸摸技能,使機器人更有效地與周圍世界互動。觸覺感知的進步將導(dǎo)致 AI 可以學(xué)習(xí)和使用自己的觸覺以及與其他感知方式(如視覺和音頻)結(jié)合使用,就像人類一樣。此外,提高機器人的觸覺將使它們更有能力,也更溫和、更安全。
就在近日,Meta 概述了其在開發(fā)硬件、模擬器、庫、基準(zhǔn)測試和數(shù)據(jù)集方面的進展。觸覺感知生態(tài)系統(tǒng)對于構(gòu)建 AI 系統(tǒng)至關(guān)重要,通過觸覺感知,AI 系統(tǒng)才具有理解和交互的功能。
具有觸覺感知的機械手可以輕松的抓取雞蛋:
左邊沒有觸覺感知的機械手把雞蛋捏碎了:
Meta 這項觸覺感知上的進步得益于 DIGIT 傳感器和一種名為 ReSkin 的觸摸感應(yīng)「皮膚」,F(xiàn)在 Meta 對這兩項技術(shù)進行了詳細(xì)的介紹。
硬件
讓 AI 能夠使用觸覺數(shù)據(jù)并從中學(xué)習(xí),首先需要能夠收集和處理這些數(shù)據(jù)的傳感器。理想情況下,觸摸感應(yīng)硬件應(yīng)該模擬人類手指的許多屬性。一方面,用于機器人指尖的傳感器應(yīng)該相對緊湊。這需要先進的小型化(miniaturization)技術(shù),這些技術(shù)的生產(chǎn)成本非常高,并且通常超出了大多數(shù)學(xué)術(shù)研究的能力范圍。另一方面,這類傳感器需要承受因反復(fù)接觸表面而造成的磨損。此外,觸摸傳感器還需要具有高分辨率,以測量有關(guān)被觸摸對象的豐富信息,例如表面特征、接觸力以及通過接觸可識別的其他對象屬性。
DIGIT
安裝在機械手上的 DIGIT 傳感器操縱玻璃彈珠。
為了提供一種專為機器人手動操作設(shè)計、易于構(gòu)建、可靠、低成本、緊湊且高分辨率的觸覺傳感器,Meta(Facebook)在 2020 年發(fā)布了 DIGIT 的完全開源設(shè)計。與目前可用的商用觸覺傳感器相比, DIGIT 的制造成本要低得多,并且提供了數(shù)十萬個接觸點,大大提升了它的研究和使用價值。
作為 Meta AI 的合作伙伴,MIT 的衍生公司 GelSight 擁有獨特的數(shù)字觸覺傳感技術(shù)和產(chǎn)品,現(xiàn)在將商業(yè)化制造 DIGIT。商用 DIGIT 將為更多研究人員提供觸摸感應(yīng)方面的便利,加快學(xué)術(shù)研究的進步。如果要制造 1000 個 DIGIT 傳感器,那么每個 DIGIT 傳感器的材料成本大約只有 15 美元,因此 Meta 的團隊預(yù)計商用版 DIGIT 的成本不會太高。
ReSkin
除了 DIGIT,Meta AI 的研究者還和卡內(nèi)基梅隆大學(xué)(CMU)合作開發(fā)了一種開源的觸摸感應(yīng)「皮膚」ReSkin,外形小巧,可以幫助機器人和其他機器在更大的表面上學(xué)習(xí)高頻觸覺。和 DIGIT 一樣,ReSkin 旨在打造一個開源、強大且成本極低的系統(tǒng),讓研究人員能夠?qū)W⒂陂_發(fā)軟件以幫助機器人感知觸覺,而不必在硬件上浪費時間。
ReSkin 本身是一塊 2 毫米厚的柔性硅膠片,其中混有磁性顆粒。每當(dāng)有東西接觸該膠片使其變形時,嵌入其中的磁性顆粒就被壓扁,磁信號發(fā)生變化,由磁力計拾取。因此,ReSkin 不必直接與磁力計相連。這使得 ReSkin 傳感器中最有可能損壞的部分變得非常容易更換,這也是 ReSkin 的優(yōu)勢所在。
ReSkin 可以幫助研究人員快速、大規(guī)模地提高他們的 AI 觸覺感應(yīng)技能。利用機器學(xué)習(xí)和磁感應(yīng)方面的進步,ReSkin 具有廉價、多功能、耐用且可替換的優(yōu)點。它采用自監(jiān)督學(xué)習(xí)算法來幫助自動校準(zhǔn)傳感器,使其具有通用性并使得傳感器和系統(tǒng)能夠共享數(shù)據(jù)。
模擬
Meta 開發(fā)并開源了 TACTO,這是一種基于視覺的高分辨率觸覺傳感器模擬器,即使在沒有硬件的情況下,也可實現(xiàn)更快的實驗平臺并支持機器學(xué)習(xí)研究。模擬器在機器人技術(shù)的原型設(shè)計、調(diào)試和基準(zhǔn)測試中發(fā)揮著重要作用,因為模擬器使我們能夠測試和驗證假設(shè),而無需在現(xiàn)實世界中進行耗時的實驗。
TACTO 能夠以每秒數(shù)百幀的速度呈現(xiàn)逼真的高分辨率觸摸讀數(shù),通過簡單設(shè)置來模擬基于視覺的觸覺傳感器,其中包括 DIGIT、OmniTact。TACTO 使研究人員能夠模擬基于視覺的觸覺傳感器,這些傳感器具有不同的形狀,可以安裝在不同的機器人上。TACTO 和 DIGIT 通過提供低成本的參考實施,使研究者能夠快速原型化多模態(tài)機器人操作策略,從而實現(xiàn)基于視覺的觸覺感知。
PyTouch
類似于 DIGIT 這樣的觸覺傳感器可以處理高維和觸覺感知數(shù)據(jù),這是傳統(tǒng)分析方法難以處理的。機器學(xué)習(xí) (ML) 模型可以簡化模型的設(shè)計和實現(xiàn),這些模型可以將原始傳感器讀數(shù)轉(zhuǎn)換為高級屬性(例如,檢測滑動和識別材料)。但是,如果沒有 ML 背景,訓(xùn)練一個模型來處理觸覺數(shù)據(jù)是極具挑戰(zhàn)性的。為了提高代碼的復(fù)用率并減少部署時間,Meta 創(chuàng)建了一個名為 PyTouch 的觸覺感應(yīng) ML 模型和功能庫。
研究人員通過 PyTouch 可以跨不同傳感器訓(xùn)練和部署模型。它目前提供了一些諸如檢測觸摸、滑動(slip)、估計物體姿態(tài)等基本功能。最終,PyTouch 將與現(xiàn)實世界的傳感器和觸覺傳感模擬器集成,以實現(xiàn)模型的快速驗證以及 Sim2Real 功能(能夠?qū)⒃谀M中訓(xùn)練的概念轉(zhuǎn)化為實際應(yīng)用。)
PyTouch 啟用了一種基于學(xué)習(xí)的方法來構(gòu)建應(yīng)用程序,這使得更多的研究者可以使用觸覺處理功能。OpenCV 、 Detectron2 等預(yù)訓(xùn)練模型庫為計算機視覺研究人員提供了最先進的技術(shù),而無需從頭開始創(chuàng)建和訓(xùn)練模型。同樣的,PyTouch 的目標(biāo)是授權(quán)更廣泛的研究社區(qū),使得在其應(yīng)用程序中使用更多的觸覺。
基準(zhǔn)和數(shù)據(jù)集
觸覺傳感器和模擬器的可用性為多個層級的指標(biāo)和基準(zhǔn)鋪平了道路。在硬件層面,現(xiàn)有的基準(zhǔn)和數(shù)據(jù)集,可以用來評估傳感器的設(shè)計選擇;在感知層面,可以使用基準(zhǔn)來比較不同的 ML 模型在不同的觸覺感知用例中的作用;在機器人控制層面,現(xiàn)在可以在模擬和現(xiàn)實世界中對主動控制任務(wù)(例如手動操作)中的觸摸進行基準(zhǔn)測試等 。盡管研究者在啟用系統(tǒng)測量方面取得了進展,但我們應(yīng)該努力定義和發(fā)布可以指導(dǎo)更廣泛社區(qū)取得更可衡量進展的指標(biāo)和基準(zhǔn),我們?nèi)匀恍枰屑?xì)調(diào)查這些不同的層級以及它們之間的相互作用。