谷歌繼續(xù)開(kāi)源新AI框架，可實(shí)現(xiàn)手機(jī)高效實(shí)時(shí)3D目標(biāo)檢測(cè)

來(lái)源：澎湃新聞

如何從2D圖像中做3D目標(biāo)檢測(cè)，對(duì)于計(jì)算機(jī)視覺(jué)研究來(lái)說(shuō)，一直是個(gè)挑戰(zhàn)。3月12日，谷歌AI在其官方博客上發(fā)布了一款名為MediaPipe Objectron的算法框架，利用這個(gè)算法框架，只要一部手機(jī)，就能實(shí)時(shí)從2D視頻里識(shí)別3D物品的位置、大小和方向。這一技術(shù)可以幫助機(jī)器人，自動(dòng)駕駛汽車，圖像檢索和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域?qū)崿F(xiàn)一系列的應(yīng)用。

分開(kāi)來(lái)解釋，MediaPipe是一個(gè)開(kāi)源代碼跨平臺(tái)框架，主要用于構(gòu)建處理不同形式的感知數(shù)據(jù)，而 Objectron在MediaPipe中實(shí)現(xiàn)，并能夠在移動(dòng)設(shè)備中實(shí)時(shí)計(jì)算面向?qū)ο蟮?D邊界框。

在計(jì)算機(jī)視覺(jué)領(lǐng)域里，跟蹤3D目標(biāo)是一個(gè)棘手的問(wèn)題，尤其是在有限的計(jì)算資源上，例如，智能手機(jī)上。由于缺乏數(shù)據(jù)，以及需要解決物體多樣的外觀和形狀時(shí)，而又僅有可2D圖像可用時(shí)，情況就會(huì)變得更加困難。

為了解決這個(gè)問(wèn)題，谷歌Objectron團(tuán)隊(duì)開(kāi)發(fā)了一套工具，可以用來(lái)在2D視頻里為對(duì)象標(biāo)注3D邊界框，而有了3D邊界框，就可以很容易地計(jì)算出物體的姿態(tài)和大小。注釋器可以在3D視圖中繪制3D邊界框，并通過(guò)查看2D視頻幀中的投影來(lái)驗(yàn)證其位置。對(duì)于靜態(tài)對(duì)象，他們只需在單個(gè)幀中注釋目標(biāo)對(duì)象即可。

為了補(bǔ)充現(xiàn)實(shí)世界的訓(xùn)練數(shù)據(jù)以提高AI模型預(yù)測(cè)的準(zhǔn)確性，該團(tuán)隊(duì)還開(kāi)發(fā)了一種名為AR Synthetic Data Generation（增強(qiáng)現(xiàn)實(shí)合成數(shù)據(jù)生成）的新穎方法。它可以將虛擬對(duì)象放置到具有AR會(huì)話數(shù)據(jù)的場(chǎng)景中，允許你利用照相機(jī)，檢測(cè)平面和估計(jì)照明，來(lái)生成目標(biāo)對(duì)象的可能的位置，以及生產(chǎn)具有與場(chǎng)景匹配的照明。這種方法可生成高質(zhì)量的合成數(shù)據(jù)，其包含的渲染對(duì)象能夠尊重場(chǎng)景的幾何形狀并無(wú)縫地適配實(shí)際背景。

網(wǎng)絡(luò)的樣本結(jié)果：左邊是帶有估計(jì)邊界框的原始2D圖像；中間是高斯分布的對(duì)象檢測(cè)；右邊是預(yù)測(cè)的分割蒙版。

通過(guò)上述兩個(gè)方法，谷歌結(jié)合了現(xiàn)實(shí)世界數(shù)據(jù)和增強(qiáng)現(xiàn)實(shí)合成數(shù)據(jù)，將檢測(cè)準(zhǔn)確度度提高了10%。

增強(qiáng)現(xiàn)實(shí)合成數(shù)據(jù)生成的一個(gè)示例：虛擬白褐色谷物盒渲染到真實(shí)場(chǎng)景中，緊鄰真實(shí)藍(lán)皮書。

準(zhǔn)確度的提升是一方面，谷歌表示，當(dāng)前版本的Objectron模型還足夠“輕巧”，可以在移動(dòng)設(shè)備上實(shí)時(shí)運(yùn)行。借助LG V60 ThinQ，三星Galaxy S20 +和Sony Xperia 1 II等手機(jī)中的Adreno 650移動(dòng)圖形芯片，它能夠每秒處理約26幀圖像，基本做到了實(shí)時(shí)檢測(cè)。接下去，谷歌團(tuán)隊(duì)表示：" 我們希望通過(guò)與更多的研究員和開(kāi)發(fā)者共享我們的解決方案，這將激發(fā)新的應(yīng)用案例和新的研究工作。我們計(jì)劃在未來(lái)將模型擴(kuò)展到更多類別，并進(jìn)一步提高設(shè)備性能。"