AI新星
新智元原創【新智元導讀】在谷歌研究院工作是一種怎樣的體驗?新智元近日專訪瞭谷歌研究員朱夢龍,他作為谷歌團隊G-RMI的核心成員,從去年9月開始一直盤踞在COCO的物體檢測榜首。此外,他作為團隊核心成員發佈的最新研究...
新智元原創
【新智元導讀】在谷歌研究院工作是一種怎樣的體驗?新智元近日專訪瞭谷歌研究員朱夢龍,他作為谷歌團隊G-RMI的核心成員,從去年9月開始一直盤踞在COCO的物體檢測榜首。此外,他作為團隊核心成員發佈的最新研究MobileNet,通過分解降維卷積層,以及早期采用stride 2等,把計算量壓縮至VGG的1/30,讓終端模型的圖像檢測達到VGG的效果。談到在谷歌研究院的體驗,他認為就像在讀PhD,跟一群天才(包括曾經在谷歌的賈揚清)一起討論有趣的想法,以及做有意思的項目;不同的是,這些項目還能在現實中被廣泛應用。
粽情 AI,新智元祝讀者端午安康!
在這一中國傳統節日,新智元為大傢帶來對身在海外的華人 AI新星學者朱夢龍的專訪。
朱夢龍(來自其個人主頁)
在加入谷歌前,朱夢龍在賓夕法尼亞大學獲得計算機信息科學博士學位,師從Kostas Daniilidis。他本科就讀於復旦大學,於2010年獲得學士學位。目前在谷歌主要研究計算視覺和深度學習。
谷歌研究院近日發佈的用於終端設備的計算機視覺模型MobileNet引起瞭廣泛的關註,新智元聯系到瞭研究背後的華人作者朱夢龍,請他來為大傢解讀這一“要將深度學習帶到終端設備”的技術。
具體說來,該研究的方向是物體檢測,朱夢龍所在的G-RMI團隊最近在嘗試的一種方法是“通過改變速度/內存條件搭配FasterRCNN,R-FCN,SSD等算法而得到新的不同精確度的模型”。MobileNet是其中一種,在極端條件下(當速度和內存要求特別高的情況下)同時能夠以實時速度並且獲得的相對較高精確度的模型(特征提取器),該模型特別適合在移動終端中,比如在現有的手機平臺上,達到實時的效果。移動端的物體檢測,準確性的重要性毋庸置疑,因而,他們提供瞭一種在COCO物體檢測中達到超高水平的檢測器。
值得一提的是,這一工作自從2016年9月18日一直高居COCO物體檢測排行榜第一名!
COCO是2015年被提出的,它的訓練、驗證和測試集,共包含超過20萬張圖像和80個對象類別。所有對象實例都使用詳細的分割掩碼(segmentation mask)進行標註。其中訓練和驗證集的註釋(具有超過500,000個對象實例分割)是公開的。COCO物體檢測挑戰賽鼓勵團隊在兩種對象檢測挑戰(或兩者)中競爭:使用邊界框輸出或對象分割輸出。
谷歌的團隊對一些影響物體檢測的速度和精確度的主要因素進行瞭實驗性的比較。希望幫助研究者選擇適合的方法以部署物體識別應用。他們還總結瞭一些新的技術,能夠在不犧牲太多精確度的前提下提升速度。
準確度/時間,不同顏色和性質代表不同的特征提取器,每一對(元架構,特征提取器)根據不同的輸入大小和stride等不同映射到以上散點圖
居COCO物體檢測榜首至今無人破,集成5個Faster RCNN是制勝武器從2016年9月18日開始,朱夢龍所在的谷歌G-RMI團隊一直占據COCO物體檢測的榜首。
根據COCO網站上的資料,朱夢龍所在的G-RMI團隊集成瞭5個Faster R-CNN的模型,由純Tensorflow接口與可微分的ROI剪裁進行端對端的訓練,使用瞭Inception-Resnet和(stride 8)Resnet-101的組合做特征提取器的基礎。所有模型都基於train+val (minus minival)訓練,並且,他們在測試時使用瞭多剪裁推理。
Jonathan Huang, Chen Sun, Vivek Rathod, Anoop Korattikara, Alireza Fathi, Kevin Murphy, Zbigniew Wojna, Ian Fischer, Menglong Zhu, Yang Song, Sergio GuadarramaEnsemble of five Faster RCNN based models jointly trained end-to-end using a pure Tensorflow implementation with differentiable ROI cropping. We use a combination of Inception-Resnet and (stride 8) Resnet-101 base feature extractors. All models are trained on train+val (minus minival) and we use multi-crop inference at test time. COCO物體檢測榜首團隊G-RMI成員和方法介紹
這一成果的論文《Speed/accuracy trade-offs for modern convolutional objectdetectors》已於四月發佈在arxiv,同時即將在今年的CVPR發表。
論文摘要中說:“本文的目標是用於指導選擇一個物體檢測架構,為給定的應用程序和平臺實現取得的速度/內存/精度一個恰當的平衡。為此,我們研究瞭在現代卷積物體檢測系統中,用速度和內存換取精確度的各種方法。近年來有許多成功的系統,但是由於不同的基本特征提取器(例如,VGG,殘差網絡),不同的默認圖像分辨率以及不同的硬件和軟件平臺,逐一對比這些系統將非常困難。我們提出瞭一種Faster R-CNN,R-FCN和SSD的結合實現,我們將其視為“元架構”,然後通過使用各種特征提取器,在每個“元架構”改變其它的關鍵參數,例如圖像大小,從而描繪瞭速度/精確度的權衡曲線。當速度和內存要求特別高的情況下,我們提供瞭一個檢測器可達到實時速度並且可以部署到移動設備上。在準確性特別重要的情況下,我們提供瞭一種在COCO物體檢測中達到超高水平的檢測器。”
值得註意的是,目前排在第二名的微軟亞洲研究院用的並不是目前COCO上主流的R-CNN系模型,而是R-FCN,這兩種模型在COCO和PASCAL VOC上的表現都不錯。榜上25個團隊有11個用Faster RCNN,3個團隊用到R-FCN,同時我們從最前面的速度/時間散點圖看到,總的來說Faster RCNN比R-FCN的準確度似乎更高一籌。
朱夢龍他們在論文寫道:對於Faster R-CNN,較少使用建議(proposals)可以顯著加快速度,而不會造成嚴重的準確性損失,從而使其比SSD和RFCN具有競爭力。SSD的性能對於特征提取器的質量不如FasterR-CNN和R-FCN那麼敏感。我們在這一精確度/速度平衡曲線上標記瞭不錯的點,這些點隻能通過犧牲速度才能提高其精確度。
從數字上來看,機器檢測物體離人類水平還是有些差距,朱夢龍表示:“COCO有很多特別小的物體,所以還是很有挑戰,但是在PASCAL VOC最好的上準確率已經超過80%,已經非常好。”
MobileNet最新解讀:分解降維卷積層,模型計算量可壓縮至1/30正如上面的論文摘要中提到的:“當速度和內存要求特別高的情況下,我們提供瞭一個檢測器可達到實時速度並且可以部署到移動設備上。”這個檢測器其實就是MobileNet,新智元也曾經報道過這一論文,這是谷歌團隊提出的一種高效模型,用於移動和嵌入式設備的視覺應用,使得在同樣的效果下,計算量可以壓縮至1/30。
提到在移動端做視覺模型的挑戰,朱夢龍說: “移動端除瞭手機也包括各種智能化的設備。在這些設備上的主要挑戰,除瞭直接能想到的存儲空間和硬件本身計算速度限制之外,還要考慮到計算能耗以及散熱的限制。為瞭保證設備不過熱很多移動端芯片的CPU會設有throttle保護(節能保護),在進行大量密集計算之後如果芯片溫度升高到一定程度,就會限制計算的頻率,防止設備過熱。同時在應用層面也要考慮到其他共存的計算任務,比如說在做圖像識別任務的過程中,除瞭識別算法本身,手機拍照成像也需要占用一部分的計算資源。總的來說最主要的技術挑戰在於如何在這些限制之下,以最少的模型參數和計算量,保持較高的準確性。”
MobileNet基於一個流線型的架構,該架構使用depthwise separable convolution來構建輕量級的深度神經網絡。他們引入瞭兩個簡單的全局超參數,有效權衡延遲和準確度。這些超參數能讓模型搭建者根據問題的限制為其應用選擇適當規模的模型。
朱夢龍介紹:“MobileNet一個很大的亮點是對depthwise卷積的大規模使用。將一個二維的depthwise卷積和1x1的映射卷積組合起來可以很好的逼近普通的三維卷積。對於常用的3x3三維卷積來說,利用depthwise和1x1映射來取代可以將計算量壓縮8-9倍,所用到的參數量也大大減少,但仍然保持相類似的精確度。這樣的想法來自於矩陣分解,一般如果一個矩陣是low rank(低秩)的話,可以有很多辦法將其分解成為兩個或者多個矩陣。另外一個啟發是大部分的計算會產生於早期的卷積層,所以MobileNet較早的采用stride2而大大減少瞭計算量。MobileNet在ImageNet分類的任務上能達到類似VGG的效果,但是參數和計算量都少瞭都超過一個數量級(約1/30)。”
在資源和準確率的不同權衡條件下,他們進行瞭廣泛的實驗,與ImageNet分類任務的其他流行模型相比,MobileNet顯示出很好的性能,同時也證明瞭MobileNet在一系列應用和使用情況中的岩盤浴設備有效性,包括對象檢測,細粒度識別,人臉屬性提取,以及大規模地理定位。
朱夢龍說:“MobileNet所用的其中一個壓縮模型的方法是線性減少每個卷積層的kernel數量,我們稱之為width multiplier。通過調整width multiplier可以改變模型的復雜度,相對的準確率會有類似線性的下降,這個手段給實際應用提供的一個很好的trade-off曲線。”
MobileNet不僅僅是一項研究,跟雲端模型相比,它有一些特殊的應用場景。從朱夢龍的個人看來,MobileNet在手機和其他智能設備包括機器人和自動車上都可以有很多應用場景,比如實時的物體檢測和分類識別,人臉,體態姿勢的識別都是可能的應用方向。
與雲端模型相比MobileNet在及時性,交互性,保護個人隱私的角度更有優勢。比如在機器人或無人機上,需要實時的視覺識別,在本地高效運行的MobileNet就更加實際。此外,未來AR應用中實時檢測會有更強的交互性,在信號不好的時岩盤浴烤箱候,比如在野外徒步的時候希望瞭解遇到的一些花草或者野生動物的種類信息,這時候就應使用終端模型。
目前MobileNet是服務器上訓練,未來甚至會考慮直接在終端訓練,可以參考也是谷歌研究院的成果:聯合學習方法(Federated Learning): https://research.googleblog.com/2017/04/federated-learning-collaborative.html
朱夢龍也認為,本地終端模型也有它的限制,他說:“比較理想的模式是一個混合終端和雲端的方式,一部分的計算在本地進行,其他的對延時要求較低的任務就交給雲端處理。”
在谷歌研究院工作是一種怎樣的體驗?回到做出這些成績的谷歌研究院,這個機構會讓我們想到關於極客、夢想、天才等關鍵詞。能夠進入谷歌研究院想必也是不少人的dreamjob,特別是做AI技術的人。朱夢龍跟新智元分享瞭他是如何選擇並進入谷歌研究院的“簡單過程”:“…我在進入谷歌之前在賓夕法尼亞大學讀的PhD,做的是計算機視覺方面的研究,也和谷歌的一些研究員有學術交流,而且也一直關註谷歌的研究成果。畢業的時候,我比較想除瞭研究之外做一些實際的產品,谷歌基本上是最好的選擇瞭。外加個人也有些谷歌情節吧,畢竟每天用谷歌的產品:搜索,地圖,安卓,youtube和chrome等等,後來就面試來瞭谷歌研究院裡繼續相關研發。”
關於在谷歌研究院工作是一種怎樣的體驗?
朱夢龍表示:“谷歌研究院整體的氛圍挺像在大學讀PhD的時候的感受,大傢很願意分享idea一起討論合作,有特別多有意思的想法和項目。不同的是,谷歌裡的很多研究成果很多都是有望或者已經能夠應用於實際產品之中,直接給全世界用戶帶來更好的的產品和服務。谷歌的同事都特別厲害,很多都是非常知名的研究員。在谷歌研究院的這些時間下來我跟很多人都有非常愉快的合作(其中也包括caffe的founder賈揚清,在他去Facebook之前也很有幸跟他有不少交流合作),也學到瞭特別多的東西。”
接下來,朱夢龍除瞭計劃把MobileNet做得更好之外,他目前精力主要集中在物體檢測上,例如文中最開始提到的COCO物體檢測挑戰中,他們在第一名的位置很久瞭,他表示會在近期開源他們Tensorflow的物體檢測系統的源代碼。
朱夢龍對不少最新的、有意思的技術很感興趣,比如說GAN,深度強化學習等。總體來說深度學習給計算機視覺帶來很多新的機會和探索的空間,他期待能做出跟多又好又實用的研究。詳情會發佈在谷歌博客,新智元也會第一時間給您報道。
來源:www.yidianzixun.com
聲明:?91.com所發佈的內容均來源於互聯網,目的在於傳遞信息,但不代表本站贊同其觀點及立場,版權歸屬原作者,如有侵權,請聯系刪除。
岩盤浴床價格
信息也是生產力,精簡才是硬道理!情報獵手帶你突破信息迷霧,每日獨傢為您鎖定最有價值的IT行業新鮮事。打開微信,掃描關註,贏取每月粉絲獎!
台灣電動床工廠
電動床
台灣電動床工廠
電動床
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
一川抽水肥清理行|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
X戰警多鏡頭行車記錄器專業網|多鏡頭行車記錄器|多鏡頭行車紀錄器比較|多鏡頭行車紀錄器推薦|多鏡頭行車紀錄器影片
台中抽水肥專業網|台中抽水肥|台中市抽水肥|台中抽水肥推薦|台中抽水肥價格|台中水肥清運
台灣靜電機批發工廠|靜電機|靜電機推薦|靜電油煙處理機|靜電油煙處理機推薦
優美環保科技工程-靜電機,靜電機推薦,靜電機保養,靜電機清洗,靜電油煙處理機
留言列表