本聯盟所舉辦Augmented Intelligent and Interaction (AII) workshop(4th)

本聯盟共同主持人周志遠老師、孫民老師與李濬屹老師所舉辦之Augmented Intelligent and Interaction (AII) Workshop(4th )。會議中都有許多業界和學界的專家學者共襄盛舉,活動的規模也逐年漸增,並強調學生與企業的互動。其中在2020的AII Workshop線上研討會,會議邀請20位講者及12篇頂尖期刊學生作者:
6 Keynote Speakers :
劉洺堉、楊明玄、謝卓叡、阮大成、陳維超與賴尚宏。
14 Invited Speakers:
CV : 孫民、王鈺強、邱維辰、陳煥宗。
ML : 李政德、林守德、陳尚澤。
NLP : 李宏毅、陳縕儂。
Audio : 楊奕軒。
Robotics : 李濬屹。
ML System : 周志遠、楊佳玲。
HCI : 鄭龍磻。
學生講者分享期刊包含 IJCAI、HPDC、ECCV、KDD、ACL、AAAI、ACL、ICLR、CVPR、NeurIPs 等12篇2020最新研究。
報名人數達 1000 人,來自台灣、日本、美國、德國、英國、瑞士、新加坡、比利時、加拿大與挪威。
AII workshop 官方網站: http://aliensunmin.github.io/aii_workshop/4th/?fbclid=IwAR3L-bpM59A4mGObg54l0pj5ILxiyAMvY4iESjUJs78d_UKBsJfwd5rgHoQ

技術與專利簡介

如表2.1所示。大家的專業研究領域主要可分為雲計算相關的計算基礎建設和校能優化技術,以及人工智慧的重要應用領域,包括智慧機器人、電腦視覺、虛擬科技和人機介面。各教授等領研究團隊與聯盟相關的重要研究成果和技術分述如下。

 

聯盟教授成員

學校科系

研究領域

周志遠 副教授

清華大學資工系

雲計算、效能優化

李哲榮 副教授

清華大學資工系

雲計算、效能優化

孫民 助理教授

清華大學電機系

人工智慧、電腦視覺

陳煥宗 副教授

清華大學資工系

人工智慧、電腦視覺

邱維辰助理教授

交通大學資工系

人工智慧、電腦視覺

李濬屹 助理教授

清華大學資工系

人工智慧、機器人

朱宏國 副教授

清華大學資工系

AR / VR 虛擬科技

張永儒 助理教授

交通大學資工系

人機介面

2.1、聯盟教授成員與研究領域

 

2.1、聯盟技術

 


 

A.        智慧機器人控制技術 (李濬屹)

   (1).         智慧型自主機器人感測器建置及嵌入式圖形處理器叢集電腦架構 (Embedded GPU Cluster Architecture)

李教授的計畫團隊於智慧型自主機器人上,具備裝設及應用各式感測器之技術。感測器包含超音波、RGB-D相機、Indoor BeaconLidar等等。其中超音波和Lidar用以偵測周圍障礙物的距離,Indoor Beacon用以輔助機器人於智慧場域中的定位,而RGB-D相機則用以當機器人的影像輸入。李教授的計畫團隊並具備嵌入式圖形處理器叢集電腦架構技術。此圖形處理器叢集電腦集合多個小型的嵌入式圖形處理器 (E.g., NVIDIA TK1, TX1, TX2, etc.),藉由網路連結(Network fabric),增強嵌入式系統的運算效能。傳統上,高性能圖形處理器 (E.g., NVIDIA Titan X, GTX 1080, etc.) 提供快速卷積神經網路計算的優勢。然而,對於嵌入式機器人或無人飛行機,「同時(Concurrent)」且「即時(Real-time)」進行多個目標 (Multi-targets) 的視覺辨識相對而言更加重要。因此,為了同時運行多個神經網路,增加吞吐量,嵌入式系統需要具備多個圖形處理器,一起執行不同的神經網路運算。

   (2).         提升圖像語意分割 (Semantic Segmentation) 網路的準確性及即時性

對於智慧型機器人而言,視覺辨識為感知外界物體,以及判斷該採取之行動的依據。機器人的視覺辨識系統可以使用物件偵測 (Object detection) 或圖像語意分割 (Semantic segmentation)兩種技術來達成。其中又以圖像語意分割更能夠精準地判別機器人所見影像中,各種不同物體於畫面中的實際區塊。然而根據2017年最新的CVPR研討會論文,圖像語意分割需使用較深之神經網路,才能達成可接受之準確率。然而,若要將圖像語意分割應用於機器人系統上,準確性與即時性需同時具備,機器人方能在短暫的時間內做出反應。李教授的計畫團隊已於2018年在世界頂尖電腦視覺研討會CVPR,發表相關研究論文,能夠大幅度加速圖像語意分割之運算速度至每秒鐘20 (20 frames/second)以上。

   (3).         遷移學習技術 (Transfer Learning)

遷移學習為一有效訓練智慧型機器人,並整合「即時視覺辨識」與「增強式學習」的技術。其最大的特色為機器人僅需於3D虛擬世界中訓練。機器人於3D虛擬世界中,藉由看到的虛擬景物,訓練本身之深度增強式學習神經網路。當訓練完成後,增強式神經網路可以經由微調 (Fine tune) 後,遷移到真實世界中使用。於真實世界運行時,增強式神經網路所接收之輸入,將從3D虛擬景物,改成由以上圖像語意分割網路所提供。由於3D虛擬世界與真實世界的景物之顏色與質地 (Texture) 有所不同,機器人於3D虛擬世界訓練時,需盡量讓深度神經網路適應不同顏色與質地之景物。遷移至真實世界時,才會具備較佳的強健性 (Robustness)。開發遷移學習技術能夠提供一個很大的優勢:機器人之神經網路可以快速地訓練,且不會對本體造成損傷。試想若機器人的神經網路於真實世界中訓練,機器人本體可能因碰撞造成損傷。同時,訓練的時程將變得極為漫長。一個訓練週期 (Epoch) 可能需要數秒至數分鐘的時間。反之,於虛擬世界訓練,可以百倍甚至千倍的速度訓練,訓練的效率將大幅提升。

 

2.2、遷學習技之虛擬模擬場域

李教授的計畫團隊已經使用Unity軟體建構出3D模擬世界,並於虛擬場域中使用各式Reinforcement learning訓練自主機器人。虛擬場域包含幾個機器人與環境互動的可能性,應此我們於虛擬場域中設計Reward function,如圖2.2所示。機器人可於粉紫紅的地面行走,而路面上有深藍色的磚塊。如果撞到磚塊,會得到負Reward。如果機器人成功到達綠色的柱子,則可得到正Reward。有了Reward function之後,再利用Reinforcement learning技術,機器人會感測到新的狀態(State),然後決定應該做什麼動作 (Action),得到最高的獎勵 (Reward)。為了避免人為蒐集資料過於緩慢,我們將利用Data augmentation的方式,加速機器人動作模型的訓練。所嘗試的增強式學習演算法包含下列幾種:Deep Q-Networks (DQN), Deep Deterministic Policy Gradients (DDPG), and Asynchronous Advantage Actor-Critic (A3C)。這些演算法都是近一兩年來在增強式學習領域中標竿的演算法,足以用於訓練機器人的自主決策系統。

 

B.         電腦視覺應用 (邱維辰、陳煥宗)

對於圖片中視覺顯著性的估測(saliency estimation)是電腦視覺研究領域中非常重要的課題。藉由分析圖片中的各種不同特徵的資訊,來預測出人類的視覺系統對於某一圖像中著重觀看的位置,即視覺顯著之區域。相對於現存許多針對視覺顯著性估測所提出的研究工作(無論是使用傳統電腦視覺和機器學習的方式或是使用近年來熱門的深度學習模型),邱教授的團隊則是探討隨之衍生出來的一實際應用「引導式圖片顯著性改變(saliency-guided image manipulation)」:如何在不劇烈變動原始圖片內容的條件下,對圖片的外觀做小幅修改,使觀看者的視線能夠被更著重或被引導至圖片中我們所設定之目標區域?

在此進階的應用題目上,邱教授的研究團隊開發了一基於深度學習模型的系統架構,其主要包含了數個元件:(1)一個任意但必須為可微分(differentiable)的視覺顯著性估測器(saliency estimator);以及此系統的主題(2)執行圖片微調的修改器網路(manipulator)。在此系統的學習過程,無需使用到任何的人工標註數據,而是使用非監督式學習的方式來訓練修改器網路。更進一步細部說明系統學習訓練的過程:我們假定視覺顯著性估測器已經能夠模擬人類視覺系統對於顯著性的特性,因此並不加以額外的訓練;而在修改器網路的部分,其輸入是一張原始圖片及一張我們希望得到的視覺顯著性地圖(標註出圖片中哪個區域的物體是希望有較高或低顯著性的),而輸入則是一張經過微調修改過後的圖片。此修改後之圖片由於需保持原始圖片的內容並同時符合所給定之視覺顯著性地圖,因此使用了一個與原始圖片之間的內容相似性函數、以及在顯著性上與給定條件之相符程度函數來加以約束並訓練修改器網路。除此之外,也額外使用了對抗式生成模型的概念,讓修改過後的圖片仍能夠保持不失真的外觀。

   邱教授研究團隊所開發的系統,能夠成功的在各式不同的測試圖片上,自動於不同區域使用不同的圖片微調方法(例如模糊化、亮度變化、色彩飽和度或對比程度變化、加上較特殊之色彩、或是更複雜的綜合處理等)來達到改變圖片視覺顯著性的效果,同時不會造成圖片的失真及內容大幅改變。此引導式圖片顯著性改變的題目能夠在許多實際場景上發揮,例如:當自動駕駛車的擋風玻璃變成另一種形式的顯示圖時,此技術能夠即時將最需要駕駛者或乘客注意的區域進化顯著性強化以引導視線;而在商業廣告的應用也十分具有潛力,可以針對不同的目標族群在同一張廣告圖片上做不一樣的修改使其注意到最符合其需求或喜好的部分,或是特別強調與目標商品相關的圖片區域,以達到更大的廣告效率及效益。我們期望此系統能夠與更多不同的領域結合並整合至不同的場景使用,對人類的生活福祉或產業升級有所助益。

另外陳煥宗教授團隊在影像應用上開發的技術則包括:

   (1).     單張影像人體關節點偵測技術:

此技術基於深度學習模型,可用於偵測彩色影像中的人體關節點,並藉此分析姿勢與動作。

   (2).     物件偵測與切割技術

此技術可準確偵測單張彩色影像中的各類物體,並自動切割出物體輪廓。

   (3).     深度學習模型壓縮技術:

此項技術能夠依照深度學習模型的效能需求,刪減多餘的網路連結,有效減少模型的參數和運算量。

   (4).     影片摘要與影片問答

此技術的目標是透過分析影片的字幕與畫面,自動回答與影片內容相關的問題。此項技術的特色在於能夠找出字幕與問題之間的直接和間接關聯性,提高回答的準確度。

   (5).     互動式影像切割技術

此項技術提供更直覺化的使用者操作方式,透過自動提問與使用者回饋點選,協助使用者迅速便捷地切割出影像中的物體。此技術特別適合用於觸控式螢幕的操作。

C.    人工智慧應用 (孫民)

孫民教授團隊在影像應用上開發的技術則包括:

(1).  AIoT:

建置一個智慧家庭系統,透過多元的感測器,結合物聯網技術,訓練出具有自我學習能力的深度循環神經網路模型,能夠經由不斷地觀察使用者跟智慧裝置的互動,來學習使用者的行為模式,進而預測出使用者的意圖,來提供主動的服務。

(2).  AI + HCI:

開發出一個穿戴式系統來幫助視障者在室內空間尋物。系統藉由一個手指穿帶式的小型相機擷取影像來檢測目標並預估它離使用者的距離,再利用骨傳導雙聲道耳機來表述目標物的種類,方向,以及位置資訊來引導使用者尋找物體。尤其我們結合了基於深度學習的目標檢測模型和基於模板批配的物件追蹤方法,及便是在模型遺失檢測的情況下,也得到可信賴的目標位置。

(3).  Neural Architecture Search:

神經架構搜索(NAS)最近的突破已經在圖像分類和語言建模等應用中取得了最高水平的表現。 但是,現有神經架構搜索技術通常會忽略與裝置相關的硬體指標,例如延遲(Latency),內存(Memory)使用情況與裝置功耗(Power)。針對裝置的硬體指標優化神經架構,對於在具有有限計算資源的便攜式裝置上部署深度網絡來說非常重要。 然而,為日常裝置(包含嵌入式系統,手機)設計合適的深度網絡仍然具有挑戰性。 我們的目標是針對考慮多樣性的指標(包含網絡準確度,延遲,內存使用情況,功耗)的不同裝置自動設計適合的深度網絡模型。

(4).  Autonomous System:

本技術運用360相機,透過深度學習算法預測環境點雲,未來將運用在室內與戶外自主系統進行環境重建。

(5).  Ubitus:

使用變分自編碼器搭配模仿學習以及增強式學習,從大量未標注數據中,學習不同的行為模式。

(6).  Image Segmentation:

本技術是透過策略網路模型選擇合適的自動標注資料進行人群影像切割模型訓練,達到自主學習的效果。該標注資料是透過影像串流的動態資訊自動產生出影像切割的標注資料。本專案的特點除了可以減少標注資料的成本,也可以應用在跨域適應問題,在IR影像(不同於RGB影像資料特性)未有標注資料的目標訓練集,提供自動標注資料來提昇跨域適應的精確性,目前我們的技術超越其他現有方法。

(7).  Medical

   基於卷積神經網路(Convolutional Neural Network)之影像分割(Image Segmentation)技術,協助放射腫瘤科醫生繪製放射治療計劃(Radiotherapy Planning),後與影像偵測(Image Detection)技術與串接架構(Cascaded Architecture)結合提升預測結果準確度。

 

D.                人機介面(張永儒)

   (1).     智慧通知系統建置

通知過載(Notification Overload) 是許多現代智慧型手機使用者所面臨的狀況。在通知過載的情況下,使用者在無法時時準確判斷該通知來源為何的情況下,結果往往是需要打斷手上的工作去觀看通知,降低做事效率。另外一方面,由於使用者的注意裡也非隨時在手機上,因此使用者也同時會遇到錯過重要通知的問題。本實驗室於是建立提高使用者Awareness的智慧通知系統,不僅降低使用者錯過通知的機率,也提高了他們判斷通知的能力。為了建立這樣的系統,我們執行了一系列使用者研究了解使用者在觀看通知不同情境下遇到的挑戰,以及他們判斷通知的依據。透過使用者研究我們收集了手機各項數據以及使用者回報的Ground Truth,並藉由這些資料,我們比較了不同機器學習模型的效能,並最終用SVM分類器建立可預測使用者可能錯過以及錯誤判斷通知的時機。我們並開發了Notiware系統,它可以在預測到這些時機的時候,提供使用者自訂通知提醒(Customized Notification Alert),來幫助他們更容易注意到並且猜測到通知來源。我們執行了一個月的30位使用者in-the-wild研究,並在量化以及質化上皆證實Notiware可以在使用者的日常生活中幫助他們避免錯過通知並更準確判斷通知。

 

   (2).     智慧聊天助理人機互動研究

智慧對話助理(例如聊天機器人)是近年開始發展成熟並且與使用者習習相關的人工智慧應用(例如Siri, Google Home)。使用者除了在手機系統、智慧家庭裝置上可以直接使用這些服務,也可以在許多數位服務上與其提供的聊天機器人互動。對於這些數位服務來說,增加使用者的黏著性是重要的目標之一。我們在研究裡特別著重於辨識「使用者放棄對話的關鍵」。我們手動分析一個月(26,779, 3698 對話session, 113,068字數)的聊天機器人的對話歷史紀錄來編碼使用者與聊天機器人的互動特徵、持續互動與放棄互動的表徵,這讓我們可以建立模型預測使用者何時會放棄對話,並在預測到的情況下,採用更容易維持使用者留下來互動的對話方式增加其黏著度,使他們有更多機會探索聊天機器人的功能。

 

?

 

甲、AR / VR應用 (朱宏國)

   (1).     360全景環境感知與AR合成技術

結合場域平面圖資與直覺式3D建模技術,來快速生成場域之3D模型(道路與建物),實現虛實物件互相遮擋的效果。運用深度學習技術,取得全景圖之光照模型(HDR影像與太陽光位置),並利用此模型來實現AR擴增物件之擬真光影渲染,近一步結合場域之3D模型,來獲得最佳之視覺與互動體驗。

   (2).     創新智慧型360全景導覽平台

針對任意場域,本系統僅需要輸入場域之全景圖(影片)、地理圖資與相關之互動內容,便可快速部署一套互動式擬真導覽應用於MobilePC平台,並支援CardboardVive,等VR顯示介面。

   (3).     多樣化場景合成模式之自駕車模擬器:

一套擬真的自駕車模擬系統,來支援自動駕駛感知系統與深度學習影像辨識之訓練測資來源與驗證平台。系統可以根據場域所收集之全景影片(RGB),與環境深度資料(LIDAR)來建構一個整體空間結構的3D場景,進而結合地理資料(GIS)將所有鄰接區域自動串聯起來,來獲得整段影片中的整體3D結構模型。有了底層3D結構模型的支持,系統便能將任意3D物件(例如車輛、行人等),透過AR擴增實境的方式,嵌入全景影像中,用來快速合成新的行車路況,除了加速測資的產生,也大幅度降低傳統模擬器建構場域完整3D模型的人力與資金成本。

 

乙、深度學習計算優化技術 (李哲榮)

雖然深度學習在影像識別、電腦遊戲、自駕車、語音辨認等領域都有顯著的成果,但是要落實這些技術到實際的應用還有許多的問題,其中一個主要的問題就是深度學習需要耗費巨大的計算資源,不但是在模型訓練的時候,也會是在模型訓練完,要做推論的時候,主要的原因是深度學習的模型都過於龐大,不但深,參數量多,計算也很複雜,這對於大部分的應用需要使用較小的裝置,例如手機、平板、車載電腦、或是機器人晶片等等,都無法負擔深度學習所需要的計算資源。而最近發展出來的edge computing可以部份解決這個問題,但是利用edge node對於模型的訓練與更新還是不可能。目前針對這個問題開發了以下三個技術。

   (1).     以矩陣分解的方式來減少模型參數和計算量

eigenvalue decompositionCNN中主要的2D filter拆解成兩個1Dfilter,然後再分次的套用1Dfilter。使用這項技術我們可以將CNN加速2-4倍,而只用一半的參數量。目前這項技術有與資策會合作,應用在智慧手環的動作識別上。

   (2).     以動態配置的方式,在小裝置上可以同步最新的訓練成果  

利用了Git protocolMobile Edge Cloud的技術,將雲端訓練的模型可以和edge端的推論機器同步,我們以行車紀錄器做為示範,將Faster R-CNN的模型裝載到Tegra TK1上,除了可以快速辨識車輛與物體外,還可以自動選擇是否要將所拍攝的影片上傳到雲端,而雲端的最新模型也可以透過我們的系統,以較節省頻寬的方式下載到行車紀錄器上。

   (3).     利用生成對抗網路達成知識萃取

利用生成對抗網路(Generative Adversarial Network, GAN)來達成知識萃取的目的,主要是將訓練好的模型所學的feature map,透過GAN的架構,來訓練所要的小模型。我們以影像識別作為展示的模型。透過我們的方法,可以將小模型(student model)的影像識別率提升到接近原本的大模型(teacher model)

 

丙、AI雲平台之核心基礎建設技術 (周志遠)

   (1).     人工智慧雲服務平台整合技術

周教授的研究團隊已具備透過整合開發原始碼工具佈建一個完整人工智慧雲服務平台的技術及能力。目前已建置的雲平台服務架構如圖2.3所示。雲平台的特色包括: (a)深度學習的計算資源是由獨立的GPU伺服器所提供,並以容器而非傳統虛擬機器的技術作資源管理和軟體佈署,藉此提升執行效能。(b)使用者可透過本平台服務的操作介面完成整個深度學習的開發流程。從模型的編輯、資料的匯入、模型參數和計算資源的調整、至最終將訓練好的模型佈署在平台中被應用端所使用。(d)只有當需要執行深度學習計算工作時,本服務才會動態的要求GPU計算資源、產生計算工作和佈署執行環境,有效避免資源浪費。(d)本服務能與最為廣泛使用的私有雲平台軟體OpenStack整合,提供更完整便利的雲服務。整合的項目包括網頁操作界面的整合;資料輸出與輸入的整合,也就是模型訓練工作可直接從雲儲存服務存取資料;以及資源控管的整合,像是用於深度學習計算工作的容器可直接使用OpenStack提供的虛擬網路和虛擬儲存服務;OpenStack中的資源監測服務可直接取得計算資源的使用資訊。換言之,本研究團隊可提供的關鍵技術包括:(i)人工智慧在雲平台上的服務與介面設計。(ii)KubernetesOpenStack在基礎建設層的整合技術。(iii)自動化動態佈建深度學習計算環境的技術。

2.3、人工智慧雲服務平台系統架構

 

 

   (2).     以容器和GPU為基礎的資源管理技術

傳統雲平台都是以虛擬機器和CPU主機為基礎的系統管理架構及資源管理方法設計,但是由於虛擬機器必須模擬硬體資源,啟動一個虛擬機器所需佔用的時間和計算資源都較龐大,因此近年來許多雲運算已經使用容器來取代虛擬機器,再加上深度學習應用的興起,GPU計算資源的使用管理和分配變得日趨重要。因此周教授的研究團隊致力於容器和GPU為基礎的資源管理技術研發,並以優化深度學習的計算效能為目的。其中一個關鍵技術是容器的GPU共用管理管理技術(Container-based Multi-tenant GPU)。此技術的目的是讓多個容器可以在有資源使用的控制環境下共用一個GPU卡,藉此在不影響使用者程式計算效能的前提下,增加GPU的使用率。此技術的困難點在於GPU的計算資源分配是由硬體的排程機制決定,不僅無法直接受軟體控制,甚至只提供系統極少的資訊。但周教授的團隊利用攔截CUDA library call的方式,獲取GPU資源的使用資訊,並根據使用者限制的資源使用量和程式重要性,延遲或重新排程不同容器發出的library call執行,實現資源管控的目的。

   (3).     分散且彈性之深度學習模型訓練技術

深度學習的結果往往可以透過增加訓練資料量或是模型複雜度而獲得改善,但也因此造成計算量和計算時間大幅增加的問題。一個有效的解決方法就是透過分散式的深度學習模型訓練,但深度學習的計算因為容易產生大量的溝通資料量,因此一般不具備足夠平行計算知識或效能調教的程式開發者,往往無法有效利用此方法。有鑑於此,周教授的團隊提供兩項技術:一個是透過分析分散式深度學習計算的效能與資源需求,自動化的幫使用者決定適合的分散式執行的策略和資源量。另一個是改善現有深度學習計算框架在分散式計算的作法,讓計算資源可以有彈性的在執行過程中作動態增減的動作。如此計算資源量和執行平行度都可以依照實際效能結果隨時調整而獲得較大利益。

 

DI.              國內外有關技術之研究

甲、智慧機器人控制技術

視覺神經網路在近幾年來,隨著深度神經網路的發展,每年在準確度、速度、網路複雜度、以及應用上,皆有大幅度的進展。視覺神經網路分成兩個部分,前半部由卷積神經網路所構成,其架構通常是基於AlexNet[1]VGGNet[2]GoogleNet[3]、或ResNet[4]等網路結構。這些網路結構經過ImageNet的預先訓練 (Pre-training),能夠抽取所見圖片的特徵 (Features),並以這些特徵用於影像分類以外的功能,例如物件偵測 (Object detection),以及語意分割 (Semantic segmentation)。在物件偵測方面,有數種知名的演算法已經被提出,其中包含R-CNN[5,6]Fast R-CNN[7]Faster R-CNN[8]You only look once (YOLO) [9]Single shot multibox detector (SSD) [10]Mask R-CNN[11]等。在語意分割技術層面,則有Fully convolutional network (FCN) [12]Deeplab[13]Pyramid scene parsing network (PSPNet) [14]等結構被提出來。這些技術中,部分已經被嘗試用於四軸飛行器、自動駕駛車、以及機器人視覺等應用中。

University of Berkeley Sergey Levine教授為近年來結合Reinforcement learning以及視覺辨識技術之先驅,於近幾年來開發了不少能夠進行監督式學習或半監督式學習的機器人,並用以預測行動 (Action) 之後的結果 [15-18]。例如,在[15]論文中,提及了機器人可以藉由深度神經網路,學習預測推動物體過後物體可能的位置以及相對應的狀態,並訓練機器人僅根據照相機所看到的影像實現該推動之行為。於[16],作者證明了可以使用多台機器人一起進行Reinforcement learning,讓機器人學習的速度可以更加快速,並執行更準確。於[17],作者使用了大量的機械手臂一同學習夾取物品,結合視覺與機械手臂控制,以及深度神經網路,讓機械手臂快速地學習如何結合視訊影像及手臂控制,達到手眼協調的功能。於[18],作者使用了PR2機器人,結合視覺辨識與深度學習,讓機器人先訓練執行某些工作 (Tasks),並於測試時改變工作環境,機器人亦能經由學習過的經驗完成任務。NVIDIA也於2017年提出了Issac的模擬平台,用以模擬機器人在虛擬世界中的增強式學習代理人 (Agents)

 

參考文獻

[1] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classification with deep convolutional neural networks,” in Proc. Neural Information Processing Systems (NIPS), pp. 1097-1105, Dec. 2012.

[2] L. Wang, S. Guo, W. Huang, and Y. Qiao, “Places205-vggnet models for scene recognition,” in arXiv:1508.01667, Aug. 2015.

[3] C. Szegedy et al., “Going deeper with convolutions,” in Proc. Computer Vision and Pattern Recognition (CVPR), pp. 1-9, Jun. 2015.

[4] S. Ren, K. He, R. Girshick, and J. Sun, “Deep residual learning for image recognition,” in Proc. Computer Vision and Pattern Recognition (CVPR), pp. 770-778, Jun. 2016.

[5] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in Proc. Computer Vision and Pattern Recognition (CVPR), pp. 580-587, Jun. 2014.

[6] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Region-based convolutional networks for accurate object detection and segmentation”, IEEE Trans. Pattern Analysis and Machine Intelligence (TPAMI), vol. 38, no. 1, pp. 142-158, Jan. 2016.

[7] R. Girshick, “Fast R-CNN,” in Proc. IEEE Intl. Conf. Computer Vision (ICCV), pp. 1440-1148, Dec. 2015.

[8] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards realtime object detection with region proposal networks,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 39, no. 6, pp. 1137-1149, Jun. 2017.

[9] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only look once: Unified, real-time object detection,” in Proc. Computer Vision and Pattern Recognition (CVPR), pp. 779-788, Jun. 2016.

[10] W. Liu et al., “SSD: Single shot multibox detector,” in Proc. European Conf. Computer Vision (ECCV), Oct, 2016.

[11] K. He, G. Gkioxari, P. Dollár and R. Girshick, “Mask R-CNN,” arXiv:1703.06870.

[12] J. Long, E. Shelhamer and T. Darrell, “Fully convolutional networks for semantic segmentation,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 39, no. 4, pp. 640-651, Apr. 2017.

[13] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs,” IEEE Trans. Pattern Analysis and Machine Intelligence (TPAMI), Apr. 2017.

[14] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia, “Pyramid scene parsing network,” in Proc. Computer Vision and Pattern Recognition (CVPR), Jul. 2017.

[15] C. Finn and S. Levine, “Deep visual foresight for planning robot motion,” in Proc. Intl. Conf. Learning Representations (ICLR), Apr. 2017.

[16] S. Gu, E. Holly, T. Lillicrap, and S. Levine, “Deep reinforcement learning for robotic manipulation with asynchronous off-policy updates,” in Proc. Intl. Conf. Learning Representations (ICLR), Apr. 2017.

[17] S. Levine, P. Pastor, A. Krizhevsky, and D. Quillen, “Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection,” The Intl. J. Robotics Research, Jun. 2017.

[18] S. Levine, C. Finn, T. Darrell, and P. Abbeel, “End-to-end training of deep visuomotor policies,” The J. Machine Learning Research, vol. 17, no. 1, pp. 1334-1373, Jan. 2016.

 

乙、電腦視覺應用

藉由修改圖片內容來造成視覺顯著性的不同,其實過往已經有不少相關的研究工作。如在[1]的工作中,作者利用對於圖片不同區域進行不同大小的高斯模糊濾波,藉此觀察不同濾波器所造成的模糊程度對於整體視覺顯著性地圖的改變; 而在[2]的工作中,則使用了局部性對比的特徵擷取並訓練SVM分類器用以分別顯著區域與非顯著區域,再藉由SVM分別器的超平面法向量來找出如何修改局部性對比才能夠提升顯著性的規則,達到圖片顯著性改變的目的。但此工作只能單純以局部性對比的改變來做引導;另外也有一些工作是先分析各式視覺顯著性估測演算法所使用到的特徵,進而直接針對這些特徵做圖片的調整改變,如在[3]的工作中,作者發現在區域裡顏色及強度的變異量會直接影響到顯著值的程度,因此直接透過改變色彩強度來修改圖片以趨近顯著性地圖的目標;而[4]的作者則是延續類似的想法,不過不改變色彩強度,而是改由擴大顯著目標區域及其周圍的色相分佈差異來進行處理;另一方面,[5]則是使用了平均亮度、色彩飽合度、及目標區域的影像銳利程度等多個特徵來對影像進行修改;最新在今年發表的[6],則是先將影像中分別屬於高顯著性及低顯著性的多個區塊擷取出來,接著進行修改圖片使目標顯著區域的色彩統計量變得接近高顯著性的區塊,同時也讓非目標顯著區域的色彩統計量接近低顯著性的區塊。但追根究柢來看,此方法還是使用了先行定義的特徵來進行影像調整。在[6]之前發表的更多相關工作也可以[7]的統整性論文中找到。雖然過往已經有那麼多的研究工作,但是以上所述的這些方法,由於僅僅利用修改單一或少數特徵來改變圖片顯著性,因此很難應用到各式各樣的所有可能圖片,例如改變對比程度的方法就會在夜晚場景的圖片中造成極不自然的變化。另一方面來說,使用者通常不是專業的電腦視覺專家或是專業設計師/藝術家,因此不會知道在哪一類型的圖片要使用哪一種修改的方式會有最好的效果,因此以上的方法中其實都很難推廣到一般的使用者族群中。反觀我們的系統,使用者只要簡單的指定圖片區域的顯著性程度,其即能夠在不同圖片不同區域自動選擇最適宜的調整方式改變圖片視覺顯著性,使修改後之圖片符合使用者設定之特性,無論是在使用者友善的角度或是在整體修改的表現上都明顯優於過往的研究工作。

 

參考文獻:

[1] H. Hata, H. Koike, and Y. Sato. Visual guidance with unnoticed blur effect. In Proceedings of the International Working Conference on Advanced Visual Interfaces, 2016.

[2] E. Vig, M. Dorr, and E. Barth. Learned saliency transformations for gaze guidance. In Human Vision and Electronic Imaging XVI, volume 7865, 2011.

[3] Aiko Hagiwara, Akihiro Sugimoto, and Kazuhiko Kawamoto. Saliency-based image editing for guiding visual attention. In Proceedings of the 1st International Workshop on Pervasive Eye Tracking & Mobile Eye-based Interaction, 2011.

[4] Victor A Mateescu and Ivan V Bajic ́. Attention retargeting by color manipulation in images. In Proceedings of the 1st International Workshop on Perception Inspired Video Processing, 2014.

[5] Lai-Kuan Wong and Kok-Lim Low. Saliency retargeting: An approach to enhance image aesthetics. In Proceedings of the IEEE Winter Conference on Applications of Computer Vision (WACV), 2011.

[6] Roey Mechrez, Eli Shechtman, and Lihi Zelnik-Manor. Saliency driven image manipulation. In Proceedings of the IEEE Winter Conference on Applications of Computer Vision (WACV), 2018.

[7] Victor A Mateescu and Ivan V Bajic. Visual attention retargeting. IEEE Transactions on Multimedia (TMM), 23(1):82–91, 2016.

 

丙、智慧人機介面

如何設計好的智慧對話助理人機互動在近年研究得到許多重視,因為良好的人機互動會影響使用者對語音助理的期待、互動方式、使用動機、以及黏著度。過去有研究者實驗讓智慧對話助理有不同的對話以及語氣方式,例如加上不同人格特質[1],使用幽默的口氣[2],或是母親的口吻來與使用者對話[3]來看使用者的反應。研究也有指出智慧對話助理的型態跟行為會影響使用者對他的觀感,期待,還有應對方式 [4,5] 另外也有學者進一步探討如何讓使用者更有動機使用自動說話的機器人[6]。甚至有研究人員發現聊天機器人可以幫助公司員工減少摩擦,更好的合作,顯示好的對話方式對於讓人有合作心態是有其正面效果 [7] [8]在去年研究十六位使用者跟各種數位服務   提供的聊天機人互動,並從其使用者與它們對話遇到的問題發展出一套設計的準則,其中幾個大方向包含釐清智慧對話助理的能力、對話助理應該維持對話脈絡、良好處理失敗對話以及結束對話。然而,這些研究都沒有透過分析使用者與智慧對話助理的自然對話找到使用者放棄對話跟持續對話的關鍵。我們人工辨識這些線索以提供未來聊天機器人預測使用者是否會放棄或維持對話,以改變其對話對策。

 

參考文獻:

[1] Yoshito Ogawa, Kouki Miyazawa, and Hideaki Kikuchi. 2014. Assigning a Personality to a Spoken Dialogue Agent Through Self-disclosure of Behavior. In Proceedings of the Second International Conference on Human-agent Interaction (HAI ’14), 331–337.

[2] Shohei Fujikura, Yoshito Ogawa, and Hideaki Kikuchi. 2015. Humor Utterance Generation for Non-task-oriented Dialogue Systems. In Proceedings of the 3rd International Conference on Human-Agent Interaction (HAI ’15), 171–173.

[3] Marie Uemura, Keiko Yamamoto, Itaru Kuramoto, and Yoshihiro Tsujino. 2014. Notification Design Using Mother-like Expressions. In Proceedings of the Second International Conference on Human-agent Interaction (HAI ’14), 133–136.

[4] Hyewon Lee, Jung Ju Choi, and Sonya S. Kwak. 2014. Will You Follow the Robot’s Advice?: The Impact of Robot Types and Task Types on People’s Perception of a Robot. In Proceedings of the Second International Conference on Human-agent Interaction (HAI ’14), 137–140.

[5] Tatsuya Nomura and Takayuki Kanda. 2014. Differences of Expectation of Rapport with Robots Dependent on Situations. In Proceedings of the Second International Conference on Human-agent Interaction (HAI ’14), 383–389.

[6] Takahisa Uchida, Takashi Minato, and Hiroshi Ishiguro. 2016. Does a Conversational Robot Need to Have Its Own Values?: A Study of Dialogue Strategy to Enhance People’s Motivation to Use Autonomous Conversational Robots. In Proceedings of the Fourth International Conference on Human Agent Interaction (HAI ’16), 187–192.

[7] Carlene Lebeuf, Margaret-Anne Storey, and Alexey Zagalsky. 2017. How Software Developers Mitigate Collaboration Friction with Chatbots. arXiv:1702.07011 [cs].

[8] Mohit Jain, Pratyush Kumar, Ramachandra Kota, and Shwetak N. Patel. 2018. Evaluating and Informing the Design of Chatbots. In Proceedings of the 2018 Designing Interactive Systems Conference (DIS ’18), 895–906. https://doi.org/10.1145/3196709.3196735

 

丁、影像之3D場景感知與重建技術

關於靜態影像之環境結構分析研究已經相當成熟,如Sudipta等人[1]可以利用多張靜態照片和些許的人工標註獲得場景結構,並且重建出3D模型,其中舉凡消失點的偵測都是環境結構分析的基礎,但是這些技術多針對傳統相機,目前針對全景影像的空間結構分析相對缺乏,但在近幾年仍有許多非常值得參考的研究,其中Yinda等人提出的PanoContext[2]是目前相對完整的全景圖結構分析方法,然而其演算法的限制多且程序相當繁瑣,但該技術串接起全景圖和非全景圖影像技術的流程仍相當具有參考價值,其中將全景圖切割投影回扭曲前的對應方法,讓以往一些經典的圖形演算法例如LSD[3]得以套用到全景圖來做邊線偵測,並且利用霍夫轉換[4]方式進行結構消失點分析,另外論文中亦有提出利用DPM[5]Selective search[6]的方法來做空間中的物體三維分析,最重要的則是該篇利用了context的概念來做物體分析和辨識,妥善利用全景圖內容關係密集的特性尤其值得重視。在電腦視覺領域中,動態影片之3D場景重建一直都是主流研究方向之一,迄今已經發展出許多重要的研究技術,像是能從二維影片中萃取出稀疏三圍資訊的技術,其中最為著名的方法為SFM以及SLAM[78],至今也已經釋出多種版本的開源程式,但是這些場景的結構分析方法主要都是針對一般影像做分析與處理,且無法直接套用在全景圖上。然而David等人開發的魚眼SLAM技術則有很大的幫助,對於廣角的三維重建、相機姿態估計將提供一個基礎的解決方法,其方法亦提供了一個魚眼跟SLAM技術的數學關係模型。一但有了相機參數,我們可以利用影片特徵點重建出稀疏的點雲結構,搭配使用者簡單的標註我們可以切割場景為多個物件,根據Chang等人的影片編輯技術成果[9],我們可以擬真地去修改和編輯產生新影片。

 

參考文獻:

[1] Sudipta N.Sinha,Drew Steedly, Richard Szeliski, Maneesh Agrawala ACM  Transactions on Graphics (Proceedings of SIGGRAPH Asia 2008)

[2] Zhang, Y., Song, S., Tan, P., Xiao, J.: PanoContext: A whole-room 3D context model for panoramic scene understanding. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8694, pp. 681–698. Springer, Heidelberg (2014)

[3] von Gioi, R.G., Jakubowicz, J., Morel, J.M., Randall, G.: LSD: a Line Segment Detector. Image Processing On Line (2012)

[4] Hough, P.V.: Machine analysis of bubble chamber pictures. In: International Conference on High Energy Accelerators and Instrumentation. Volume 73. (1959)

[5] Felzenszwalb, P.F., Girshick, R.B., McAllester, D., Ramanan, D.: Object detection with discriminatively trained part-based models. PAMI (2010)

[6] Uijlings, J.R.R., van de Sande, K.E.A., Gevers, T., Smeulders, A.W.M.: Selective search for object recognition. IJCV (2013)

[7] N. Snavely, S. M. Seitz, and R. Szeliski, “Photo tourism: Exploring photo collections in 3d,” inSIGGRAPH Conference Proceedings.  New York, NY, USA: ACM Press, 2006, pp. 835–846.

[8] R. Mur-Artal, J. M. M. Montiel, and J. D. Tardós, “ORB-SLAM: a versatile and accurate monoc-ular SLAM system,”CoRR,vol.abs/1502.00956,2015.

[9] Chia-Sheng Chang , Hung-Kuo Chu , Niloy J. Mitra. Interactive Videos: Plausible Video Editing using Sparse Structure Points

 

戊、深度學習計算優化技術

最近的報告顯示[1],深度學習的模型中,準確度與模型大小和計算量大致呈正比。如圖所示。這顯示越精確的模型所需的計算和儲存資源越多,但這卻阻礙了將DNN模型與實際應用的整合。然而,根據之前的研究發現[2] ,深度學習模型並非一定躍身或是大,因此模型縮減成為一個重要的研究議題。目前有幾個主要的方向。

模型壓縮又可以分為兩類,第一類是做模型剪裁(model pruning),把模型中比較不重要的部分拿掉,代表性的文獻有[3] [4] 。第二類是做vector quantization,也就是用比較少的bit去表達資料,這方面的研究已經達到極致,例如BinaryConnect [5] XNOR-Net[6]

利用矩陣性質來加速計算是第二個方向,也可以大致分為兩類,第一類是以矩陣分解或是張量分解來加速並減少數據量,例如[7] [8] ,第二類是利用快速矩陣計算的概念, 最著名的是[10] ,目前針對稀疏矩陣的分解與加速也有新的發展[11]

針對小型裝置所設計的模型也有兩類,第一種是以專家的眼光,將重要的模型元素重新組合,最著名的是Google提出來的MobileNet[13] ,第二種是利用reinforce learning來自動找出是最佳模型,稱為neural architectural search(NAS)。過去的NAS多以增進準確度和減少訓練時間為目標[14] [15] [16] [17] ,但是近期也有針對小裝置所提出的NAS方法[18] [19]

知識萃取是另外一種技術,不是針對直接縮減模型的計算量或是大小,而是利用原本訓練得很好的模型來提升小模型的準確度,目前最好的方法有[20] [21] [22] ,多是以logit來幫助小模型的訓練,而我們提出的方法,加入feature map leaning,可以更進一步來提升模型的準確性。

 

參考文獻

[1]      Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio, An Analysis of Deep Neural Network Models for Practical Applications, 2017, arXiv:1605.07678

[2]      Jimmy Ba, Rich Caruana, Do Deep Nets Really Need to be Deep? 2014 Neural Information Processing Systems (NIPS)

[3]      Song Han ; Xingyu Liu ; Huizi Mao ; Jing Pu ; Ardavan Pedram ; Mark A. Horowitz ; William J. Dally, EIE: Efficient Inference Engine on Compressed Deep Neural Network, 2016 ACM/IEEE 43rd Annual International Symposium on Computer Architecture

[4]      Forrest N. Iandola, Song Han, Matthew W. Moskewicz, Khalid Ashraf, William J. Dally, Kurt Keutzer, SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size, arXiv:1602.07360

[5]      Matthieu Courbariaux, Yoshua Bengio, Jean-Pierre David, BinaryConnect: Training Deep Neural Networks with binary weights during propagations, arXiv:1511.00363

[6]      Mohammad Rastegari, Vicente Ordonez, Joseph Redmon, Ali Farhadi, XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks, ECCV 2016

[7]      O. Sharir, R. Tamari, N. Cohen, and A. Shashua. Tensorial mixture models. CoRR, abs/1610.04167, 2016.

[8]      Nadav Cohen, Ronen Tamari, and Amnon Shashua. Boosting dilated convolutional networks with mixed tensor decompositions. ICLR 2018

[9]      Vadim Lebedev, Yaroslav Ganin, Maksim Rakhuba, Ivan Oseledets, Victor Lempitsky, Speeding-up Convolutional Neural Networks Using Fine-tuned CP-Decomposition, arXiv:1412.6553

[10]  Andrew Lavin, Scott Gray, Fast Algorithms for Convolutional Neural Networks, arXiv:1509.09308

[11]  Xingyu Liu, Jeff Pool, Song Han, William J. Dally, Efficient Sparse-Winograd Convolutional Neural Networks,       arXiv:1802.06367, ICLR 2018

[12]  Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam, MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications, arXiv:1704.04861

[13]  Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, Liang-Chieh Chen, MobileNetV2: Inverted Residuals and Linear Bottlenecks, arXiv:1801.04381

[14]  Zoph, Barret; Le, Quoc V. (May 17, 2017). "Using Machine Learning to Explore Neural Network Architecture". Research Blog. Retrieved 2018-02-20.

[15]  Zoph, Barret; Vasudevan, Vijay; Shlens, Jonathon; Le, Quoc V. (2017-07-21). "Learning Transferable Architectures for Scalable Image Recognition". arXiv:1707.07012 

[16]  Hieu, Pham,; Y., Guan, Melody; Barret, Zoph,; V., Le, Quoc; Jeff, Dean, (2018-02-09). "Efficient Neural Architecture Search via Parameter Sharing". arXiv:1802.03268

[17]  Zhou, Yanqi; Diamos, Gregory. "Neural Architect: A Multi-objective Neural Architecture Search with Performance Prediction"

[18]  Mark Dong, Anjie Zheng, Da-Cheng Juan, Wei Wei, Min Sun, DPP-Net: Device-aware Progressive Search for Pareto-optimal Neural Architectures. ECCV 2018

[19]  Jin-Dong Dong, An-Chieh Cheng, Da-Cheng Juan, Wei Wei, Min Sun, PPP-Net: Platform-aware Progressive Search for Pareto-optimal Neural Architectures, ICLR 2018 Workshop

[20]  Hinton, G., Vinyals, O., Dean, J.: Distilling the Knowledge in a Neural Network. ArXiv e-prints (2015)

[21]  Romero, A., Ballas, N., Kahou, S.E., Chassang, A., Gatta, C., Bengio, Y.: Fitnets: Hints for thin deep nets. In: In Proceedings of ICLR. (2015)

[22]  Xu, Z., Hsu, Y.C., Huang, J.: Training shallow and thin networks for acceleration via knowledge distillation with conditional adversarial networks (2018)

 

己、分散式深度學習計算(Distributed Deep Learning Computations)

隨著深度學習的計算量不斷增加,近年來越來越多研究在討論改善分散式深度學習計算的方法。分散式深度學習計算方法可分為資料平行(data parallelism)及模型(model parallelism)平行兩種選擇。[1]是最早討論這兩種不同平行計算方法優缺點的文章。資料平行的優化方法在於尋找最佳化的模型分割決策,一方面要平衡不同節點的計算量,另一方面又要減少不同計算節點因為模型被分隔後要傳輸的tensor資料量。不少研究[2,3]將這個問題視為一個NP-complete計算複雜度的圖形分割問題,求最佳的近似解。但使用模型平行的實作方式相對複雜,而且當模型越趨複雜的同時,分割模型所產生的傳輸資料量也會急速增加。相對的,資料平行是相對單純的平行方式,因為每個計算節點可以獨立作模型的訓練,只要在定期更新梯度的計算結果。因此各式能減少梯度更新時間的計算方法就被提出,包括quantize gradients [4,5]、非同步梯度更新[6]、更有效率的梯度資訊收集演算法,如Bandwidth optimal Allreduce[7,11]Sufficient Factor Broadcasting[8]Parameter Server[9],以及利用RDMA加速傳輸[10]。另外近年來也開始逐漸出現支援彈性深度學習計算的計算框架,包括百度所開發的PaddlePaddle Fluid[12]Litz[13]

 

參考文獻

[1] Krizhevsky, Alex. (2014). One weird trick for parallelizing convolutional neural networks. arXiv:1404.5997.

[2] A. Mirhoseini*, H. Pham*, Q. V. Le, B. Steiner, R. Larsen, Y. Zhou, N. Kumar, M. Norouzi, S. Bengio, and J. Dean. "Device Placement Optimization with Reinforcement Learning." International Conference on Machine Learning (ICML), 2017.

[3] Ruben Mayer, Christian Mayer, and Larissa Laich. 2017. The tensorflow partitioning and scheduling problem: it's the critical path!. In Proceedings of the 1st Workshop on Distributed Infrastructures for Deep Learning (DIDL '17). ACM, New York, NY, USA, 1-6.

[4] Seide, F & Fu, H & Droppo, Jasha & Li, G & Yu, D. (2014). 1-bit stochastic gradient descent and its application to data-parallel distributed training of speech DNNs. 1058-1062.

[5] Tim Dettmers . 8-Bit Approximations for Parallelism in Deep Learning.       arXiv:1511.04561.

[6] Wei Zhang, Suyog Gupta, Xiangru Lian, and Ji Liu. 2016. Staleness-aware async-SGD for distributed deep learning. In Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence (IJCAI'16), Gerhard Brewka (Ed.). AAAI Press 2350-2356.

[7] Pitch Patarasuk and Xin Yuan. 2009. Bandwidth optimal all-reduce algorithms for clusters of workstations. J. Parallel Distrib. Comput. 69, 2 (February 2009), 117-124. DOI=http://dx.doi.org/10.1016/j.jpdc.2008.09.002

[8] Pengtao Xie, Jin Kyu Kim, Yi Zhou, Qirong Ho, Abhimanu Kumar, Yaoliang Yu, and Eric Xing. 2016. Lighter-communication distributed machine learning via Sufficient Factor Broadcasting. In Proceedings of the Thirty-Second Conference on Uncertainty in Artificial Intelligence (UAI'16). AUAI Press, Arlington, Virginia, United States, 795-804.

[9] Mu Li, David G. Andersen, Jun Woo Park, Alexander J. Smola, Amr Ahmed, Vanja Josifovski, James Long, Eugene J. Shekita, and Bor-Yiing Su. 2014. Scaling distributed machine learning with the parameter server. In Proceedings of the 11th USENIX conference on Operating Systems Design and Implementation (OSDI'14). USENIX Association, Berkeley, CA, USA, 583-598.

[10] Jia, Chengfan & Liu, Junnan & Jin, Xu & Lin, Han & An, Hong & Han, Wenting & Wu, Zheng & Chi, Mengxian. (2017). Improving the Performance of Distributed TensorFlow with RDMA. International Journal of Parallel Programming.

[11] Alexander Sergeev, Mike Del Balso. Horovod: fast and easy distributed deep learning in TensorFlow.         arXiv:1802.05799.

[12] PaddlePaddle Fluid: Elastic Deep Learning on Kubernetes. htps://kubernetes.io/blog/2017/12/paddle-paddle-fluid-elastic-learning/. Dec 2017.

[13] Aurick Qiao, Abutalib Aghayev, Weiren Yu, Haoyang Chen, Qirong Ho, Garth A. Gibson, Eric P. Xing: Litz: Elastic Framework for High-Performance Distributed Machine Learning. USENIX Annual Technical Conference 2018: 631-644

 

庚、GPU虛擬化(GPU Virtualization)

GPU虛擬化技術已被研究多年,主要目的是讓多個虛擬機器可以共享一個GPUGPU虛擬化技術可分為API remoting[1-4]API passthrough[5,6]兩大類型。API remoting,如rCUDA[2]GViM[3]vCUDA[4]gVirtuS[8],是在前端(guest OS)攔截GPU API後,將API的參數傳遞到後端(host OS)上執行。因此在guest OS並無法看見實際的GPU就可以執行GPU程式。API passthrough則是透過硬體模擬的方式,讓GPU同時掛載在多個虛擬機器中,因此guest OS可以直接識別使用掛載後的GPU。不少研究則是進一步提出利用工作排程的方式[K7-K10]管控虛擬化的GPU在不同虛擬機器中的資源分配比例。但是目前為止只有ConVGPU[11]是討論如何讓container共享GPU的方式,並且只針對記憶體的空間使用作管控並不包括計算量的管控。

 

 

參考文獻

[1] H.A. Lagar-Cavilla, N. Tolia, M. Satyanarayanan, and E. de La-ra, “VMM-Independent Graphics Acceleration,” Proc. Int’l Conf. Virtual Execution Environments (VEE ’07), June 2007.

[2] José Duato, Francisco D. Igual, Rafael Mayo, Antonio J. Peña, Enrique S. Quintana-Ortí, and Federico Silla. 2009. An efficient implementation of GPU virtualization in high performance clusters. In Proceedings of the 2009 international conference on Parallel processing (Euro-Par'09), Hai-Xiang Lin, Michael Alexander, Martti Forsell, Andreas Knüpfer, Radu Prodan, Leonel Sousa, and Achim Streit (Eds.). Springer-Verlag, Berlin, Heidelberg, 385-394.

[3] Vishakha Gupta, Ada Gavrilovska, Karsten Schwan, Harshvardhan Kharche, Niraj Tolia, Vanish Talwar, and Parthasarathy Ranganathan. 2009. GViM: GPU-accelerated virtual machines. In Proceedings of the 3rd ACM Workshop on System-level Virtualization for High Performance Computing (HPCVirt '09). ACM, New York, NY, USA, 17-24.

[4] Lin Shi, Hao Chen and Jianhua Sun, "vCUDA: GPU accelerated high performance computing in virtual machines," 2009 IEEE International Symposium on Parallel & Distributed Processing, Rome, 2009, pp. 1-11.

[5] Chao-Tung Yang, Jung-Chun Liu, Hsien-Yi Wang, and Ching-Hsien Hsu. 2014. Implementation of GPU virtualization using PCI pass-through mechanism. J. Supercomput. 68, 1 (2014), 183–213.

[6] Chao-Tung Yang, Hsien-YiWang, and Yu-Tso Liu. Using pci pass-through for gpu virtualization with cuda. In Network and Parallel Computing. Springer, 445–452.

[7] Shinpei Kato, Michael McThrow, Carlos Maltzahn, and Scott Brandt. 2012. Gdev: first-class GPU resource management in the operating system. In Proceedings of the 2012 USENIX conference on Annual Technical Conference (USENIX ATC'12). USENIX Association, Berkeley, CA, USA, 37-37.

[8] gVirtuS: http://osl.uniparthenope.it/projects/gvirtus.

[9] Dipanjan Sengupta, Raghavendra Belapure, and Karsten Schwan. 2013. Multi-tenancy on GPGPU-based servers. In Proceedings of the 7th international workshop on Virtualization technologies in distributed computing (VTDC '13). ACM, New York, NY, USA, 3-10.

[10] C. Zhang, J. Yao, Z. Qi, M. Yu and H. Guan, "vGASA: Adaptive Scheduling Algorithm of Virtualized GPU Resource in Cloud Gaming," in IEEE Transactions on Parallel and Distributed Systems, vol. 25, no. 11, pp. 3036-3045, Nov. 2014.

[11] D. Kang, T. J. Jun, D. Kim, J. Kim and D. Kim, "ConVGPU: GPU Management Middleware in Container Based Virtualized Environment," 2017 IEEE International Conference on Cluster Computing (CLUSTER), Honolulu, HI, 2017, pp. 301-309. Environment

 

辛、人工智慧應用

1.     AIoT

過去智慧家庭較著重於如何方便控制各個智慧裝置,例如 Smart Phone App[6] Voice Control [7] 等,然而這種被動的服務有時無法滿足使用者的需求,[8] 嘗試提出 rule-based 的方法來解決這個問題,[9, 10, 11] 提出 learning-based 模型,藉由學習使用者的行為模式,來提供主動的服務。

2.     AI + HCI

現行有些系統限制於物體必須要在同一個平面上進行檢測,有些系統必須要連結強大的主機來做運算,對比之下,我們的系統解決了使用空間和穿戴性的問題。

3.     Neural Architecture Search

Barret Zoph等人在小型資料集Cifar10中找得一個神經架構,並轉移至大型數據集ImageNet上進行訓練,雖然結果非常好,但卻需要花費近1800GPU工作日來尋找好的神經架構。Hieu Pham等人透過權值共享的原理,改進了先前研究需要大量計算的缺點,其計算成本減少1000倍以上,僅僅使用一張GTX 1080ti顯示卡,就能在16個小時內完成尋找。Hanxiao Liu等人進一步提出基於梯度下降的可微架構搜索方法,可以更高效率的搜索適合的神經架構。

4.     Autonomous System

目前國外已有研究運用影片進行無監督式學習訓練深度預測,而室內的部分已有相關的資料集與監督式學習所訓練的模型。

5.     Ubitus

國外常使用生成對抗式模仿學習,例如:(1) 採用互信息約束,(2) 搭配變分自編碼器,學習到可解釋性特徵

6.     Image Segmentation

在人群影像切割部份,[1] 使用卷積神經網路進行人群切割。該方法在運行速度與切割準確率都優於傳統方法,我們的人群切割網路也是使用卷積神經網路。動態資訊應用部份,[2] 使用影像串流的動態資訊對影像進行切割,後經人挑選及微調結果,而我們是透過訓練出的策略網路進行影像挑選。在自主學習部份,[3] 將其任務設定在跨語言(不同特性)學習,僅用少數人力標注資料,其目的在減少標注成本,而我們的技術可以達到不用人力標注,只要訓練好我們的策略網路模型即可。

7.     Medical

[4] 2015 提出,針對細胞的電子顯微鏡影像進行影像切割(Image Segmentation),其提出的架構亦可應用在其他類型的圖片(尤其是生醫影像)[5] 提出藉由結合影像偵測與影像分割框架,在實例分割(instance segmentation)任務上取得巨大的成功,其結合方式亦被廣泛使用提升相關電腦視覺問題之表現。

[1] Song, C., Huang, Y., Wang, Z., Wang, L.: 1000fps human segmentation with deep convolutional neural networks. In: ACPR, IEEE (2015)

[2] Nirkin, Y., Masi, I., Tuan, A.T., Hassner, T., Medioni, G.: On face segmentation, face swapping, and face perception. In: Automatic Face & Gesture Recognition IEEE International Conference. (2018)

[3] Fang, M., Li, Y., Cohn, T.: Learning how to active learn: A deep reinforcement learning approach. In: EMNLP. (2017)

[4] Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015.

[5] He, Kaiming, et al. "Mask r-cnn." Computer Vision (ICCV), 2017 IEEE International Conference on. IEEE, 2017.

[6] S. Kumar and S. R. Lee. 2014. Android based smart home system with control via Bluetooth and internet connectivity. In The 18th IEEE International Symposium on Consumer Electronics (ISCE 2014). 1–2. https://doi.org/10.1109/ISCE.2014.6884302

[7] M. Vacher, D. Istrate, F. Portet, T. Joubert, T. Chevalier, S. Smidtas, B. Meillon, B. Lecouteux, M. Sehili, P. Chahuara, and S. MÃľniard.

2011. The sweet-home project: Audio technology in smart homes to improve well-being and reliance. In 2011 Annual International

Conference of the IEEE Engineering in Medicine and Biology Society. 5291–5294. https://doi.org/10.1109/IEMBS.2011.6091309

[8] Blase Ur, Elyse McManus, Melwyn Pak Yong Ho, and Michael L. Littman. 2014. Practical Trigger-action Programming in the Smart

Home. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI ’14). ACM, New York, NY, USA, 803–812.

https://doi.org/10.1145/2556288.2557420

[9] Diane J. Cook, Manfred Huber, Karthik Gopalratnam, and Michael Youngblood. 2003. Learning to Control a Smart Home Environment.

In Innovative Applications of Artificial Intelligence 2003 (2003).

[10] D. J. Cook, M. Youngblood, E. O. Heierman, K. Gopalratnam, S. Rao, A. Litvin, and F. Khawaja. 2003. MavHome: an agent-based smart

home. In Proceedings of the First IEEE International Conference on Pervasive Computing and Communications, 2003. (PerCom 2003). 521–524.

https://doi.org/10.1109/PERCOM.2003.1192783

[11] S. K. Das, D. J. Cook, A. Battacharya, E. O. Heierman, and Tze-Yun Lin. 2002. The role of prediction algorithms in the MavHome smart

home architecture. IEEE Wireless Communications 9, 6 (Dec 2002), 77–84. https://doi.org/10.1109/MWC.2002.1160085