業界 | 商湯王曉剛:你所不知的商湯三維視覺產品世界
文章出處:AI研習社
商湯 AI 落地三步走戰略
7 月 12 日-7 月 14 日,2019 第四屆全球人工智能與機器人峰會(CCF-GAIR 2019)于深圳正式召開。
峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,深圳市人工智能與機器人研究院協辦,得到了深圳市政府的大力指導,是國內人工智能和機器人學術界、工業界及投資界三大領域的頂級交流博覽盛會,旨在打造國內人工智能領域極具實力的跨界交流合作平臺。
7 月 14 日下午,在「智慧城市·視覺智能」專場上,商湯科技聯合創始人、研究院院長、移動智能事業群總裁王曉剛帶來了題為《從學術到產業化的人工智能》的主題分享。
王曉剛回顧了人臉識別從學術到工業界的持續進步歷程,以及人臉識別在智慧城市、智慧通行、手機、AR、游戲等具體場景中的應用。
他提出,計算機視覺研究有幾個比較重要的部分:
一是 基礎層 ,包括芯片、AI 超算平臺、深度學習平臺等基礎方面的研究,在這方面,中國還有很長地路要走,西方尤其是美國領先我們很多。
二是 應用層 ,這一塊中國是比較擅長的,我們有非常豐富的應用場景,這些應用場景可以給我們更多的反饋,驅動我們的算法不斷地進步。
三是 工具鏈,人工智能賦能百業,當不同領域需要人工智能技術越來越多的時候,它對科學家或者研究員的需求是線性增長的。如何讓普通的開發者、公測人員可以根據我們的工具鏈迅速開發出合適的人工智能解決方案,使其生產力充分釋放出來,這是未來我們需要面臨的重大課題。
在這個過程中,商湯以往、現在以及未來持續會做的是:
在算法精度不斷提升的前提下,拓展智慧城市從 1 到 N 的業務邊界、促進 2D 感知到 3D 世界的落地,以及場景現實到虛擬現實的融合。
2014 年,商湯團隊發表 DeepID 系列人臉識別算法,使其全球首次超過人眼識別率,之后隨著技術的持續進步,業務也不斷突破邊界,從相對簡單的 1:1 識別向 1:N 進發。
目前,商湯所做的工作是如何從幾萬到幾十萬人中,識別和分析出用戶想要找的人或者物,隨著場景不斷地拓展,王曉剛認為人臉會逐漸成為人的身份標志。
另外,在 3D 的應用上,商湯的 3D 人臉識別方案也已經在很多手機上得到應用。
王曉剛現場展示了手機上通過 3D 攝像頭拍攝的人臉、物體以及人體圖像進行 3D 重建,未來 2D 的相冊還能拓展到 3D 相冊,人體的跟蹤上也從 2D 延伸到 3D。
以下是王曉剛教授大會現場全部演講內容,雷鋒網 作了不改變原意的整理及編輯:
王曉剛:
感謝大會的邀請,我是香港中文大學的一名教授,同時也參與商湯在人工智能產業方面的落地,今天非常高興能有機會與大家分享我在學術研究與工業化落地方面的一點個人體會與看法。
我自己有這樣的一些經歷,我們在實驗室帶著學生做研究,更多地是利用有限的計算資源和數據資源做學術界里的經典問題,“作坊式”地實現一些創新和突破。
隨著人工智能在工業界大規模落地,市場給了技術發展很大的助力,包括可研究的內容、可研究的工具、可研究的形式。
我比較認同賈佳亞老師(查看 演講內容)所說的未來不同研究領域的一些融合。
我認為現在我們的研究更多地停留在算法層次,未來的人工智能研究很重要的方面是軟硬的結合、算法和芯片的結合、算法和傳感器的聯合優化,這些都是比較重要的幾個方向。
而這些方向往往都需要更強的工業界支持,因為后者可以提供更多的硬件能力、更大的研究課題。
首先,業務系統對于我們的研究是非常重要的。比如一個普通城市,至少都有上萬個攝像頭,一年積累的人臉數據超過上千億,如果將這些攝像頭連在同一個平臺上,如何在大平臺上進行高效率地圖像搜索和大數據分析,這是實驗室中難以接觸到的問題。
另外,我們的計算平臺在現有的一些工業研究領域,能夠同時使用幾百塊 GPU 訓練一個模型,從而做到快速反饋。
同時,還有很多長尾的人工智能問題需要解決。我們需要建立一套高效的工具鏈,可以做到全面的測試和評估。
比如我們做人臉識別、計算機視覺識別問題,在學術領域,我們在實驗室里也有工具,但真正工業應用落地其實要做大量的測試,后者會反饋出非常多的問題。
而以上這些要素,均是學術實驗室所不具備的。
商湯科技成立于 2014 年,初創研究團隊來自于香港中文大學,大概有 20 年歷史的學術積淀。
我們一直與學術界保持著密切地交流,包括與 MIT、南洋理工、清華、北大等高校都設有聯合實驗室,可以提供不同行業的人工智能算法和解決方案。
過去幾年,我們除了做一些工業落地方面的研究,也會兼顧學術方面的探索,在 ICCV、ECCV 上發表了幾百篇論文。
我們和香港中文大學聯合實驗室共同啟動 OpenMMLab 開源算法庫,其中包含了大家經常關注的計算機視覺問題,如物體的檢測、行為的識別和超分等。
經典算法開源,可以幫助大家更好地復現,目前也有一些其他院校加入到了這個開源平臺的構建中。
同時,我們還提供了 SenseAR 增強現實的開發者平臺,這是學術和工業聯合研究的例子。
它不僅有增強現實 AR 和 AI 功能集成,從 SLAM 到人臉、人體的識別等,還可以部署到不同的手機上,目前這個平臺已經部署在超過 5000 萬臺的手機上。
我們認為做計算機視覺或者人工智能方面的研究有幾個比較重要的方面:
一是 基礎層 ,包括芯片、AI 超算平臺、深度學習平臺等基礎方面的研究,在這方面,我們還有很長地路要走,西方尤其是美國領先我們很多。
二是 應用層 ,這一塊中國是比較擅長的,我們有非常豐富的應用場景,這些應用場景可以給我們更多的反饋,驅動我們的算法不斷地進步。
三是 工具鏈層,人工智能賦能百業,當不同領域需要人工智能技術越來越多的時候,它對科學家或者研究員的需求是線性增長的,如何讓普通的開發者、公測人員可以根據我們的工具鏈迅速開發出合適的人工智能解決方案,使其生產力充分釋放出來,這是未來我們需要面臨的重大課題。
舉幾個例子,在算法精度不斷提升的前提下,如何拓展智慧城市從 1 到 N 的業務邊界、促進 2D 感知到 3D 世界的落地,以及現實到虛擬現實的融合?
我們知道,人工智能的工業應用時間點是在 2014 年,2014 年商湯團隊發表 DeepID 系列人臉識別算法全球首次超過人眼識別率。
而后,很多人認為當技術超過肉眼識別率時,問題就已經解決的差不多了,其實不是這樣,現實生活中,很多場景對于技術的需求遠遠超過肉眼識別的水平。
2014 年,當時的技術誤識率是在千分之一,現在每年都有幾個量級的增長。從過去幾年中可以看到,隨著人臉識別技術精度持續增長,它可以不斷地突破業務的邊界。
此前,識別率比較低時,可以做 1:1 比對,如人臉、身份證進行線上線下認證,現在很多產品已經出現在機場、酒店中。
從 2017 年開始,人臉識別技術開始應用于手機解鎖功能,手機雖小但其要求更高,因為手機不但要識別準確,還要防止活體攻擊,這其中還包含各種各樣活體攻擊方式,從照片到視頻再到 3D 模型。
過去幾年里,我們的 SenseID 人臉識別、活體檢測水平持續提升,可以讓這一項技術進入普羅大眾的日常生活中。
據統計,現在人們每天使用手機人臉解鎖這項功能超過 100 億次。
如果 1:1 是相對簡單的問題,1:N 就更加復雜。
我們需要有數據庫,這里的數據庫可能是幾萬或者幾十萬量級。在門禁、閘機等通行場景中,一個大樓或者公司有 1、2 萬人的數據庫;智慧城市的數據庫可能達到幾十萬的量級。
商湯所做的就是從幾萬到幾十萬人中識別和分析所需要找的人與物。隨著場景不斷的拓展,我們可以看到人臉漸漸的成為人的身份標志。
現在大家看到的是我們在上海西岸的“智慧公共空間管理平臺”,這個區域有密集的攝像頭,可以通過人臉識別、跟物體的關聯等,尋找到我們想要找的人或者丟失的東西。
現在智慧城市應用里,我們可以看到有越來越多的攝像頭具有 AI 的功能,越來越多的攝像頭可以連接在同一個平臺上。
為了數據安全和數據隱私的保護,我們會逐漸減少人工干預和標注,數據可以存儲在客戶那一端。
以前我們說算法性能的提升依靠人工標注,現在我們的數據量有幾十億甚至上百億的量級,不太可能靠人工標注,我們需要依靠機器終身學習,使數據得到自動更新,部署系統和訓練系統可以實現完美融合。
在 3D 應用方面,手機已經從單個 RGB 攝像頭到多攝到 3D 攝像頭。
2017 年開始,蘋果應用了結構光 3D 攝像頭,后面我們可以陸續看到很多手機廠商不斷地推出這樣的機型,把有深度學習的攝像頭裝在手機上,可以帶來很多新的研究課題和新的應用。
回顧一些大家比較熟悉的場景,看它如何從 2D 成長到 3D 并產生相應的應用。
比如最開始人臉的關鍵點,我們推出 106 個人臉關鍵點,主要是做人臉的屬性、人臉特效,用在互聯網直播等。
我們從 106 點到更稠密的 240 個人臉關鍵點,做的事情不僅是增加特效了,而且還有美妝,對人臉關鍵點的定位要求更準確。
化妝后出現關鍵點偏移,比如紅嘴唇涂到牙齒上等等,這是我們不希望看到的,根據關鍵點,我們有智能的美顏、美妝,更多的功能需要更多稠密的關鍵點和定位。
現在手機上有了 3D 攝像頭,我們可以實現人臉 3D 重建,它對于技術的精度、計算復雜性、幾何復雜性都提出了更高挑戰。
目前,我們已經在 OPPO、vivo 手機上實現了商湯人臉 3D 重建,根據這個可以進行 3D 美顏、捏臉、微整形等。
更有趣的是 3D Avatar,通過人臉驅動 3D Avatar,除了人臉的重建還有人體和一般物體的重建,正是因為手機上有了深度的信息,可以給我們帶來不一樣的體驗,2D 相冊在未來可以拓展到 3D 相冊。
人體關鍵點定位跟蹤是學術界研究很長時間的課題,未來這個應用可以落地在很多場景中。
包括服裝、膚質的識別,我們可以根據你的服裝生成人體的形象,在互聯網直播場景中,以前給人加各種各樣的特效,現在還可以針對每一個人做虛擬形象
另外,還可以設立虛擬觀眾席,如果大家不能在現場參加像今天這樣的大會,作為粉絲,你可以有自己的 Avatar 形象,可以在家里參加并進行互動。
最后,我想介紹人工智能和 AR (增強現實)的結合。
2017 年被大家看作是增強現實的元年,這一年蘋果、谷歌發布了 ARKit 和 ARCore 的平臺,商湯科技從 2016 年有自己的增強現實平臺 SenseAR。
2016 年我們主要支持娛樂互聯網的直播、特效等功能。
2018 年,商湯以原創 AR 開發者平臺 SenseAR 為基礎,聯合 OPPO 共同打造 OPPO ARunit 平臺,通過這個平臺吸引更多的開發者加入,后面包括小米等互聯網公司也加入進來并基于此做了開發。
這其中有 SLAM 技術、有各種 AI 功能,隨著手機 3D 攝像頭的出現,我們還有基于 RGBD 的 SLAM 和物體的重建。
可以看到 SLAM 技術的落地面臨諸多挑戰,需要應對動態的場景、弱紋理、復雜運動以及室外大場景。
這里為大家展示的是 OPPO 手機上有了 SLAM 技術和深度攝像頭可以做 AR 測量,你可以拿著手機測量任何一個物體的大小,還可以自動的檢測場景中的各種形狀,如方形、圓形、測量身高等。
現在對標蘋果 AR 尺子的技術,在準確性或者數字化、速度上等各方面上,我們可以做得更好一些。
我們還做了 AR 導航,大家可以在大的購物中心、酒店等室內場景里找到自己的位置,在技術實現上,這是極具挑戰的。
杭州國博中心是一個非常大的場景,我們可以進行 3D 地圖重建,用 SLAM 的技術實現室內導航。
如果你走丟了,可以通過手機 AR 導航功能選擇路線,導航會自動帶你到想要去的位置。可以看到它在進行場景的重建和定位,進行手機的導航。
另外,我們的 AR 游戲跟《王者榮耀》合作,可以通過手機拍攝真實的場景,游戲里的人物會進行虛擬和現實的融合。
接下來為大家展示多人共享的 AR 云(SenseAR),針對單個前端的設備,我們利用 SLAM 技術進行場景的理解和定位。
如果幾個人同時想玩一個游戲,我們的 AR 云可以把他們不同手機上的坐標系統一到同一個坐標系下,實現跨平臺的互動。
我們的 SenseAR 和手機廠合作,可以從手機到 AR 的平臺,再到渲染的平臺,貫穿開發給開發者,將來有更多的開發應用和更好的體驗。
上個月,我們還成立了中國增強現實核心技術產業聯盟 (China Augmented Reality Core Technology Industry
Alliance,簡稱 CARA),我們知道國外的增強現實是由谷歌、蘋果等巨頭主導,很多研究和創新需要聯合產業鏈上下游的力量綜合實現創新。
該聯盟由手機廠商、研究機構、模組廠商、算法提供商和 Sensor 廠商組成,可以形成聯合創新。
這就是開始時談到的——現在和未來 AI 的研究不單單是在實驗室研究單點的問題,我們要聯動產業鏈上下游,通過緊密的合作和市場反饋提供新的問題,實現創新的突破。
我們相信未來隨著應用場景不斷的豐富會給我們 AI 研究提出更多新的課題,我們和學術界、產業界一起把 AI 的研究推向更前端,有更多的落地場景。
謝謝大家!
現場觀眾提問:
王老師好,我是香港中文大學的 Ph.D,商湯研究院有這么多博士,我相信這是非常強大的學術組織,但畢竟商湯是商業化的公司,我特別好奇商湯研究院如何平衡商業回報和學術成果?
王曉剛:
我們對于學術成果的看重不只是發論文,雖然今天 PPT 中展示我們有多少篇論文,但這不是最重要的。我們要求大家要做到在學術界有影響力,且能帶來突破以及可行的工作成果。
所謂的商業回報和學術突破二者并不是完全矛盾的,它們可以有更緊密的結合。我們已經有非常多的研究員深入到各種實際應用中,發現問題、解決問題。
人工智能與其他很多研究不太一樣,如果研究電磁學,在實驗室里就可以了;但人工智能是賦能產業的,不能待在實驗室,一定要理解客戶真正的問題是什么。
我們希望產業可以給學術提出新的問題、新的數據,在這些問題上實現產業和學術的結合。
-
11月2日,為期七天的計算機視覺頂會ICCV 2019落幕。商湯科技以57篇論文(11篇Oral),13項冠軍的成績創造新“高度”(詳見文章《商湯科技57篇論文入選ICCV 2019,13項競賽奪冠》),讓世界見證商湯研究技術積累的“厚度”,在大會現場也能切身感受商湯AI+行業應用落地的“廣度”2019-11-03
-
近日,由阿里巴巴集團、商湯科技及香港科技園公司攜手成立的香港人工智能及數據實驗室(HKAI Lab)在香港科學園正式開幕。商湯科技創始人、香港中文大學教授湯曉鷗、阿里巴巴集團首席技術官張建鋒和香港科技園公司行政總裁黃克強分別發表了講話,祝愿HKAI Lab能夠助力香港初創人工智能企業生態發展。2018-10-18