你所不知道的 AI 進展

作者: 阮一峰

日期: 2019年10月29日

騰訊課堂 NEXT 學院

人工智能現在是常見詞匯,大多數人可能覺得,它是學術話題,跟普通人關系不大。

但是實際上,AI 突飛猛進,正在脫離實驗室,進入日常生活。僅僅是現在的技術水平,就足以模糊現實與虛擬的界限,顛覆一般民眾的認知。

(圖1:2018年10月,世界第一幅 AI 生成的肖像畫,拍賣成交價43.25萬美元。)

為了讓普通人了解 AI 的進展,谷歌的機器學習專家格里高利·薩普諾夫(Grigory Sapunov)寫了一篇通俗的科普文章,介紹目前的技術成果。這盤文章非常精彩,有大量的圖片,加上一些簡單的解釋,信息量很大,對于了解技術動態很有幫助。

(圖2:谷歌的機器學習專家格里高利·薩普諾夫)

下面就是那篇文章的翻譯,比較長,圖片很多,但是值得耐心讀完。我保證,有些內容一定會讓你感到吃驚。

另外,插播一條活動消息。大家知道,國內最大的在線教育平臺之一的騰訊課堂,贊助了我的個人網站。他們最近啟動了"騰訊課堂101計劃",推廣優質的技術教育資源。 大家可以留意一下本文結尾的免費活動信息,幫你掌握開發網頁和手機 App,提高技術水平。

一、圖像處理

人工智能最早是從圖像處理開始的。圖像處理是一種常見任務,智能要求比較高,需要使用 PhotoShop 之類的軟件人工編輯,一般的算法解決不了。

1.1 對象補全

2017年,日本科學家提出了一種圖像的對象補全模型。經過訓練,模型可以補全圖片上缺失的部分。

(圖3:圖像的對象補全模型)

上圖中,左邊是原始圖片,然后把中間的花盆涂掉,輸入模型。模型會自動補全缺失的部分(右圖),由于它不知道,那里有一個花盆,所以只會根據沒有涂掉的部分,補上地板和扶手。

下面是更多這樣的例子。涂掉的部分,模型都會補上,哪怕它根本不知道,那里原來是什么。

(圖4:圖像的對象補全示例)

Nvidia 公司將這個模型做成了產品,放在網上。你可以到它的網站,上傳一張圖片,然后涂掉一些部分,讓網站替你補全。

(圖5:涂掉沙發旁邊的茶幾)

有的圖像軟件已經應用這項技術,去除人像臉上的斑點。

1.2 背景處理

背景處理指的是,將前景物體從圖片分離出來,再對背景進行加工。目前,已經有很好的智能算法可以去除圖片背景。

(圖6:圖片的背景去除)

在模型內部,圖片會轉成像素的色塊。下圖的淺紫色塊就是前景物體,然后再把這些像素提取出來。

(圖7:背景去除模型)

這個模型也已經做成了線上服務,大家可以上傳圖片感受一下它的效果。

既然可以去除背景,那當然就可以更改背景,為圖片合成打開方便之門。

(圖8:更改圖片背景)

1.3 樣式轉換

人工智能還能夠識別圖片的風格樣式(即像素的變化規律),將其套用在另一張圖片。

(圖9:原始圖片)

上圖是兩張原始圖片,第一張是梵高的名畫《星夜》,第二張是普通的風景照。模型可以提取第一張圖片的風格,將其套用在第二張圖片。

(圖10:套用梵高的《星夜》風格)

其他名畫的風格,同樣可以套用。

(圖11:圖像的風格轉換)

1.4 圖像著色

一旦識別出圖片中的物體,模型就可以統計不同物體的像素顏色規律,然后就能推斷黑白照片可能的顏色,從而實現照片著色

(圖12:黑白照片的著色)

網上也有免費的著色服務,大家可以體驗。

二、GAN 方法

2.1 簡介

GAN 是"生成對抗網絡"(Generative Adversarial Networks)的縮寫,它是一種革命性的提升人工智能模型效果、生成虛擬圖像的方法。

原理很簡單,就是兩個神經網絡互相對抗。一個神經網絡負責生成虛擬圖像,另一個神經網絡負責鑒定假圖像。理論上,如果 GAN 訓練成功,那么生成的假圖像與真圖像將無法區分。2014年,這種方法提出以后,快速發展,目前效果已經可以亂真。

(圖13:GAN 的改進速度)

上圖是過去幾年,GAN 生成的虛擬人像。可以發現,每過一年,圖片越來越大,細節越來越豐富,越發接近真實人像。它的工作方法也是如此,第一步生成一張低分辨率圖片,然后慢慢放大,依次修改每一個像素,確定該像素怎樣才能最大概率通過鑒定器。

GAN 不僅能生成虛擬圖像,還能生成音頻、文本,甚至是化合物分子。AI 模型可能創造出來的任何東西,都能使用 GAN 提升效果。GitHub 有一個倉庫,專門收集不同用途的 GAN,目前已經有500多種模型。

2.2 StyleGAN

目前,生成虛擬人像效果最好的模型是 Nvidia 公司的 StyleGAN。下面兩張頭像,你能分辨哪張是虛擬的,哪張是真實的嗎?

(圖14:GAN 虛擬人像)

這是網站截圖,你可以去那個網站試試看,能猜對多少張。需要提醒的是,這是2018年底的模型產物,隨著模型進化,遲早將無法分辨真假。

GAN 不僅能生成人像,實際上可以生成任何圖像。下面是 BigGAN 模型生成的各種圖像,圖片里的東西都是不存在的。

(圖15:BigGAN 模型生成的虛擬圖像)

2.3 圖像翻譯

一種圖像通過 GAN 轉變為另一種圖像,稱為圖像翻譯。空拍照片變成地圖、黑白照片變成彩色照片,都是圖像翻譯的例子。

pix2pix 是圖像翻譯的開源工具,它可以讓黑夜變成白天,示意圖變成實物圖。

(圖16:圖像翻譯)

也可以讓春天變成夏天,晴天變成雨天。

(圖17:圖像翻譯)

圖像翻譯的難點在于,它需要有成對的示例(源圖像和相應的目標圖像),告訴模型應該怎么翻譯,這些示例可能很難創建。但是反過來,只要有配對的示例,就可以翻譯圖像,不管這種翻譯是否合理。下面是兩只小貓翻譯成對應的豹子、獅子和老虎。

(圖18:圖像翻譯)

CycleGAN 模型還支持跨域翻譯,將照片翻譯成油畫,斑馬翻譯成馬。

(圖19:圖像翻譯)

Nvidia 開發了一個 GauGAN 軟件,可以在線試玩。用戶只需手繪一個示意圖,軟件就能生成一張對應的風景照片。

(圖20:GauGAN 將示意圖變成照片)

2.4 人像翻譯

圖像翻譯用于人像,就是人像翻譯。StarGAN 模型可以翻譯面部屬性,比如頭發的顏色、性別、膚色等。

(圖21:臉部屬性的改變)

還可以把其他人的表情移植到你的臉上,下圖分別是憤怒、快樂、恐懼的表情翻譯。

(圖22:表情的改變)

SC-FEGAN 是人像翻譯的開源軟件,可以讓你編輯人像,比如加上劉海,去除墨鏡等等。

(圖23:人像編輯軟件 SC_FEGAN)

2.5 文本到圖像生成

GAN 最驚人的成果之一,大概就是根據文本生成圖像。用戶提供一個句子,軟件生成對應的圖像。原始文本"一只紅中透白、長著非常短的尖嘴的鳥",可以得到下面的圖像。

(圖24:根據文本生成圖像)

論文甚至提到,將來存在可能,根據劇本直接生成一部電影。

三、視頻生成

圖像處理逐漸成熟以后,人工智能業界的關注重點就轉向了視頻。

從一個視頻生成另一個視頻,這就叫視頻翻譯。目前比較成熟的兩個方向是運動傳遞和面部交換。

3.1 運動傳遞

運動傳遞指的是,將一個人的動作(包括身體、眼睛或嘴唇的動作)翻譯到另一個人身上,使得另一個人出現一模一樣的動作。

2018的論文《Everybody Dance Now》,給出了一個模型,可以將舞者的動作移植到任何人身上。

(圖25:動作傳遞)

上圖中,藍衣女子的跳舞視頻完全是假的,是將左上角舞者的動作套用在她身上,自動生成的。

NVIDIA 公司的開源軟件 vid2vid 更為強大,可以生成高分辨率的、連貫的逼真視頻。

(圖26:vidvid 軟件)

3.2 臉部生成

臉部生成指的是,根據一張臉的表情和動作,重建另一張臉。最著名的例子是虛擬的奧巴馬演講。2017年,華盛頓大學的團隊發表了一段奧巴馬的演講視頻。奧巴馬其實從未做過這個演講,是將別人的表情和口型套在他臉上生成的,語音也是合成的。

(圖27:虛擬的奧巴馬演講)

這種偽造的視頻被稱為 Deepfake(深度偽造),具有很大的欺騙性,許多在線平臺都禁止上傳這一類視頻。

(圖28:偽造的特朗普演講,將喜劇演員的表演變成特朗普自己在講。)

(圖29:深度偽造的普京)

2018年出現的《深度視頻肖像》更進了一步,生成的視頻不局限于虛擬的面部表情,還會頭部旋轉、眼睛凝視和眨眼,是 3D 的肖像重構。

(圖29:深度視頻肖像)

這些技術還在繼續發展,現在你可以給出任意文本,從任何你指定的對象嘴里說出來。甚至只憑一張照片,就可以生成一段表情變化的視頻。

(圖30:一張照片生成各種表情)

3.3 中國的實踐

國內的人工智能視頻生成,并不落后于國外。換臉應用 ZAO 只需用戶上傳一張照片,就能把影視劇主人公的臉換掉,好像你本人在表演電影一樣。

(圖31:換臉應用 ZAO)

2018年,新華社與搜狗合作推出了虛擬新聞主播,具有真人的形象,帶有聲音、面部表情和動作,在電視上播報新聞,已經開通了英語、俄語、阿拉伯語的主持人。

(圖32:虛擬新聞主播)

3.4 視頻渲染

除了視頻生成,人工智能在視頻渲染上也取得了很大進展。

Nvidia 公司2018年展示了實時光線追蹤 RTX 技術。這項技術用人工智能預測光線的變化,從而不用耗費大量計算去追蹤光線,因此可以實時渲染出高畫質的 3D 動畫。這對于視頻游戲有重大意義。

下面是使用這項技術的 Unreal Engine 4,實時渲染出的一個女子的3D 動畫,可以一邊計算生成,一邊播放,完全沒有延遲。

(圖32:實時渲染的動畫)

實時光線追蹤技術還可以用于自動駕駛,在白天和黑夜的不同時間,不同的路面和環境下,預測出暴雨、風雪和強烈的眩光導致的光線變化,對駕駛做出調整。

四、文本和聲音處理

最后,簡單提一下,人工智能在文本和聲音處理領域的進展。

(1)語音合成

谷歌在2018年推出了智能助手 Google Duplex,它會根據你的日程,自動打電話去餐廳訂座位。谷歌 CEO 說,這個機器人的對話能力,使得對方完全沒有發現這是機器人。

(2)音樂合成

OpenAI 基金會推出的 MuseNet,通過學習數十萬段 MIDI 音樂,能做到使用10種樂器,生成一段4分鐘的音樂。它的官網有這些音樂的下載,相當動聽。

(3)自動評論

據報道,使用 Yelp 網站的數據進行訓練的模型,可以自動生成餐廳評論。

  1. 我喜歡這個地方,一直來這里已經好多年。它是與朋友和家人相聚的好地點,我喜歡這里的食物和服務,從未有過糟糕的經歷。
  2. 我吃了烤蔬菜漢堡配薯條!哦,很好吃!
  3. 我和我的家人都是這個地方的忠實粉絲。工作人員超級好,食物也很棒。雞肉很好,大蒜醬也很完美。配水果的冰淇淋也很美味。強烈推薦!

上面這些都是機器生成的評論。

(4)智能郵件

Gmail 會根據電子郵件的來信內容,自動生成三種不同的回復,讓用戶選擇。如果只是簡單回應,用戶不用自己動手寫。

Gmail 的另一個功能是,根據用戶已經寫的內容,預測接下來會寫的句子,供用戶選擇。

五、小結

毫無疑問,人工智能是很酷的技術,創造出了神奇的產品,有著難以想象的巨大應用前景。

但是,人工智能也是一把雙刃劍,模糊了現實與虛擬之間的界限,把我們帶上了一條不可預測的道路。作為個人,了解這些技術的進展和潛力,有助于保持一份清醒,享受技術之福的同時,避免它帶來的一些副作用。

(正文完)

前端學習資料免費送

時間過得很快,2019年接近尾聲了。你今年有沒有達到年初設定的目標?技術水平提升了多少?是不是感嘆時間太少,永遠有學不完的東西?

下面是前端開發的10份免費專題資料,既有基礎內容,也有進階內容,都是實戰一定會用到的東西。不管你是剛開始學習前端,還是已經從事了0~3年的開發實務,這些資料相信都會讓你有所收獲。

  • HTML 專題
  • JavaScript 進階
  • ES6 專題
  • TypeScript 深入剖析專題
  • VUE 入門到進階實戰專題
  • React 專題
  • 底層源碼剖析專題
  • Node.js 專題
  • 服務器部署專題
  • 大型實戰項目解析

這10份專題資料,來自《騰訊課堂101計劃》重點推廣的優質機構"金渡教育"。金渡教育培訓人次累計超過了40000,好評度98%,很多學員就職于 BAT 等一線互聯網企業,許多薪水超過了 20K。 只要微信掃描識別下面的二維碼,就能免費獲取上面這些最新的前端資料。

金渡教育專注于做前端進階培訓。他們在騰訊課堂這個平臺上,有一門精品課程 《Web 前端進階班試聽課》。如果你看了上面資料,想了解更多,或者想接受系統的前端培訓,還可以 0 成本得到這門課的試聽。

目前正值"雙十一",他們提供各種優惠,是騰訊課堂上性價比非常高的一門課程。

(完)

留言(36條)

到最后,ai是否可以取代人類?

分享竟然不支持釘釘!

看完之后,我只想到了一個詞,欺騙,完全想不到它好的地方

很好的科普文章!????

人工智能的發展遠遠超出了我們的想象。

很好。。但也很可怕。。越來越真實,可能會讓人類混淆什么是客觀的真實與虛擬。。這里面也許會產生一種新的經濟利益,類似于鴉片,人類可以完全投入到這個虛擬的世界中過另外一種自己的人生。。。越來越近了。。

感謝介紹這篇論文。

看得如芒在背,想起蜘蛛俠英雄遠征,你將分不清你所處的環境是真實還是虛擬。那么最后將是人性善獲勝還是人性惡獲勝。

最后這些技術游戲行業全部能用上
哈哈哈哈哈一定要好好鍛煉,活到全息游戲上線

此條評論由 AI 生成

人類越來越不容易分辨真實與虛擬,未來了解真相也愈加不易。

喜歡TensorFlow

便利的同時也感覺人類(普通人)會越來越難,AI還真是把雙刃劍呀。

人類社會除了往前走,似乎也無路可退。

能力如果不能得到很好的管理,帶來幫助也將變為傷害

請問,那個樣式轉換(梵高畫)有沒有在線玩的地方?

有一天, 所有的攝像頭都失去了意義

那么問題來了,30歲高齡的普通程序員如何入門AI相關技術和領域

視頻動畫在5G時代將會有很大發展

敢問博主,AI跟區塊鏈會有怎樣的結合??

看完這 我發現我做前端都沒什么意義了 以后直接生成頁面就好了

懂的人看內核的技術, 不懂的人看個熱鬧

只想到兩個字,可怕

假如一臺機器有了和人一樣的智力,那 “他”能獲取一個合法的社會身份嗎?

我想知道有些技術發展的初心是什么,似乎早就忘了初心

超乎想象

好多網站是墻外的,從未敢翻墻過...

技術越來越強大,也越來越可怕。

沒有一條屬于“AI”

圖像處理而已,也算AI?

有一期再說正在開發腦部神經芯片,如果加上人工智能,未來可能會出現小說里面的游戲倉,而人類就是靠大腦神經去調動軀體工作,如果分離,不靠軀體供應營養,是不是可是永。。。

這么說起來,現在使用的人臉解鎖還能安全嗎?想起上次說的,可以從拍攝的高清照片中提取到指紋,細思極恐!

AI,唉.

以后不用手動摳圖去背景了。

2.3的CycleGAN http://nvidia-research-mingyuliu.com/gaugan/
去嘗試了一下,沒有任何反應,不知道是不是用法不對。

引用muji的發言:

到最后,ai是否可以取代人類?

人腦有1千多億個神經元,比電腦復雜多了

我要發表看法

«-必填

«-必填,不公開

«-我信任你,不會填寫廣告鏈接

体彩7位数