close

在腳踏實地的將 AI 落地這件事上,Google 無疑是做的最好的巨頭之一,這其中 NLP 團隊或許正是一個最好的故事樣本

宣告 | 文章轉載自微信公眾號「極客公園」

自然語言處理,又稱 NLP( Natural language processing ),是目前以及未來 AI 領域最重要的基礎技術之一,主要是在機器學習的基礎上結合語言學和統計學在自動化服務中對語言進行建模。說的直白一點,NLP 就是關於人和機器如何互相理解、機器如何更懂人類的關鍵。

作為目前 AI 最主要的兩個分支領域,NLP(自然語言處理)和 Computer Vision(計算機視覺)分別代表了人類嘗試讓機器理解世界的兩個緯度,也是目前人工智慧領域發展最快的兩個分支。伴隨國內外各家智慧音箱和語音助手的出現,NLP 一時間成了眾多科技巨頭正面交鋒的 AI 主戰場。

自然語言處理到底如何一路走來、最終又將會讓機器和人之間的關係走向哪?作為在 NLP 領域投資最多的公司,Google 或許是最有發言權的。

消除語言障礙,Google NLP 的第一個任務

在 Google 的概念中,語言不應該是人類溝通的障礙,更不應該是使用網路的阻礙。

Google 研究專案總監 Linne Ha 稱,Google 的使命在於彙總全世界的資訊並使其能夠被普遍獲取和使用,而破除語言障礙就成了其中的關鍵。消除語言造成的隔閡,這些年來始終是 Google NLP 團隊的主要任務之一。這種消除並不止停留在翻譯層面,語言處理(文字分析、生成、對話等)、音訊處理、手寫識別等都是 Google 正在著眼解決的問題。

目前世界上有 6000 種語言,這其中超過 100 萬人使用的語言就有 400 種,還有很多小眾的方言。但現在的網際網路主導語言依然是英語,全世界大約 50% 的網路內容都是英文的。讓全世界的人都能成為網際網路的受益者,不被語言的差異所阻礙,這正是 Google Bringing Everyone Online 計劃的偉大設想。

「統一碼」和「不要豆腐」字型,它們是 Google 完成這件事的第一步。

Unicode(統一碼)是計算機的標準字元編碼,它為每種語言中的每個字元設定了統一併且唯一的二進位制編碼,以滿足跨語言、跨平臺進行文字轉換、處理的要求,谷歌一種都在鼓勵更多的國家和地區放棄使用非 Unicode 的字型。

除此之外,很多時候當電腦和手機等裝置在對文字進行渲染,如果裝置上沒有相應的字型,就會出現空白方塊字元,這些方塊看起來就像豆腐一樣。針對這種情況,Google 開發了一款叫做 Noto 的字型( Noto 就是 No Tofu 的縮寫),它幾乎相容所有語言,並且提供統一的風格,以此來消除文字在不同裝置上渲染出現的空白方塊( Tofu )。

當呈現方式的障礙消除之後,資訊的輸入就成了下一個需要解決的問題。而機器學習的介入,開始讓人與機器之間的資訊互動方式發生了變化。

手寫和語音是谷歌在鍵盤之外賦予機器的資訊接收方式,這個在普通使用者看起來順其自然的演進,背後其實是一個不小的工程。

不管是手寫還是語音,共同存在的一個問題是個體差異。很多時候,就算是同一種文字、同一種語言,也會因為不同的人而帶上不同的口音和不同的筆跡。面對這個問題,Google NLP 收集了大量書寫樣本和語音樣本,並利用機器學習從這些樣本中學習去辨認筆跡和口音。

早在十年之前 Google 就有了語音搜尋的設想,並且在 2007 年 Google 想出了通過提供 GOOG - 411( Google Voice Local Search ) 的服務來收集資料。這個全自動的語音識別搜尋服務很受歡迎,也很快幫助 Google 根據這些詢問的語音建立了一個大型資料庫。經過這些高質量的語音搜尋資料訓練,一年之後,語音搜尋就足以在智慧手機上啟動了。

之後 Google 又通過在世界各地的大量採集,擴充套件了 50 種其他語言的語音搜尋能力,讓全世界數百萬人可以以更低的門檻使用上網際網路。

神經網路,NLP 的躍遷籌碼

DNN(深度神經網路)的加入,讓 Google 的語音互動技術上升到了一個全新的高度。

2012 年 Google 正式開始運用深度神經網路,這項技術在一開始就讓語音識別能力提高了約 25% ,且之後 Google 不斷在優化演算法,讓這種識別率的提升效果始終保持著強勁的增長。同時,機器學習的能力提升也讓 Google NLP 的能力有了大幅度的提升,能夠更好的理解人類的句子。

目前,Google 通過這些技術提供了 30 多種語言的語音輸入支援,涵蓋超過十億人。其中個一典型的使用場景就是的 Gboard 輸入法和 Google 語音搜尋,這些 App 提供了 119 種語言的支援,包括 11 種印度語,3 種印度尼西亞語,甚至包含了 2 種非洲最重要的語言 —— 斯瓦希里語和阿姆哈拉語。

Google 的團隊從多年的資料收集中得出了一套高效低成本的方案,通過和同一地方的人用多語言進行溝通,用更少的資料建立了更好的語言模型。

在解決了基本的溝通問題之後,Google NLP 也開始在更多領域釋放自身價值,其中最典型的兩個場景就是翻譯和 AI 語音助手。

谷歌在 2016 年 9 月正式推出了整合神經網路的翻譯工具 —— GNMT( Google Neural Machine Translation )谷歌神經機器翻譯系統,這一翻譯技術的運用正是 Google 在 NLP 領域技術演進的一次直觀體現。這種將整個句子視作翻譯單元的方式,對句子中的每一部分進行帶有邏輯的關聯翻譯,翻譯每一個字或單詞時都包含著整句話的邏輯。

Linne Ha 稱,NMT 對於 SMT 更多是一種互補的關係,並沒有絕對的優劣之分,他們各自在不同的情況下有著各自的優勢。NMT 的出現彌補了之前 SMT 能力無法覆蓋的長句翻譯和複雜邏輯翻譯等問題。

智慧語音助手 Google Assistant 則是 Google NLP 技術目前最核心重要的運用。早在 2012 年的安卓 4.1 和 Nexus 手機上谷歌的智慧語音助手就以 Google Now 的形式和使用者見過面了。

當時的 Google Now 正是使用 NLP 技術完成與使用者互動,而後通過 Web 服務來進行問答、提供建議、完成服務等動作。而從 2016 年開始,具有更強大 NLP 處理能力的 Google Assistant 就開始逐步取代 Google Now ,幫助使用者在手機上完成更復雜的語音互動指令。

Google NLP 技術水平直接影響著 Google Assistant 的能力範圍,所以當 NLP 技術通過機器學習在長期的語音輸入、語音搜尋訓練和積累後,逐漸能夠掌握對話能力,而不再只是單純的簡單指令處理能力。

這時的 Google Assistant 也開始變得越來越全能,它能夠從對話中學習積累對自然語言的語意、邏輯的理解能力,並不斷優化。

NLP 的機遇和挑戰

NLP 或許不會有一個確切的盡頭,因為自然語言始終都在演變,而自然語言處理技術需要不斷去適應這種變化。

雖然目前的 NLP 技術無論是在演算法還是資料結構上都還沒有達到極限,但限制它的可能並不是只是演算法和資料,而是無法預測的語言習慣的變遷,以及不斷出現的新詞彙,以及舊詞彙的新用法。在此前的採訪中 Linne Ha 告訴記者,目前的 NLP 最大的挑戰在於如何運用運用演算法,更快的從有限資料中學習和適應語言習慣的新變化,並及時做出調整。

同樣的,機器翻譯也絕不會完全取代人類,因為除了語言動態變化的影響,資料量和演算法同樣是需要解決的問題。目前能夠被利用的資料的規模相較於整個人類文明的語言儲備來說實在太小,即使是 Google 也依舊面臨相同的問題;同時,即使有朝一日真的擁有了整個人類文明的語言知識庫,現有的演算法和計算能力也難以完成如此龐大的資料訓練。

所以,將來 NLP 可能並不一定能夠想一個真實的人一樣和我們進行對話,最終它或許更可能扮演一種高階輔助的角色,成為我們語言體系的一部分。

不過,NLP 在未來卻有可能也會對人類的語言習慣產生一些影響,比如多語言的使用習慣,一個人可能會擁有正式和非正式兩種語言習慣。

而被問到如今的新興創業公司在 NLP 領域還有哪些機會時,Linne 毫不猶豫的說出了「 Assistant 」,在她看來,現在語音智慧助手的市場有太多太多未被填補的空白場景。

另一個機會則隱藏在像廣東話這樣的特殊語言中,這些語言中存在很多無法被轉化為書面文字的口頭語,這類口頭語對於需要先將語音轉化為文字,從而學習並理解的 NLP 技術來說是一個亟待解決的關鍵問題。所以,NLP 未來的機會很可能就隱藏在「 beyond text 」(超越文字)的語言學習技術上。

總體而言,語言是使網際網路更具包容性的關鍵所在。而語言對於下一個無所不在的計算時代是至關重要,為了讓我們真正處於未來時代的資料環境中,我們需要能夠自然地與計算機交談,讓計算機瞭解我們。而這不應該只是使用英語的少數人的特權,而是所有人都應該享有的人工智慧時代的福利。

而讓機器更好的做到這一點,正是 Google NLP 的目標和使命。

責任編輯:趙新龍

arrow
arrow

    wvdyurwp 發表在 痞客邦 留言(0) 人氣()