從研究到應用：騰訊AI Lab的自然語言理解和生成

阿新 • • 發佈：2018-04-09

智能語言 AI

3月16日在騰訊AILab第二屆學術論壇上，騰訊AI Lab高級研究員李菁博士介紹了實驗室目前在NLP方面重點關註的兩大方向——如何理解和生成自然語言，並介紹了實驗室的相關研究和應用成果。

自然語言的理解

自然語言理解的目標是使得機器能夠像人一樣進行閱讀。機器不能像人一樣通過直覺和感知來理解文本，只能通過計算和邏輯。因此，自然語言的理解需要通過表征學習(Representation Learning)的手段把文本信號轉化為比如向量、矩陣等等可計算的形式。然後通過信息抽取（Information Extraction）從文本信息中找到有用的信息，摒棄無用的噪音。但這兩個研究方向僅僅是在字面意思上的理解，想要深入了解文字背後的含義還需要用到更復雜的語義分析技術，比如在語文考試中經常出現的題目：“這句話表達了作者怎樣的思想感情”，而回答這個問題就需要用到語義分析技術的一個子方向——情感分析技術。李菁詳細闡述了表征學習和信息抽取這兩種技術。

表征學習：騰訊AI Lab在各個顆粒度都有研究

李菁表示，從詞、詞組、到句子、到篇章，騰訊AI Lab在各個顆粒度的表征學習都有研究，並重點介紹了詞級別的表征，也就是詞嵌入（wordembedding）。詞嵌入的目標是把詞映射到一個高維的空間當中，使得意義相近的詞在空間上的距離比較近。詞嵌入目前很多深度學習模型所依賴的語料，直接作為用作輸入層的特征表示。在英語上，詞嵌入有很多很好的語料，比如 word2vec，但在中文上這個方面的語料目前還比較欠缺。因此騰訊AI Lab訓練了一個非常大規模的中文的詞嵌入，這個語料不管從覆蓋度、準確率還是對於新詞的衡量方面，都達到了行業領先的水平。並且無論是詞的相似度還是它應用到詞性標註上的性能，這個語料都表現出其優越性。

信息抽取：關鍵詞抽取被賦予了新的生命

說到信息抽取，李菁通過關鍵詞抽取的例子介紹了他們的研究成果。關鍵詞抽取是從文本當中抽取一些重要的成分，一般是詞或者詞組的形式。關鍵詞抽取是一個非常古老的問題，如今各種各樣的AI技術應用場景卻賦予它新的生命。比如在時下非常流行的自動問答系統當中，當用戶輸入這樣一個問題：“剛開始玩王者榮耀，花木蘭這個英雄怎麽樣”，如果能正確定位到花木蘭這個關鍵詞，就可以搜索到相關信息，比如“王者榮耀推出花木蘭，輸出給力”、“新英雄花木蘭讓女性英雄不再脆皮”以及“不是很喜歡花木蘭，技能太復雜。”，通過融合這些返回的結果就可以得到用戶想要的答案，比如“輸出給力，不脆皮，但是技能復雜”。

技術分享圖片

圖1考慮上下文的關鍵詞抽取模型

現在學術界在關鍵詞抽取上的研究進展並不是完美的，它也有欠缺考慮的地方，表現為目前針對關鍵詞抽取的研究點只考慮了待抽取的文本，而忽略了它的上下文信息，比如在抽取新聞的關鍵詞的時候，往往只關註新聞本身，而忽略了和新聞有關的評論。因為目標文本中的重要信息往往在上下文中會被多次提及，如果能很好地編碼上下文中的重要信息，將對定位目標文本的關鍵詞位置起到重要的作用。李菁在當天還介紹了AI Lab在關鍵詞抽取上的提出的模型，如圖 1所示，模型的左側的上下文編碼器用於抽象上下文中的表示，右側用於學習目標文本的特征，結合二者來共同發現目標文本中的關鍵詞位置。

自然語言的生成：讓AI寫春聯

自然語言的生成技術關註的是如何讓機器能夠像人一樣進行寫作，這就賦予了機器的創作能力。自動聊天是騰訊AI Lab在自然語言生成方面的主要研究方向，AI Lab可以做到讓機器生成諸如古風、浪漫風格等等各種各樣的回復。AI Lab生成應用亦在金融方面有所涉獵，比如針對股票的自動問答系統，針對財報生成摘要，讓大眾能夠很快地理解財報中的重要信息。另外還有針對中文古典文化的生成成果，比如詩歌和對聯的生成。接下來李菁以對聯生成為例，介紹了AI Lab在自然語言生成方面的應用。

技術分享圖片

圖 2 騰訊AI春聯生成以“騰訊”為藏頭的春聯

圖 2是AI Lab在2018年春節期間推出的騰訊AI 春聯產品，由騰訊AI Lab和騰訊新聞聯手出品。用戶只需輸入2-4個漢字，系統就會取後面2個漢字，第一個漢字生成上聯，第二個漢字生成下聯，比如輸入“騰訊”就會生成如圖 2中所示的對聯。李菁談到，這個產品自問世以來就受到了大眾的廣泛歡迎，數據顯示有超過380萬的用戶使用了該產品，頁面訪問量達到了760萬，春聯生成次數超過4千萬次，人均生成10次春聯。另外，由於騰訊AI春聯帶來的巨大影響力，各大媒體也爭相報道這個產品，除了中國大陸的媒體之外，還有來自中國臺灣和香港的媒體也爭相報道這個產品。

李菁還展示了騰訊AI春聯產品的工作原理。首先要根據用戶給定的第一個字生成上聯，在生成上聯的每個字的時候需要根據之前所揮灑出的意境，因此產品采用了語言模型的方法。在從上聯生成下聯的時候，采用了稍微不一樣的模型，因為考慮到對仗，系統使用了帶有註意機制的序列到序列模型，生成下聯每一個字的時候都找到上聯和它對應的字去落筆。通過這兩個模型，一副對仗工整、意境深遠的春聯就生成了。

最後，李菁表示相信隨著AI技術的發展，在不遠的將來，機器能夠被賦予像人一樣閱讀和寫作的能力。未來也一定會共同見證圖靈夢想成真的那一天！

題圖引用地址：https://naacl2018.wordpress.com/2018/03/03/naacl-paper-titles-over-time/

從研究到應用：騰訊AI Lab的自然語言理解和生成

智能語言 AI 3月16日在騰訊AILab第二屆學術論壇上，騰訊AI Lab高級研究員李菁博士介紹了實驗室目前在NLP方面重點關註的兩大方向——如何理解和生成自然語言，並介紹了實驗室的相關研究和應用成果。自然語言的理解自然語言理解的目標是使得機器能夠像人一樣進行閱讀。機器不能像人一樣通過直覺和感知來理

從研究到應用：騰訊AI Lab的自然語言理解和生成

從研究到應用：騰訊AI Lab的自然語言理解和生成

騰訊副總裁姚星：騰訊AI Lab將致力打造通往AGI之路

AI+醫療：基於模型的醫療應用大規模分析 | 騰訊AI Lab學術論壇演講

騰訊技術工程 | 騰訊AI Lab 現場陳述論文：使眾包配對排名聚合信息最大化的 HodgeRan

騰訊AI Lab AAAI18現場陳述論文：用隨機象限性消極下降算法訓練L1範數約束模型

騰訊技術工程 | 騰訊 AI Lab 11篇論文精選：圖像描述、NMT 模型、圖卷積神經網絡等

中科大教授吳鋒：多智能體的分布式在線決策 | 騰訊AI Lab學術論壇演講

AI+遊戲：高效利用樣本的強化學習 | 騰訊AI Lab學術論壇演講

CVPR2018-騰訊AI Lab提出新型損失函式LMCL：可顯著增強人臉識別模型的判別能力

頂級會議 | 騰訊AI Lab解析2017 NIPS三大研究方向，啟動教授及學生合作專案

騰訊 AI Lab 計算機視覺中心人臉 & OCR團隊近期成果介紹（3）

騰訊技術工程 |騰訊AI Lab刷新人臉識別與檢測兩大測評國際記錄，技術日調用超六億

CVPR 2018 | 騰訊AI Lab入選21篇論文詳解

騰訊AI Lab開源業內最大規模多標籤影象資料集（附下載地址）

NIPS2018 | 騰訊AI Lab入選20篇論文，含2篇Spotlight

基於騰訊AI Lab詞向量進行未知詞、短語向量補齊與域內相似詞搜尋

騰訊 AI Lab 正式開源PocketFlow，讓深度學習放入手機！

EMNLP2018 | 騰訊AI Lab深度解讀文字生成技術相關論文

騰訊 AI Lab 招收多名 CV/ML 實習生

CVPR 2018 | 騰訊AI Lab關注的三大方向與55篇論文

從研究到應用：騰訊AI Lab的自然語言理解和生成

相關推薦