1. 程式人生 > >從研究到應用:騰訊AI Lab的自然語言理解和生成

從研究到應用:騰訊AI Lab的自然語言理解和生成

智能語言 AI

3月16日在騰訊AILab第二屆學術論壇上,騰訊AI Lab高級研究員李菁博士介紹了實驗室目前在NLP方面重點關註的兩大方向——如何理解和生成自然語言,並介紹了實驗室的相關研究和應用成果。


自然語言的理解

自然語言理解的目標是使得機器能夠像人一樣進行閱讀。機器不能像人一樣通過直覺和感知來理解文本,只能通過計算和邏輯。因此,自然語言的理解需要通過表征學習(Representation Learning)的手段把文本信號轉化為比如向量、矩陣等等可計算的形式。然後通過信息抽取(Information Extraction)從文本信息中找到有用的信息,摒棄無用的噪音。但這兩個研究方向僅僅是在字面意思上的理解,想要深入了解文字背後的含義還需要用到更復雜的語義分析技術,比如在語文考試中經常出現的題目:“這句話表達了作者怎樣的思想感情”,而回答這個問題就需要用到語義分析技術的一個子方向——情感分析技術。李菁詳細闡述了表征學習和信息抽取這兩種技術。

表征學習:騰訊AI Lab在各個顆粒度都有研究

李菁表示,從詞、詞組、到句子、到篇章,騰訊AI Lab在各個顆粒度的表征學習都有研究,並重點介紹了詞級別的表征,也就是詞嵌入(wordembedding)。詞嵌入的目標是把詞映射到一個高維的空間當中,使得意義相近的詞在空間上的距離比較近。詞嵌入目前很多深度學習模型所依賴的語料,直接作為用作輸入層的特征表示。在英語上,詞嵌入有很多很好的語料,比如 word2vec,但在中文上這個方面的語料目前還比較欠缺。因此騰訊AI Lab訓練了一個非常大規模的中文的詞嵌入,這個語料不管從覆蓋度、準確率還是對於新詞的衡量方面,都達到了行業領先的水平。並且無論是詞的相似度還是它應用到詞性標註上的性能,這個語料都表現出其優越性。

信息抽取:關鍵詞抽取被賦予了新的生命

說到信息抽取,李菁通過關鍵詞抽取的例子介紹了他們的研究成果。關鍵詞抽取是從文本當中抽取一些重要的成分,一般是詞或者詞組的形式。關鍵詞抽取是一個非常古老的問題,如今各種各樣的AI技術應用場景卻賦予它新的生命。比如在時下非常流行的自動問答系統當中,當用戶輸入這樣一個問題:“剛開始玩王者榮耀,花木蘭這個英雄怎麽樣”,如果能正確定位到花木蘭這個關鍵詞,就可以搜索到相關信息,比如“王者榮耀推出花木蘭,輸出給力”、“新英雄花木蘭讓女性英雄不再脆皮”以及“不是很喜歡花木蘭,技能太復雜。”,通過融合這些返回的結果就可以得到用戶想要的答案,比如“輸出給力,不脆皮,但是技能復雜”。

技術分享圖片

圖1考慮上下文的關鍵詞抽取模型


現在學術界在關鍵詞抽取上的研究進展並不是完美的,它也有欠缺考慮的地方,表現為目前針對關鍵詞抽取的研究點只考慮了待抽取的文本,而忽略了它的上下文信息,比如在抽取新聞的關鍵詞的時候,往往只關註新聞本身,而忽略了和新聞有關的評論。因為目標文本中的重要信息往往在上下文中會被多次提及,如果能很好地編碼上下文中的重要信息,將對定位目標文本的關鍵詞位置起到重要的作用。李菁在當天還介紹了AI Lab在關鍵詞抽取上的提出的模型,如圖 1所示,模型的左側的上下文編碼器用於抽象上下文中的表示,右側用於學習目標文本的特征,結合二者來共同發現目標文本中的關鍵詞位置。

自然語言的生成:讓AI寫春聯

自然語言的生成技術關註的是如何讓機器能夠像人一樣進行寫作,這就賦予了機器的創作能力。自動聊天是騰訊AI Lab在自然語言生成方面的主要研究方向,AI Lab可以做到讓機器生成諸如古風、浪漫風格等等各種各樣的回復。AI Lab生成應用亦在金融方面有所涉獵,比如針對股票的自動問答系統,針對財報生成摘要,讓大眾能夠很快地理解財報中的重要信息。另外還有針對中文古典文化的生成成果,比如詩歌和對聯的生成。接下來李菁以對聯生成為例,介紹了AI Lab在自然語言生成方面的應用。


技術分享圖片

圖 2 騰訊AI春聯生成以“騰訊”為藏頭的春聯

圖 2是AI Lab在2018年春節期間推出的騰訊AI 春聯產品,由騰訊AI Lab和騰訊新聞聯手出品。用戶只需輸入2-4個漢字,系統就會取後面2個漢字,第一個漢字生成上聯,第二個漢字生成下聯,比如輸入“騰訊”就會生成如圖 2中所示的對聯。李菁談到,這個產品自問世以來就受到了大眾的廣泛歡迎,數據顯示有超過380萬的用戶使用了該產品,頁面訪問量達到了760萬,春聯生成次數超過4千萬次,人均生成10次春聯。另外,由於騰訊AI春聯帶來的巨大影響力,各大媒體也爭相報道這個產品,除了中國大陸的媒體之外,還有來自中國臺灣和香港的媒體也爭相報道這個產品。

李菁還展示了騰訊AI春聯產品的工作原理。首先要根據用戶給定的第一個字生成上聯,在生成上聯的每個字的時候需要根據之前所揮灑出的意境,因此產品采用了語言模型的方法。在從上聯生成下聯的時候,采用了稍微不一樣的模型,因為考慮到對仗,系統使用了帶有註意機制的序列到序列模型,生成下聯每一個字的時候都找到上聯和它對應的字去落筆。通過這兩個模型,一副對仗工整、意境深遠的春聯就生成了。

最後,李菁表示相信隨著AI技術的發展,在不遠的將來,機器能夠被賦予像人一樣閱讀和寫作的能力。未來也一定會共同見證圖靈夢想成真的那一天!

題圖引用地址:https://naacl2018.wordpress.com/2018/03/03/naacl-paper-titles-over-time/


從研究到應用:騰訊AI Lab的自然語言理解和生成