未來已來,自然語言處理人機語言互動,你瞭解多少?
自然語言處理(Natural Language Processing 簡稱 NLP)是人工智慧領域非常重要的一部分,作為電腦科學中一門重要的學科,研究它的目的是為了解決人機對話問題,通俗理解就是讓智慧裝置理解並生成人類語言。
現在對NLP的研究和處理,一般分為以下4個方面:
1、把研究問題在語言學上形式化,使之能以一定的數學形式嚴密而規整的表示出來;
2、然後把嚴密而規整的數學形式表示為演算法,使之在計算上形式化;
3、再根據演算法編寫程式,使演算法可以在智慧裝置上執行;
4、最後對根據演算法所建立的自然語言處理系統進行測評,不斷改進質量和效能來滿足使用者需求;
《從人機互動的角度看自然語言處理》一文中對自然語言處理進行了如下定義:
自然語言處理可以定義為研究在人與人交際中以及人與計算機交際中的語言問題的一門科學。自然語言處理要研製表示語言能力和語言應用的模型,建立計算框架來實現這樣的語言模型,提出相應的方法來不斷的完善這樣的語言模型,根據這樣的語言模型設計各種實用系統,並探討這些實用系統的測評技術。
然而建立自然語言處理模型的實用系統需要不同平面的知識:
- 聲學和韻律學: 描述語言的節奏、語調和聲調的規律,說明語音怎麼形成音位;
- 音位學: 描述音位的結合規律,說明音位怎樣形成語素;
- 形態學: 描述語速的結合規律,說明語素怎樣形成單詞;
- 詞彙學: 描述詞彙系統的規律,說明單詞本身固有的語義特性和語法特性;
- 句法學: 描述單詞或片語之間的結構規則,說明單詞或片語怎樣形成句子;
- 語義學: 描述句子各個成分之間的語義關係,這樣的語義關係是與情景無關的,說明怎樣從構成句子的各個成分推匯出整個句子的語義;
- 話語分析知識: 描述句子與句子之間的結構規律,說明怎樣由句子形成話語或對話;
- 外界世界的常識性知識: 描述關於語言使用者和語言使用環境的一般性常識,例如,語言使用者的信念和目的,說明怎樣推匯出這樣的信念和目的內在和結構;
學術界關於NLP所涉及的知識結構也眾說紛紜,一般而言都包括詞彙學、句法學、語義學和語用學等知識。以上描述的主要是語言學方面的知識,但NLP是一個交叉學科,更是涉及了方方面面的知識領域:
- 電腦科學: 給NLP提供模型表示、演算法設計、計算機實現的技術;
- 數學: 給NLP提供形式化的數學模型和形式化的數學演算法;
- 心理學: 給NLP提供人類語言行為的心理模型和理論;
- 哲學: 給NLP提供關於人類的思維和語言的更深層次的理論;
- 統計學: 給NLP提供基於樣本資料來預測統計的更深層次的技術;
- 電子工程: 給NLP提供資訊理論的理論基礎和語言訊號處理技術;
- 生物學: 給NLP提供大腦中人類語言行為機制的理論;
NLP的主要研究範圍與方向有以下幾個方面:
1、資訊檢索 2、機器翻譯 3、文件分類 4、問答系統 5、資訊過濾 6、自動文摘 7、資訊抽取 8、文字挖掘 9、輿情分析 10、機器寫作 11、文字朗讀 12、語音合成 13、語音識別 14、自動分詞 15、詞性標註 16、句法分析 17、自然語言生成 18、資訊抽取
語音識別技術的五大難題
難題 | 難點 |
---|---|
自然語言理解 | 拆分語句、理解規則 |
語音資訊量大 | 不同物件,同一物件不同時間、態度 |
發音 | 同音字 |
語言環境 | 影響重音、語調、語速 |
噪聲、干擾 | 識別率低 |
常見的文字主要為以下3種三種:
- 自由文字
- 結構化文字
- 半結構化文字
自然語言處理的文字一般為自由文字,對自由文字常見的操作為:
1、分詞:
我們一般處理的自由文字有中文、英文等,詞為文字的基本單位,然而分詞當然是NLP中最重要的步驟。分詞演算法分為詞典方法和統計方法,其中基於詞典和人工規則的方法是按照一定的策略將待分析的詞與詞典中的詞條進行匹配(包括正向匹配、逆向匹配和最大匹配)。統計方法是基本字串在語料庫中出現的統計頻率,典型的演算法有HMM、CRF等,其中CRF相比HMM有更弱的上下文無相關性假設,理論上效果更好一些。
英文以空格為分割符,因此不需要進行分詞的操作(片面看法,特殊情況仍然需要分詞操作),例如一些複合詞也需要識別。
2、詞性標註
對於詞性標註,首先需要定義詞性的類別:如名詞、動詞、形容詞、連詞、副詞、標點符號等等。詞性標註是語音識別、句法分析、資訊抽取技術的基礎技術之一,詞性標註是標註問題,可以採用最大熵、HMM、CRF等具體演算法進行模型的訓練。在自動問答系統中,為了提高使用者問題匹配後端知識庫的召回率,對一些關鍵詞進行過濾,包括連詞、副詞對於全文檢索系統理論上可以通過對使用者輸入的查詢條件進行詞性過濾,但由於全文檢索是基於詞袋的機械匹配,並採用IDF作為特徵值之一,因此詞性標註的效果不大。
3、句法分析
句法分析的目的是確定句子的句法結構,主謂賓、動賓、定中、動補等。在問答系統和資訊檢索領域有重要作用。
4、命名實體識別
命名實體識別是定位句子中出現的人名、地名、機構名、專有名詞等。命名實體屬於標註問題,因此可以採用HMM、CRF等進行模型的訓練。基於統計的命名實體需要基於分詞、詞性標註等技術。實體命名定義了五大型別:設施(FAC)、地理政治實體(GPE)、位值(LOC)、人物(PER)。在實際應用中,可以根據自己的業務需求,定義實體類別,並進行模型訓練。
5、實體關係抽取
實體關係抽取是自動識別非結構化文件中兩個實體之間的關聯關係,屬於資訊抽取領域的基礎知識之一。近年來,搜尋領域流行的知識圖譜技術是構建實體關係。實體關係抽取有多種方式,包括規則匹配、有監督學習、無監督學習。其中有監督學習需要預先定義實體關係類別,通常將問題建模為分類問題。有監督學習需要預先人工標註語料庫。
自動翻譯包括機器翻譯和語音機翻譯這兩個方面。自動翻譯的過程必須經歷這三個過程:
第一分析句子;該階段對翻譯的過程起著決定性的作用。第二轉換:根據第一的分析結果將源語言的結構轉換成目標語言對應的結構。第三生成:完成目標語言的譯文,形成最終譯文。
在第一階段分析句子的過程中主要包括以下五個層次的分析,才能實現優質的翻譯結果:
層次 | 概述 | 詳細描述 |
---|---|---|
1 | 字母轉義 | 更換原詞中的字母 |
2 | 詞與詞的翻譯 | 使用詞典 |
3 | 語法翻譯 | 鑑別語法結構 |
4 | 語義翻譯 | 注意詞的語義和搭配關係 |
5 | 語境翻譯 | 聯絡上下文 |
關注公眾號AI人工智慧客棧,回覆關鍵詞 python人工智慧視訊 人工智慧書籍 人工智慧發展報告 獲得更多資料 乾貨持續更新中,歡迎關注,歡迎取關。