Python自然語言處理筆記【二】文本分類之監督式分類的細節問題

阿新 • • 發佈：2018-09-02

重要探索基於 font 產生 com 分類器保持聯合

一、選擇正確的特征

1.建立分類器的工作中如何選擇相關特征，並且為其編碼來表示這些特征是首要問題。

2.特征提取，要避免過擬合或者欠擬合

過擬合，是提供的特征太多，使得算法高度依賴訓練數據的特性，而對於一般化的新例子不起作用，在小型訓練集上通常會出現這種問題。
欠擬合，是特征太少，算法不能很好地反映實例的特性

3.用錯誤分析的方法來完善特征集，首先選擇開發集，其中包含用於創建模型的語料數據。然後開發集分為訓練集和開發測試集。

>>> train_names = names[1500:] 
>>> devtest_names = names[500:1500] 
>>> test_names = names[:500]

　　註意：

訓練集用於訓練模型，開發測試集用於進行錯誤分析，測試集用於系統的最終評估。進行錯誤分析的是單獨的測試開發集，不是測試集。
語料數據分為兩類：開發集和測試集。開發集通常被進一步分為訓練集和開發測試集。
將語料分為適當的數據集，我們使用訓練集訓練一個模型，然後在開發測試集上運行。

4.使用開發測試集，我們可以生成一個分類器預測名字性別時的錯誤列表。

>>> errors = [] 
>>> for (name, tag) in devtest_names: 
...           guess = classifier.classify(gender_features(name)) 
...           if guess != tag: 
...               errors.append( (tag, guess, name) )

　　借助錯誤分析可以調整我們的特征提取器包括兩個字母後綴的特征。這個錯誤分析過程可以不斷重復，檢查存在於由新改進的分類器產生的錯誤中的模式，每一次錯誤分析過程被重復。

註意：一旦我們已經使用了開發測試集幫助我們開發模型，關於這個模型在新數據會表現多好，我們將不能再相信它會給我們一個準確地結果！因此，保持測試集分離、未使用過，直到我們的模型開發完畢是很重要的。

二、文檔分類

對於分類文檔時：

1.構造已經標記類別的文檔清單

2.為文檔定義特征提取器，對於文檔主題識別，可以為每個詞定義一個特性以表示該文檔是否包含這個詞。

三、詞性標註

訓練一個分類器來算出那個後綴最有信息量

1.找出最常見的後綴

>>> from nltk.corpus import brown 
>>> suffix_fdist = nltk.FreqDist() 
>>> for word in brown.words(): 
...          word = word.lower() 
...          suffix_fdist.inc(word[-1:]) 
...          suffix_fdist.inc(word[-2:]) 
...          suffix_fdist.inc(word[-3:]) 
>>> common_suffixes = suffix_fdist.keys()[:100] 
>>> print common_suffixes

2.定義一個特征提取器函數，檢查給定的單詞的這些後綴：

>>> def pos_features(word):
...           features = {} 
...          for suffix in common_suffixes: 
...               features[‘endswith(%s)‘ % suffix] = word.lower().endswith(suffix) 
...      return features

　　分類器在標記時，將根據特征提取函數所強調的那些屬性來做標記。

四、探索上下文語境

基於詞的上下文特征，不能只傳遞已標註的詞，而是傳遞整個（未標註的）句子，以及目標詞的索引。

這種方式是使用依賴上下文的特征提取器來定義一個詞性標記分類器。

這能提高詞性標註器的性能，但無法研究一般的情況

五、序列分類

為了獲取相關的分類任務之間的依賴關系，我們可以使用聯合分類器模型，為相關輸入選擇適當的標簽。

在詞性標註的例子中，各種不同的序列分類器模型可以被用來為一個給定的句子中的所有的詞共同選擇詞性標簽。

連續分類或貪婪序列分類策略，即為第一個輸入找到最有可能的類標簽，然後在此基礎上幫助找到下一個輸入的最佳的標簽。這個過程不斷重復直到所有的輸入都被貼上標簽。

過程：定義特征提取器，可以繼續建立我們的序列分類器。在訓練中，使用已標註的標記為特征提取器提供適當的歷史信息，但標註新的句子時，我們基於標註器本身的輸出產生歷史信息。

六、其他序列分類方法

轉型聯合分類的工作原理是為輸入的標簽創建一個初始值，然後反復提煉那個值，嘗試修復相關輸入之間的不一致。

Python自然語言處理筆記【二】文本分類之監督式分類的細節問題

重要探索基於 font 產生 com 分類器保持聯合一、選擇正確的特征 1.建立分類器的工作中如何選擇相關特征，並且為其編碼來表示這些特征是首要問題。 2.特征提取，要避免過擬合或者欠擬合過擬合，是提供的特征太多，使得算法高度依賴訓練數據的特性，而對於一般化的

【讀書筆記】《Python自然語言處理》第1章語言處理與Python

1.1 語言計算：文字和詞彙入門 nltk下載地址使用pip安裝 >>>import nltk 檢驗是否成功。 >>>nltk.download() 選擇語料下載使用python直譯器載入book模組中的條目 >&g

【python 自然語言處理】對胡歌【獵場】電視劇評論進行情感值分析

主要內容 1、什麼是SnowNLP? 2、SnowNLP可以幹哪些事兒？ 3、如何進行情緒判斷？ 4、獵場豆瓣熱門短評抓取。 5、獵場熱門短評情感分析。 6、附錄（python 畫詞雲圖）什麼是SnowNLP? snowNLP，可以分詞，標註，還可以

python自然語言處理-學習筆記（二）

在第二章中，主要介紹了各個預料庫的使用，這裡不再贅述，對於預料庫的操作，之前書中都提到過。這裡只說一下一個問題，在inaugural預料庫中，測試輸出條件分佈圖的時候，他的程式碼裡有個問題，我按照書中寫的方法，得到的結果如下： >>> cfd

Python自動化開發課堂筆記【Day03】 - Python基礎(字符編碼使用，文件處理，函數)

賦值創建解釋器使用重復 closed 操作邏輯默認字符編碼使用 1. 文本編輯器如何存取文件文本編輯器相當一個運行在內存中的進程，所以文件內容在編輯未存儲時都是在內存中的，尚未存儲在硬盤之中，在沒有保存之前，所編輯的任何文本都只是一堆字符，沒有任何邏輯上的意

python自然語言處理-讀書筆記5

#使用UniCode進行文書處理 #Unicode支援超過一百萬種字元。每個字元分配一個編號，稱為編碼點。在 Python中，編碼點寫作\uXXXX 的形式，其中 XXXX是四位十六進位制形式數。 #從檔案中提取已編碼文字 import codecs path = nltk.data.fin

python自然語言處理-讀書筆記4

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk, re, pprint #從網路和硬碟訪問文字 #電子書 from urllib.request import urlopen from bs4 import Beautif

python自然語言處理-讀書筆記3

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk from nltk.corpus import gutenberg #古騰堡語料庫 from nltk.corpus import webtext #w網路聊天文字 from

python自然語言處理-讀書筆記9

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #第六章學習分類文字 # 1. 我們怎樣才能識別語言資料中能明顯用於對其分類的特徵？ 2. 我們怎樣才能構建語言模型，用於自動執行語言處理任務？ 3. 從這些模型中我們可以學到哪些關於語言的知識？

python自然語言處理-讀書筆記8

#N-Gram Tagging N元語法標註 #一元標註（Unigram Tagging）一元標註器基於一個簡單的統計演算法：對每個識別符號分配這個獨特的識別符號最有可能的標記。例如：它將分配標記 JJ 給詞 frequent 的所有出現，因為frequent 用作一個形容詞（例如：a f

python自然語言處理-讀書筆記7

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #分類和標註詞彙 #使用詞性標註器 import nltk # text = nltk.word_tokenize("And now for something completely diffe

python自然語言處理-讀書筆記6

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' #4.1 回到基礎 #賦值 #等式 #條件語句 #all()函式和any()函式可以應用到一個連結串列（或其他序列），來檢查是否全部或任一項目滿足一些條件： # sent = ['No',

python自然語言處理-讀書筆記

python自然語言處理（二）

1詞性標註簡單的理解就是對詞性（POS）進行標註，但在不同的領域，詞性可能是不同的，Penn Treebank pos標記庫：https://blog.csdn.net/u010099495/article/details/46776617 其中程式需要安裝兩個依賴包 nlt

python自然語言處理 -讀書筆記1

# -*- coding:utf-8 -*- # __author__ = 'lipzhang' import nltk from nltk.book import * # print(text1.concordance("monstrous"))#顯示一個指定單詞的每一次出現，連同一些上下文

《Python自然語言處理》學習筆記-第二章

第二章：獲得文字語料和詞彙資源 2.1 獲取文字語料庫古滕堡語料庫（1）首先載入nltk包。（2）使用nltk.corpus.gutenberg.fileids方法能夠獲取古滕堡語料庫中所有的文字識別符號。（3）使用nltk.corpus.

（初學者）用Python進行自然語言處理筆記一

Python程式設計連結串列list 在Python中連結串列的表示為：[](這是一個空連結串列)，或者[‘A’,’B’].list中的元素是允許重複的！ ##########有關列表的基本操作############## #定義一個空連結串列 li

《python自然語言處理》筆記---chap3加工原料文字

chap3中關於，NLP中的關鍵概念，包括分詞和詞幹提取。字串、檔案、正則表示式、去除HTML標籤以下所有程式，預設匯入包 import nltk,re,pprint #即，nltk包，正則表示式re包，輸出pprint包 3.1 從網路和硬碟訪問文字電子書

python自然語言處理學習筆記一

第一章語言處理與python 1 語言計算文字與詞彙 NLTK入門下載安裝nltk 下載資料 >>> import nltk >>> nltk.download() 下載完成,載入文字 >>> from n

python自然語言處理學習筆記三

第三章處理原始文字 1 從網路和硬碟訪問文字 #<<罪與罰>>的英文翻譯未作測試?? From utlib import urlopen Url=’http://www.gutenberg.org/files/2554/2554.txt’ Ra

Python自然語言處理筆記【二】文本分類之監督式分類的細節問題

相關推薦