NLTK學習筆記(五):分類和標註詞匯

阿新 • • 發佈：2017-06-13

推廣默認註意 max() 上下 efault val 存儲 n-n

[TOC]

詞性標註器

之後的很多工作都需要標註完的詞匯。nltk自帶英文標註器pos_tag

import nltk
text = nltk.word_tokenize("And now for something compleyely difference")
print(text)
print(nltk.pos_tag(text))

標註語料庫

表示已經標註的標識符:`nltk.tag.str2tuple(‘word/類型‘)`

text = "The/AT grand/JJ is/VBD ."
print([nltk.tag.str2tuple(t) for t in text.split()])

讀取已經標註的語料庫

nltk語料庫ue肚臍提供了統一接口，可以不必理會不同的文件格式。格式:語料庫.tagged_word()/tagged_sents()。參數可以指定categories和fields

print(nltk.corpus.brown.tagged_words())

名詞、動詞、形容詞等

這裏以名詞為例

from nltk.corpus import brown
word_tag = nltk.FreqDist(brown.tagged_words(categories="news"))
print([word+‘/‘+tag for (word,tag)in word_tag if tag.startswith(‘V‘)])
################下面是查找money的不同標註#################################
wsj = brown.tagged_words(categories="news")
cfd = nltk.ConditionalFreqDist(wsj)
print(cfd[‘money‘].keys())

嘗試找出每個名詞類型中最頻繁的名詞

def findtag(tag_prefix,tagged_text):
    cfd = nltk.ConditionalFreqDist((tag,word) for (word,tag) in tagged_text if tag.startswith(tag_prefix))
    return dict((tag,list(cfd[tag].keys())[:5]) for tag in cfd.conditions())#數據類型必須轉換為list才能進行切片操作

tagdict = findtag(‘NN‘,nltk.corpus.brown.tagged_words(categories="news"))
for tag in sorted(tagdict):
    print(tag,tagdict[tag])

探索已經標註的語料庫

需要nltk.bigrams()和nltk.trigrams()，分別對應2-gram模型和3-gram模型。

brown_tagged = brown.tagged_words(categories="learned")
tags = [b[1] for (a,b) in nltk.bigrams(brown_tagged) if a[0]=="often"]
fd = nltk.FreqDist(tags)
fd.tabulate()

自動標註

默認標註器

最簡單的標註器是為每個標識符分配統一標記。下面就是一個將所有詞都變成NN的標註器。並且用evaluate()進行檢驗。當很多詞語是名詞時候，它有利於第一次分析並提高穩定性。

brown_tagged_sents = brown.tagged_sents(categories="news")

raw = ‘I do not like eggs and ham, I do not like them Sam I am‘
tokens = nltk.word_tokenize(raw)
default_tagger = nltk.DefaultTagger(‘NN‘)#創建標註器
print(default_tagger.tag(tokens)) # 調用tag()方法進行標註
print(default_tagger.evaluate(brown_tagged_sents))

正則表達式標註器

註意這裏規則是固定（由自己決定）。當規則越來越完善的時候，精確度越高。

patterns = [
    (r‘.*ing$‘,‘VBG‘),
    (r‘.*ed$‘,‘VBD‘),
    (r‘.*es$‘,‘VBZ‘),
    (r‘.*‘,‘NN‘)#為了方便，只有少量規則
]
regexp_tagger = nltk.RegexpTagger(patterns)
regexp_tagger.evaluate(brown_tagged_sents)

查詢標註器

這裏和書裏是有差別的，不同於python2，註意調試。而查詢標註器就是存儲最有可能的標記，並且可以設置backoff參數，不能標記的情況下，就使用這個標註器（這個過程是回退）

fd = nltk.FreqDist(brown.words(categories="news"))
cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories="news"))
##############################################python2和3的區別#########
most_freq_words = fd.most_common(100)
likely_tags = dict((word,cfd[word].max()) for (word,times) in most_freq_words)
#######################################################################
baseline_tagger = nltk.UnigramTagger(model=likely_tags,backoff=nltk.DefaultTagger(‘NN‘))
baseline_tagger.evaluate(brown_tagged_sents)

N-gram標註

基礎的一元標註器

一元標註器的行為和查找標註器很相似，建立一元標註器的技術，為訓練。

這裏我們的標註器只是記憶訓練集，而不是建立一般模型，那麽吻合很好，但是不能推廣到新文本。

size = int(len(brown_tagged_sents)*0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size+1:]
unigram_tagger = nltk.UnigramTagger(train_sents)
unigram_tagger.evaluate(test_sents)

一般的N-gram標註器

N元標註器，就是檢索index= n 的 word，並且檢索n-N<=index<=n-1 的 tag。即通過前面詞的tag標簽，進一步確定當前詞匯的tag。類似於nltk.UnigramTagger()，自帶的二元標註器為:nltk.BigramTagger()用法一致。

組合標註器

很多時候，覆蓋範圍更廣的算法比精度更高的算法更有用。利用backoff指明回退標註器,來實現標註器的組合。而參數cutoff顯式聲明為int型，則會自動丟棄只出現1-n次的上下文。

t0 = nltk.DefaultTagger(‘NN‘)
t1 = nltk.UnigramTagger(train_sents,backoff=t0)
t2 = nltk.BigramTagger(train_sents,backoff=t1)
t2.evaluate(test_sents)

可以發現，和原來比較之後，精確度明顯提高

跨句子邊界標註

對於句首的單詞，沒有前n個單詞。解決方法：通過已標記的tagged_sents來訓練標註器。

基於轉換的標註：Brill標註器

較上面的都優秀。實現的思路：以大筆化開始，然後修復細節，一點點進行細致改變。
不僅占用內存小，而且關聯上下文，並且根據問題的變小，實時修正錯誤，而不是一成不變的。當然，在python3和python2的調用有所不同。

from nltk.tag import brill
brill.nltkdemo18plus()
brill.nltkdemo18()

歡迎進一步交流本博文相關內容：

博客園地址 : http://www.cnblogs.com/AsuraDong/

CSDN地址 : http://blog.csdn.net/asuradong

也可以致信進行交流 : [email protected]

歡迎轉載 , 但請指明出處 : )

NLTK學習筆記(五):分類和標註詞匯

推廣默認註意 max() 上下 efault val 存儲 n-n [TOC] 詞性標註器之後的很多工作都需要標註完的詞匯。nltk自帶英文標註器pos_tag import nltk text = nltk.word_tokenize("And now for

學習筆記五函式和常用模組

一.列表生成式：列表生成式即List Comprehensions，是Python內建的非常簡單卻強大的可以用來建立list的生成式。運用列表生成式，可以快速生成list，可以通過一個list推匯出另一個list，而程式碼卻十分簡潔。 [表示式 for迴圈] s =[1,2,3,4,5,6,

Apache Ignite 學習筆記(五): Primary和backup資料同步模式和處理分片丟失的策略

上一篇文章我們介紹了Ignite資料網格中不同的資料分片冗餘策略：Replicated和Partition模式。無論是哪種模式，其實就是通過對資料分片在不同的節點上做多個拷貝來保證資料的可用性。在一個多個節點組成的分散式系統中，一旦需要做資料拷貝，自然就要考慮資料拷貝的過程是同步的還是非同步的。而且，在par

JSP學習筆記五之application和page物件

這篇部落格將9大物件的剩下的物件部分全部講掉。 E、Application內建物件 Application物件直接包裝了servlet的ServletContext類的物件，是javax.servlet.ServletContext 類的例項。這個物件在JSP頁面的整個生命週

Es學習第五課，分詞器介紹和中文分詞器配置

上課我們介紹了倒排索引，在裡面提到了分詞的概念，分詞器就是用來分詞的。分詞器是ES中專門處理分詞的元件，英文為Analyzer，定義為：從一串文字中切分出一個一個的詞條，並對每個詞條進行標準化。它由三部分組成， Character Filters：分詞之前進行預處

webservice學習筆記(五):編寫天氣預報和手機號碼歸屬地的Web Service

1.找到url(+?wsdl): 天氣預報:"http://ws.webxml.com.cn/WebServices/WeatherWS.asmx?wsdl" 手機號碼歸屬地:"http://ws.webxml.com.cn/WebServices/MobileCodeWS.asmx?wsd

python爬蟲學習筆記五：Re庫的介紹和使用

Re庫介紹 Re庫是Python的標準庫，主要用於字串匹配。呼叫方式： import re 正則表示式的表示型別 *raw string 型別（原生字串型別）： re庫採用raw string型別表示正則表示式，表示為：r'text' 例如：r'[1-9]\d{5}

Go學習筆記陣列切片和容器（五）

func main() { //定義陣列數量在型別的前面 var arr [5] int // 不定義值為0 arr1 := [3]int{1} // := 必須賦值最少賦值1位 arr2 := [...]int{4,5,6,7,8} //...可不規定長度 //二維陣列 var

opencv學習筆記五十二：基於Haar或LBP級聯分類器的實時人臉人眼檢測

#include<opencv2\opencv.hpp> using namespace cv; using namespace std; int main(int arc, char** argv) { namedWindow("output",

opencv學習筆記五十三：訓練自己的級聯分類器

訓練工作主要分為如下幾步：配置訓練環境製作訓練資料集獲取樣本路徑列表生成正樣本描述檔案（.vec）訓練人臉分類器使用分類器進行人臉檢測配置訓練環境訓練過程主要依靠OpenCV自帶的兩個可執行程式opencv_createsamples.

第五章分類和標註詞彙 ----5.1、5.2節

將詞彙按它們的詞性(parts-of-speech,POS)分類並相應地對他們進行標註，這個過程叫做詞形標註(POS tagging)或者標註。詞性也成為詞類，在本章中重點是利用標記和自動標註文字。 5.1使用詞性標註器詞形標註器處理一個詞序列，為每個詞附加的

Mybatis學習筆記(五) —— Mapper.xml(輸入對映和輸出對映）

一、parameterType(輸入型別) 1.1 傳遞簡單型別  <select id="queryUserById" parameterType="int" resultType="cn.itc

NLTK學習筆記(一):語言處理和Python

1. 列表內容 nltk資料下載** import nltk nltk.download() 其中,download() 引數預設是all,可以在腳本里面加上nltk.download(需要的資料庫) 來進行下載 2. 文字和詞彙首先，通過from

NLTK學習筆記(二):文字、語料資源和WordNet彙總

目錄語料庫基本函式表示例描述 fileids() 語料庫中的檔案 fileids([categories]) 對應分類中的語料庫檔案 categories() 語料庫的分類 categories([fileids]) 檔

Java檔案IO學習筆記(五)-刪除資料夾和檔案

本例項介紹如何驗證傳入路徑是否正確、如何刪除系統上的檔案或資料夾，包括刪除資料夾下的所有檔案。刪除檔案與資料夾的技術要點如下： 1.File的delete()方法刪除檔案或資料夾。 2.當File指向一個資料夾時，必須保證資料夾下面的子檔案或子目錄為空，

StackExchange.Redis學習筆記(五) 發布和訂閱

alt ... 源代碼觸發 ati message ann utils sub 原文:StackExchange.Redis學習筆記(五) 發布和訂閱 Redis命令中的Pub/Sub Redis在 2.0之後的版本中實現了事件推送的發布訂閱命令以下是Re

vue學習筆記(五)條件渲染和列表渲染

前言在眾多的程式語言中，我們的基礎語法總是少不了一些專業語法，比如像定義變數，條件語句，for迴圈，陣列，函式等等，vue.js這個優秀的前端框架中也有同樣的語法，我們換一個名詞，將條件語句改成專業詞彙叫做條件渲染，迴圈語句改成專業詞彙叫做列表渲染，這樣比較舒服一點。本章目標學會條件渲染的使用

論文學習筆記 - 高光譜和 LiDAR 融合分類合集

- A³CLNN: Spatial, Spectral and Multiscale Attention ConvLSTM Neural Network for Multisource Remote Sensing Data Classification 有效利用資訊多個數據源的問題已成為遙感領域一個相關但

RabbitMQ學習筆記五：RabbitMQ之優先級消息隊列

-c virtual 調用 itl 3.5 rri color images 執行順序 RabbitMQ優先級隊列註意點： 1、只有當消費者不足，不能及時進行消費的情況下，優先級隊列才會生效 2、RabbitMQ3.5以後才支持優先級隊列代碼在博客：RabbitMQ學習筆

js-ES6學習筆記-Set結構和Map結構

基本類實例記錄 lba post 而且同名方法 zha http://www.cnblogs.com/lonhon/ 1、ES6 提供了新的數據結構 Set。它類似於數組，但是成員的值都是唯一的，沒有重復的值。 Set 本身是一個構造函數，用來生成 Set 數

NLTK學習筆記(五):分類和標註詞匯

詞性標註器

標註語料庫

表示已經標註的標識符:nltk.tag.str2tuple(‘word/類型‘)

讀取已經標註的語料庫

名詞、動詞、形容詞等

嘗試找出每個名詞類型中最頻繁的名詞

探索已經標註的語料庫

自動標註

默認標註器

正則表達式標註器

查詢標註器

N-gram標註

基礎的一元標註器

一般的N-gram標註器

組合標註器

跨句子邊界標註

基於轉換的標註：Brill標註器

相關推薦

表示已經標註的標識符:`nltk.tag.str2tuple(‘word/類型‘)`