20.【進階】流行庫模型--NLTK(Nature Language Toolkit)

阿新 • • 發佈：2018-12-30

#-*- coding:utf-8 -*-

#如何將下面兩行句子向量化
sentence1 = 'The cat is walking in the bedroom.'
sentence2 = 'A dog was running across the kitchen.'

#1.使用詞袋法進行向量化
#詞袋法，顧名思義就是講所有樣本中出現的單詞，形成一個列向量，或者稱之為詞表，
#然後每一個訓練資料，根據包含單詞的個數，進行數字化表示。

from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer()
sentences = [sentence1,sentence2]
sentences = vec.fit_transform(sentences)
print 
 sentences.toarray()
# [[0 1 1 0 1 1 0 0 2 1 0]
#  [1 0 0 1 0 0 1 1 1 0 1]]

#輸出向量各個維度的特徵含義
print vec.get_feature_names()
# [u'across', u'bedroom', u'cat', u'dog', u'in', u'is', u'kitchen', u'running', u'the', u'walking', u'was']

#*************************************************************************************
#2. 
使用NLTK進行向量化
import nltk
#(1)對句子進行詞彙分割和正規化，有些情況如 aren't需要分割成are和't， I'm 分割成I和'm
tokens_1 = nltk.word_tokenize(sentence1)
print tokens_1
#['The', 'cat', 'is', 'walking', 'in', 'the', 'bedroom', '.']
tokens_2 = nltk.word_tokenize(sentence2)
print tokens_2
#['A', 'dog', 'was', 'running', 'across', 'the' 
, 'kitchen', '.']

#(2)整理兩句的詞表，按照ASCII的排序輸出
vocab_1 = sorted(set(tokens_1))
print vocab_1
#['.', 'The', 'bedroom', 'cat', 'in', 'is', 'the', 'walking']
vocab_2 = sorted(set(tokens_2))
print vocab_2
#['.', 'A', 'across', 'dog', 'kitchen', 'running', 'the', 'was']

#(3)初始化stemmer尋找各個詞彙最原始的詞根(如 walking->walk,running->run...)
stemmer = nltk.stem.PorterStemmer()
stem_1 = [stemmer.stem(t) for t in tokens_1]
print stem_1
#['the', 'cat', 'is', u'walk', 'in', 'the', 'bedroom', '.']
stem_2 = [stemmer.stem(t) for t in tokens_2]
print stem_2
#['A', 'dog', u'wa', u'run', u'across', 'the', 'kitchen', '.']

#(4)初始化詞性標註器，對每個詞彙進行標註(詞性，名次，動詞，介詞...)
pos_tag_1 = nltk.tag.pos_tag(tokens_1)
print pos_tag_1
#[('The', 'DT'), ('cat', 'NN'), ('is', 'VBZ'), ('walking', 'VBG'), ('in', 'IN'), ('the', 'DT'), ('bedroom', 'NN'), ('.', '.')]
pos_tag_2 = nltk.tag.pos_tag(tokens_2)
print pos_tag_2
#[('A', 'DT'), ('dog', 'NN'), ('was', 'VBD'), ('running', 'VBG'), ('across', 'IN'), ('the', 'DT'), ('kitchen', 'NN'), ('.', '.')]

#小結：
#1.NLTK不僅可以對詞彙的具體詞性進行標註，甚至可以對句子進行結構，
#2.缺點是我們只能分析詞性，但是對於具體詞彙word之間的含義是否相似，無法度量，
#3.在本例中的兩個句子，從語義的角度來講，二者描述的場景是極為相似的，我們需要將word轉成向量表示，
#  接下來學習word2vec技術。

20.【進階】流行庫模型--NLTK(Nature Language Toolkit)

#-*- coding:utf-8 -*- #如何將下面兩行句子向量化 sentence1 = 'The cat is walking in the bedroom.' sentence2 = 'A dog was running across the kit

23.【進階】流行庫模型--Tensorflow&SKFlow

Tensorflow 用以編寫程式的計算機軟體；計算機軟體開發工具；可用於人工智慧、深度學習、高效能運算、分散式計算、虛擬化和機器學習這些領域；軟體庫可用於通用目的的計算、資料收集的操作、資料變換、輸入輸出、人工智慧等領域的建模和測試軟體可用作應用於

21.【進階】流行庫模型--word2vec

詞的向量化表示 word2vec模型的採用的思想是，n元語法模型(n-gram model)，即假設一個詞只與周圍n個詞有關，而與文字中的其他詞無關首先，我們要明確，句子中的連續詞彙片段，也被稱為上下文context，詞彙之間的聯絡就是通過無數個這樣的上

17.【進階】模型正則化--欠擬合與過擬合問題

#-*- coding:utf-8 -*- #學習目標：以“披薩餅價格預測”為例，認識欠擬合和過擬合的問題 #假定只考慮披薩的尺寸和售價的關係,X為尺寸，y代表售價 X_train = [[6],[8],[10],[14],[18]] y_train = [

18.【進階】模型正則化--L1&L2範數正則化

#-*- coding:utf-8 -*- #模型正則化：目的是提高模型在未知測試資料上的泛化力，避免參數過擬合 #常用方法：在原模型優化目標的基礎上，增加對引數的懲罰(penalty)項 #拓展一下L0範數、L1範數、L2範數的概念 #L0範數是指向量中非0

【SSH快速進階】——struts2的模型驅動—ModelDriven

上篇部落格《SSH快速進階——struts2簡單的例項》中，處理使用者登陸的action—LoginAction為： package com.danny.user.action; public cl

技術鄰學院直播預告｜【進階】simufact軟件焊接仿真工藝培訓

技術分享教學過程高級工程師力學案例評論代理電子技術鄰學院直播預告【進階】simufact軟件焊接仿真工藝培訓（6月10日）直播信息日期： 2017年6月10日（星期六）20：00--21：30 直播地址：熊貓直播http://pan

Docker極簡教程【進階】

原文連結：https://www.javazhiyin.com/20513.html 1. DockerFile建立映象建立檔案Dockerfile檔案，該檔名不可更改 vi Dockerfile 寫入文字 FROM alpine:latest MAINT

【連結串列面試題】【進階】

1、查詢倒數第 k 個連結串列題目描述：給定一個單向連結串列 List ，要你設計演算法找出倒數第 K 個結點並列印 struct ListNode { DataType m_Value; ListNode* m_pNext; }; ListNode* FindKt

【進階】RecyclerView原始碼解析(二)——快取機制

引言接著上一篇部落格分析完RecyclerView的繪製流程，其實對RecyclerView已經有了一個大體的瞭解，尤其是RecyclerView和LayoutManager和ItemDecoration的關係。本篇文章將對RecyclerVie

14.【進階】特徵提升之特徵抽取----DictVectorizer

說明：DictVectorizer的處理物件是符號化(非數字化)的但是具有一定結構的特徵資料，如字典等，將符號轉成數字0/1表示。 #-*- coding:utf-8 -*- #學習目標：使用DictVectorizer對使用字典儲存的資料進行特徵抽取和

【進階】從linux到android，程序的方方面面

最近在閱讀《Linux核心設計與實現》，這裡做一下linux中程序相關的知識點整理，以及android中程序的淺析。下面1，2小節整理自《Linux核心設計與實現》第三章《程序管理》和第四章《程序排程》。第3節整理android中程序的知識點。

【進階】RecyclerView原始碼解析(三)——深度解析快取機制

上一篇部落格從原始碼角度分析了RecyclerView讀取快取的步驟，讓我們對於RecyclerView的快取有了一個初步的理解，但對於RecyclerView的快取的原理還是不能理解。本篇部落格將從實際專案角度來理解RecyclerView的快取原理。

【進階】RecyclerView原始碼解析(一)——繪製流程

引言自從Google出了RecyclerView後，基本上列表的場景已經完全替代了原來的ListView和GridView，現在不僅僅是列表，多樣式（俗稱蓋樓），複雜頁面等，只要我們願意，RecyclerView幾乎可以代替實現80%的佈局，Git

19.【進階】超引數搜尋--網格搜尋&並行搜尋

超引數搜尋前面所提到的模型配置，我們一般統稱為模型的超引數，如K近鄰演算法中的k值、支援向量機中不同的核函式等，多數情況下，超引數等選擇是無限的，除了人工預設幾種超引數的組合以外，還可以通過啟發式的搜尋演算法對超引數組合進行調優。這種啟發式的搜尋演算法對

15.【進階】特徵提升之特徵抽取--CountVectorizer和TfidfVectorizer

#學習目標1:使用CountVectorizer和TfidfVectorizer對非結構化的符號化資料(如一系列字串)進行特徵抽取和向量化 from sklearn.datasets import fetch_20newsgroups #從網際網路上即時下載新

【python進階】自定義庫函式

在python使用過程中，在不同的專案裡，常常會出現頻繁地自定義同一個函式的情況。為了解決這個問題，我們可以選擇建立一個自定義的庫，並將其新增到系統路徑中具體操作如下：在任意位置新建一個專案my_libs，並在其中新建python檔案my_lib1和m

【Android進階】(3)Android圖像處理

progress chang etc geo xtend static ogr arch 取出 1. 概念色調/色相：物體傳遞的顏色飽和度：顏色的純度，從0（灰）到100%（飽和）來進行描寫敘述亮度/明度：顏色的相對明暗程度 2. 調整圖像小Demo 創建一個

【Android進階】Junit單元測試環境搭建以及簡單有用

rar theme 選擇 http 技術分享才幹 ack package family 單元測試的目的首先。Junit單元測試要實現的功能，就是用來測試寫好的方法是否可以正確的運行，一般多用於對業務方法的測試。單元測試的環境配置 1.在Andro

【SSH高速進階】——Hibernate 多對多映射

pen prop package 轉載 map tex test lec set 　　說到多對多關系。印象最深刻的就是大學的選修課。一個學生能夠選修多門課程，一門課程能夠有多個學生選修，學生所選的每一門課程還有成績。這個場景的E-R圖例如以下：　

20.【進階】流行庫模型--NLTK(Nature Language Toolkit)

相關推薦