1. 程式人生 > >8種Python文字處理工具集

8種Python文字處理工具集

文字處理一般包括詞性標註,句法分析,關鍵詞提取,文字分類,情感分析等等,這是針對中文的,如果是對於英文來說,只需要基本的tokenize。本文為大家提供了以下這些工具包。

1.Jieba

【結巴中文分詞】做最好的 Python 中文分片語件
其功能包括支援三種分詞模式(精確模式、全模式、搜尋引擎模式),支援繁體分詞,支援自定義詞典等。

程式碼主頁:https://github.com/fxsjy/jieba

2.NLTK

【NLTK】一個構建Python程式以使用人類語言資料的領先平臺,被稱為“使用Python進行教學和計算語言學工作的絕佳工具”,以及“用自然語言進行遊戲的神奇圖書館”。

官方主頁:http://www.nltk.org/
程式碼主頁:https://github.com/nltk/nltk

3.TextBlob

【TextBlob】是一個用於處理文字資料的Python(2和3)庫。它為潛入常見的自然語言處理(NLP)任務提供了一個簡單的API,例如詞性標註,名詞短語提取,情感分析,分類,翻譯等。

官方主頁:http://textblob.readthedocs.org/en/dev/
程式碼主頁:https://github.com/sloria/textblob

4.MBSP for Python

【MBSP】是一個文字分析系統,基於CLiPS和ILK開發的基於TiMBL和MBT記憶體的學習應用程式。它提供了用於標記化和句子分裂,詞性標註,分塊,詞形還原,關係查詢和介詞短語附件的工具。

官方主頁:http://www.clips.ua.ac.be/pages/MBSP

5.Gensim

【Gensim】是一個免費的Python庫

  • 可擴充套件的統計語義

  • 分析純文字文件的語義結構

  • 檢索語義相似的文件

官方主頁:http://radimrehurek.com/gensim/index.html

程式碼主頁:https://github.com/piskvorky/gensim

6.langid.py 

【langid.py 】是一個獨立的語言標識(LangID)工具。接受過97種語言的預訓練(ISO 639-1程式碼),培訓資料來自5個不同的來源:JRC-Acquis、ClueWeb 09、維基百科、路透社RCV2和Debian i18n。

程式碼主頁:https://github.com/saffsd/langid.py

7. xTAS

【 xTAS】是基於Celery的分散式文字分析套件。部分xtas使用GPL許可軟體,例如Stanford NLP工具,以及可能產生額外限制的資料集,檢查文件中的各個功能。

程式碼主頁:https://github.com/NLeSC/xtas

8.Pattern

【Pattern】是Python程式語言的Web挖掘模組。它具有資料探勘工具(谷歌,Twitter和維基百科API,網路爬蟲,HTML DOM解析器),自然語言處理(詞性標註,n-gram搜尋,情感分析,WordNet),機器學習(向量)空間模型,聚類,SVM),網路分析和<canvas>視覺化。

官方主頁:http://www.clips.ua.ac.be/pattern