8種Python文字處理工具集

阿新 • • 發佈：2018-11-03

文字處理一般包括詞性標註，句法分析，關鍵詞提取，文字分類，情感分析等等，這是針對中文的，如果是對於英文來說，只需要基本的tokenize。本文為大家提供了以下這些工具包。

1.Jieba

【結巴中文分詞】做最好的 Python 中文分片語件
其功能包括支援三種分詞模式（精確模式、全模式、搜尋引擎模式），支援繁體分詞，支援自定義詞典等。

程式碼主頁：https://github.com/fxsjy/jieba

2.NLTK

【NLTK】一個構建Python程式以使用人類語言資料的領先平臺，被稱為“使用Python進行教學和計算語言學工作的絕佳工具”，以及“用自然語言進行遊戲的神奇圖書館”。

官方主頁：http://www.nltk.org/
程式碼主頁：https://github.com/nltk/nltk

3.TextBlob

【TextBlob】是一個用於處理文字資料的Python（2和3）庫。它為潛入常見的自然語言處理（NLP）任務提供了一個簡單的API，例如詞性標註，名詞短語提取，情感分析，分類，翻譯等。

官方主頁：http://textblob.readthedocs.org/en/dev/
程式碼主頁：https://github.com/sloria/textblob

4.MBSP for Python

【MBSP】是一個文字分析系統，基於CLiPS和ILK開發的基於TiMBL和MBT記憶體的學習應用程式。它提供了用於標記化和句子分裂，詞性標註，分塊，詞形還原，關係查詢和介詞短語附件的工具。

官方主頁：http://www.clips.ua.ac.be/pages/MBSP

5.Gensim

【Gensim】是一個免費的Python庫

可擴充套件的統計語義
分析純文字文件的語義結構
檢索語義相似的文件

官方主頁：http://radimrehurek.com/gensim/index.html

程式碼主頁：https://github.com/piskvorky/gensim

6.langid.py

【langid.py 】是一個獨立的語言標識（LangID）工具。接受過97種語言的預訓練（ISO 639-1程式碼），培訓資料來自5個不同的來源：JRC-Acquis、ClueWeb 09、維基百科、路透社RCV2和Debian i18n。

程式碼主頁：https://github.com/saffsd/langid.py

7. xTAS

【 xTAS】是基於Celery的分散式文字分析套件。部分xtas使用GPL許可軟體，例如Stanford NLP工具，以及可能產生額外限制的資料集，檢查文件中的各個功能。

程式碼主頁：https://github.com/NLeSC/xtas

8.Pattern

【Pattern】是Python程式語言的Web挖掘模組。它具有資料探勘工具（谷歌，Twitter和維基百科API，網路爬蟲，HTML DOM解析器），自然語言處理（詞性標註，n-gram搜尋，情感分析，WordNet），機器學習（向量）空間模型，聚類，SVM），網路分析和<canvas>視覺化。

官方主頁：http://www.clips.ua.ac.be/pattern

8種Python文字處理工具集

8種Python文字處理工具集

Python文字處理幾種方法

Linux中sed文字處理工具原理及使用

學習筆記之shell的文字處理工具

文字處理工具 sed命令

Sed 文字處理工具原理及使用

吳裕雄資料探勘與分析案例實戰（4）——python資料處理工具：Pandas

CesiumLab V1.1 新功能（免費Cesium處理工具集）

CesiumLab V1.3 新功能 MAX場景處理（免費Cesium處理工具集）

【linux】--- 高階命令列文字處理工具 sort

【linux】--- 高階命令列文字處理工具 cut

Linux Shell 文字處理工具集錦(重點推薦)

文字處理工具 grep awk sed完全解讀

Sed文字處理工具總結

Centos7文字處理工具

linux 下的shell 文字處理工具

linux（ubuntu）文字處理工具及正則表示式

Linux正則與文字處理工具(10)

python影象處理工具opencv練習：比較影象差異！

8種應對機器學習資料集類別不平衡的策略

8種Python文字處理工具集

相關推薦