python計算稀疏表示的TF-IDF

阿新 • • 發佈：2019-01-23

使用sklean的計算方法，這種結果是稠密矩陣，如果資料集太大，計算結果將會佔滿記憶體，或者直接報MemeryError的錯誤。

tfidf詳細計算參考：https://blog.csdn.net/Eastmount/article/details/50323063

import jieba  
import jieba.posseg as pseg  
import os  
import sys  
from sklearn import feature_extraction  
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer  
  
if __name__ == "__main__":  
    corpus=["我 來到 北京 清華大學",#第一類文字切詞後的結果，詞之間以空格隔開  
        "他 來到 了 網易 杭研 大廈",#第二類文字的切詞結果  
        "小明 碩士 畢業 與 中國 科學院",#第三類文字的切詞結果  
        "我 愛 北京 天安門"]#第四類文字的切詞結果  
    vectorizer=CountVectorizer()#該類會將文字中的詞語轉換為詞頻矩陣，矩陣元素a[i][j] 表示j詞在i類文字下的詞頻  
    transformer=TfidfTransformer()#該類會統計每個詞語的tf-idf權值  
    tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))#第一個fit_transform是計算tf-idf，第二個fit_transform是將文字轉為詞頻矩陣  
    word=vectorizer.get_feature_names()#獲取詞袋模型中的所有詞語  
    weight=tfidf.toarray()#將tf-idf矩陣抽取出來，元素a[i][j]表示j詞在i類文字中的tf-idf權重  
    for i in range(len(weight)):#列印每類文字的tf-idf詞語權重，第一個for遍歷所有文字，第二個for便利某一類文字下的詞語權重  
        print u"-------這裡輸出第",i,u"類文字的詞語tf-idf權重------"  
        for j in range(len(word)):  
            print word[j],weight[i][j]

當資料集過大的時候，我們可以使用稀疏儲存的方式來計算TF-IDF。最後返回結果是一個list，裡面的元素是字典，同時這樣表示之後的餘弦相似度計算也更簡單。

corpus 就是分詞好的資料，每行是一個數組；
直接傳入函式calc_tfidf(corpus)計算得到tfidf；
每一行裡面是一個map，key是詞，value是tfidf；
cos_sim函式傳入兩行資料，map格式，計算兩個文字的相似度；

get_top(tfidf,top)保留每個文本里面的top詞，可以直接傳入小數，表示保留百分比；

# coding=utf-8
# @author: bryan
corpus = data['標題'].apply(lambda  
x: [i for i in jb.cut(x)])
import math

def list2dic(l):
    tmp = {}
    for i in l:
        if i in tmp:
            tmp[i] += 1
else:
            tmp[i] = 1
return tmp

def calc_tfidf(corpus):
    tf, tmp = [], []
    for line in corpus:
        tf.append(list2dic(line))
    for i in tf:
        tmp.extend(i.keys())
    idf = list2dic(tmp)
    N = len 
(tf)
    for i in idf:
        idf[i] = math.log(N / (idf[i] + 1))
    for i in range(len(tf)):
        for word in tf[i]:
            tf[i][word] = tf[i][word] * idf[word]
    return tf

def cos_sim(x1, x2):
    if (not x1) | (not x2):
        return 0
if (len(x1) == 0) | (len(x2) == 0):
        return 0
fenzi, fenmu1, fenmu2 = 0, 0, 0
for i in x1.keys():
        if i in x2:
            fenzi += x1[i] * x2[i]
        fenmu1 += x1[i] * x1[i]
    for i in x2.values():
        fenmu2 += i * i
    fenmu = math.sqrt(fenmu1) * math.sqrt(fenmu2)
    return fenzi / fenmu

def get_top(tfidf, top):
    # 根據tf-idf保留top的詞
return [dict(sorted(i.items(), key=lambda x: x[1], reverse=True)[:int(len(i) * top)]) for i in tfidf]

python計算稀疏表示的TF-IDF

使用sklean的計算方法，這種結果是稠密矩陣，如果資料集太大，計算結果將會佔滿記憶體，或者直接報MemeryError的錯誤。tfidf詳細計算參考：https://blog.csdn.net/Eastmount/article/details/50323063import

python scikit-learn計算tf-idf詞語權重

python的scikit-learn包下有計算tf-idf的api，研究了下做個筆記 1 安裝scikit-learn包 sudo pip install scikit-learn 2 中文分詞採用的jieba分詞，安裝jieb

[python] 使用scikit-learn工具計算文字TF-IDF值

轉載自：http://blog.csdn.net/liuxuejiang158blog/article/details/31360765 TF-IDF簡要介紹（來自：http://blog.csdn.net/eastmount/article/details/50323063）

python 使用sklearn計算TF-IDF權重

1.通過os.listdir（）函式獲取指定目錄下的檔名list 2.對檔案使用jieba進行分詞並提取topK作為關鍵詞 3.使用sklearn計算每一個文字中所有關鍵詞的權重（文字中沒有的詞權重為0） 4.參考連結：

<tf-idf + 余弦相似度> 計算文章的相似度

eth documents oca word product num users -s box 背景知識: （1）tf-idf 按照詞TF-IDF值來衡量該詞在該文檔中的重要性的指導思想：如果某個詞比較少見，但是它在這篇文章中多次出現，那麽它很可能就反映了這篇文章的特性

文本預處理和計算TF-IDF值

一份工作 bds doc RM 計算公式流程逆向文章計算文檔的TF-IDF值參考鏈接: 英文文本挖掘預處理流程總結，文本挖掘預處理之向量化，文本挖掘預處理之TF-IDF 1.TF-IDF TF-IDF(Term Frequency-Inverse Documen

使用不同的方法計算TF-IDF值

分類算法不能 gis bsp gensim 裏的 lar 摘要表示摘要這篇文章主要介紹了計算TF-IDF的不同方法實現，主要有三種方法：用gensim庫來計算tfidf值用sklearn庫來計算tfidf值用python手動實現tfidf的計算總結之所

TF-IDF詞項權重計算

一、TF-IDF 詞項頻率: df:term frequency。 term在文件中出現的頻率.tf越大,詞項越重要. 文件頻率: tf:document frequecy。有多少文件包含此term，df越大詞項越不重要. 詞項權重計算公式：

python 基於TF-IDF演算法的關鍵詞提取

import jiaba.analyse jieba.analyse.extract_tags(content, topK=20, withWeight=False, allowPOS=()) content:為輸入的文字 topK：為返回tf-itf權重最大的關鍵詞，預設值為20個詞 wit

Spark Mlib(四)用spark計算tf-idf值

tf-idf演算法是用統計的手法衡量一個元素在一個集合中的重要程度。在自然語言處理中，該演算法可以衡量一個詞在語料中的重要程度。其本思想很簡單，字詞的重要性隨著它在檔案中出現的次數成正比增加，但同時會隨著它在語料庫中出現的頻率成反比下降。下面是spark官網（http://spark.apa

Python的jieba分詞及TF-IDF和TextRank 演算法提取關鍵字

參考文章：Github上的專案———jieba 中文分詞對於NLP（自然語言處理）來說，分詞是一步重要的工作，市面上也有各種分詞庫，11款開放中文分詞系統比較。 1.基於詞典：基於字典、詞庫匹配的分詞方法；（字串匹配、機械分詞法） 2.基於統計：基於詞頻度統計的分詞方法；&n

Python3——文字標題關鍵字提取_jieba分詞+sklearn計算tf-idf詞語權重

功能：實現文字標題關鍵字的提取由於jieba自身的jieba.analyse.set_idf_path方法依賴於idf.txt.big的逆文件率語料庫，因此本例採用sklearn轉換詞向量的方法，依靠包含的文件來計算TF-IDF的值。 Step1: 匯入相關工具包

轉搜尋引擎的文件相關性計算和檢索模型 BM25/TF IDF

信任度網路模型此外還有基於統計的機器學習排序演算法。這裡主要介紹布林模型，向量空間模型，概率模型，語言模型，機器學習排序演算法3. 布林模型布林模型：是最簡單的資訊檢索模型，是基於集合理論和布林代數的一種簡單的檢索模型。基本思想：文件和使用者查詢由其包含的單詞集合來表示，兩

使用spark TF-IDF特徵計算文章間相似度

寫在前面計算字串之前的相似度可以使用 Levenshtein distance（最小編輯距離）來實現，JAVA實現可以參考http://blog.csdn.net/ironrabbit/article/details/18736185，計算新聞標題間的相似度

解析TF-IDF演算法原理：關鍵詞提取，自動摘要，文字相似度計算

Abstract：TF-IDF演算法是一種常用的詞頻統計方法，常被用於關鍵詞提取、文字摘要、文章相似度計算等。 TF-IDF的演算法思路 TF詞頻（Text Frequency）：統計出現次數最多的詞 IDF逆文件頻率（Inverse Document Frequ

文字表示模型中涉及的知識點整理(詞袋模型，TF-IDF，主題模型，詞嵌入模型)

1.詞袋模型（Bags of Words）詞袋模型是最基礎的文字表示模型，就是把每一篇文章看成一袋子單詞，並忽略每個此出現的順序。具體就是將整段文字以詞為單位分開，每篇文章可以表示成一個長向量，向量中的每一維代表一個單詞，而該維對應的權重代表這個詞在文章中的重要程度。

sklearn中的TfidfVectorizer中計算TF-IDF的過程（詳解）

Sklearn中的Tf-idf原理（source code）： Tf-idf訓練 Fit_transform學習到一個字典，並返回Document-term的矩陣(即詞典中的詞在該文件中出現的頻次) TfidfVectorizer.fit_transform(raw_

大資料及人工智慧基礎系列3 文字挖掘的TF-IDF計算

文章來源：http://blog.csdn.net/eastmount/article/details/50323063 在文字聚類、文字分類或者比較兩個文件相似程度過程中，可能會涉及到TF-IDF值的計算。這裡主要講述基於Python的機器學習模組和開源工具：sciki

短文字分析----基於python的TF-IDF特徵詞標籤自動化提取

緒論最近做課題，需要分析短文字的標籤，在短時間內學習了自然語言處理，社會標籤推薦等非常時髦的技術。我們的需求非常類似於從大量短文字中獲取關鍵詞（融合社會標籤和時間屬性）進行使用者畫像。這一切的基礎就是特徵詞提取技術了，本文主要圍繞關鍵詞提取這個主題進行介紹（

[轉]搜尋引擎的文件相關性計算和檢索模型（BM25/TF-IDF）

1. 檢索模型概述搜尋結果排序時搜尋引擎最核心的部分，很大程度度上決定了搜尋引擎的質量好壞及使用者滿意度。實際搜尋結果排序的因子有很多，但最主要的兩個因素是使用者查詢和網頁內容的相關度，以及網頁連結情況。這裡我們主要總結網頁內容和使用者查詢相關的內容。

python計算稀疏表示的TF-IDF

相關推薦