tf-idf

tf-idf: term-frequency-inverse document frequency

这种技术常用来进行文本挖掘,可以评估出某一个语料库中的单词、文件集的重要程度。

term frequency 作为词频,是词数的归一化表示,可以避免它偏向长文件。 分子中 \(n_{i,j}\) 是该词在文件 \(d_j\) 中出现的次数,分母是文件 \(d_j\) 中所有字词的出现次数之和。

\[ tf_{i,j} = \frac {n_{i,j}}{\sum_kn_{k,j}} \]

inverse document frequency 逆向文件频率,也可以是一个词语普遍重要性的度量,由总文件数目 除以包含该词语文件的数目,再将得到的商取对数。\(|D|\) 是语料库中文件总数,\(|\{j:t_i\in d_j\}|\) 表示包含该词语的文件,若值为0,用 \(|\{j:t_i\in d_j\}|+1\) 来代替。

\[ idf_i=log\frac{|D|}{|\{j:t_i\in d_j\}|} \]

综上所述,

\[ rfidf_{i,j} = tf_{i,j}*idf_{i} \]


应用:tfidf常常与余弦相似性并用,具体步骤为:分词,计算词频,写出词频向量,计算余弦值

参考文献: * tf-idf * TF-IDF与余弦相似性的应用