单词文本矩阵(word-document matrix)

单词文本矩阵(word-document matrix)

Content #

给定一个含有n个文本(文档)的集合\(D=\{d_1,d_2,\cdots,d_n\}\),以及在所有文本(文档)中都出现的m个单词的集合\(W=\{w_1,w_2,\cdots,w_m\}\),单词文本矩阵(word-document matrix)记作:

\begin{displaymath}X=[x_{ij}]_{m\times n}\end{displaymath}

该矩阵元素 \(x_{ij}\) 表示单词 \(w_{ij}\) 在文本 \(d_j\) 中出现的频数或权值。权值一般会是TF-IDF。

From #