分布表示研究了上下文的概率分布,认为上下文相似的词,其语义也相似,由此将语义引入到文本表示中,词与词之间有了距离的概念。

离散表示将文本视为离散的一个个词的组合,词与词之间没有距离的概念,主要有词集模型和词袋模型两种思想。

词的表示,就是把分词之后的字和词语表示成计算机能够计算的类型。

在词法学和信息检索里,词干提取是去除词缀得到词根的过程(得到单词最一般的写法)。
0%