倒排索引(反向索引)

文档矩阵

单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型。图的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。

从纵向即文档这个维度来看,每列代表文档包含了哪些单词,比如文档1包含了词汇1和词汇4,而不包含其它单词。从横向即单词这个维度来看,每行代表了哪些文档包含了某个单词。比如对于词汇1来说,文档1和文档4中出现过单词1,而其它文档不包含词汇1。矩阵中其它的行列也可作此种解读。
搜索引擎的索引其实就是实现“单词-文档矩阵”的具体数据结构。可以有不同的方式来实现上述概念模型,比如“倒排索引”、“签名文件”、“后缀树”等方式。但是各项实验数据表明,“倒排索引”是实现单词到文档映射关系的最佳实现方式。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×