有如下两个文档:
Doc1:When in Rome, do as the Romans do.
Doc2:When do you come back from Rome?
文档经过如下停用词表的过滤:
- in as the from
在Lucene中形成的索引结构如图1-5所示。
![]() |
| (点击查看大图)图1-5 Lucene中形成的索引结构 |
在Lucene的索引文件中,以tis为后缀的文件中包含了term信息;以frq为后缀的文件包含term的文档编号和在文档中出现的频率信息;以prx为后缀的文件包含了term出现的位置。
折半查找Term。对于特别大的顺序集合可以用插值查找的方法提高查找速度。




