lucene域的(Field)的数据信息(.fdt,.fdx)

2012-05-02

域数据文件(fdt): 真正保存存储域(stored field)信息的是fdt文件 在一个段(segment)中总共有segment size篇文档,所以fdt文件中共有segment size个项,每 一项保存一篇文档的域的信息 对于每一篇文档,一开始是一个fieldcount,也即此文档包含的域的数目,接下来是fieldcount 个项,每一项保存一个域的信息。 阅读全文 »

lucene域(Field)的元数据信息(.fnm)

2012-04-27

一个段(Segment)包含多个域,每个域都有一些元数据信息,保存在.fnm文件中 阅读全文 »

lucene--文件格式3

2012-04-27

◦ HasSingleNormFile ▪ 在搜索的过程中,标准化因子(Normalization Factor)会影响文档最后的评分。 ▪ 不同的文档重要性不同,不同的域重要性也不同。因而每个文档的每个域都可以有自己 的标准化因子。 ▪ 如果HasSingleNormFile为1,则所有的标准化因子都是存在.nrm文件中的。 ▪ 如果HasSingleNormFile不是1,则每个域都有自己的标准化因子文件.fN ◦ NumField ▪ 域的数量 ◦ NormGen ▪ 如果每个域有自己的标准化因子文件,则此数组描述了每个标准化因子文件的版本号, 也即.fN的N。 ◦ IsCompoundFile ▪ 是否保存为复合文件,也即把同一个段中的文件按照一定格式,保存在一个文件当中, 这样可以减少每次打开文件的个数。 ▪ 是否为复合文件,由接口IndexWriter.setUseCompoundFile(boolean)设定。 阅读全文 »

Lucene索引删除详解

2012-04-27

lucene的索引文件很复杂,这里只做一个简单的分析 阅读全文 »

深入lucene--文件格式(具体格式)

2011-12-31

Lucene保存了从Index到Segment到Document到Filed到Term的正向信息,也包括了从Term到Document映射的反向信息,还有其他Lucene特有的信息。 1.正向信息 Index->Segments(segments.gen,segments_N) ->Field(fnm,fdx,fdt)->Term(tvx,tvd,tvf) 阅读全文 »

深入lucene--文件格式(基本压缩规则)

2011-12-28

1.前缀后缀规则(Prefix+Suffix):即当某个词和前一个词有共同的前缀时候,后面的词仅保存前缀在词中的偏移(offset)及前缀后面的词(Suffix)。 阅读全文 »

深入lucene--文件格式(基本数据类型)

2011-12-28

Lucene索引文件中的基本数据类型: Byte:最基本的类型,长8位(bit)。 UInt32:由四个Byte组成。 UInt64:由8个Byte组成。 VInt: 可变长度的整数类型,可能包含多个Byte,对于每个Byte的8位,其中后7位表示数值,最高一位表示是否还有另一个Byte,0表示没有,1表示有。 越前面的Byte表示数值的低位,越后面的Byte表示数值的高位。 例如130的二进制是1000,0010,总共需要8位,一个Byte表示不了,需要两个Byte来表示,第一个Byte表示后7位,并且在最高位置1来表示后面还有一个Byte,所以第一个Byte为10000010,第二个Byte表示第8位,并且最高位置0来表示后面没有其他的Byte了,第二个Byte为00000001,所以130的表示为10000010,00000001。 Chars:是UTF-8编码的一系列Byte。 String:一个字符串首先是通过VInt来表示此字符串中包含的字符的个数,接着便是UTF-8编码的字符序列Chars。 阅读全文 »

深入lucene--文件格式(基本概念)

2011-12-26

索引过程:将倒排序的表写成文件格式的过程 搜索过程:读出索引信息,然后计算每篇文章的搜索权重过程 阅读全文 »

深入lucene--lucene总体架构

2011-12-25

lucene总体架构分析 阅读全文 »

深入lucene--权重计算模型

2011-12-23

为了能深入的学习Lucene,开始学习觉先的Lucene原理与代码分析pdf,pdf资料网上有了,这里是笔记不做扫盲记录了。系统的学习lucene还是要写笔记的。 这是开篇。 计算词的权重(term weight)有两个参数,第一个是term,第二个是document。 判断词之间的关系及得到搜索关键词的相关性倒排序过程叫做向量空间模型的算法(Vector Space Model)。 阅读全文 »