Lucene索引文件中的基本数据类型: Byte:最基本的类型,长8位(bit)。 UInt32:由四个Byte组成。 UInt64:由8个Byte组成。 VInt: 可变长度的整数类型,可能包含多个Byte,对于每个Byte的8位,其中后7位表示数值,最高一位表示是否还有另一个Byte,0表示没有,1表示有。 越前面的Byte表示数值的低位,越后面的Byte表示数值的高位。 例如130的二进制是1000,0010,总共需要8位,一个Byte表示不了,需要两个Byte来表示,第一个Byte表示后7位,并且在最高位置1来表示后面还有一个Byte,所以第一个Byte为10000010,第二个Byte表示第8位,并且最高位置0来表示后面没有其他的Byte了,第二个Byte为00000001,所以130的表示为10000010,00000001。 Chars:是UTF-8编码的一系列Byte。 String:一个字符串首先是通过VInt来表示此字符串中包含的字符的个数,接着便是UTF-8编码的字符序列Chars。 阅读全文 »
windows 2003 PowerShell 2.0 安装地址 阅读全文 »
索引过程:将倒排序的表写成文件格式的过程 搜索过程:读出索引信息,然后计算每篇文章的搜索权重过程 阅读全文 »
无论再渺小,我依然是我,谁也不是,有高兴,有悲伤,有泪水,也有笑容。 无论再贫穷,我依然是我,谁也不是,有成功,有失败,有失落,也有潇洒。 虽成败论英雄,但是非还未定,从每天繁杂的思绪当中总是会听到一个声音,再过几十年你将不复存在,无论你现在的悲伤,失落。 记住最重要的事情-几十年后你将死去。 阅读全文 »
lucene总体架构分析 阅读全文 »
打开serv-u的控制台,域详细信息的第二个功能:编辑域的监听器,打开后会发现它监听了80端口,取消监听就可以了 阅读全文 »
为了能深入的学习Lucene,开始学习觉先的Lucene原理与代码分析pdf,pdf资料网上有了,这里是笔记不做扫盲记录了。系统的学习lucene还是要写笔记的。 这是开篇。 计算词的权重(term weight)有两个参数,第一个是term,第二个是document。 判断词之间的关系及得到搜索关键词的相关性倒排序过程叫做向量空间模型的算法(Vector Space Model)。 阅读全文 »
xcopy文件夹复制 xcopy f:\1 f:\2 /s/h 阅读全文 »
因为.net项目里的debug和release文件夹不需要提交到svn,项目多了,不方便挨个删,写个批处理,以后删除.svn目录也用得着。 批量删除debug和release @echo off for /r %%d in (.) do if exist "%%d\debug" rd /s /q "%%d\debug" for /r %%d in (.) do if exist "%%d\Release" rd /s /q "%%d\Release" 阅读全文 »
在vs2010里用nunit测试.net4.0需要修改nunit的配置文件nunit.exe.config,如果是默认安装路径为C:\Program Files\NUnit 2.5.10\bin\net-2.0,在