索引的打造。索引打造时, 用的是Lucene的索引器Index Writer类。对Index Writer类所用的语言剖析器进行修改, 使其支持中文分词。 这里使用了简单的单汉字切分, 马上单个汉字作为一个术语, 借助Java CC编程达成。并且在生成索引器将支持中文单汉字切分的语言剖析器作为参数传递给索引器成为索引器的成员, 使其在索引过程中用该语言剖析器进行分词。
最后, 调用Index Write类的add document () , 将互联网爬虫抓取且转换为document格式的文件, 依据字段种类进行分别处置, 加入到索引字段。