一般情况下,全文搜索是通过中文分词模糊匹配的。比如搜索那家饭店的口味比较好
,文章中出现饭店
口味
等词的内容都会搜索出来。这和主流的搜索引擎(如百度、谷歌等)表现是一致的。
实际应用中,有些客户希望像数据库那样的通配查询,如like '%饭店%'
。虽然这不是lucene的工作方式,但如果一定要实现这样的效果,也不是不可以。
首先,创建lucene的索引的时候,不要分词;然后使用WildcardQuery
通配搜索。
jspxcms中修改com.jspxcms.core.fulltext.FInfo
public static Document doc(Info info) {
...
String title = info.getFullTitleOrTitle();
if (StringUtils.isNotBlank(title)) {
// 标题不进行分词。ANALYZED 改为 NOT_ANALYZED
doc.add(new Field(TITLE, title, YES, NOT_ANALYZED));
}
...
String text = info.getPlainText();
if (StringUtils.isNotBlank(text)) {
// 正文不进行分词。ANALYZED 改为 NOT_ANALYZED
doc.add(new Field(TEXT, text, YES, NOT_ANALYZED));
}
...
public static Query query(...) {
if (StringUtils.isNotBlank(q)) {
q = QueryParser.escape(q);
BooleanQuery bq = new BooleanQuery();
bq.add(new WildcardQuery(new Term(TITLE, "*" + q + "*")), SHOULD);
bq.add(new WildcardQuery(new Term(TEXT, "*" + q + "*")), SHOULD);
query.add(bq, MUST);
// Query qy = MultiFieldQueryParser.parse(LUCENE_36, q,
// new String[] { TITLE, KEYWORD, DESCRIPTION, TEXT },
// new Occur[] { SHOULD, SHOULD, SHOULD, SHOULD },
// analyzer);
// query.add(qy, MUST);
}
}
...
}
修改完成后,重启tomcat,然后重新生成全文索引。