博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
lucene4.7 正则查询(RegexpQuery)(八)
阅读量:6697 次
发布时间:2019-06-25

本文共 3043 字,大约阅读时间需要 10 分钟。

hot3.png

今天要分享的是关于lucene中另外一种丰富的查询方式----正则查询,lucene内置了许多的查询API,以及更强大的自定义查询方式的QueryParse,大部分情况下我们使用内置的查询API,基本上就可以满足我们的需求了,但是如果你想更灵活的定制自己的查询或者改写自己的查询API那么你完全可以继承QueryParse类来完成这项工作。 

从某种方式上来说,正则查询(RegexpQuery)跟通配符查询(WildcardQuery)的功能很相似,因为他们都可以完成一样的工作,但是不同的是正则查询支持更灵活定制细化查询,这一点与通配符的泛化是不一样的,而且正则查询天生支持使用强大的正则表达式的来准确匹配一个或几个term,需要注意的是,使用正则查询的字段最好是不分词的,因为分词的字段可能会导致边界问题,从而使查询失败,得不到任何结果,这一点和WildcardQuery效果是一样的。 
下面先来看一下,散仙的测试数据,为了看出分词与不分词给查询造成的影响,散仙的用同样的内容做测试,分词工具使用的是IK的分词器,截图如下: 

105646_eXBS_1473715.jpg

在上图中,散仙使用2个字段存储一样的内容,一个是分过词的,一个没分过词的,下面给出使用正则查询的核心代码:

 RegexpQuery query=new RegexpQuery(new Term(field, ".*"+searchStr+".*"));                  // System.out.println(query.toString());                  TopDocs s=search.search(query,null, 100);                //  TopDocs s=search.search(bool,null, 100);                   System.out.println(s.totalHits);                  for(ScoreDoc ss:s.scoreDocs){                                                  Document docs=search.doc(ss.doc);                         System.out.println("id=>"+docs.get("id")+"   name==>"+docs.get("bookName")+"   author==>"+docs.get("author"));                    // System.out.println(docs.get(field));                     }

下面我们先来测,对不分词的字段的做模糊查询,测试的代码如下:

 dao.testRegQuery("bookName","并发");

结果如下:

命中数据 :2id=>2   name==>并发数据挑战面临巨大的挑战   author==>并发数据挑战面临巨大的挑战id=>4   name==>我们的并发数量并秦东亮在不不是很大   author==>我们的并发数量并秦东亮在不不是很大

我们发现它很出色完成了模糊的查询,并且耗时比通配符查询同样的查询条件的耗时要少,下面我们对分词的字段,进行检索,测试代码如下:

 dao.testRegQuery("author","并发");

结果如下:

命中数据 :3id=>2   name==>并发数据挑战面临巨大的挑战   author==>并发数据挑战面临巨大的挑战id=>3   name==>the food is perfect!   author==>我们的并发数量并不是很大id=>4   name==>我们的并发数量并秦东亮在不不是很大   author==>我们的并发数量并秦东亮在不不是很大

我们发现对分词字段的模糊匹配,也同样没问题,下面我们来测下对分词字段的边界查询。代码如下:

 dao.testRegQuery("bookName","e q");         dao.testRegQuery("bookName","量并");         System.out.println("===========对比界限=============");         dao.testRegQuery("author","e q");         dao.testRegQuery("author","量并");

结果如下:

命中数据 :1id=>1   name==>the quick brown fox jumps over the lazy dog   author==>the quick brown fox jumps over the lazy dog命中数据 :1id=>4   name==>我们的并发数量并秦东亮在不不是很大   author==>我们的并发数量并秦东亮在不不是很大===========对比界限=============命中数据 :0命中数据 :0

由以上结果,我们可以发现分词后的字段,如果在某个字之间被切分成两个term,那么无论你用什么样的方式模糊这两个term边界之间的数据,都查询不到任何结果,而不分词的字段,却能查出来,这是因为,不分词的字段都是作为一个单独的term来处理的,来lucene的内部匹配方式,恰恰又是以term作为最小检索单位的,故能检索到结果,这一点需要我们格外注意,在实现我们的业务时,要根据自己的场景来设计出最优的分词策略。

下面散仙要测的是正则查询的老本行了,使用正则表达式进行查询,代码如下:

     dao.testRegQuery("bookName","[fb]ox");//利用正则式检索

结果如下:

命中数据 :2id=>1   name==>the quick brown fox jumps over the lazy dog   author==>the quick brown fox jumps over the lazy dogid=>5   name==>log is small box   author==>log is small box

我们发现含有fox,box的两条数据都被正确的检索出来了,其实检索的条件,在匹配时会被分解成4个条件,分别是,fox,fo,box,bo只要含有这几个term的数据,都会被检索出来,而这一点恰恰省去了,我们在使用其他的查询时使用OR或者AND进行拼接的繁琐,也可以简化成所谓的SQL里面的IN查询,当然使用正则表达式查询方式可以有很多种,在这里只是简单的举了个例子,有兴趣的朋友们,可以自己测测。 

最后在总结一下,1,如果是在不分词的字段里做模糊检索,优先使用正则查询的方式会比其他的模糊方式性能要快。2,在查询的时候,应该注意分词字段的边界问题。3,在使用OR或AND拼接条件查询时或一些特别复杂的匹配时,也应优先使用正则查询。4,大数据检索时,性能尤为重要,注意应避免使用前置模糊的方式,无论是正则查询还是通配符查询。

转载于:https://my.oschina.net/MrMichael/blog/220956

你可能感兴趣的文章
【转】Linux 下修改Tomcat使用的JVM内存大小
查看>>
xcode 开发ios兼容性问题的上下黑边 和 coco2d-x 游戏分辨率适配 ResolutionPolicy::FIXED_WIDTH 都会引起上下黑边问题!!!...
查看>>
剑指offer(一):二维数组中的查找
查看>>
编程之美-第3章 结构之法
查看>>
WinForm部署问题
查看>>
[解题报告]591 - Box of Bricks
查看>>
XP系统中没有Internet信息服务windows组件解决办法
查看>>
SPOJ Problem 6219:Edit distance
查看>>
实验四
查看>>
OCM_第十九天课程:Section9 —》Data Guard _ DATA GUARD 原理/DATA GUARD 应用/DATA GUARD 搭建...
查看>>
删除一年之前的日志文件
查看>>
IoC容器Autofac(3) - 理解Autofac原理,我实现的部分Autofac功能(附源码)
查看>>
html字符串生成器源代码
查看>>
Crusher Django 学习笔记4 使用Model
查看>>
Sublime Text 3 快捷键汇总
查看>>
优化android studio编译的apk大小
查看>>
论证是一门学问
查看>>
Bad Request (Invalid Hostname)解决方法
查看>>
indy10 UDP实例
查看>>
POJ1274 The Perfect Stall(二分图)
查看>>