标题：【迅搜11】搜索技巧（一）简单搜索语句构建及高亮折叠效果

文章目录

分类：存储运维标签：迅搜

搜索技巧（一）简单搜索语句构建及高亮折叠效果

学习完索引管理相关的内容之后，我们就进入到了搜索技巧相关的学习了。其实对应在 XS 中，就是 SDK 中的 XSSearch 对象的相关学习和使用。同样的，在这一部分，我们也会普及很多搜索相关的知识。

其实对于这个 XSSearch 对象，我们并不陌生，之前很多次，很多地方都已经用过了。只不过我们都是只用了它的最简单的一种使用方式。

$xs->search->search("xxxx");

它会返回一个由 XSDocument 对象组合成的数组，想必这部分内容也不用我多解释了。

其实，在这个 XSSearch 的 search() 方法上直接写搜索词，是 XS 为我们提供的一种快捷搜索方法。这个 search() 方法真正的作用是向查询服务端（端口8383）发送查询命令，并通过它继承的 XSServer 中的 respond 来获得返回的结果。关于 XSServer 部分的内容之前都已经学习过了。这里也就不多赘述了。

正式的设置查询语句、查询词的方法其实是 setQuery() 这个方法。

$xs = new XS("./config/zyarticle.ini");
$search = $xs->search; // 后期如果直接写一个 $search ，就是直接表示为 $xs->search 获得的 XSSearch 对象

print_r($search->setQuery('敏捷')->search());

其实它的效果和 $search->search("敏捷"); 是一样的。那么如果我们同时使用 setQuery() ，并且 search() 中也有搜索词，而且两个词不一样会出现什么情况呢？

$search->setQuery('敏捷')->search('算法');

大家可以自己打印一下结果试试，我这里则是使用返回查询数量一个属性来测试的。

$search->search('敏捷');
print_r($search->lastCount); // 37

$search->search('算法');
print_r($search->lastCount); // 63

$search->setQuery('敏捷')->search('算法');
print_r($search->lastCount); // 63

print_r($search->setQuery('敏捷')->setLimit(1000)->search('算法')); // 打印的是算法相关的数据

可以看到，最后返回的结果是 63 条，也就是说，最终查询词是以 search() 的参数为准的。大家可以运行最后一行的代码来查看返回的结果是不是 63 条。

这个地方通过源码分析的话，setQuery() 是直接将参数通过 XS_CMD_QUERY_PARSE 这个命令常量发送到服务端了。这个查询参数会直接保存在服务端。而 search() 如果有参数，就会以 search() 的参数，通过 XS_CMD_SEARCH_GET_RESULT 这个查询命令标识直接进行查询。比如我们再这样测试：

print_r($search->setLimit(1000)->search()); // 打印的是敏捷相关的数据

没有 setQuery() ，同时 search() 也没有参数，返回的结果是上一次 setQuery() 设置的查询内容，也就是 “敏捷” 相关的 37 条数据。

在这两段代码中，我们使用了一个 setLimit() 方法，它就是 XS 中的分页方法。接下来，我们就看一下这个分页的效果。

分页

默认情况下，我们不加 setLimit() 方法，那么最终的 search() 会默认返回从第 0 条数据开始的 10 条数据。也就是默认第一页的十条数据。这个和 MySQL 中的 limit 没啥太大区别，第一个参数是返回数量，第二个参数是 offset 偏移量。

print_r($search->setLimit(2)->search('')); // 返回两条数据
print_r($search->setLimit(1,1)->search('')); // 返回跳过第一条数据之后的一条数据

没啥太多好解释的吧。但是，这里要多一嘴。包括 ES 在内的大部分搜索引擎对于深分页的支持都不怎么样。什么叫深分页？就比如每页显示 10 条数据，然后显示到第 1000 页、第 10000 页以后的内容。默认情况下，ES 的分页只支持 10000 条数据，也就是说，如果每页十条数据，在 ES 中，最多也就直接分 1000 页。当然也有别的方式可以继续向下翻页，但是却无法支持跳页了（直接指定页码）。

这一块的原因其实就是在于搜索引擎会对查询结果进行分析、打分、计算。所以在分页时往往会将数据全部拿回来进行这些计算操作。如果数据量太大，即使是 ES 也抗不住，毕竟它可以把数据分片存储，但是最后分页进行打分、排序时还是要把所有分片上的数据一起拿过来进行总体计算的。基于这样的原因，它就硬性规定了最多只能处理 10000 条数据。

虽说 XS 的文档上没写，但是基于对于大部分搜索引擎（包括百度和 Google ）的理解，搜索引擎对于深分页的支持都不太友好。就像百度，最多也只是到 100 页左右，大家可以试试直接访问百度超过 100 页之后的内容是什么样子的。

https://www.baidu.com/s?wd=PHP
https://www.baidu.com/s?wd=PHP&pn=750  # 我测试时可以搜索到 76 页
https://www.baidu.com/s?wd=PHP&pn=760 # 试试看访问第 77 页是什么效果

但其实，即使只是中文网页，我相信关键词包含 “PHP” 的文章甚至是网站，远不止 700 多条搜索结果。也就是说，搜索引擎其实并不需要全面，而且有的时候也并不需要完全的精准，真正的搜索引擎，需要的是找到符合用户需要的内容。因此，千万不要以为百度、Google 养得成百上千的工程师是混饭吃的。真正商业化的全网搜索引擎的技术要求，可比我们学习的这些 ES、XS 之类的工具要复杂的多。

不过 XS 没提到过这个问题，那么咱们就来测试一下，就用默认的 demo 吧。

// php
$xs = new XS("demo");
$xs->index->openBuffer();
for($i=100000;$i>=1;$i--){
  $xs->index->update(new XSDocument([
    'pid'=>'pid'.$i,
    'subject'=>'sub'.$i,
    'message'=>'msg'.$i,
  ]));
}
$xs->index->closeBuffer();

> php vendor/hightman/xunsearch/util/Quest.php --show-query --limit=20000,10 demo ""

通过 PHP 代码向索引中添加十万条数据，然后通过 SDK 提供的查询工具，使用 --limit 参数来进行分页。可以看到最终的效果是能够顺利返回 20000 到 20010 条数据的列表。看来 XS 对这个深分页的支持还好，并且响应速度也还可以。当然，ES 有它自己的原因和道理，这里我也只是多嘴说一句，并不代表说 XS 比它强或者怎么样，只是通过测试证明，XS 是可以对超过 10000 条以上的数据进行深分页的。

快捷数量查询

数量查询，其实也就是类似于 MySQL 中的 count(*) 的效果。在 XS 中，我们已经在前面看到了 lastCount 属性的应用。它实际上就是返回最近一次查询结果的数量，这是个属性，因此对应的也有一个 getLastCount() 方法。但是这个属性没有 set 相关的方法，因此，这个变量属性是一个只读变量。是不是有体会到面向对象中封装的好处了？

除了这种返回最后一次查询结果数量的属性及对应的方法之外，就像上面的 search() 方法一样，XS 也为我们提供了一个快捷获得指定查询条件数量的方法，就叫 count() 。

print_r($search->count()); // 37
print_r($search->count('算法')); // 63
print_r($search->count()); // 37

不传任何参数时，count() 返回的结果也是上回查询关键词的结果数量。但是它也可以指定一个查询参数，比如第二行，但是大家会发现，第三行又变回之前的查询结果数量了。其实呀，这个查询对于查询参数的处理和 search() 是一样的，如果给了参数，按参数的来，如果没给参数，就按上一次 setQuery() 方法指定的查询条件来。

前面我们已经说过，setQuery() 是直接将查询参数传递到服务端了，而 search() 和 count() 的参数都是现拼的。如果它们有参数，就以最新的这个查询参数来执行。这个直接执行的查询参数在服务端是不会保留的，服务端只会保留通过 setQuery() 设置的，命令常量为 XS_CMD_QUERY_PARSE 的数据。同样的，直接给 count() 的参数也是针对这一次请求的，和 search() 的效果一模一样。

另外还需要注意的一点是，这个 count() 方法返回的数量是一个估算值，不是精确值。同样地，lastCount 属性及对应方法返回的数量值也是估算值，不是精确值。这又是一个什么概念呢？

如果有做过大数据量的日志统计、流量统计或者类似统计系统，或者深分页达到100页以上的同学一定会知道。有的时候，为了性能，我们的汇总数据值是可以不精确的。比如说千万条日志中统计出来的实时日活数量，误差在一定范围内都是可以授受的。包括之前我们学习过的 Redis 中的 HyperLogLog 就明确说了不精确，有多少误差，但是速度飞快，存储空间小。同样的，对于大部分搜索结果及其分页来说，本身分词就是有着不确定性以及异步索引操作的问题，数量统计也会因此产生不准确的问题。

ES 中的 count 效果一般是通过聚合 aggs 实现的，相对来说要精确一些，但是它是以更多的计算和资源消耗量为代价换来的。但它也不是完全的精确值，特别是如果采用了多分片分布式的情况下，一样是有误差率的。但它可以通过一些参数设置来调节精确度。还是那句话，看业务需求进行取舍。

索引项目总数量

最后还有一个索引项目内的文档总数量的属性。

print_r($search->dbTotal); // 339

这个没啥多说，它也有一个对应的 getDbTotal() ，没有 set 相关方法，是一个只读属性。这个数量值是不是精确的文档没说，咱也不清楚。

链式调用

通过前面的学习，其实大家已经发现了，XS 的 SDK 中的各种操作都是可以进行链式调用的。关于这种调用方式，之前在建造者模式、Laravel数据库相关的学习中我们都已经说过了。这里就简单的说一下 XS 中的应用。

在 XS 中，XSSearch 对象除了 search() 和 count() 之外，与查询有关的其它方法都是可以进行链式调用的。其实 XSIndex 也都可以，之前我们就看过，add()、update() 这些方法都是返回的 XSIndex 自身，所以完全可以这么写。

$xs->index->add(xxx)->add(xxx)->add(xxx);

不过相对来说，在操作增、删、改时，不管是数据库内核，还是代码表现形式上，我们都会追求尽量的原子化，也就是一行一行的写。逻辑更清晰，也更容易看明白，同时也符合日常的认知。

而对于搜索来说，这样链式的写就完全不违和了。

$xs->search->setQuery('敏捷')->setLimit(1000)->search('算法');

这样写是不是要比下面这样的写法清晰很多。

$search = $xs->search;
$search->setQuery('敏捷');
$search->setLimit(1000);
$search->search('算法');

高亮与折叠效果

大家在使用百度或者 Google 以及很多网站的搜索功能时，会发现在返回的结果中会把我们搜索的关键字标红。这个功能在 XS 中的实现非常简单。其实自己去实现也不复杂，简单来说原理就是将分词后的查询关键字，一一替换加上一个特殊的 HTML 标签。然后在前端通过给这个标签设置特定的 CSS 样式实现变红、加粗、改字体等等功能就可以了。

在 XS 中，直接使用 XSSearch 提供的 highlight() 方法就可以了。

$doc = $search->setLimit(1)->search('数据结构与算法')[0];
echo $search->highlight($doc->title);
// PHP<em><em>数据</em><em>结构</em></em><em>与</em><em>算法</em>1】在学<em><em>数据</em><em>结构</em></em>和<em>算法</em>的时候我们究竟学的是啥？
echo PHP_EOL;
echo $search->highlight($doc->content);
echo PHP_EOL; //………………

看出来效果了吧，“数据结构与算法” 通过默认分词实际上是分成了 “数据结构”、“数据”、“结构”、“与”、“算法” 这几个词。然后调用 highlight ，将一个字符串（通常就是我们的 title 和 body 指定的字段）传递给它，它就会根据分词的结果为指定字符添加上 <em> 标签。然后在前台展示时，我们就可以通过 CSS 来控制标签展示样式了。大家可以自己去看下源码，替换过程真的不复杂，只是获取分词和组合替换规则的部分要麻烦一点，原理还是我上面说过那个原理。甚至最终使用的函数就是 PHP 原生的 preg_replace()、strtr()、str_replace() 这三个之一。

它还有第二个参数，是一个布尔值，表示是否使用 strtr() 函数来进行替换处理。

echo $search->highlight($doc->title,true);
// PHP<em>数据结构</em><em>与</em><em>算法</em>1】在学<em>数据结构</em>和<em>算法</em>的时候我们究竟学的是啥？
echo PHP_EOL;
echo $search->highlight($doc->content,true);
echo PHP_EOL;  // ………………

能看出来不同在哪里了吧，上面的 “数据结构” 套了两层 <em> ，还有一层是分开 “数据” 和 “结构” 的。而下面的只有一层完整的长词 “数据结构” 。关于 strtr() 和 str_replace() 的区别以及使用方法，大家可以自己查阅相关的资料。

另外，search() 方法的第二个参数，是表示是否保存本次分词结果到高亮变量中用于后续的高亮操作的。

$doc = $search->setLimit(1)->search('敏捷', false)[0];
echo $search->highlight($doc->title);
// 【敏捷1.4】敏捷开发环境：领导<em>与</em>团队
echo PHP_EOL;

比如上面这个例子，我们在最后调用 search() ，将第二个参数设置为 false ，就表示本次分词内容，也就是 “敏捷” 这个词不用于后续的高亮操作，高亮缓存中的分词内容还是上一次的内容。因此，在下方调用高亮效果时，正好就只对标题中出现的 “与” 字进行了高亮操作了。

那么要删除之前的高亮缓存中的分词内容要怎么弄呢？直接用空字符串搜索一次就好啦。

$search->setLimit(1)->search('');
echo $search->highlight($doc->title);
// 【敏捷1.4】敏捷开发环境：领导与团队
echo PHP_EOL;

折叠

折叠是啥意思？其实呀，它就是类似于数据库操作中的 GROUP 的效果。折叠搜索称为归并搜索，就像 Google 上通常搜索结果中对于某一个网站只会显示 2 条最匹配的结果，其余的归并折叠起来。从而避免一个网站权重太大，连续多好页显示的都是同一个网站的内容。

在 XS 中，可以通过 XSSearch 的 setCollapse() 去指定根据某一个字段的值进行折叠归并。它的第一个参数是指定的字段名称，第二个参数是默认的数量值，也就是折叠归并，或者说分组后，这一组内有多少文档，这个数量值是通过返回结果中 XSDocument 对象的 ccount 属性来获得的。

说了半天，直接看例子吧，一看你就明白。

$docs = $search->setCollapse('category_name')->search('');
foreach ($docs as $doc)
{
  echo '分类：'.$doc->category_name.' 下有 ' . ($doc->ccount() + 1)  . ' 条匹配结果。',PHP_EOL;
}
// 分类：PHP 下有 287 条匹配结果。
// 分类： 下有 1 条匹配结果。
// 分类： 下有 1 条匹配结果。
// 分类：随笔 下有 2 条匹配结果。
// 分类：项目产品 下有 48 条匹配结果。

看出效果了吧？咱们再用数据对应的 SQL 语句来试下。

select count(*),category_name from zy_articles_xs_test group by category_name
-- 287	PHP
-- 2	
-- 2	随笔
-- 49	项目产品

结果正好对应上了吧。不过这里有两个问题，一是分类为空的内容，在 XS 折叠时是分成两个空的数据统计出来的。二是官方文档是是用得 ccount() - 1 ，表示当前分类下除了显示出来的这篇文档还有多少篇。但我的测试是不需要减 1，本身就是排除当前这篇文档之外的文档数量，因此在我的结果（我统计的是该分类下总共的数量）中还需要加 1 。

折叠搜索时，还可以组合其它搜索条件的，大家可以试一下，这里就不演示了。

对于这种聚合运算功能，还有一种就是后面要学习的分面搜索，其它就没有了。如果想要更复杂的聚合功能，不用考虑别的了，直接上 ES 吧。

典型搜索步骤

在 XS 中的搜索过程，其实也是可以分不同的步骤的，就好像 MySQL 中，我们可以直接不加任何语句的一行 SELECT ，也可以加 WHERE 、加 ORDER BY 、加 LIMIT 、加 GROUP BY 、加 HAVING 等等。这一系列步骤中，也有先后顺序，比如说 GROUP BY 的要求就比较多。

而在 XS 中，类似的过程也是有的：