优雅地构建Hexo本地搜索引擎

2020-06-30
作者 Candinya
~15.23K 字
次阅读
条评论

1. 准备工作
1. 1.1. 搜索页面
2. 1.2. 内容数据
2. 搜索之前
3. 开始搜索
4. 输出内容
5. 参考资料

对于像Hexo这样的静态博客而言，有一种痛苦叫不知道怎么处理搜索内容。自然有一种方法是依傍大型的搜索引擎，例如本主题的代码主要参考来源——landscape（同时也是Hexo的默认主题），使用的就是依赖于Google的搜索方式。诚然，也有swiftype这样的第三方公司为站点提供数据收录与搜索引擎集成，但暂且不说完全依赖第三方的服务是否具有合理的稳定性，光是其高昂的售价就足以让人望而却步了。因此，如何构建一个独立的搜索库，以便于用户更方便地搜寻所需要的资源，对于我们Hexo站长而言，自然也就成为了一大急需思考的难题。

实现了本地搜索功能的主题也不在少数，例如NexT、Suka等等，考虑到NexT需要另外安装不利于自定义的搜索生成插件，而Suka则实现了从生成到搜索的完整过程，因而本次我就是以Suka为参照，构建一个至少能比较正常地工作的本地搜索功能吧。

现在已经可以将搜索相关的配置项全部放入主题配置里去啦！不再需要修改站点设置了的说呢，具体可以参见这篇文章哦~

准备工作

要想实现搜索，无非就是需要两大模块：搜索页面和内容数据库。如何在Hexo默认不带有的路由情况下，新建一个搜索专属的页面呢？Hexo为我们提供了许多API可以使用。官方给出的样例非常简洁，因此我们可以根据第三方的教程参照，发现更多实现相关的细节。

搜索页面

例如，以下这一段代码，可以调用主题的layout/_pages/search-page这个页面，而路由的切入点，则是*sitedir/search/*。

// Generate search page
hexo.extend.generator.register('searchPage', function(locals){
    return {
        path: 'search/index.html',
        data: locals.posts,
        layout: '_pages/search-page'
    };
});

将这一段代码写入以.js结尾的文件中，保存在主题的scripts文件夹内，那么当hexo运行的时候，就会被页面生成进程调用，从而生成出搜索页面对应的文件与文件夹。

同时，我们需要给出_pages/search-page这个页面的具体配置。请注意，使用layout调用时，会按照主题的layout.ejs给出对应页面的样式，因此请记得保持相关页面的内容一致哦

<section class="col-md-8">
  <style>
    .input-group{display:flex;width:80%;margin:30px auto;}
    #search-input{flex:auto;margin:0 5px;border-radius:5px;padding:0 8px;}
    #kr-search-notice.alert{transition:.3s}
    #result-posts .kr-search-result{margin:auto;height:auto;width:90%;}
    #result-posts m{color:#333;background-color:yellow;}
  </style>
  <div class="kratos-hentry kratos-post-inner clearfix">
    <div class="kratos-post-content">
      <h2 class="title-h2"><%- __('search') %></h2>
      <form class="input-group" onsubmit="return inpSearch();">
        <input class="form-input input-lg" id="search-input" maxlength="80" name="s" placeholder="<%- __('search_notice') %>" required type="search">
        <button class="btn btn-primary" type="submit"><%- __('search_submit') %></button>
      </form>
    </div>
  </div>

  <div class="alert" id="kr-search-notice"></div>

  <div id="result-posts"></div>

</section>

<script>var searchDataFile = "<%- config.root + (config.kratos_rebirth.search.path || 'search.json') %>";</script>
<script defer src="/js/local-search.min.js"></script>

注意，由于无法通过js直接调用Hexo的设置，因此此处单独将搜索文件的路径进行了提取。

对于表单默认的提交跳转事件会导致页面的强制刷新，我们需要使用return false进行拦截；为了运行搜索函数，我们让搜索函数返回值也变成false，然后将该拦截时间返回至表单，以防止出现跳转即可。

内容数据

如果是使用第三方接口的话，兴许到此就已经是基本完成了；但既然要构建本地搜索，我们还需要一个用来搜索的“数据库”。

有一个插件叫做hexo-generator-search，可以生成便于搜索使用的相关数据文件；但我们主题展示的页面里，存在的还不仅仅只有所列出来的这一些条目。如果需要用户为此专门去安装这个插件并进行相关代码的修改，那显然会带来更多难以维护的困难情况。因此，可以参照相关的生成方式，构建属于我们主题自己的搜索数据库：

const pathFn = require('path');
const { stripHTML } = require('hexo-util');

let config = hexo.config.kratos_rebirth.search;

// Generate search database

// Set default search path
if (!config.path) config.path = 'search.json';

if (pathFn.extname(config.path) === '.json') {
  hexo.extend.generator.register('searchdb', function(locals){
    const url_for = hexo.extend.helper.get('url_for').bind(this);

    const parse = (item) => {
      let _item = {};
      if (item.title) _item.title = item.title;
      if (item.date) _item.date = item.date;
      if (item.path) _item.url = url_for(item.path);
      if (item.tags && item.tags.length > 0) {
        _item.tags = [];
        item.tags.forEach((tag) => {
          _item.tags.push([tag.name, url_for(tag.path)]);
        });
      }
      if (item.categories && item.categories.length > 0) {
        _item.categories = [];
        item.categories.forEach((cate) => {
          _item.categories.push([cate.name, url_for(cate.path)]);
        });
      }
      if (hexo.config.kratos_rebirth.search.content && item.content) {
        _item.content = stripHTML(item.content.trim().replace(/<pre(.*?)\<\/pre\>/gs, ''))
          .replace(/\n/g, ' ').replace(/\s+/g, ' ')
          .replace(new RegExp('(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', 'g'), '');
      }
      return _item;
    };

    const searchfield = config.field;

    let posts, pages;

    if (searchfield) {
      if (searchfield === 'post') {
        posts = locals.posts.sort('-date');
      } else if (searchfield === 'page') {
        pages = locals.pages;
      } else {
        posts = locals.posts.sort('-date');
        pages = locals.pages;
      }
    } else {
      posts = locals.posts.sort('-date');
    }

    let res = [];

    if (posts) {
      posts.each((post) => {
        res.push(parse(post));
      });
    }
    if (pages) {
      pages.each((page) => {
        res.push(parse(page));
      });
    }

    return {
      path: config.path,
      data: JSON.stringify(res)
    };
  });
}

为了能给这个主题的使用者提供更多的客制化选项，对于主题这个搜索功能，我选择设置了一个用于控制的开关。

~~但Hexo的API似乎没有提供直接读取主题配置参数的设置，因此需要将相关的设置代码写入站点的配置文件中。~~（可参见这篇文章进行修改调整）

kratos_rebirth:
  search:
    enable: true
    path: search.json
    field: post # page | post | all. Default post
    content: true # Include post | page content

准备工作到此就已经结束，接下来就是在页面上调用搜索数据库，对于内容进行搜索了。

搜索之前

获取关键词

由于我们提供了两种方式，一种是直接带请求链接的搜索，另一种是表单的手动提交事件进行搜索，因此我们需要两种对应处理的方式，即一种是通过获取窗口的URL并进行解码来获取参数，另一种是通过获取表单的输入内容来搜索。

这里参考Suka的窗口参数获取事件给出了一个参考的函数写法：

function getParam(reqParam) {
  // 获取参数
  reqParam = reqParam.replace(/[\[]/, "\\\[").replace(/[\]]/, "\\\]");
  const paraReg = new RegExp('[\\?&]' + reqParam + '=([^&#]*)');
  const results = paraReg.exec(window.location);
  return results === null ? '' : decodeURIComponent(results[1].replace(/\+/g, ' '));
}

获取以参数reqParam开头的所有参数（我传入的是’s’），获取URL的请求路径。

这个事件在页面载入时即可触发，因此我们可以设置如下的函数来调用：

(()=>{
  const skeys = getParam('s');
  if (skeys !== '') {
    // 存在关键词，把搜索词放到输入框里面
    document.getElementById('search-input').value = skeys;
    // 开始搜索
    keySearch(skeys);
  }
})();

为了提升用户交互的友好性，我还选择将关键词放入输入框内，以便于用户的交互、修改和后续的处理等。

而对于使用输入表单的提交搜索，直接调用相关的搜索函数即可；此处为了链接的双向同步，使用了浏览器的pushState事件来触发一次不刷新页面的浏览器地址变更（使用了正则表达式来处理空格问题）：

function inpSearch() {
  // 单击按钮检索
  const skeys = document.getElementById('search-input').value;
  // 更新URL
  window.history.pushState({},0,window.location.href.split('?')[0]+'?s=' + skeys.replace(/\s/g, '+'));
  // 开始搜索
  keySearch(skeys);
  return false;
}

请注意对于一些特殊HTML字符的转义传参，否则可能在结果生成的时候带来不必要的困难：

function searchEscape(keyword) {
  const htmlEntityMap = {
    '&': '&amp;',
    '<': '&lt;',
    '>': '&gt;',
    '"': '&quot;',
    '\'': '&#39;',
    '/': '&#x2F;'
  };

  return keyword.replace(/[&<>"'/]/g, function (i) {
    return htmlEntityMap[i];
  });
}

同时也有一些会影响正则表达式的字符，可以用类似的方式进行处理；但这样做相当于直接禁用了正则表达式的搜寻方式：（如有必要，可以设置一个切换开关）

function regEscape(keyword) {
    const regEntityMap = {
        '{': '\\\{',
        '}': '\\\}',
        '[': '\\\[',
        ']': '\\\]',
        '(': '\\\(',
        ')': '\\\)',
        '?': '\\\?',
        '*': '\\\*',
        '.': '\\\.',
        '+': '\\\+',
        '^': '\\\^',
        '$': '\\\$'
    };

    return keyword.replace(/[\{\}\[\]\(\)\?\*\.\+\^\$]/g, function (i) {
        return regEntityMap[i];
    });
}

keySearch为传入参数后的搜索函数，可以这样来处理：

function keySearch(skeys) {
  // 设置搜索提示
  setNotice('info', '正在加载搜索文件...');

  // 启动进度条
  if (typeof NProgress !== 'undefined') {
    NProgress.start();
  }

  // 加载数据并搜索
  loadDataSearch(searchDataFile, searchEscape(skeys));
}

获取数据

jQuery有封装XHR操作，可以使用ajax来获取数据；而ES6也有引入一个新的XHR方式：Fetch API，可以更加优雅地实现获取数据的操作。相关格式的的简单样例如下：

fetch('path/to/file')
  .then((res)=>{
    // 后续操作
    ...
  })
  .catch((error)=>{
    // 错误处理
    ...
  });

具体的使用方法可参见MDN的文档：使用 Fetch

格式化数据

我们fetch到的是一个text类型传输的json序列，无法直接被使用，因此需要进行.json()操作将其转化成一个json对象。但不知为何，直接使用此操作似乎无法有效将其转化为可以forEach的对象。因此我们可以将其作为一个函数的参数进行传出。具体的代码如下：

fetch('path/to/file')
  .then((res)=>{
    // 文件加载完成提示
    ...
    return res.json();
  })
  .then((datas)=>{
    // 具体操作细节
    ...
  })
  .catch((error)=>{
    // 错误处理
    ...
  });

在第二个.then里得到的datas，就可以进行forEach操作啦。

开始搜索

当数据准备完成，提示信息也已经给出之后，是时候开始正式的搜索过程啦。

搜索的过程主要分为三步，先是分割关键词、再是针对每一篇文章进行关键词检索、最后是汇总结果并标出高亮内容。

分割关键词

为了避开大小写对于搜索结果的影响，将搜索关键词去除两端空格后转换成小写，再以空格等分隔符进行分割即可。例如，可以使用这样的方式：

1	let keywords = skeys.trim().toLowerCase().split(/\s/);

其中的skeys是带有空格的搜索字符串，如"关键词1 关键词2 关键词3 ..."等；经过转换后的keywords则成了一个数组，如["关键词1", "关键词2", "关键词3", ...]这样的格式，便于后续的搜索操作。

文章检索

对于文章，一般主要关心的是文章的标题和内容，因此搜索模块也从这两方面进行着手考虑。

为了避免大小写导致的结果减少，我们同样将文章的标题和内容都转换成小写的字符串：

1 2	const dataTitle = data.title.trim().toLowerCase(); const dataContent = data.content ? data.content.trim().replace(/<[^>]+>/g, '').toLowerCase() : '';

为了表达搜索数据的权重关系，我们引入一个权重标记，并规定一个简单的权重算法：当标题中出现关键词时，该文章的权重+2；当内容中出现关键词时，该文章的权重+1。

但是这个权重算法很简陋，而且在我目前的代码中没有很好的被实现，因此只是提供一个参考的思路吧。

完成设计之后，我们就可以开始当前文章的检索工作了。先假设当前文章里没有任何关键词，再在搜寻的过程中，如果有发现匹配成功，则将该文章标记为有关键词的文章即可。

参考的代码如下：

let matched = false;
keywords.forEach((keyword)=>{
  indexs.title = dataTitle.indexOf(keyword);
  indexs.content = dataContent.indexOf(keyword);
  if (indexs.title !== -1 || indexs.content !== -1) {
    matched = true;
    // 标记内容的最初与最终出现位置
    ...
    // 权重计算
    dataWeight += indexs.title   !== -1 ? 2 : 0;
    dataWeight += indexs.content !== -1 ? 1 : 0;
    resultCount++;
  }
});

标记高亮

在一篇文章搜索完成后，就已经可以将其中的高亮内容进行标记了，以便于后续的处理。对于之前设置的matched参数，此使便可以用于控制是否需要进行标记。一个样例的代码如下：

if (matched) {
  let tPage = {};
  tPage.title = data.title;
  keywords.forEach((keyword)=>{
    const regS = new RegExp(regEscape(keyword) + '(?!>)', 'gi');
    tPage.title = tPage.title.replace(regS, '<m>$&</m>');
  });
  if (indexs.firstOccur >= 0) {
    const halfLenth = 100;
    // 准备需要高亮的内容区段
    ...
    tPage.content = dataContent.substr(start, end-start);
    keywords.forEach((keyword)=>{
      const regS = new RegExp(regEscape(keyword) + '(?!>)', 'gi');
      tPage.content = tPage.content.replace(regS, '<m>$&</m>');
    });
  }
  resultArray.push([tPage, dataWeight]);
}

请注意我使用到的(?!>)，这一部分是用于将可能存在的搜索结果里的HTML高亮标签（以>来辨识）进行排除，以免因搜索关键词中出现标签名，而导致重复嵌套的显示错误出现。

汇总结果

由之前的搜索权重，对每一个结果进行排序，以便于优先显示关联度更高的内容。如果没有搜索到任何结果，则直接返回没有输出。

if (resultCount !== 0) {
  const finishTime = performance.now();
  setNotice('success', '找到 ' + resultCount + ' 条搜索结果，用时 ' + Math.round((finishTime - startTime)*100)/100 + ' 毫秒~');
  resultArray.sort((a, b)=>{
    return b[1] - a[1];
  });
  createPosts(resultArray);
} else {
  setNotice('danger', '什么都没有找到欸...');
  clearPosts();
}

输出内容

没什么特别需要注意的地方，只是不要忘记将之前的结果清空即可。由于我使用了整体的替换选项，因此直接就可以进行覆盖。

我使用了ES6的字符串模板，因此能更有效地提升相关内容处理的效率，和后期的便于维护性。

function createPosts(resArr) {
  const resultSectionElement = document.getElementById('result-posts');
  let resultString = '';

  resArr.forEach((resInfo)=>{
    const pageInfo = resInfo[0];
    let pageTags = '';
    pageInfo.tags.forEach((tag, i)=>{
      pageTags += i ? ', ' : '';
      const postTagTemplate = `<a class="tag-link" href="${tag[1]}" rel="tag">${tag[0]}</a>`;
      pageTags += postTagTemplate;
    });
    const postTemplate = `
    <article class="kratos-hentry clearfix">
        <div class="kratos-entry-border-new clearfix">
            <div class="kratos-post-inner-new kr-search-result">
                <header class="kratos-entry-header-new">
                    <a class="label-link" href="${pageInfo.category[1]}">${pageInfo.category[0]}</a>
                    <h2 class="kratos-entry-title-new"><a href="${pageInfo.link}">${pageInfo.title}</a></h2>
                </header>
                <div class="kratos-entry-content-new">
                    <p>...${pageInfo.content}...</p>
                </div>
            </div>
            <div class="kratos-post-meta-new">
                <span class="pull-left">
                    <a><i class="fa fa-calendar"></i></a><a>${pageInfo.date}</a>
                    <a><i class="fa fa-tags"></i></a>
                    ${pageTags}
                </span>
                <span class="pull-right">
                    <a class="read-more" href="${pageInfo.link}" title="阅读全文">阅读全文 <i class="fa fa-chevron-circle-right"></i></a>
                </span>
            </div>
        </div>
    </article>
    `;

    resultString += postTemplate;
  });
  resultSectionElement.innerHTML = resultString;
}

到此，基本功能就已经实现了。由于为了功能的细节划分，部分代码进行了一定的修改；同时后续也将进行持续的升级，以便于提供更好的性能。具体的代码可以参见GitHub上的源文件：

搜索页面路由与文件生成 scripts/search.js
搜索页面内容 layout/_pages/search-page.ejs
本地搜索核心 src/js/local-search.js

参考资料

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

糖菓·部落