服务器架构之性能扩展-第八章（9）

阅读量：5881 次

发布时间：2019-06-19

本文共 3859 字，大约阅读时间需要 12 分钟。

第八章：Sphinx全文检索

8.1 检索简介

生活中总会和数据打交道，数据一般分为结构化数据（具有自动固定格式或有限长度数据）和非结构化数据，非结构化数据又称全文数据。

全文索引的扫描大致分为索引的创建和搜索索引两个过程。

索引创建：将现实世界的所有结构化数据和非结构化数据提取信息，建立索引的过程。

索引搜索：就是得到用户的查询请求，搜索创建的索引，返回结果的过程。

创建索引具体过程：

1、首先创建需要索引的文档

2、将源文档传给分词词组（tokenizer）。分词词组会将文档分成一个一个的单独单词，去掉标点，去掉停词（的，这等）

3、将的得到的词元（token）传给语言处理组件（linguistic processor）。它主要进行单词变为小写，复数改为单数（cars->car）,过去式转给原始等。

4、将得到的词（term）传给索引组件（indexer）。它进行创建一个字典，并按字母排序。

索引搜索具体过程：

1、用户输入查询语句

2、对查询语句进行语法分析，语言处理

3、搜索索引，得到合法树的文档

4、根据得到的文档和查询语句的相关性，进行排序

8.2sphinx入门

Sphinx是SQL phrase index（查询词组索引）的缩写，sphinx是一个基于SQL的全文检索引擎。Coreseek是支持中文的全文检索引擎。

用处：当数据的量增大对搜索有更高要求时；当用户放映搜索慢时；当需要设计千万级亿级别的架构时

Sphinx优点：检索速度快，对于2-4G数据只要0.1秒，提供分布式搜索，可以为mysql提供检索，支持多个检索字段

缺点：必须有主键，主键为整形，不负责数据存储，配置不灵活

Sphinx全文索引工作在php和mysql之间，完成数据的检索。

8.3 sphinx的部署

8.3.1 sphinx的安装

Wget

Tar zxvf sphinx-0.9.9.tar.gz

Cd sphinx-0.9.9

./configure –prefix=/usr/local/sphinx –with-mysql=/usr/local/mysql

Make && make install

这时在sphinx/bin目录下会有三个命令。Indexer：创建索引；seachd：启动进程；seach：搜索命令。

我们创建一个主键为整形的表，添加数据。

8.3.2 配置sphinx

安装完毕会在sphinx/etc目录下生成一个sphinx.conf.disk的示例配置，修改即可。这个配置文件包括朱数据源文件，增量数据文件，主索引，增量索引，所引器和服务进程组成的。

1、主数据源是源数据，后期添加数据为增量数据源

Source src1改为source main作为主数据源，然后配置数据库信息

指定socket位置

设置mysql字符集，关闭缓存

指定数据sql语句

注释掉这些默认的信息

更改查询的数据库

注释主数据索引

指定字符集

注释增量索引。

：494，525s/^/#/g //批量注释分布式索引

索引器设置内存，默认32MB

服务器进程设置端口，默认即可

8.3.3测试

/usr/local/sphinx/bin/bin/indexer –c /usr/local/sphinx/etc/sphinx.conf –all

-c 指定配置文件，--all对所有索引重新编译

Cp /usr/local/mysql/lib/mysql/libmysqlclient.so.16 /usr/lib

./search linux //测试

新插入数据后直接搜索还是搜不到，只有重新索引后才可。

insert into saisai values(5,”spider”,”斯百德”); //插入中文，测试中文索引

测试不通过

8.4coreseek中文索引部署

8.4.1安装coreseek

Sphinx默认是不支持中文的，我们需要引入coreseek进行中文索引，因为它包含了mmseg中文分词组件。

Wget

Tar zxvf coreseek-3.2.14.tar.gz

解压后，分别是sphinx文件csft和中文字符文件mmseg，说明文件和链接文件

Cd coreseek-3.2.14/mmseg //先安装中文分词，然后整合进去

./configure –prefix=/usr/local/mmseg

会报错：config.status: error: cannot find input file: src/Makefile.in

automake //执行automake，自动配置环境

接下来sphinx和mmseg结合

Cd coreseek-3.2.14/csft-3.2.14/

./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg-includes=/usr/local/mmseg/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg/lib/

最后：Make && make install

8.4.2配置coreseek

Cp /usr/local/csft/etc/sphinx.conf.disk /usr/local/csft/ect/csft.conf

与sphinx其他都一样，只要在main主数据文件“#charset_type=sbcs”

后增加“charset_type=zh_cn.utf-8”和“charset_dictpath=/usr/local/mmseg/etc”指定字符集和mmseg安装目录即可

然后重新刷新索引进行测试即可，还可以看到他还识别词组

8.5中文分词

对于英文字符间有空格比较直观，而中文却不行。并且中文拥有一些容易歧义的语句，更是增加了难度。

分词的算法：

1、基于字符串匹配的分词方法：它是基于词典的分词方法。有正向，逆向和双向的顺序，又有最大，最小，逐词和最佳。

2、基于理解的分词方法：人机模拟，目前测试阶段

3、基于统计的分词方法：根据概率来的

8.6php使用sphinx技术

Sphinx集成到php需要两种方式：

1. sphinx php模块

2. sphinxapi类

8.6.1sphinx模块

到/csf-3.12.12/api下可以看到sphinxapi.php模块

要想在php程序中开启sphinx必须启动sphinx服务，到/usr/local/coreseek/bin下有searchd命令，可以控制sphinx。

参数：-c 指定配置文件，--stop停止服务，--pidfile指定pid文件，-p指定端口

Wget

Tar zxvf sphin-1.1.0.tgz

Cd sphin-1.1.0

/usr/local/php/bin/phpize //加载模块

./configure –with-php-config=/usr/local/php/bin/php-config //报错

我们先安装cd core-3.2.14/csf-3.214/api/libclient

./configure

Make && make install

然后cd sphinx-1.1.0

./configure –with-php-config=/usr/local/php/bin/php-config

Make && make install

cd /usr/local/php5/lib/php/extensions/no-debug-zts-20090626/

Vi /etc/php.ini //加载sphinx.so模块

/usr/local/apache2/bin/apachectl restart //重启apache

192.168.211.128/info.php //看到sphinx模块

8.6.2sphinx类方法

Cp coreseek-3.2.14/csf-3.2.14/api/sphinxapi.php /usr/local/apache2/htdocs/include/sphinxapi.php //加载类

8.6.3搭建windows的linux编程环境

Yum install samba*

配置samba

复制home的选项，新建一个web的目录，重启服务

创建一个smb用户

开始- 》运行-》\\192.168.211.128\web

创建磁盘映射，计算机->映射网络驱动器

确定即可创立一个映射磁盘

插入数据拒绝

我们知道apache使用apache用户，我们最好让映射磁盘也使用apache用户，这样可以保证windows下创建的文件可以直接访问。

Net usr /delete * //删除磁盘映射

创建新的用户，我们使用新的apache用户登录

创建文件可以看到是apache用户

这样就实现了windows和linux的同步。

传一个数据过来，建立一个新的sphinx客户端，连接到9312端口，any和all两种，any这里选择是任意的，all是指只包含，通过query搜索关键词，*任意索引，至此得到文档id。

转载地址：http://vlsix.baihongyu.com/

你可能感兴趣的文章

python基础教程_学习笔记19：标准库：一些最爱——集合、堆和双端队列

查看>>

C# 解决窗体闪烁

查看>>

CSS魔法堂：Transition就这么好玩

查看>>

【OpenStack】network相关知识学习

查看>>

centos 7下独立的python 2.7环境安装

查看>>

[日常] 算法-单链表的创建

查看>>

前端工程化系列[01]-Bower包管理工具的使用

Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特

查看>>

关于跨DB增量（增、改）同步两张表的数据小技巧

解决win7远程桌面连接时发生身份验证错误的方法

查看>>

C/C++ 多线程机制

查看>>

js - object.assign 以及浅、深拷贝

查看>>

python mysql Connect Pool mysql连接池 (201

查看>>

Boost在vs2010下的配置

查看>>

一起谈.NET技术，ASP.NET伪静态的实现及伪静态的意义

查看>>