王玉鹏的官方网站 既然选择了远方,便只顾风雨兼程

使用php扩展trie_filter,利用词库,过滤敏感词

关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现。


安装步骤

下面的$LIB_PATH为依赖库安装目录,$INSTALL_PHP_PATH为PHP5安装目录。


安装libdatrie依赖库

$ tar zxvf libdatrie-0.2.4.tar.gz
$ cd libdatrie-0.2.4
$ make clean
$ ./configure --prefix=$LIB_PATH
$ make
$ make install


安装trie_filter扩展 (https://github.com/wulijun/php-ext-trie-filter)

$ $INSTALL_PHP_PATH/bin/phpize
$ ./configure --with-php-config=$INSTALL_PHP_PATH/bin/php-config --with-trie_filter=$LIB_PATH
$ make
$ make install

然后修改php.ini,增加一行:extension=trie_filter.so,然后重启PHP。


PHP测试实例

<?php
ini_set('memory_limit', '512M');
$arrWord = file('dict.txt');

$resTrie = trie_filter_new();

foreach ($arrWord as $k => $v) {
    trie_filter_store($resTrie, $v);
}
trie_filter_save($resTrie, __DIR__ . '/blackword.tree');
$resTrie = trie_filter_load(__DIR__ . '/blackword.tree');

$str = '王玉鹏的媳妇叫刘敏,王玉鹏的邮箱地址是wangyupeng@jiayuan.com,想不想知道他的QQ号呢?';
$arrRet = trie_filter_search_all($resTrie, $str);

print_all($str, $arrRet);

function print_all($str, $res) {//print_r($res);
    echo "$str\n";
    foreach ($res as $k => $v) {
        echo $k."=>{$v[0]}-{$v[1]}-".substr($str, $v[0], $v[1])."\n";
    }
}


测试效果,输出格式(顺序值=>该敏感词出现的位置-该敏感词的长度-敏感词)

执行效率,高高高,超级高,速度非常快。

QQ截图20151016232103.png


注意事项

dict.txt 为敏感词库,一个词一行

QQ截图20151016230827.png


优化建议

把文本词库生成tree的过程需要时间,该步骤可以异步实现,过滤过程只需要加载tree即刻。


PHP需要5.2以上版本


相关下载:

http://linux.thai.net/pub/thailinux/software/libthai/

https://github.com/wulijun/php-ext-trie-filter


标签: php

作者:松鼠先生 分类:技术分享 浏览:8707 评论:19
留言列表
访客
访客 collect2: error: ld returned 1 exit status
Makefile:277: recipe for target 'trietool-0.2' failed
make[2]: *** [trietool-0.2] Error 1
make[2]: Leaving directory '/usr/local/libdatrie-0.2.5/tools'
Makefile:369: recipe for target 'all-recursive' failed
make[1]: *** [all-recursive] Error 1
make[1]: Leaving directory '/usr/local/libdatrie-0.2.5'
Makefile:256: recipe for target 'all' failed
make: *** [all] Error 2  回复
访客a
访客a 你好,你这个问题怎么解决的?  回复
访客
访客 求教windows下怎么安装php trie_filter扩展和libdatrie依赖库  回复
松鼠先生
松鼠先生 你好,我也没有在windows平台使用过。推荐使用linux平台。  回复
访客
访客 你好想问下libdatrie window下怎么安装使用啊  回复
菜鸟
菜鸟 已经可以了.谢谢  回复
访客
访客 哥你是怎么解决的,我也出现此问题了,找好久都没找出问题。谢谢  回复
访客
访客 检查下文件所在目录是否有可写的权限  回复
菜鸟
菜鸟 安装完了.php扩展也能看到.但是PHP测试实例没反应.也不报错.您知道是什么问题么  回复
晨雨零稀
晨雨零稀 这个扩展会进行分词,比如"sm"是敏感词,"small"也被说是敏感词了。“性感美女”是敏感词,“性感”也是了。坑。  回复
松鼠先生
松鼠先生 这个只是过滤字符串中是否存在词库中的字符。small中存在sm,自然会被过滤出来。  回复
游客
游客 写的很棒  回复
发表评论
来宾的头像

声明

新博客地址:https://www.41ms.com
本博客内容已经不再进行更新,因为某些文章还可以帮到大家,所以并没有关闭网站。
如果大家有需要沟通,请给我发邮件。
邮箱:wyp#41ms.com,#号替换成@,谢谢关注。
新博客地址:https://www.41ms.com