王玉鹏的官方网站 既然选择了远方,便只顾风雨兼程

使用 pyton 结巴中文分词 完成敏感词过滤系统

最近一直在准备一个敏感词的过滤系统,已经用trie-tree实现了PHP的敏感词过滤系统。

今天介绍下,通过分词系统来达到过滤敏感词的需求。


思路:

只取出我自定义词库中的分词。崦自定义词库就是敏感词库,这样分出的词也就是敏感词了。

标签: phppython

作者:松鼠先生 分类:技术分享 浏览:3008 评论:0

使用php扩展trie_filter,利用词库,过滤敏感词

关键词过滤扩展,用于检查一段文本中是否出现敏感词,基于Double-Array Trie 树实现。


安装步骤

下面的$LIB_PATH为依赖库安装目录,$INSTALL_PHP_PATH为PHP5安装目录。

安装libdatrie依赖库


标签: php

作者:松鼠先生 分类:技术分享 浏览:11121 评论:20

Web系统大规模并发:电商秒杀与抢购

一、大规模并发带来的挑战

在过去的工作中,我曾经面对过高并发秒杀功能,在这个过程中,整个Web系统遇到了很多的问题和挑战。如果Web系统不做针对性的优化,会轻而易举地陷入到异常状态。我们现在一起来讨论下,优化的思路和方法哈。

1. 请求接口的合理设计

一个秒杀或者抢购页面,通常分为2个部分,一个是静态的HTML等内

标签: redis大并发

作者:松鼠先生 分类:技术分享 浏览:1526 评论:47

shell脚本检测其它脚本不中断运行


应用场景:运行一个PHP脚本,保证PHP脚本一直在运行,如果脚本意外中断后,能自启动。


start_service.sh

#! /bin/sh
if [ $# -lt 1 ]
then
     &nb

标签: phpshell

作者:松鼠先生 分类:技术分享 浏览:1222 评论:0

php5.3以下,获取两个数组差集,比系统函数array_diff更快

PHP手册中,array_diff 实现两个数组的差集,在数组1中,但不在数组2中。

该方法在php5.3以下版本存在执行效率低的问题。


下面用PHP自己实现的代码,手册评论部分也有该部分代码:

function array_diff_fast($array1, $array2) { 
   
作者:松鼠先生 分类:技术分享 浏览:3707 评论:0

linux mail 发送邮件支持 html

mail -s "$(echo -e "This is the subject\nContent-Type: text/html")" wangyupeng@example.com < test.html


标签: linuxshellmail

作者:松鼠先生 分类:技术分享 浏览:1174 评论:0

PHP 余弦相似性,实现字符串相似度提取异已字符串


提取类似图中,与其它大多数字符串相似度较低的字符串,以识别误以为广告或程序自动添加。


实现程序:

<?php

header("Content-type:text/html;charset=utf-8");


/**
 * 根据余弦相似性计算两个字符

标签: php相似度

作者:松鼠先生 分类:技术分享 浏览:1498 评论:0

声明

新博客地址:https://www.41ms.com
本博客内容已经不再进行更新,因为某些文章还可以帮到大家,所以并没有关闭网站。
如果大家有需要沟通,请给我发邮件。
邮箱:wyp#41ms.com,#号替换成@,谢谢关注。
新博客地址:https://www.41ms.com