phpstudy_php 敏感词过滤高级版

更新时间:2019-11-12    来源:php高级应用    手机版     字体:

【www.bbyears.com--php高级应用】


只要用户可以发言的地方,就可能出现广告或者其他敏感词,因此必须加入敏感词过滤机制来保持站点的”纯洁”。

过滤机制:加入php关键字正则匹配

//$str 为用户数据
function wordFilter($str)
{
       /*
    获取敏感词列表
    敏感词的存储方法:
    1:存储在txt文件中(一般的方法)
    2:存储在缓存(比较好的方法)
    我是存储在memcachd中。
    */
    $words = getSensitiveWords();

    foreach ($words as $word)
    {
        $preg_letter = "/^[A-Za-z]+$/";
        if (preg_match($preg_letter, $str))
        {//匹配中文
        $str = strtolower($str);
        $pattern_1 = "/([^A-Za-z]+" . $word . "[^A-Za-z]+)|([^A-Za-z]+" . $word . "\s+)|(\s+" . $word . "[^A-Za-z]+)|(^" . $word . "[^A-Za-z]+)|([^A-Za-z]+" . $word."$)/";
        //敏感词两边不为空
        if (preg_match($pattern_1, $str))
        {
            $flag = TRUE;
        }
        $pattern_2 = "/(^" . $word . "\s+)|(\s+" . $word . "\s+)|(\s+" . $word . "$)|(^" . $word . "$)/";
        //敏感词两边可以为空格
        if (preg_match($pattern_2, $str))
        {
            $flag = TRUE;
        }
        }
        else
        {//匹配英文字符串,大小写不敏感
        $pattern = "/\s*" . $word . "\s*/";
        if (preg_match($pattern, $str))
        {
            $flag = TRUE;
        }
        }
    }
}
存在问题:

如果单纯只加入关键字匹配,用户反过滤的方法五花八门,包括中间加入空格或者其他标点符号。
例子:
敏感词:扣扣

用户处理后:
扣 扣
扣,扣
扣@扣
扣1扣
这时候代码的正则匹配就可能匹配不出来。

解决办法:

先对用户数据去除所有的标点符号和一些特殊字符,然后再进行敏感词判断。

代码:

$flag_arr=array("?","!","¥","(",")",":","‘","’","“","”","《","》",",","…","。","、","nbsp","】","【","~");

        $content_filter=preg_replace("/\s/","",preg_replace("/[[:punct:]]/","",strip_tags(html_entity_decode(str_replace($flag_arr,"",$content),ENT_QUOTES,"UTF-8"))));
$content_filter 就是处理后的用户数据,然后再进行 wordFilter($content_filter ) 过滤操作

本文来源:http://www.bbyears.com/jiaocheng/78819.html

热门标签

更多>>

本类排行