敏感关键词:敏感词库下载  文末下载

敏感词库大全,敏感词汇大全,可用于敏感词检测,敏感词过滤

敏感信息词概论

大部分论坛,为了方便管理,都进行了关于敏感词的设定。比如,当你发贴的时候带有某些事先设定的词时,这个贴是不能发出的。或者这个词被自动替换为星号(*)或叉号(X)等,或者说是被和谐掉了。在多数网站,敏感词一般是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明语。也有一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词,例如很多电子商务网站会将一些涉及侵犯知识产权,不宜销售的商品,例如“山寨”、“水货”、“盗版”、“刻录”等设置为敏感词,在商品简介中这些词是发不出来的。竞争对手的名称在一些电商网站也是无法发出的敏感词

敏感信息词举例说明

例如“Pi”这个词,在国内“Pi”绝对算的上是敏感词语,主要原因一是不雅,二是与黄色有连带关系,但在现实中,“Pi”的使用率却出奇的高,比如人们愤愤然说的“Pi民”、“Pi话”、“狗Pi不通”、“Pi滚尿流”等等,在正常的行文中经常可以看到。同时“Pi”在泰国一般用于称呼某个人,如您叫陈,则在泰国就会被称为“Pi陈”,同时果称谁为“Pipi”,那更是尊称,比如某老人或女人姓王,你叫她“Pipi王”,她会高兴得不得了。显然,在泰国“Pi”是个尊称,类似我们说老王、小罗之类。

特点

1、2017敏感信息词库整合了多个敏感词库,并添加java实现敏感词过滤的工具类,需要根据具体业务适当调整词库内容。

2、敏感词集合,共2W+的敏感词,已通过程序算法去除重复项。

3、里面整理了最新网络词库

4、考虑到各行各业需要的分词规则不同,故没有合并

5、文件为txt、xlsx文本用于敏感词过滤

百度经验敏感词排查方法

一、大致锁定敏感词出现的范围,进行替换尝试

1.明确你的经验,是否是敏感词密集型的主题,比如政治、性等在中国有管制的主题。如果是的话,那你就要注意你通篇的措辞,如何巧妙得选择词汇,避开敏感词,将是非常考验写手经验的。

2.如果只是普通主题,那可能是一些词汇的问题。这些词汇,可能还是色情(OXOX)、广告(链接、手机)、政治(人名、事件)、骂人语等一般来说你只要发现文中有此类型(不和谐)的词汇,都不用进行下一步了,直接删了或改了吧

二、对不确定的词,进行搜索尝试

1.可以在百度经验的搜索栏内对可能的敏感词进行搜索,凡是出现显示为“抱歉,没有找到包含关键词XX的经验。”就可以确定XX是敏感词了

2.在搜索框内搜索敏感词,是根据“没有结果”这个结果来判断的。而很多时候搜索的句子太长,也会没有结果。所以建议以“词”为单位进行搜

三、尝试若失败,建议通过隔离段落法来排查

1.在使用这种方法之前,你必须要明白这么做的代价。

那就是:因为使用隔离法,提交时你的文章是残缺的,若检测通过了,文章的状态会变成“提交中”

2.此时的代价有:

风险1:通过的文章有很多地方不能修改了。比如标题、分类、工具都不能修改了

风险2:可能因为段落的残损导致审核不通过。

风险3:在不断的复制粘贴中,留一份文章的附本吧,免得敏感词没照出来,文章都被剪没了

3.隔离法究竟隔离几段,留下几段呢?

方法一:

一般的方法都是减去其中一段,提交剩下的段落,以此来确定减去的段落是否含有“不当词汇”,这种方法操作起来比较方便,建议首选。

但是有两个缺点,

1.如果是最后一段含有“不当词汇”,需要每段都提交一次。(所以应该根据经验来选择隔离顺序。)

2.如果运气很差,“不当词汇”出现了不只一次,在几个段落里都有,那你用这种方法,根本查不出来啦

方法二:一段一段提交。

先提交一段,审核通过,再提交第二段,...,以此类推,直到出现不能提交的那段。但是并此方法不好,因为提交一次,就需要等待审核一次,相当耗时间。

但是这种方法克服了前面那种方法里,多段中都有敏感词却查不出来的缺点。

不过总的来说,这种方法并不常用

方法三:,不断划分文章进行排查(相当于二分法)。

把所有段落分成两部分,先隔离第二部分,提交第一部分。

第一部分若通过,则证明敏感词在第二部分中;若没通过,则证明敏感词就在第一段中。

此时选取有敏感词的那部分,再次进行划分,提交。最终可以找到那有“不当词汇”的一段。

此方法是前两种方法的折中,速度还可以,也可以查多段都有敏感词的情况,建议第一种方法不行时,用此方法

温馨提示! 你需要支付 ¥5.80 元后才能查看付费内容
点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

热门产品

触发修改文章时间【fastadmincms开发记录】|fastadmincms二次开发,触发,修改,文章,时间,fastadmin,ms,开发,记录
触发修改文章时间【fastadmincms开发记录】
在tp5中过滤输入的零宽度字符【fastadmincms开发记录】|fastadmincms二次开发,在tp5中,过滤,输入,的零,宽度,字符,fastadmin,ms,开发,记录
在tp5中过滤输入的零宽度字符【fastadmincms开发记录】
处理tag标签中的0宽空格【fastadmincms开发记录】|fastadmincms二次开发,处理,tag,标签,中的,0宽,空格,fastadmin,ms,开发,记录
处理tag标签中的0宽空格【fastadmincms开发记录】
添加专题时tags标签id出错【fastadmincms开发记录】|fastadmincms二次开发,添加,专题,时tags,标签,id,出错,fastadmin,ms,开发,记录
添加专题时tags标签id出错【fastadmincms开发记录】
20230518----模板 广告【fastadmincms开发记录】|fastadmincms二次开发,20230518,模板,广告,fastadmin,ms,开发,记录
20230518----模板 广告【fastadmincms开发记录】
cms添加视频模型【fastadmincms开发记录】|fastadmincms二次开发,ms,添加,视频,模型,fastadmin,开发,记录
cms添加视频模型【fastadmincms开发记录】
新增单篇收费复制功能【fastadmincms开发记录】|fastadmincms二次开发,新增,单篇,收费,复制,功能,fastadmin,ms,开发,记录
新增单篇收费复制功能【fastadmincms开发记录】
添加开会员折扣功能【fastadmincms开发记录】|fastadmincms二次开发,添加,开会,折扣,功能,fastadmin,ms,开发,记录
添加开会员折扣功能【fastadmincms开发记录】

历史上的今天:05月03日

热门专题

大理科技管理学校|大理科技管理中等职业技术学校,大理市科技管理中等职业技术学校
大理科技管理学校
安徽中源管业有限公司|安徽中源管业有限公司,安徽中源管业有限公司介绍,安徽中源管业有限公司电话,安徽中源管业有限公司地址,安徽中源管业有限公司厂家,安徽中源管业有限公司电力管,安徽中源管业有限公司管材
安徽中源管业有限公司
大理科技管理学校|大理科技管理学校,大理科技,大理科技中等职业技术学校,大理科技管理中等职业技术学校,大理科技学校
大理科技管理学校
昆明综合高中|昆明综合高中
昆明综合高中
小程序开发|微信小程序,小程序开发,小程序,小程序制作,微信小程序开发,小程序公司,小程序开发公司,分销,三级分销系统,分销系统
小程序开发
云南网站建设|云南网站制作,网站建设,云南网站开发,云南网站设计,云南网页设计,云南网站建设公司,云南网站建设
云南网站建设
APP开发|app开发_app开发公司_app软件开发_专业app开发_云南app开发公司_app定制_原生app开发定制
APP开发
外贸网站建设|外贸网站建设,英文网站制作,英文网站设计,美国主机空间,外贸建站平台,多语言网站制作
外贸网站建设

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部