随着互联网技术的快速发展和普及,人们可以在网络上获得各种信息,怎样防止青少年接触到不健康内容是一个严肃的社会问题。要防止不健康、无用内容的蔓延,除了从法律角度采取措施外,从技术角度考虑的网络过滤技术是一种有效的手段。 目前网络的信息过滤技术主要有三种,它们是基于URL过滤方式、基于文本的过滤方式和基于图像内容的过滤方式。这几种过滤技术各有优劣,有的实现比较简单,有的具有更广泛的适应性,有的效率高实时性更强。单一采用某一技术的准确性不高,而考虑到图片和图片附近的文字一般具有相同的类别,它们有相互补充说明的特性,所以综合考虑图片和文本的分类特点是本文研究的过滤方式。 Nlpir Parser搜索挖掘平台敏感扫描系统是灵玖软件经过长时间研发,融合了自然语言理解、网络搜索和文本挖掘的技术,可以导入大批量用户业务敏感的关键词列表,实现对内存与文件的实时智能扫描,生成*的敏感关键词、敏感类别与权重等信息。 针对Web上大量的网页文本内容,Nlpir Parser搜索挖掘平台敏感扫描系统利用决策树分流特性提出了敏感词决策树信息过滤算法。该算法基于敏感词库,通过构建敏感词决策树,以数据流形式处理网页文本内容,综合考虑区域、词频、敏感词级别三大要素,较终给出候选敏感词权重,计算文本整体敏感度,实现敏感文本检测。 Nlpir Parser搜索挖掘平台敏感扫描系统具备四大特色: 1、基于PDAT**的多关键词实时扫描算法 我们采用了 NLPIR/ictclas的PDAT**算法,可以针对百万量级关键词列表实现单机20MB/s的实时扫描速度; 2、关键词的多模式智能匹配 用户设定关键词后,系统可以自动识别扫描不同编码、繁简体、全角半角、中间加各类干扰噪音等变体,及繁体形式。 3、内置了丰富的敏感知识库 目前已经自动内置了各种形式、**类型、3万多关键词的敏感关键词词典。这些词典几乎囊括了所有行业里面的敏感关键词,从而为净化互联网空间提供知识储备。 4、支持用户增量添加百万量级业务敏感词库 支持客户自定义导入用户词典,自定义敏感类别与权重。可以支持能够提供不**业的敏感扫描结果。
词条
词条说明
在信息化高度发达的今天,互联网已经成为人们获取信息,即时沟通的重要媒介之一,给人们工作生活带来了很大的便利。但是由于其**性、开放性、即时性的特点,互联网也成为众多信息传播的重要途径,与传统媒体相比更为棘手。如何对互联网进行有效的管理,过滤其中的不良信息,净化网络环境成为苛待解决的问题。 目前网络中70%的信息是以文本形式存在,网页文本过滤成为目前网络监控的较重要手段。文本过滤方法有很多,关键字
自然语言处理是一门研究能实现人与计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。 人类自然语言通常以词为基本构成单位,进而构成句子,再由
12月28日,从国家新闻出版广电总局官网获悉,灵玖软件成功获得由国家新闻出版广电总局审核的《社会科学研究领域知识挖掘与服务实验室》建设单位,是首批全国大数据知识服务六家单位之一。该实验室是由灵玖软件与社会科学文献出版社联合申报的。 《社会科学研究领域知识挖掘与服务实验室》主要围绕“社会科学研究领域知识挖掘与服务”展开研究。主要研究方向及内容包括以下几个方面。 (1)社会科学研究领域知识服务标准研
全文索引用于处理大文本集合,利用它人们可以在海量文本中快速获取需要的信息。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等等。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种不
公司名: 灵玖中科软件(北京)有限公司
联系人: 张宝
电 话: 010-62648216
手 机: 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀区苏州街49-3号盈智大厦5层
邮 编: