随着互联网技术的快速发展和普及,人们可以在网络上获得各种信息,怎样防止青少年接触到不健康内容是一个严肃的社会问题。要防止不健康、无用内容的蔓延,除了从法律角度采取措施外,从技术角度考虑的网络过滤技术是一种有效的手段。 目前网络的信息过滤技术主要有三种,它们是基于URL过滤方式、基于文本的过滤方式和基于图像内容的过滤方式。这几种过滤技术各有优劣,有的实现比较简单,有的具有更广泛的适应性,有的效率高实时性更强。单一采用某一技术的准确性不高,而考虑到图片和图片附近的文字一般具有相同的类别,它们有相互补充说明的特性,所以综合考虑图片和文本的分类特点是本文研究的过滤方式。 Nlpir Parser搜索挖掘平台敏感扫描系统是灵玖软件经过长时间研发,融合了自然语言理解、网络搜索和文本挖掘的技术,可以导入大批量用户业务敏感的关键词列表,实现对内存与文件的实时智能扫描,生成*的敏感关键词、敏感类别与权重等信息。 针对Web上大量的网页文本内容,Nlpir Parser搜索挖掘平台敏感扫描系统利用决策树分流特性提出了敏感词决策树信息过滤算法。该算法基于敏感词库,通过构建敏感词决策树,以数据流形式处理网页文本内容,综合考虑区域、词频、敏感词级别三大要素,较终给出候选敏感词权重,计算文本整体敏感度,实现敏感文本检测。 Nlpir Parser搜索挖掘平台敏感扫描系统具备四大特色: 1、基于PDAT**的多关键词实时扫描算法 我们采用了 NLPIR/ictclas的PDAT**算法,可以针对百万量级关键词列表实现单机20MB/s的实时扫描速度; 2、关键词的多模式智能匹配 用户设定关键词后,系统可以自动识别扫描不同编码、繁简体、全角半角、中间加各类干扰噪音等变体,及繁体形式。 3、内置了丰富的敏感知识库 目前已经自动内置了各种形式、**类型、3万多关键词的敏感关键词词典。这些词典几乎囊括了所有行业里面的敏感关键词,从而为净化互联网空间提供知识储备。 4、支持用户增量添加百万量级业务敏感词库 支持客户自定义导入用户词典,自定义敏感类别与权重。可以支持能够提供不**业的敏感扫描结果。
词条
词条说明
当今时代是互联网时代,互联网作为这个时代的主题使得这个时代具有资源共享性和信息传播性的特点,给人们的生活带来了便利。网络在为人们认识世界带来便利的同时也为有害信息的广泛传播提供了便捷且广泛的途径。人们在享受互联网带来的便利的同时,也常常会受到一些非法信息的滋扰。因此信息安全问题对于维护网络环境的健康有着十分重要的意义。 目前网络的过滤技术主要有三种,它们是基于URL过滤方式、基于文本的过滤方式和
新世纪以来信息技术呈现出指数级的增长、爆发式的增长,数字化、网络化、智能化加快普及应用,特别是互联网、大数据、人工智能技术与先进制造技术深度融合所形成的新一代智能制造技术,成为了新一轮工业革命的核心竞争力、核心驱动力。 大数据是现代人工智能发展的基础,依托于大数据的数据挖掘是人工智能的底层逻辑,而拥有数据挖掘技能数据科学家则是人工智能领域内不可或缺的良好人才。 大数据的应用十分广泛,不仅能产生巨
随着信息传播技术的快速发展和各类互联网平台的兴起,个人、机构均可通过互联网公开发布信息,成为新闻媒体等专业内容生产机构之外的重要内容生产者,互联网平台成为用户获取信息的重要渠道。 广大公众通过网络论坛、自媒体公众平台以及网络群组交流等途径,开展日常生活、新闻见闻及公共事务信息交流,充分体现了宪法所**的公民知情权、表达权、参与权和监督权。可是,公开的网络传播参与空间是较接近公共领域的话语形式,它
近年来,随着Internet?的迅猛发展以及人们利用信息技术生产和搜集数据能力的大幅度提高,大规模的网络文本库不断涌现。为了便于在海量文本库中搜寻、过滤、管理这些文本,基于人工智能技术的文本自动分类方法成为人们研究的焦点。 数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以
公司名: 灵玖中科软件(北京)有限公司
联系人: 张宝
电 话: 010-62648216
手 机: 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀区苏州街49-3号盈智大厦5层
邮 编: