文本过滤
文本过滤的相关文献在2000年到2022年内共计141篇,主要集中在自动化技术、计算机技术、科学、科学研究、无线电电子学、电信技术
等领域,其中期刊论文94篇、会议论文12篇、专利文献248379篇;相关期刊56种,包括图书与情报、通信学报、信息安全与通信保密等;
相关会议11种,包括第六届全国信息检索学术会议、第七届全国Web信息系统及其应用学术会议、第五届全国语义Web与本体论学术研讨会、第四届全国电子政务技术及应用学术研讨会、辽宁省通信学会2007年通信网络与信息技术年会等;文本过滤的相关文献由265位作者贡献,包括黄萱菁、吴立德、林鸿飞等。
文本过滤—发文量
专利文献>
论文:248379篇
占比:99.96%
总计:248485篇
文本过滤
-研究学者
- 黄萱菁
- 吴立德
- 林鸿飞
- 夏迎炬
- 姚天顺
- 李振星
- 李生红
- 闫俊英
- 周聚
- 唐卫清
- 唐荣锡
- 张帆
- 朱巧明
- 李培峰
- 桑书娟
- 付俊
- 任继成
- 冯丹
- 刘东鑫
- 刘国荣
- 刘培玉
- 刘永丹
- 叶长程
- 吕学强
- 周昌乐
- 孙瑞安
- 宋辉
- 尹祎
- 张云华
- 张峰
- 张巍
- 张永奎
- 张程
- 张立航
- 张芷芊
- 徐泽平
- 战学刚
- 施展
- 朱振方
- 李业丽
- 李健
- 李弼程
- 李晨亮
- 李绍滋
- 林琛
- 沈军
- 温新赐
- 粟栗
- 胡恬
- 胡运发
-
-
张麦玲
-
-
摘要:
为提高网络数据安全过滤的安全性,本文提出基于文本过滤技术的网络数据安全过滤方法。首先构建可以对数据进行采集以及过滤率的识别库;其次对网络数据似然值作出估计;最后使用分布离群文本来过滤数据,完成对于网络数据的安全保护工作。基于文本过滤技术的网络数据安全过滤方法实验表明:方法设计可以促进数据的融合和协调有效进行,方法在系统中运行正常且稳定,实验满足测试的要求,可以完全确保数据进行安全的文本过滤。
-
-
明建华;
胡创;
周建政;
姚金良
-
-
摘要:
网络直播的兴起,促使直播弹幕成为一种新型的交流方式.随之而来的还有各类非法弹幕.在识别非法弹幕方面,人工筛选过于低效,传统关键词过滤方法和统计机器学习方法识别率较低,且无法应对变异短文本.如何让机器更高效、更准确地识别非法弹幕以营造更好的网络环境是一个很有意义的问题.提出了基于文本卷积神经网络(TextCNN)的带噪非法短文本识别方法.通过对带噪短文本的预处理以及利用文本卷积神经网络挖掘字符间的相关特征,极大地提高了直播弹幕中非法短文本的识别率.
-
-
孙瑞安;
张云华
-
-
摘要:
为解决使用BERT(Bidirectional Encoder Representations from Transformers)模型时,参数规模太大的问题,本文采用了结合AdaBERT(Task-Adaptive BERT)的TextCNN算法。首先使用AdaBERT对弹幕文本进行学习,以更少的时间获得更有效的词向量;使用其生成的词向量作为TextCNN的输入;然后使用批量标准化,减少梯度消失的情况发生;最后使用Softmax进行分类概率计算。为了验证本算法的有效性,在弹幕数据集上进行训练,和多个文本分类算法进行对比实验。其结果表明,本算法可以改进算法运行速度,提高在垃圾弹幕识别和过滤上的性能。
-
-
孙瑞安;
张云华
-
-
摘要:
为解决使用BERT(Bidirectional Encoder Representations from Transformers)模型时,参数规模太大的问题,本文采用了结合AdaBERT(Task-Adaptive BERT)的TextCNN算法.首先使用AdaBERT对弹幕文本进行学习,以更少的时间获得更有效的词向量;使用其生成的词向量作为TextCNN的输入;然后使用批量标准化,减少梯度消失的情况发生;最后使用Soft?max进行分类概率计算.为了验证本算法的有效性,在弹幕数据集上进行训练,和多个文本分类算法进行对比实验.其结果表明,本算法可以改进算法运行速度,提高在垃圾弹幕识别和过滤上的性能.
-
-
姚琨;
王昕
-
-
摘要:
传统的网络安全数据检测实验系统对于冗余数据处理能力不足,导致实验数据独立性较差.为此,设计基于文本过滤的网络安全数据检测实验系统.在硬件设计上,使用单片机作为中央控制器,设计外部电源适配器以供驱动模块正常工作,引用PCI总线接口芯片设计网络数据采集卡.在软件设计上,通过程序代码与网络数据采集卡的结合实现数据采集,利用文本过滤技术标记原始数据中的异常数据并将其过滤.结合硬件设计和软件设计完成整个系统设计.测试结果表明,对于相同大小的冗余数据,与传统的检测实验系统相比,设计的基于文本过滤技术的网络安全数据检测实验系统数据处理能力更强,数据独立性更好.
-
-
彭革
-
-
摘要:
朴素贝叶斯算法是理想化的算法模型,且基于条件特征相互独立的假设,不能满足实际应用.本文通过探究朴素贝叶斯算法的原理和操作步骤,并介绍基于此类算法的优化和改进,从而规避算法的不足,同时提高算法工作效率和文本过滤准确度.
-
-
如先姑力·阿布都热西提;
亚森·艾则孜;
艾山·吾买尔;
阿力木江·艾沙
-
-
摘要:
针对维吾尔文网页论坛中的文本过滤问题,提出一种基于术语选择和Rocchio分类器的文本过滤方法.首先,将论坛文本进行预处理以删除无用词,并基于N-gram统计模型进行词干(术语)提取;然后,提出一种均衡考虑相关性和冗余性的均衡型互信息术语选择方法(BMITS),对初始术语集合进行降维,获得精简术语集;最后,将文本特征术语作为输入,通过Rocchio分类器进行分类,以此过滤掉论坛中的不良文本.在相关数据集上的实验结果表明,提出的方法能够准确地识别出不良类型文本,具有有效性.
-
-
赵星宇;
赵志宏;
王业沛;
陈松宇
-
-
摘要:
微博空间存在大量的广告内容,这些信息严重影响着普通用户的用户体验和相关的研究工作.现有研究多使用支持向量机(SVM)或随机森林等分类算法对广告微博进行处理,然而分类方法中人工标注大数据量训练集存在困难,因此提出基于聚类分析的微博广告发布者识别方法:对于用户维度,针对微博广告发布者通过发布大量普通微博来稀释其广告内容的现象,提出核心微博的概念,通过提取核心微博主题及其对应的微博序列,计算用户特征和对应微博的文本特征,并使用聚类算法对特征进行聚类,从而识别微博广告发布者.实验结果显示,所提方法准确率为92%,召回率为97%,F值为95%,证明所提方法在广告内容被人为稀释的情况下能准确地识别微博广告发布者,可以为微博垃圾信息识别、清理等工作提供理论支持和实用方法.%There is a large amount of advertising content in micro-blog space,which seriously affects user experience and related research work.Much of existing research on micro-blog process uses classification algorithm such as Support Vector Machine (SVM) and random forest algorithm.However,it is difficult to classify a large volume of data in the classification method manually.A micro-blog advertisement publisher identification method based on clustering analysis was proposed.For user dimension,a concept of core micro-blog was put forward to deal with the phenomenon that ordinary micro-blogs were posted to dilute advertising content.Then the extracted main themes of each user and corresponding micro-blog sequences could be used to calculate user characteristics as well as the text characteristics.After that,a clustering algorithm was used to cluster the features and identify the micro-blog advertisers.The experiment result shows that the precision is 93%,the recall is 97%,and the F value is 95%,which proves that the proposed method can accurately identify the micro-blog advertisement publisher under the condition that the content of the advertisement is artificially diluted.It provides theoretical support and practical methods for the recognition and cleaning work of micro-blog spam information.
-
-
路金泉;
徐开勇;
戴乐育
-
-
摘要:
针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词-贝叶斯分类算法(Multi Word-Bayes,MWB).该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视.实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能.
-
-
亚力青·阿里玛斯;
哈力旦·阿布都热依木;
陈洋
-
-
摘要:
Under the background of large-scale text information retrieval technology, presented Uyghur text filtering model and implementation method. On the basis of vector space model (VSM), using three methods of similarity measure to calculate the similarity of input text with user templates as decision-making tools for Uyghur text filtering experiments. As to the problem of high dimensionality feature space of Uyghur texts, by stemming, stop words filtering, feature selection methods to reduce the dimension of feature space. Finally, analysis the text filtering results by value of F1 presented by Precision and Recall.%在大规模的文本信息检索技术背景下,提出了维吾尔文本过滤模型及实现方法。文本表示模型在向量空间模型(VSM)的基础上,采用三种相似度度量方法计算输入文本与用户模板相似度作为决策手段,对维吾尔文本进行了过滤实验。对于维吾尔文特征空间的高维性问题,通过词干提取,停用词过滤,特征选择等方法降低了特征空间维数。最后利用准确率(Precision)和召回率(Recall)综合函数F1值作为评价指标分析了维吾尔文文本过滤实验结果。
-
-
周聚;
李培峰;
朱巧明
- 《第七届全国Web信息系统及其应用学术会议、第五届全国语义Web与本体论学术研讨会、第四届全国电子政务技术及应用学术研讨会》
| 2010年
-
摘要:
设计并实现了一种高效率、高性能的网页文本过滤系统,该系统采用分层过滤策略,包括实时过滤和事后分析。实时过滤模块是基于Linux下的IP Queue机制实现的,采用高效的过滤策略,在保证过滤实时性的同时也保证了过滤的准确性;事后分析模块研究过滤系统经过协议还原后备份的网页文本,通过网页预处理、非法关键词抽取、特征选择等步骤,实现了基于二元模型的文本过滤方法,该方法在一定大小的词语距离窗口内,采用包含非法关键词的二元词串作为特征,解决了使用二元词串带来数据稀疏的问题,同时保留了二元词串的强类别分辨能力的特征。实验表明,文章实现的过滤系统有较高的效率和准确率,用于事后分析的基于二元模型的文本过滤方法达到了较高的性能,其准确率、召唤率和F1的值分别为:96.98%,85.75%和91.02%。
-
-
-
-
黄萱菁;
夏迎炬;
吴立德
- 《中国中文信息学会二十周年学术会议》
| 2001年
-
摘要:
文本过滤指的是从大量的文本数据流中寻找满足特定用户需求的文本的过程.本文首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目;然后详细地描述了我们提出的基于向量空间模型的文本过滤系统,该系统参加了2000年举行的第九次文本检索会议的评测,取得了很好的成绩,其中自适应过滤和批过滤的平均准确率分别为26.5﹪和31.7﹪,在来自多个国家的15个系统中名列前茅.
-
-
-
李振星;
任继成;
唐卫清;
唐荣锡
- 《全国搜索引擎和网上信息挖掘学术讨论会》
| 2003年
-
摘要:
Web信息急速膨胀使搜索引擎专用化成为发展趋势.有效定向采集过滤专业信息成为搜索引擎一个重要研究方向.本文提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析,对未知网页的相关性的预测来控制信息的采集.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约网络资源.
-
-
李振星;
徐泽平
- 《第一届学生计算语言学研讨会》
| 2002年
-
摘要:
Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向.本文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法.这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对Web站点结构进行分析的基础之上,通过对网页的相关度的预测来控制信息的采集.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源.
-
-
王凤华;
营春晓;
薛建生
- 《辽宁省通信学会2007年通信网络与信息技术年会》
| 2007年
-
摘要:
该算法通过直接计算状态转移函数来代替YFilter的运行时栈结构,提高了运行速度.把路径共享树的同一层上的节点组成一个有限自动机,通过自动机上的开始标签记录了到下一个自动机的连接,结束标签完成两个功能:一是输出从根节点到该节点的查询路径;二是完成向它的父节点的转移.每个自动机的匹配采用的是顺序扫描匹配的思想.这样省去了利用栈结构来记录状态转移,节省存储空间,并且对不能匹配的后继状态不进行保存记录,提高了匹配效率.
-
-
王凤华;
营春晓;
薛建生
- 《辽宁省通信学会2007年通信网络与信息技术年会》
| 2007年
-
摘要:
该算法通过直接计算状态转移函数来代替YFilter的运行时栈结构,提高了运行速度.把路径共享树的同一层上的节点组成一个有限自动机,通过自动机上的开始标签记录了到下一个自动机的连接,结束标签完成两个功能:一是输出从根节点到该节点的查询路径;二是完成向它的父节点的转移.每个自动机的匹配采用的是顺序扫描匹配的思想.这样省去了利用栈结构来记录状态转移,节省存储空间,并且对不能匹配的后继状态不进行保存记录,提高了匹配效率.
-
-
王凤华;
营春晓;
薛建生
- 《辽宁省通信学会2007年通信网络与信息技术年会》
| 2007年
-
摘要:
该算法通过直接计算状态转移函数来代替YFilter的运行时栈结构,提高了运行速度.把路径共享树的同一层上的节点组成一个有限自动机,通过自动机上的开始标签记录了到下一个自动机的连接,结束标签完成两个功能:一是输出从根节点到该节点的查询路径;二是完成向它的父节点的转移.每个自动机的匹配采用的是顺序扫描匹配的思想.这样省去了利用栈结构来记录状态转移,节省存储空间,并且对不能匹配的后继状态不进行保存记录,提高了匹配效率.