您现在的位置: 首页> 研究主题> 文本过滤

文本过滤

文本过滤的相关文献在2000年到2022年内共计141篇,主要集中在自动化技术、计算机技术、科学、科学研究、无线电电子学、电信技术 等领域,其中期刊论文94篇、会议论文12篇、专利文献248379篇;相关期刊56种,包括图书与情报、通信学报、信息安全与通信保密等; 相关会议11种,包括第六届全国信息检索学术会议、第七届全国Web信息系统及其应用学术会议、第五届全国语义Web与本体论学术研讨会、第四届全国电子政务技术及应用学术研讨会、辽宁省通信学会2007年通信网络与信息技术年会等;文本过滤的相关文献由265位作者贡献,包括黄萱菁、吴立德、林鸿飞等。

文本过滤—发文量

期刊论文>

论文:94 占比:0.04%

会议论文>

论文:12 占比:0.00%

专利文献>

论文:248379 占比:99.96%

总计:248485篇

文本过滤—发文趋势图

文本过滤

-研究学者

  • 黄萱菁
  • 吴立德
  • 林鸿飞
  • 夏迎炬
  • 姚天顺
  • 李振星
  • 李生红
  • 闫俊英
  • 周聚
  • 唐卫清
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 张麦玲
    • 摘要: 为提高网络数据安全过滤的安全性,本文提出基于文本过滤技术的网络数据安全过滤方法。首先构建可以对数据进行采集以及过滤率的识别库;其次对网络数据似然值作出估计;最后使用分布离群文本来过滤数据,完成对于网络数据的安全保护工作。基于文本过滤技术的网络数据安全过滤方法实验表明:方法设计可以促进数据的融合和协调有效进行,方法在系统中运行正常且稳定,实验满足测试的要求,可以完全确保数据进行安全的文本过滤
    • 明建华; 胡创; 周建政; 姚金良
    • 摘要: 网络直播的兴起,促使直播弹幕成为一种新型的交流方式.随之而来的还有各类非法弹幕.在识别非法弹幕方面,人工筛选过于低效,传统关键词过滤方法和统计机器学习方法识别率较低,且无法应对变异短文本.如何让机器更高效、更准确地识别非法弹幕以营造更好的网络环境是一个很有意义的问题.提出了基于文本卷积神经网络(TextCNN)的带噪非法短文本识别方法.通过对带噪短文本的预处理以及利用文本卷积神经网络挖掘字符间的相关特征,极大地提高了直播弹幕中非法短文本的识别率.
    • 孙瑞安; 张云华
    • 摘要: 为解决使用BERT(Bidirectional Encoder Representations from Transformers)模型时,参数规模太大的问题,本文采用了结合AdaBERT(Task-Adaptive BERT)的TextCNN算法。首先使用AdaBERT对弹幕文本进行学习,以更少的时间获得更有效的词向量;使用其生成的词向量作为TextCNN的输入;然后使用批量标准化,减少梯度消失的情况发生;最后使用Softmax进行分类概率计算。为了验证本算法的有效性,在弹幕数据集上进行训练,和多个文本分类算法进行对比实验。其结果表明,本算法可以改进算法运行速度,提高在垃圾弹幕识别和过滤上的性能。
    • 孙瑞安; 张云华
    • 摘要: 为解决使用BERT(Bidirectional Encoder Representations from Transformers)模型时,参数规模太大的问题,本文采用了结合AdaBERT(Task-Adaptive BERT)的TextCNN算法.首先使用AdaBERT对弹幕文本进行学习,以更少的时间获得更有效的词向量;使用其生成的词向量作为TextCNN的输入;然后使用批量标准化,减少梯度消失的情况发生;最后使用Soft?max进行分类概率计算.为了验证本算法的有效性,在弹幕数据集上进行训练,和多个文本分类算法进行对比实验.其结果表明,本算法可以改进算法运行速度,提高在垃圾弹幕识别和过滤上的性能.
    • 姚琨; 王昕
    • 摘要: 传统的网络安全数据检测实验系统对于冗余数据处理能力不足,导致实验数据独立性较差.为此,设计基于文本过滤的网络安全数据检测实验系统.在硬件设计上,使用单片机作为中央控制器,设计外部电源适配器以供驱动模块正常工作,引用PCI总线接口芯片设计网络数据采集卡.在软件设计上,通过程序代码与网络数据采集卡的结合实现数据采集,利用文本过滤技术标记原始数据中的异常数据并将其过滤.结合硬件设计和软件设计完成整个系统设计.测试结果表明,对于相同大小的冗余数据,与传统的检测实验系统相比,设计的基于文本过滤技术的网络安全数据检测实验系统数据处理能力更强,数据独立性更好.
    • 彭革
    • 摘要: 朴素贝叶斯算法是理想化的算法模型,且基于条件特征相互独立的假设,不能满足实际应用.本文通过探究朴素贝叶斯算法的原理和操作步骤,并介绍基于此类算法的优化和改进,从而规避算法的不足,同时提高算法工作效率和文本过滤准确度.
    • 如先姑力·阿布都热西提; 亚森·艾则孜; 艾山·吾买尔; 阿力木江·艾沙
    • 摘要: 针对维吾尔文网页论坛中的文本过滤问题,提出一种基于术语选择和Rocchio分类器的文本过滤方法.首先,将论坛文本进行预处理以删除无用词,并基于N-gram统计模型进行词干(术语)提取;然后,提出一种均衡考虑相关性和冗余性的均衡型互信息术语选择方法(BMITS),对初始术语集合进行降维,获得精简术语集;最后,将文本特征术语作为输入,通过Rocchio分类器进行分类,以此过滤掉论坛中的不良文本.在相关数据集上的实验结果表明,提出的方法能够准确地识别出不良类型文本,具有有效性.
    • 赵星宇; 赵志宏; 王业沛; 陈松宇
    • 摘要: 微博空间存在大量的广告内容,这些信息严重影响着普通用户的用户体验和相关的研究工作.现有研究多使用支持向量机(SVM)或随机森林等分类算法对广告微博进行处理,然而分类方法中人工标注大数据量训练集存在困难,因此提出基于聚类分析的微博广告发布者识别方法:对于用户维度,针对微博广告发布者通过发布大量普通微博来稀释其广告内容的现象,提出核心微博的概念,通过提取核心微博主题及其对应的微博序列,计算用户特征和对应微博的文本特征,并使用聚类算法对特征进行聚类,从而识别微博广告发布者.实验结果显示,所提方法准确率为92%,召回率为97%,F值为95%,证明所提方法在广告内容被人为稀释的情况下能准确地识别微博广告发布者,可以为微博垃圾信息识别、清理等工作提供理论支持和实用方法.%There is a large amount of advertising content in micro-blog space,which seriously affects user experience and related research work.Much of existing research on micro-blog process uses classification algorithm such as Support Vector Machine (SVM) and random forest algorithm.However,it is difficult to classify a large volume of data in the classification method manually.A micro-blog advertisement publisher identification method based on clustering analysis was proposed.For user dimension,a concept of core micro-blog was put forward to deal with the phenomenon that ordinary micro-blogs were posted to dilute advertising content.Then the extracted main themes of each user and corresponding micro-blog sequences could be used to calculate user characteristics as well as the text characteristics.After that,a clustering algorithm was used to cluster the features and identify the micro-blog advertisers.The experiment result shows that the precision is 93%,the recall is 97%,and the F value is 95%,which proves that the proposed method can accurately identify the micro-blog advertisement publisher under the condition that the content of the advertisement is artificially diluted.It provides theoretical support and practical methods for the recognition and cleaning work of micro-blog spam information.
    • 路金泉; 徐开勇; 戴乐育
    • 摘要: 针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词-贝叶斯分类算法(Multi Word-Bayes,MWB).该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视.实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能.
    • 亚力青·阿里玛斯; 哈力旦·阿布都热依木; 陈洋
    • 摘要: Under the background of large-scale text information retrieval technology, presented Uyghur text filtering model and implementation method. On the basis of vector space model (VSM), using three methods of similarity measure to calculate the similarity of input text with user templates as decision-making tools for Uyghur text filtering experiments. As to the problem of high dimensionality feature space of Uyghur texts, by stemming, stop words filtering, feature selection methods to reduce the dimension of feature space. Finally, analysis the text filtering results by value of F1 presented by Precision and Recall.%在大规模的文本信息检索技术背景下,提出了维吾尔文本过滤模型及实现方法。文本表示模型在向量空间模型(VSM)的基础上,采用三种相似度度量方法计算输入文本与用户模板相似度作为决策手段,对维吾尔文本进行了过滤实验。对于维吾尔文特征空间的高维性问题,通过词干提取,停用词过滤,特征选择等方法降低了特征空间维数。最后利用准确率(Precision)和召回率(Recall)综合函数F1值作为评价指标分析了维吾尔文文本过滤实验结果。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号