您现在的位置：首页> 研究主题> 文本过滤

文本过滤

文本过滤的相关文献在2000年到2022年内共计141篇，主要集中在自动化技术、计算机技术、科学、科学研究、无线电电子学、电信技术等领域，其中期刊论文94篇、会议论文12篇、专利文献248379篇；相关期刊56种，包括图书与情报、通信学报、信息安全与通信保密等；相关会议11种，包括第六届全国信息检索学术会议、第七届全国Web信息系统及其应用学术会议、第五届全国语义Web与本体论学术研讨会、第四届全国电子政务技术及应用学术研讨会、辽宁省通信学会2007年通信网络与信息技术年会等；文本过滤的相关文献由265位作者贡献，包括黄萱菁、吴立德、林鸿飞等。

文本过滤—发文量

期刊论文>

论文：94篇占比：0.04%

会议论文>

论文：12篇占比：0.00%

专利文献>

论文：248379篇占比：99.96%

总计：248485篇

文本过滤—发文趋势图

文本过滤
-研究学者

黄萱菁
吴立德
林鸿飞
夏迎炬
姚天顺
李振星
李生红
闫俊英
周聚
唐卫清
唐荣锡
张帆
朱巧明
李培峰
桑书娟
付俊
任继成
冯丹
刘东鑫
刘国荣
刘培玉
刘永丹
叶长程
吕学强
周昌乐
孙瑞安
宋辉
尹祎
张云华
张峰
张巍
张永奎
张程
张立航
张芷芊
徐泽平
战学刚
施展
朱振方
李业丽
李健
李弼程
李晨亮
李绍滋
林琛
沈军
温新赐
粟栗
胡恬
胡运发

文本过滤
-相关主题

文本过滤
-相关期刊

文本过滤
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2022
(2)
2021
(8)
2020
(2)
2019
(1)
2018
(1)
2016
(1)
2015
(3)
2014
(4)
2013
(2)
2012
(1)
2011
(7)
2010
(11)
2009
(6)
2008
(9)
2007
(9)
2006
(7)
2005
(7)
2004
(6)
2003
(5)
2002
(2)
2001
(3)
2000
(4)

期刊

收录数据库

作者

黄萱菁
(7)
吴立德
(6)
林鸿飞
(6)
夏迎炬
(4)
姚天顺
(4)
李振星
(4)
李生红
(4)
闫俊英
(4)
周聚
(3)
唐卫清
(3)
唐荣锡
(3)
张帆
(3)
朱巧明
(3)
李培峰
(3)
桑书娟
(3)
付俊
(2)
任继成
(2)
冯丹
(2)
刘东鑫
(2)
刘国荣
(2)
刘培玉
(2)
刘永丹
(2)
叶长程
(2)
吕学强
(2)
周昌乐
(2)
孙瑞安
(2)
宋辉
(2)
尹祎
(2)
张云华
(2)
张峰
(2)
张巍
(2)
张永奎
(2)
张程
(2)
张立航
(2)
张芷芊
(2)
徐泽平
(2)
战学刚
(2)
施展
(2)
朱振方
(2)
李业丽
(2)
李健
(2)
李弼程
(2)
李晨亮
(2)
李绍滋
(2)
林琛
(2)
沈军
(2)
温新赐
(2)
粟栗
(2)
胡恬
(2)
胡运发
(2)

关键词

申请/权力人

;

1. 基于文本过滤技术的网络数据安全过滤方法
- 张麦玲
- 摘要：为提高网络数据安全过滤的安全性,本文提出基于文本过滤技术的网络数据安全过滤方法。首先构建可以对数据进行采集以及过滤率的识别库;其次对网络数据似然值作出估计;最后使用分布离群文本来过滤数据,完成对于网络数据的安全保护工作。基于文本过滤技术的网络数据安全过滤方法实验表明:方法设计可以促进数据的融合和协调有效进行,方法在系统中运行正常且稳定,实验满足测试的要求,可以完全确保数据进行安全的文本过滤。
2. 针对直播弹幕的TextCNN过滤模型
- 明建华；胡创；周建政；姚金良
- 摘要：网络直播的兴起,促使直播弹幕成为一种新型的交流方式.随之而来的还有各类非法弹幕.在识别非法弹幕方面,人工筛选过于低效,传统关键词过滤方法和统计机器学习方法识别率较低,且无法应对变异短文本.如何让机器更高效、更准确地识别非法弹幕以营造更好的网络环境是一个很有意义的问题.提出了基于文本卷积神经网络(TextCNN)的带噪非法短文本识别方法.通过对带噪短文本的预处理以及利用文本卷积神经网络挖掘字符间的相关特征,极大地提高了直播弹幕中非法短文本的识别率.
3. 结合AdaBERT的TextCNN垃圾弹幕识别和过滤算法
- 孙瑞安；张云华
- 摘要：为解决使用BERT(Bidirectional Encoder Representations from Transformers)模型时,参数规模太大的问题,本文采用了结合AdaBERT(Task-Adaptive BERT)的TextCNN算法。首先使用AdaBERT对弹幕文本进行学习,以更少的时间获得更有效的词向量;使用其生成的词向量作为TextCNN的输入;然后使用批量标准化,减少梯度消失的情况发生;最后使用Softmax进行分类概率计算。为了验证本算法的有效性,在弹幕数据集上进行训练,和多个文本分类算法进行对比实验。其结果表明,本算法可以改进算法运行速度,提高在垃圾弹幕识别和过滤上的性能。
- AdaBERT
- TextCNN
- 弹幕
- 文本过滤
4. 结合AdaBERT的TextCNN垃圾弹幕识别和过滤算法
- 孙瑞安；张云华
- 摘要：为解决使用BERT(Bidirectional Encoder Representations from Transformers)模型时,参数规模太大的问题,本文采用了结合AdaBERT(Task-Adaptive BERT)的TextCNN算法.首先使用AdaBERT对弹幕文本进行学习,以更少的时间获得更有效的词向量;使用其生成的词向量作为TextCNN的输入;然后使用批量标准化,减少梯度消失的情况发生;最后使用Soft?max进行分类概率计算.为了验证本算法的有效性,在弹幕数据集上进行训练,和多个文本分类算法进行对比实验.其结果表明,本算法可以改进算法运行速度,提高在垃圾弹幕识别和过滤上的性能.
- AdaBERT
- TextCNN
- 弹幕
- 文本过滤
5. 基于文本过滤技术的网络安全数据检测实验系统设计 CSTPCD
- 姚琨；王昕
- 摘要：传统的网络安全数据检测实验系统对于冗余数据处理能力不足,导致实验数据独立性较差.为此,设计基于文本过滤的网络安全数据检测实验系统.在硬件设计上,使用单片机作为中央控制器,设计外部电源适配器以供驱动模块正常工作,引用PCI总线接口芯片设计网络数据采集卡.在软件设计上,通过程序代码与网络数据采集卡的结合实现数据采集,利用文本过滤技术标记原始数据中的异常数据并将其过滤.结合硬件设计和软件设计完成整个系统设计.测试结果表明,对于相同大小的冗余数据,与传统的检测实验系统相比,设计的基于文本过滤技术的网络安全数据检测实验系统数据处理能力更强,数据独立性更好.
6. 基于朴素贝叶斯算法在垃圾邮件过滤中的研究综述
- 彭革
- 摘要：朴素贝叶斯算法是理想化的算法模型,且基于条件特征相互独立的假设,不能满足实际应用.本文通过探究朴素贝叶斯算法的原理和操作步骤,并介绍基于此类算法的优化和改进,从而规避算法的不足,同时提高算法工作效率和文本过滤准确度.
7. Text filtering method based on term selection and Rocchio classifier in Uyghur forum维吾尔文论坛中基于术语选择和Rocchio分类器的文本过滤方法北大核心 CSCD CSTPCD
- 如先姑力·阿布都热西提；亚森·艾则孜；艾山·吾买尔；阿力木江·艾沙
- 摘要：针对维吾尔文网页论坛中的文本过滤问题,提出一种基于术语选择和Rocchio分类器的文本过滤方法.首先,将论坛文本进行预处理以删除无用词,并基于N-gram统计模型进行词干(术语)提取;然后,提出一种均衡考虑相关性和冗余性的均衡型互信息术语选择方法(BMITS),对初始术语集合进行降维,获得精简术语集;最后,将文本特征术语作为输入,通过Rocchio分类器进行分类,以此过滤掉论坛中的不良文本.在相关数据集上的实验结果表明,提出的方法能够准确地识别出不良类型文本,具有有效性.
8. Identification of micro-blog advertising publisher based on clustering analysis基于聚类分析的微博广告发布者识别北大核心 CSCD CSTPCD
- 赵星宇；赵志宏；王业沛；陈松宇
- 摘要：微博空间存在大量的广告内容,这些信息严重影响着普通用户的用户体验和相关的研究工作.现有研究多使用支持向量机(SVM)或随机森林等分类算法对广告微博进行处理,然而分类方法中人工标注大数据量训练集存在困难,因此提出基于聚类分析的微博广告发布者识别方法:对于用户维度,针对微博广告发布者通过发布大量普通微博来稀释其广告内容的现象,提出核心微博的概念,通过提取核心微博主题及其对应的微博序列,计算用户特征和对应微博的文本特征,并使用聚类算法对特征进行聚类,从而识别微博广告发布者.实验结果显示,所提方法准确率为92％,召回率为97％,F值为95％,证明所提方法在广告内容被人为稀释的情况下能准确地识别微博广告发布者,可以为微博垃圾信息识别、清理等工作提供理论支持和实用方法.%There is a large amount of advertising content in micro-blog space,which seriously affects user experience and related research work.Much of existing research on micro-blog process uses classification algorithm such as Support Vector Machine (SVM) and random forest algorithm.However,it is difficult to classify a large volume of data in the classification method manually.A micro-blog advertisement publisher identification method based on clustering analysis was proposed.For user dimension,a concept of core micro-blog was put forward to deal with the phenomenon that ordinary micro-blogs were posted to dilute advertising content.Then the extracted main themes of each user and corresponding micro-blog sequences could be used to calculate user characteristics as well as the text characteristics.After that,a clustering algorithm was used to cluster the features and identify the micro-blog advertisers.The experiment result shows that the precision is 93％,the recall is 97％,and the F value is 95％,which proves that the proposed method can accurately identify the micro-blog advertisement publisher under the condition that the content of the advertisement is artificially diluted.It provides theoretical support and practical methods for the recognition and cleaning work of micro-blog spam information.
9. Improvement of Bayes Classification Algorithm Based on Text Filtering基于文本过滤的贝叶斯分类算法的改进 CSTPCD
- 路金泉；徐开勇；戴乐育
- 摘要：针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词-贝叶斯分类算法(Multi Word-Bayes,MWB).该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视.实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能.
10. 基于向量空间模型的维吾尔文文本过滤方法Uyghur Text Filtering Based on Vector Space Model CSTPCD
- 亚力青·阿里玛斯；哈力旦·阿布都热依木；陈洋
- 摘要： Under the background of large-scale text information retrieval technology, presented Uyghur text filtering model and implementation method. On the basis of vector space model (VSM), using three methods of similarity measure to calculate the similarity of input text with user templates as decision-making tools for Uyghur text filtering experiments. As to the problem of high dimensionality feature space of Uyghur texts, by stemming, stop words filtering, feature selection methods to reduce the dimension of feature space. Finally, analysis the text filtering results by value of F1 presented by Precision and Recall.%在大规模的文本信息检索技术背景下，提出了维吾尔文本过滤模型及实现方法。文本表示模型在向量空间模型（VSM）的基础上，采用三种相似度度量方法计算输入文本与用户模板相似度作为决策手段，对维吾尔文本进行了过滤实验。对于维吾尔文特征空间的高维性问题，通过词干提取，停用词过滤，特征选择等方法降低了特征空间维数。最后利用准确率（Precision）和召回率（Recall）综合函数F1值作为评价指标分析了维吾尔文文本过滤实验结果。

1. 文本过滤方法、系统、设备及计算机可读存储介质
- 北京京东尚科信息技术有限公司
- 北京京东世纪贸易有限公司
- 公开公告日期：2022.04.12
- 摘要：本发明公开了一种文本数据过滤方法、系统、设备及计算机可读存储介质，其中，所述方法包括：创建垃圾文本信息库，所述垃圾文本信息库存储有至少一垃圾文本数据；对垃圾文本数据进行特征提取，生成垃圾文本特征向量，结合每一特征的权重训练垃圾文本预测模型；对目标文本数据进行特征提取，生成目标文本特征向量，将目标文本特征向量输入垃圾文本预测模型，以计算目标文本数据为垃圾文本数据的概率；根据概率判断目标文本数据是否为垃圾文本数据。本发明能够弥补现有技术中通过人工审核管理论坛、社区或贴吧等发布内容而导致对管理员的粘性过大、占用较多资源的不足，智能化地过滤属于垃圾文本数据的目标文本数据，提高判别效率。
2. 一种文本过滤方法及文本过滤系统
- 阿里巴巴集团控股有限公司
- 公开公告日期：2014.04.09
- 摘要：本申请公开了一种文本过滤方法及文本过滤系统。一种文本过滤方法包括：预先在文本过滤系统中定义语义关键词，所述语义关键词，至少由基本关键词和逻辑关系符构成；所述文本过滤系统获得输入文本后，根据预先定义的语义关键词，在所述输入文本中查找构成所述语义关键词的基本关键词；如果在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容，则进一步对查找到的文本内容进行语义匹配；所述语义匹配包括：根据构成所述语义关键词的逻辑关系符，将所查找到的文本内容与所述语义关键词进行匹配；如果所述语义匹配成功，则对匹配成功的文本内容进行过滤处理。
3. 一种基于类别相关单词的短文本过滤与分类方法
- 武汉大学
- 公开公告日期：2021.10.01
- 摘要：本发明公开了一种基于类别相关单词的短文本过滤与分类方法，将传统主题模型的主题根据功能分成“类别主题”和“普通主题”；构造伪文本集，并以伪文本集作为模型的训练集对SSCF进行训练。训练结束后计算两类主题各自的词分布，并根据短文本中每个词在不同主题下的分布计算得到该短文本的关联主题，进而判断该短文本是否为无关文本，若有关，得到其所属类别。本发明利用“类别主题”和“普通主题”，结合词类关系，可以很好地从短文本集中抽取出与指定类别相关的文本并同时完成分类。由于该方法是一种非监督性的方法，不需要人工对数据进行标注，使得本发明可以广泛应用到各种短文本数据之上，具有广泛的实际意义和商业价值。
4. 一种基于深度学习的垃圾文本过滤方法
- 华中科技大学
- 公开公告日期：2021.08.20
- 摘要：本发明公开了一种基于深度学习的垃圾文本过滤方法，先对字符数据进行过滤，去除非必要的符号、空格及语气助词，根据垃圾文本中存在的不同数据类型进行分类，将字符数据和图形数据分别通过标记加以区分，但不改变两类数据的顺序和位置，将图形数据通过深度学习算法转换成字符数据，数据转换为深度学习方法的一个重要组成部分，结合原字符数据通过深度学习算法与云服务器中的违禁词进行对比得到垃圾文本，文本对比为深度学习方法的一个重要推广，能够做到有效的深度拦截和提示。本发明有效解决了现有的文本过滤方法不能很好筛选出由字符数据和图形数据共同组成的垃圾文本问题，将深度学习算法应用到垃圾文本处理，提高了筛选的准确率。
5. 富文本过滤方法、富文本过滤装置、计算机可读存储介质
- 中国电信股份有限公司
- 公开公告日期：2021-06-01
- 摘要：本发明提供一种富文本过滤方法、富文本过滤装置、计算机可读存储介质。一种富文本过滤方法，其中，获取富文本的字符串，将字符串解析成包括标签数据和内容的对象，遍历对象节点，当前遍历对象节点为标签数据时，针对所述标签数据进行过滤，当前遍历对象节点为内容时，针对所述内容进行转义，遍历完所有的对象节点之后，将针对所述标签数据进行过滤并针对所述内容进行转义之后的对象重新组合成用于表示富文本的字符串。
6. 一种文本过滤方法及文本过滤系统
- 阿里巴巴集团控股有限公司
- 公开公告日期：2011-05-11
- 摘要：本申请公开了一种文本过滤方法及文本过滤系统。一种文本过滤方法包括：预先在文本过滤系统中定义语义关键词，所述语义关键词，至少由基本关键词和逻辑关系符构成；所述文本过滤系统获得输入文本后，根据预先定义的语义关键词，在所述输入文本中查找构成所述语义关键词的基本关键词；如果在所述输入文本中查找到与至少一个所述基本关键词相匹配的文本内容，则进一步对查找到的文本内容进行语义匹配；所述语义匹配包括：根据构成所述语义关键词的逻辑关系符，将所查找到的文本内容与所述语义关键词进行匹配；如果所述语义匹配成功，则对匹配成功的文本内容进行过滤处理。
7. 基于结构和文本信息的社交媒体短文本过滤方法
- 电子科技大学
- 公开公告日期：2018-01-09
- 摘要：本发明公开了一种基于结构和文本信息的社交媒体短文本过滤方法，包括以下步骤：S1、对短文本的结构特征进行判定，删除垃圾信息；S2、文本主干提取，判断结构判定保留下来的段文本是否含有描述事件的主干信息，若无主干信息，则判定为垃圾信息；若含有主干信息，则提取其主干成分；S3、文本特征提取，将步骤S2得到的文本的主干成分映射到特征空间。通过扫描文本的分词集合，即可判定是否具有垃圾信息的结构特征，有利于高效地处理社交网络中海量的数据；通过对词性、句式等进行识别即可达到特征选择的目的；采用的基于word2vec词向量相加求平均的方法来构造句子向量，降低了分类器模型在训练过程中的计算量，能更好地表征文本的语义信息。
8. 文本过滤方法、装置、设备和介质
- 百度在线网络技术(北京)有限公司
- 公开公告日期：2021-08-06
- 摘要：本申请实施例公开了一种文本过滤方法、装置、设备和介质，涉及数据处理技术领域，尤其涉及智能搜索技术。具体实现方案为：对目标文本进行切词，得到候选词序列；对所述候选词序列中的词语进行词性标注；根据词性标注结果，过滤所述候选词序列中的冗余词，以生成目标词序列。本申请实施例提供一种文本过滤方法、装置、设备和介质，以提高文本过滤的准确率。
9. 文本过滤方法、设备及计算机存储介质
- 鹏城实验室
- 公开公告日期：2021-05-18
- 摘要：本发明公开了一种文本过滤方法、设备及计算机存储介质，该方法包括以下步骤：基于语言模型获得文本流畅度；基于自定义构建的有效词词典，获得有效词率；当所述文本流畅度满足第一预设阈值且所述有效词率满足第二预设阈值，则对所述文本执行过滤操作；本发明解决人工筛选过滤文本耗时耗力、效率低、成本高且质量低的问题，提高语料库中语义级别，以及字符级别的文本筛选质量，从而提升训练模型和服务质量，降低计算开销。
10. 短文本过滤方法、装置、介质及计算机设备
- 深圳市优必选科技有限公司
- 公开公告日期：2020-07-03
- 摘要：本发明实施例公开了一种短文本过滤方法、装置、介质和计算机设备，包括：获取待检测文本，所述待检测文本为短文本；对所述待检测文本进行分词，获取包含至少一个词向量的分词结果；计算所述分词结果与预设的语料数据库的相关度，根据所述相关度对所述待检测文本进行过滤。采用上述短文本过滤方法、装置、介质和计算机设备，可以提高短文本过滤的准确率。

文本过滤

文本过滤—发文量

文本过滤—发文趋势图

文本过滤-研究学者

文本过滤-相关主题

文本过滤-相关期刊

文本过滤-相关会议

文本过滤
-研究学者

文本过滤
-相关主题

文本过滤
-相关期刊

文本过滤
-相关会议