您现在的位置：首页> 研究主题> 文本数据

文本数据

文本数据的相关文献在1994年到2023年内共计684篇，主要集中在自动化技术、计算机技术、信息与知识传播、无线电电子学、电信技术等领域，其中期刊论文164篇、会议论文20篇、专利文献564771篇；相关期刊140种，包括金融电子化、信息技术、电脑知识与技术等；相关会议16种，包括2014全国高性能计算学术年会、第四届全国智能信息处理学术会议、第十六届全国科学计算与信息化会议暨科研大数据论坛等；文本数据的相关文献由1635位作者贡献，包括马文、徐亮、王进等。

文本数据—发文量

期刊论文>

论文：164篇占比：0.03%

会议论文>

论文：20篇占比：0.00%

专利文献>

论文：564771篇占比：99.97%

总计：564955篇

文本数据—发文趋势图

文本数据
-研究学者

马文
徐亮
王进
廖祥文
杨鹏
胡峰
邓欣
严开
刘德彬
孙世通
李智星
欧阳卫华
赵楠
金戈
陈乔松
陈玮
雷大江
刘卫国
吴志武
周月
唐嘉元
喻鑫
埃德温·A·赫里迪亚
姜元春
孙永佼
张祯
张莉
方杰
杨定达
杨绪升
梅米特·K·奥兹坎
毕鑫
汪知滴
王东风
王国仁
王磊
纪萍
胡雯蔷
贾焰
赵相国
陈国龙
A.斯坦顿
A·C·坎尼斯特拉罗
D.圭罗里
G·S·罗宾
M.拉加舍卡
N.拉哈文
付宇
全志刚
凌悦

文本数据
-相关主题

文本数据
-相关期刊

文本数据
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2023
(1)
2022
(131)
2021
(119)
2020
(10)
2019
(19)
2018
(10)
2017
(9)
2016
(8)
2015
(8)
2014
(9)
2013
(6)
2012
(4)
2011
(5)
2010
(3)
2009
(2)
2008
(6)
2007
(11)
2006
(4)
2005
(3)
2004
(2)
2003
(11)
2002
(2)
2001
(3)
2000
(4)
1999
(2)
1998
(2)
1997
(4)
1995
(2)
1994
(1)

期刊

收录数据库

作者

关键词

申请/权力人

;

1. 网络评论文本数据监管处理的优化研究--以茶产品为例
- 王书博；程贞敏；苏渝
- 摘要： [研究目的]通过拓展和强化文本,并提出基于Bert的改进模型,以期在对网络评论文本数据进行监督处理时获得更好的精度和效度。[研究方法]该文以茶产品的的网络评论文本为例,运用Word2Vec进行文本的深度学习,将当前经常使用的监管方法设为对照组,将提出的Bert+Transformer模型和Bert+XGB模型设为实验组,进行实证研究。[研究结论]结果表明,Bert+Transformer模型和Bert+XGB模型比当前已经应用的监管手段更加有效,能够在更高的效度和精度上对文本数据进行处理和分析。
2. 档案管理中文本数据的增量多模态聚类方法
- 刘丽华
- 摘要：随着现代档案管理数据量的不断增长,有效地对档案文本进行聚类划分能够提升档案分类和检索的效率。文中提出2种增量多模态文本数据聚类方法,通过对文本内容进行多视角分析,融合挖掘文本的潜在主题特征,提升文本聚类的准确性。此外,设计文本聚类多模态增量学习模型,提升海量、动态文本划分的效率。在文本数据集上的实验结果表明,文中提出的增量多模态文本聚类方法优于单模态和多模态聚类算法,能够对文本数据进行有效划分。
3. 基于MDA文本和深度学习模型的财务报告舞弊识别
- 赵纳晖；张天洋
- 摘要：财务报告舞弊是企业舞弊的手段之一,不仅会导致会计信息失真,而且会危害经济的健康发展,因此,如何克服传统的人工检测和基于数值指标的浅层模型识别等方法的弊端,找到一种更为高效的智能化识别方法具有重要的现实意义。选取2015—2019年间存在舞弊行为的A股上市公司定期报告,以其中的管理层讨论与分析章节(Management Discussion and Analysis,MD&A)为样本,同时确定了规模相同的控制样本,通过实证研究对比了深度学习模型和以往常用的浅层模型在检测财务报告舞弊时的性能。结果表明,在规模对等的舞弊和非舞弊类财务报告组成的文本数据集上,深度学习模型表现出明显优于基准模型的分类性能。研究结果为利用MD&A文本数据和深度学习方法识别企业财务报告舞弊的有效性提供了直接的证据。
4. 基于深度强化学习的文本实体关系抽取方法
- 罗欣；陈艳阳；耿昊天；许文波；张民
- 摘要：从文本大数据中快速准确地抽取文本的实体关系信息是构建知识图谱的关键。针对目前主流的远程监督关系抽取方法常常忽略实体对的类型信息和句子语法信息的问题,该文提出了一种基于深度强化学习的文本实体关系抽取方法。首先,利用结合实体周围词注意力机制的双向长短期记忆网络作为句子编码的第一个模块;然后,在此基础上加入实体类型嵌入模块,利用实体类型来丰富句子编码信息;最后,将一个依存句法分析模块纳入模型,共同组成了关系抽取器。同时,为实现标签级别的降噪,该文结合强化学习方法,设计了一个标签学习器来学习句子的软标签,以纠正错误标签。设计的标签学习器与关系抽取器结合,构成了基于深度强化学习的文本关系抽取框架。在公开数据集ACE2005、Chinese-Literature-NER-RE-Dataset和自建的数据集上进行实验,结果表明本文提出的方法在精度和召回率上都优于目前几种主流的模型。
5. 《数据采集与处理》征稿简则
- 摘要：《数据采集与处理》是中国科协主管,中国电子学会和南京航空航天大学联合主办,南京航空航天大学出版,并向国内外公开发行的学术期刊。《数据采集与处理》为中文核心期刊(无线电电子学、电信技术类),中国科技论文统计源期刊,并被中国科学引文数据库(CSCD)扩展库、荷兰Scopus数据库、俄罗斯《文摘杂志》、日本科学技术社数据库、美国《剑桥科学文摘》(CSA)、英国INSPEC数据库等国内外权威数据库收录。1.征稿方向《数据采集与处理》以"数据"为中心,聚焦数据的"感知—传输—存储—计算"相关的前沿理论、方法和应用,包括通信信号、雷达信号、图像及视频数据、多光谱数据、文本数据、语音及光电混合数据。
6. 基于情感分析的轩逸汽车销售决策
- 张龙；吴旖婷；周遵爽；蒋合领
- 摘要：在电商无限发展的今天,面对着庞大、不规则的网络评论文本数据,如何从中寻找出对企业制作销售决策有用的信息,已成为当下各大商家的关注热点。本文就这一问题展开讨论,试图挖掘出对支撑车企制定或改善销售决策有重要作用的信息。论文主要引用BERT模型并计算相关指标值,同时利用ROST CM6软件对负面情感文本进行社会网络和语义网络分析。结果表明,超过半数购车车主对轩逸汽车的态度明显持积极情感。
7. 自然语言处理在金融文本信息分析的应用综述
- 杨晓丹；吴延晖；朱浩滨；周绍镇
- 摘要：金融模型采用的数据多为结构化数值型,其在数据全面性、可靠性、时效性等方面都存在不足。而如今信息传播渠道的开拓,使得金融文本信息这类文本型数据对投资者决策、市场走势的影响愈发明显。由于投资者的注意力有限,难以对海量金融文本数据进行综合分析,极易受个别数据所蕴含的情绪所影响而做出非理性投资。而情感分析作为自然语言处理中关键的分支,提供了有效分析海量金融文本情感类型的手段。因此,本文梳理并分析了目前国内外学者对自然语言文本分析的已有研究,针对金融文本数据在基于深度学习的自然语言处理中现存的不足,提出了未来自然语言处理技术不断适应时代变化的发展方向。
8. 基于《白蛇传》文本数据的西湖景观叙事设计研究
- 黄艳；王宣方
- 摘要：叙事设计是近年来景观设计方法和研究中的一个热点议题,是构建具有集体记忆的精神场所并使景观成为体现文脉特征的重要途径。由于文本数据对文化信息脉络和本质呈现的可靠性,能更为准确而全面地传达出文本中与场地有关的文化信息,因此基于文本数据的叙事设计使景观结构、序列和景组的布置更加理性,能够构建起公众对场地的独特感知与体验。本文将文本数据分析法引入到景观叙事设计中,借助编程语言和统计分析技术辅助设计决策,将错综复杂的非物质文化信息转化为以时间、空间、人物、情节等为信息轴的特征数据集,构建出文本数据地图,使其与空间组织逻辑相耦合,并在此基础上绘制表达场所情境的分镜图,探索了景观叙事性设计的创新途径和方法。
9. 开放政府数据下文本大数据治理研究
- 郭燕
- 摘要：政府信息化建设进程加速,开放政府数据在中国快速推进,如何深入挖掘政务大数据蕴含的巨大价值,成为亟待解决的重要问题。现有文献鲜有针对开放政府数据下文本数据治理的系统研究,本文在明确界定相关概念的基础上,分析开放政府数据下文本数据现状及应用水平低、条块协同治理难等问题,进而以某地区政府服务热线为例,对1035条文本数据进行了数据缩减、数据陈列、数据分析、数据建模,提出推动智能化建设、建立数据质量检核引擎、运用块数据构筑场景来应用大数据等改进建议,以期呈现文本政务数据内容分析的基本范式,为有效治理开放政府数据下的文本大数据提供借鉴。
10. 《毛泽东思想和中国特色社会主义理论体系概论》教材的主题特征
- 叶锐；周玉琴
- 摘要：《毛泽东思想和中国特色社会主义理论体系概论》是高校思想政治理论课的核心课程,具有深厚的理论性和政治性.将2018版教材作为样本,划分为三个历史阶段,运用文本数据分析方法,绘制词云图得到主题特征,绘制社交网络图分析内容间的关联,从而把握教材的阶段特征和逻辑演进.分析结果表明:"人民""社会主义"在三个阶段都作为主题词,体现了党的宗旨和教材的主旨,此外不同阶段具有不同侧重的主题.本研究对于梳理教材的主题内容及把握重难点具有借鉴意义.

1. 一个面向文本数据的统计分析系统
- ZHANG Jin-Chao；张金超； LI Bo；李波； CHEN Ming-Yu；陈明雨； WANG Wei-Ping；王伟平； MENG Dan；孟丹
- 《2014全国高性能计算学术年会》 | 2014年
- 摘要：伴随信息社会的迅猛发展,大量数据不断地产生出来.这其中,有相当一部分是由电信网络以及社交网络产生的文本数据,如短信、彩信、微博客、即时通讯等.随着上述应用的不断普及与发展,数据产生的速度也在不断地增长,这给数据分析带来新的挑战.在某些应用场景下,对文本数据分析具有较高的性能要求,因此需要分析系统具有良好的实时分析响应能力.然而,面向通用数据类型而设计的分析系统,如数据库、数据仓库等,虽然可以对文本数据进行分析,但受限于本身的设计特点,很难达到快速分析、实时响应的要求.为此,设计并实现了一个面向海量文本数据的统计分析系统Seal.该系统采用无共享架构,并使用类似并行数据库的并行处理引擎,使得系统具有良好的执行响应时间.通过增加细粒度的索引,使得系统具有高效的数据访问性能.实验中使用Hive、Impala及Shark作为对比系统,评测结果表明,在进行文本数据统计分析时,相较与对比系统,Seal具有两个数量级的性能优势;而在SSBM测试集上的测试表明,Seal在非文本类型数据分析中,其性能也优于其它系统.
2. 基于文本数据的多维层次式舆情计算模型的研究与实现
- 《第二十五届中国数据库学术会议(NDBC2008)》 | 2008年
- 摘要：舆情是指一定时期内一定范围内的社会群体对某些社会想象和现实的主观反映,实时地计算舆情能够及时掌握真情动态、积极引导社会舆论.基于文本数据,提出了一种多维层次式舆情计算模型——文本立方体模型.该模型能够从多维度、多层次上来计算舆情,同时对文本立方体模型进行了钻取与切片操作分析.最后建立了文本立方模型的原型系统,通过实验分析,验证了文本立方体模型的有效性与实际可行性。
3. 一种基于共词网络的社交媒体数据主题挖掘方法
- WANG Yandong；王艳东； FU Xiaokang；付小康； LI Mengmeng；李萌萌
- 《2018测绘遥感高层论坛》 | 2018年
- 摘要：对社交媒体所包含文本数据的深入挖掘,有利于有效地进行后续的时空分析.提出了一种新的基于共词网络的社交媒体数据主题挖掘方法,依据词频-逆文档频率分析,自动筛选出与主题相关的关键词汇,基于微博间是否包含相同的关键词汇,提出构建以微博为节点的共词网络,并结合Louvain社区探测算法进行文本主题挖掘.所提出的方法是一种无监督方法,且具有不需要指定聚类数目的优点.实验表明,该方法在主题挖掘表现上,准确率和召回率均优于常用的文档主题生成模型.以收集的2012年北京暴雨期间包含关键词的微博为例,利用提出的方法对微博数据集进行挖掘和时空分析,结果表明所提方法在实际应用中的有效性.
4. 基于LDA模型的粮食损失因素研究
- 柳学丽；毛波；曹杰
- 《中国粮油学会第九届学术年会》 | 2018年
- 摘要：粮食储藏关乎民生和国家安全,粮食在储藏过程中,由于各种因素的影响会发生数量减少和品质的下降,无论是人为可避免还是人为不可避免的因素,或多或少的都会造成储粮损失,有效和及时减少我国粮食产后损失浪费的迫切性显而易见,这将在保障国家粮食安全、稳定粮食价格等方面发挥着重要作用.本文主要是采用大数据分析研究的方法来实现对粮食损失文本的情感计算。通过数据获取模型抓取粮食相关网站上的粮食损失文本数据，并将爬去的文本数据保存为CSV格式，存储并建立分析数据库，并在此基础上通过对文本的一系列处理分析、相关统计的分析，以及建立LDA主题模型进行分类、后期数据处理之后的可视化等进行加工提炼出有效主题和关键词，从而达到理论上的语义建构与对策研究的有机结合，并结合前述提取的粮食损失因素，能够结合实际来分析粮食损失问题，结合情感分析，最后提出更具操作性的粮食减损建议。
5. 基于机器学习的实体关系抽取方法研究
- Liu Fangchi；刘方驰； Zhong Zhinong；钟志农；雷霖；吴烨
- 《第十六届全国科学计算与信息化会议暨科研大数据论坛》 | 2013年
- 摘要：实体关系抽取技术可以从非结构化的文本数据中提取出命名实体间的语义关系.基于机器学习的关系抽取方法是现今的主流方法,但随着文本数据的爆炸式增长,传统的提取方法面临着巨大的挑战.文章结合当前的研究进展,分析和比较了有监督、弱监督、无监督三类方法的原理和代表性算法,总结了各类方法的特性并对关系抽取的发展趋势进行了展望.
6. 海量NAT日志检索优化索引算法的研究与应用
- JIANG Hui-fei；蒋慧斐； YANG Zhi-jun；杨志军
- 《中国计算机用户协会网络应用分会2012年第十六届网络新技术与应用年会》 | 2012年
- 摘要：设计高效搜索算法往往需要使用hash链表,常数级的查找速度是任何别的算法都无法比拟的.根据海量NAT日志的文本结构特点,将hash链表的思想应用到海量NAT文本数据的检索、统计与分析中,并从提高执行效率、改善空间利用率方面提出了hash链表树和双精度hash表的改进优化索引算法,将其应用到具体的NAT日志检索,实现了快速搜索定位的目标.
7. 基于MapReduce框架的近似复制文本检测
- 李瑞；王朝坤；郑伟；王建民；王伟平
- 《第27届中国数据库学术会议》 | 2010年
- 摘要：海量文本数据近似复制文本检测在现实生活中具有广泛应用,如相似网页检测。提出了一种基于MapReduce的相似文本匹配算法,给定一个文本集合和相似性阈值,该算法能够有效计算文本集合中不小于该阈值的所有文本对。在真实数据集合上的实验结果表明,与现有工作相比,所提算法能够快速返回相似文本对。
8. 基于OpenGL的时空信息可视化系统设计与实现
- 邓莉琼；吴玲达；陈丹雯；袁志民
- 《第九届全国虚拟现实与可视化学术会议》 | 2009年
- 摘要：针对同一文本信息数据源,将文本信息映射到时间和空间上的可视化界面上,实现了文本信息的时空可视化信息系统。结合MapX控件,以文本数据的时间信息和地理信息为文本标记,使用OpenGL图形库,根据所建立的可视化模型,得到了时间和空间的可视化信息系统。系统的可视化结果与原始数据相符,且图形化的可视化界面更易于人们理解。rn 系统所设计的交互式功能便于从可视化模型中挖掘出事件所隐藏的信息,具有较好的启发性与实用价值。
9. 基于LDA主题模型的文本相似度计算
- WANG Zhen-zhen；王振振； HE Ming；何明； DU Yong-ping；杜永萍
- 《第四届全国智能信息处理学术会议》 | 2013年
- 摘要： LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型.提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果.实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果.
10. 基于LDA主题模型的文本相似度计算
- WANG Zhen-zhen；王振振； HE Ming；何明； DU Yong-ping；杜永萍
- 《第四届全国智能信息处理学术会议》 | 2013年
- 摘要： LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型.提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果.实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果.

1. 一种基于文本字符特征的文本数据归属描述及生成方法
- 浙江传媒学院
- 浙江传媒学院桐乡研究院有限公司
- 公开公告日期：2022.07.12
- 摘要：本申请公开了一种基于文本字符特征的文本数据归属描述及生成方法，包括：获取待处理的文本数据，并对所述文本数据进行分解，得到若干个字符，并基于所述字符对所述文本数据进行特征空间表示；根据所述文本数据的特征空间表示，通过所述字符的水平位置和不同所述字符之间的关联对所述文本数据进行特征存储；根据所述文本数据的特征存储结果，生成文本数据归属。本申请能够通过特征空间的量化矩阵有效生成文本数据归属，有助于解决文本的自动生成及归属管理问题，丰富以中文为主的自然语言处理的基础理论和算法，为解决数据安全问题提供了一种新的思路，进而为未来文本大数据的科学管理提供理论和技术支持。
2. 带语音合成信息的文本数据提供装置及文本数据提供方法
- 日立公共系统有限公司
- 公开公告日期：2014-05-28
- 摘要：本发明提供一种能够执行就用户要求的任意文章任意朗读的操作、通过符合用户意图的操作、用户能够方便地实现语音朗读的文章文本。读取基于来自用户终端的指示信号从存储多个文本数据的数据库选择的文本数据，判别构成文本数据的各文章文本，通过发音符号列生成程序，对每个文章文本生成发音符号列，在各文章文本中添加生成的每个文章的发音符号列。将在各文章文本中添加了每个文章的发音符号列的文本数据和语音变换合成程序从发送单元发送到用户终端。
3. 带语音合成信息的文本数据提供装置以及文本数据提供方法
- 日立公共系统有限公司
- 公开公告日期：2014-05-14
- 摘要：本发明提供一种利用画面显示滑动控件的文章文本，其能使用户通过操作，对所希望的任意文章进行任意朗读，并且通过符合用户意图的操作，用户能够方便地实现语音朗读。在滑动控件内添加对任意的带每个文章的发音符号列的文本数据进行语音数据朗读控制的控制项目，带每个文章的语音数据的主页文本生成单元将具有进行语音数据朗读控制的控制项目的滑动控件添加到所述带每个文章的语音数据的主页文本数据内，并将该带每个文章的语音数据的主页文本数据发送给用户终端，用于在用户终端进行每个文章的语音数据的朗读控制。
4. 能够适当地显示文本数据的文本数据显示设备
- 夏普株式会社
- 公开公告日期：2008-11-26
- 摘要：一种能够适当地显示文本数据的文本数据显示设备，在文本数据显示设备(1)中，输入文本数据是由文本数据分析单元(101)使用在由应表获得单元(102)从数据存储单元(103)获得的对应表来分析的，对应于包括在文本数据中的具体字符串的动画数据是在动画数据确定单元(104)确定的。在动画数据获得单元(105)，所确定的动画数据是从数据存储单元(103)获得的，并且在动画数据绘制单元(106)的绘制存储(108)中绘制。而且，文本绘制单元(107)在其中写文本，由此所述文本数据是用文本和动画在显示单元(109)显示的。
5. 文本数据结构、文本数据处理方法
- 先进设计株式会社
- 公开公告日期：2007-10-17
- 摘要：本发明提供一种文本数据结构、文本数据处理方法。其课题在于，能够减少翻译程序的容量和处理时间，所述文本数据结构由文字码数据排列而成，该文字码数据可确定至少包含表意文字的各文字的文字种类，所述文本数据结构根据从转换处理程序取得的作为转换成该表意文字的转换单位的文节信息，一并包括可确定转换后的各文节中所包含的文字码数据的文节确定数据和该文字码数据，所述转换处理程序将所输入的表音文字串转换成包含表意文字的文字串。
6. 能够适当地显示文本数据的文本数据显示设备
- 夏普株式会社
- 公开公告日期：2006-05-17
- 摘要：在文本数据显示设备(1)中，输入文本数据是由文本数据分析单元(101)使用在由应表获得单元(102)从数据存储单元(103)获得的对应表来分析的，对应于包括在文本数据中的具体字符串的动画数据是在动画数据确定单元(104)确定的。在动画数据获得单元(105)，所确定的动画数据是从数据存储单元(103)获得的，并且在动画数据绘制单元(106)的绘制存储器(108)中绘制。而且，文本绘制单元(107)在其中写文本，由此所述文本数据是用文本和动画在显示单元(109)显示的。
7. 对文本数据进行编码,以包含用在文本－语音(TTS)系统中的增强型语音数据的方法以及解码方法,TTS系统和包含所述TTS系统的移动电话
- 精工爱普生株式会社
- 公开公告日期：2004-08-18
- 摘要：一种对文本数据进行编码，以便包含那些用在文本－语音(TTS)系统中的增强型语音数据的方法，并且涉及一种解码方法，一种TTS系统和一种包含所述TTS系统的移动电话。文本－语音(TTS)系统将文本转换成语音并且包括了确定正确的发音。除了正确发音之外，许多TTS系统通过定义特殊的语音模式来控制如何讲述文本。语音模式至少可以相对于韵律学来进行定义，所述韵律学即为语音韵律、不同单词的重读、音调变化、说话速率、音量变化以及如何根据其他特征中尤其是币值、日期、时间等等来说出文本。本发明涉及一种用于对增强型语音数据进行编码的方法。增强型语音数据是非常简单的，并且很容易使用和学习，它使用了那些嵌入了TTS系统的终端设备上的键盘部件，并且独立于现场设计TTS系统时施加的任何标记语言或修改。因此，可以对输出文本进行定制，以便改善语音质量，并使用户能够将其消息个人化。本发明由此涉及一种对文本数据进行编码以及对带有注释的文本数据进行解码的方法，一种TTS系统以及一种用于实施上述内容的移动电话。
8. 基于文本数据增强的文本分类方法及装置
- 深圳须弥云图空间科技有限公司
- 公开公告日期：2023-01-03
- 摘要：本公开涉及文本处理技术领域，提供了一种基于文本数据增强的文本分类方法及装置。该方法包括：获取文本数据库，其中，文本数据库包括多个文档，每个文档包括多条语句；利用分词器对每条语句进行分词处理，得到每条语句对应的分词结果，其中，每个分词结果包括多个词语；计算每个词语的重要性评估值；根据每个词语的重要性评估值，对文本数据库进行多次采样，得到数据增强后的文本数据库；利用数据增强后的文本数据库，进行文本分类训练。采用上述技术手段，解决现有技术中，基于传统文本数据增强方法训练的文本分类模型存在泛化能力弱的问题。
9. 病历文本数据结构化的文本分词解析方法及系统
- 山东健康医疗大数据有限公司
- 公开公告日期：2021-06-11
- 摘要：本发明公开了病历文本数据结构化的文本分词解析方法及系统，属于病历数据挖掘技术领域，要解决的技术问题为如何解决传统病历数据中存在的挖掘效率低、精确性差以及不满足病例实体映射关系的缺陷。包括如下步骤：基于医疗文本数据构建医学词库；基于词库词典生成待分词医疗文本数据的所有成词，并基于上述所有成词构建有向无环图；基于上述医学词库和有向无环图，通过动态规划查找最大归零路径查找语句词频的最大切分组合，得到带有前后文顺序和词性的词语集合；通过三元关系模型对上述词语集合进行解析，得到三元映射关系数据组；对上述三元映射关系数据组进行标准化处理，得二元映射关系数据组。
10. 文本分类模型构建方法以及文本数据处理方法
- 平安医疗健康管理股份有限公司
- 公开公告日期：2021-03-09
- 摘要：本申请涉及人工智能技术领域，提供了一种文本分类模型构建方法以及文本数据处理方法。所述文本分类模型构建方法包括：获取携带产品条款词组标签的样本数据集，样本数据集包括多个样本数据，对样本数据集中各样本数据进行分词，得到各样本数据对应的词语集合，对词语集合进行新词筛选，得到各样本数据对应的新词，根据新词以及样本数据携带的产品条款词组标签，得到产品条款词组与新词之间的第一对应关系，对样本数据进行拆分，得到样本数据对应的短句集合，根据第一对应关系和短句集合进行模型训练，得到文本分类模型。采用本方法能够提高有效信息获取效率。

文本数据

文本数据—发文量

文本数据—发文趋势图

文本数据-研究学者

文本数据-相关主题

文本数据-相关期刊

文本数据-相关会议

文本数据
-研究学者

文本数据
-相关主题

文本数据
-相关期刊

文本数据
-相关会议