文本数据
文本数据的相关文献在1994年到2023年内共计684篇,主要集中在自动化技术、计算机技术、信息与知识传播、无线电电子学、电信技术
等领域,其中期刊论文164篇、会议论文20篇、专利文献564771篇;相关期刊140种,包括金融电子化、信息技术、电脑知识与技术等;
相关会议16种,包括2014全国高性能计算学术年会、第四届全国智能信息处理学术会议、第十六届全国科学计算与信息化会议暨科研大数据论坛等;文本数据的相关文献由1635位作者贡献,包括马文、徐亮、王进等。
文本数据—发文量
专利文献>
论文:564771篇
占比:99.97%
总计:564955篇
文本数据
-研究学者
- 马文
- 徐亮
- 王进
- 廖祥文
- 杨鹏
- 胡峰
- 邓欣
- 严开
- 刘德彬
- 孙世通
- 李智星
- 欧阳卫华
- 赵楠
- 金戈
- 陈乔松
- 陈玮
- 雷大江
- 刘卫国
- 吴志武
- 周月
- 唐嘉元
- 喻鑫
- 埃德温·A·赫里迪亚
- 姜元春
- 孙永佼
- 张祯
- 张莉
- 方杰
- 杨定达
- 杨绪升
- 梅米特·K·奥兹坎
- 毕鑫
- 汪知滴
- 王东风
- 王国仁
- 王磊
- 纪萍
- 胡雯蔷
- 贾焰
- 赵相国
- 陈国龙
- A.斯坦顿
- A·C·坎尼斯特拉罗
- D.圭罗里
- G·S·罗宾
- M.拉加舍卡
- N.拉哈文
- 付宇
- 全志刚
- 凌悦
-
-
王书博;
程贞敏;
苏渝
-
-
摘要:
[研究目的]通过拓展和强化文本,并提出基于Bert的改进模型,以期在对网络评论文本数据进行监督处理时获得更好的精度和效度。[研究方法]该文以茶产品的的网络评论文本为例,运用Word2Vec进行文本的深度学习,将当前经常使用的监管方法设为对照组,将提出的Bert+Transformer模型和Bert+XGB模型设为实验组,进行实证研究。[研究结论]结果表明,Bert+Transformer模型和Bert+XGB模型比当前已经应用的监管手段更加有效,能够在更高的效度和精度上对文本数据进行处理和分析。
-
-
刘丽华
-
-
摘要:
随着现代档案管理数据量的不断增长,有效地对档案文本进行聚类划分能够提升档案分类和检索的效率。文中提出2种增量多模态文本数据聚类方法,通过对文本内容进行多视角分析,融合挖掘文本的潜在主题特征,提升文本聚类的准确性。此外,设计文本聚类多模态增量学习模型,提升海量、动态文本划分的效率。在文本数据集上的实验结果表明,文中提出的增量多模态文本聚类方法优于单模态和多模态聚类算法,能够对文本数据进行有效划分。
-
-
赵纳晖;
张天洋
-
-
摘要:
财务报告舞弊是企业舞弊的手段之一,不仅会导致会计信息失真,而且会危害经济的健康发展,因此,如何克服传统的人工检测和基于数值指标的浅层模型识别等方法的弊端,找到一种更为高效的智能化识别方法具有重要的现实意义。选取2015—2019年间存在舞弊行为的A股上市公司定期报告,以其中的管理层讨论与分析章节(Management Discussion and Analysis,MD&A)为样本,同时确定了规模相同的控制样本,通过实证研究对比了深度学习模型和以往常用的浅层模型在检测财务报告舞弊时的性能。结果表明,在规模对等的舞弊和非舞弊类财务报告组成的文本数据集上,深度学习模型表现出明显优于基准模型的分类性能。研究结果为利用MD&A文本数据和深度学习方法识别企业财务报告舞弊的有效性提供了直接的证据。
-
-
罗欣;
陈艳阳;
耿昊天;
许文波;
张民
-
-
摘要:
从文本大数据中快速准确地抽取文本的实体关系信息是构建知识图谱的关键。针对目前主流的远程监督关系抽取方法常常忽略实体对的类型信息和句子语法信息的问题,该文提出了一种基于深度强化学习的文本实体关系抽取方法。首先,利用结合实体周围词注意力机制的双向长短期记忆网络作为句子编码的第一个模块;然后,在此基础上加入实体类型嵌入模块,利用实体类型来丰富句子编码信息;最后,将一个依存句法分析模块纳入模型,共同组成了关系抽取器。同时,为实现标签级别的降噪,该文结合强化学习方法,设计了一个标签学习器来学习句子的软标签,以纠正错误标签。设计的标签学习器与关系抽取器结合,构成了基于深度强化学习的文本关系抽取框架。在公开数据集ACE2005、Chinese-Literature-NER-RE-Dataset和自建的数据集上进行实验,结果表明本文提出的方法在精度和召回率上都优于目前几种主流的模型。
-
-
-
-
摘要:
《数据采集与处理》是中国科协主管,中国电子学会和南京航空航天大学联合主办,南京航空航天大学出版,并向国内外公开发行的学术期刊。《数据采集与处理》为中文核心期刊(无线电电子学、电信技术类),中国科技论文统计源期刊,并被中国科学引文数据库(CSCD)扩展库、荷兰Scopus数据库、俄罗斯《文摘杂志》、日本科学技术社数据库、美国《剑桥科学文摘》(CSA)、英国INSPEC数据库等国内外权威数据库收录。1.征稿方向《数据采集与处理》以"数据"为中心,聚焦数据的"感知—传输—存储—计算"相关的前沿理论、方法和应用,包括通信信号、雷达信号、图像及视频数据、多光谱数据、文本数据、语音及光电混合数据。
-
-
张龙;
吴旖婷;
周遵爽;
蒋合领
-
-
摘要:
在电商无限发展的今天,面对着庞大、不规则的网络评论文本数据,如何从中寻找出对企业制作销售决策有用的信息,已成为当下各大商家的关注热点。本文就这一问题展开讨论,试图挖掘出对支撑车企制定或改善销售决策有重要作用的信息。论文主要引用BERT模型并计算相关指标值,同时利用ROST CM6软件对负面情感文本进行社会网络和语义网络分析。结果表明,超过半数购车车主对轩逸汽车的态度明显持积极情感。
-
-
杨晓丹;
吴延晖;
朱浩滨;
周绍镇
-
-
摘要:
金融模型采用的数据多为结构化数值型,其在数据全面性、可靠性、时效性等方面都存在不足。而如今信息传播渠道的开拓,使得金融文本信息这类文本型数据对投资者决策、市场走势的影响愈发明显。由于投资者的注意力有限,难以对海量金融文本数据进行综合分析,极易受个别数据所蕴含的情绪所影响而做出非理性投资。而情感分析作为自然语言处理中关键的分支,提供了有效分析海量金融文本情感类型的手段。因此,本文梳理并分析了目前国内外学者对自然语言文本分析的已有研究,针对金融文本数据在基于深度学习的自然语言处理中现存的不足,提出了未来自然语言处理技术不断适应时代变化的发展方向。
-
-
黄艳;
王宣方
-
-
摘要:
叙事设计是近年来景观设计方法和研究中的一个热点议题,是构建具有集体记忆的精神场所并使景观成为体现文脉特征的重要途径。由于文本数据对文化信息脉络和本质呈现的可靠性,能更为准确而全面地传达出文本中与场地有关的文化信息,因此基于文本数据的叙事设计使景观结构、序列和景组的布置更加理性,能够构建起公众对场地的独特感知与体验。本文将文本数据分析法引入到景观叙事设计中,借助编程语言和统计分析技术辅助设计决策,将错综复杂的非物质文化信息转化为以时间、空间、人物、情节等为信息轴的特征数据集,构建出文本数据地图,使其与空间组织逻辑相耦合,并在此基础上绘制表达场所情境的分镜图,探索了景观叙事性设计的创新途径和方法。
-
-
郭燕
-
-
摘要:
政府信息化建设进程加速,开放政府数据在中国快速推进,如何深入挖掘政务大数据蕴含的巨大价值,成为亟待解决的重要问题。现有文献鲜有针对开放政府数据下文本数据治理的系统研究,本文在明确界定相关概念的基础上,分析开放政府数据下文本数据现状及应用水平低、条块协同治理难等问题,进而以某地区政府服务热线为例,对1035条文本数据进行了数据缩减、数据陈列、数据分析、数据建模,提出推动智能化建设、建立数据质量检核引擎、运用块数据构筑场景来应用大数据等改进建议,以期呈现文本政务数据内容分析的基本范式,为有效治理开放政府数据下的文本大数据提供借鉴。
-
-
叶锐;
周玉琴
-
-
摘要:
《毛泽东思想和中国特色社会主义理论体系概论》是高校思想政治理论课的核心课程,具有深厚的理论性和政治性.将2018版教材作为样本,划分为三个历史阶段,运用文本数据分析方法,绘制词云图得到主题特征,绘制社交网络图分析内容间的关联,从而把握教材的阶段特征和逻辑演进.分析结果表明:"人民""社会主义"在三个阶段都作为主题词,体现了党的宗旨和教材的主旨,此外不同阶段具有不同侧重的主题.本研究对于梳理教材的主题内容及把握重难点具有借鉴意义.
-
-
ZHANG Jin-Chao;
张金超;
LI Bo;
李波;
CHEN Ming-Yu;
陈明雨;
WANG Wei-Ping;
王伟平;
MENG Dan;
孟丹
- 《2014全国高性能计算学术年会》
| 2014年
-
摘要:
伴随信息社会的迅猛发展,大量数据不断地产生出来.这其中,有相当一部分是由电信网络以及社交网络产生的文本数据,如短信、彩信、微博客、即时通讯等.随着上述应用的不断普及与发展,数据产生的速度也在不断地增长,这给数据分析带来新的挑战.在某些应用场景下,对文本数据分析具有较高的性能要求,因此需要分析系统具有良好的实时分析响应能力.然而,面向通用数据类型而设计的分析系统,如数据库、数据仓库等,虽然可以对文本数据进行分析,但受限于本身的设计特点,很难达到快速分析、实时响应的要求.为此,设计并实现了一个面向海量文本数据的统计分析系统Seal.该系统采用无共享架构,并使用类似并行数据库的并行处理引擎,使得系统具有良好的执行响应时间.通过增加细粒度的索引,使得系统具有高效的数据访问性能.实验中使用Hive、Impala及Shark作为对比系统,评测结果表明,在进行文本数据统计分析时,相较与对比系统,Seal具有两个数量级的性能优势;而在SSBM测试集上的测试表明,Seal在非文本类型数据分析中,其性能也优于其它系统.
-
-
- 《第二十五届中国数据库学术会议(NDBC2008)》
| 2008年
-
摘要:
舆情是指一定时期内一定范围内的社会群体对某些社会想象和现实的主观反映,实时地计算舆情能够及时掌握真情动态、积极引导社会舆论.基于文本数据,提出了一种多维层次式舆情计算模型——文本立方体模型.该模型能够从多维度、多层次上来计算舆情,同时对文本立方体模型进行了钻取与切片操作分析.最后建立了文本立方模型的原型系统,通过实验分析,验证了文本立方体模型的有效性与实际可行性。
-
-
WANG Yandong;
王艳东;
FU Xiaokang;
付小康;
LI Mengmeng;
李萌萌
- 《2018测绘遥感高层论坛》
| 2018年
-
摘要:
对社交媒体所包含文本数据的深入挖掘,有利于有效地进行后续的时空分析.提出了一种新的基于共词网络的社交媒体数据主题挖掘方法,依据词频-逆文档频率分析,自动筛选出与主题相关的关键词汇,基于微博间是否包含相同的关键词汇,提出构建以微博为节点的共词网络,并结合Louvain社区探测算法进行文本主题挖掘.所提出的方法是一种无监督方法,且具有不需要指定聚类数目的优点.实验表明,该方法在主题挖掘表现上,准确率和召回率均优于常用的文档主题生成模型.以收集的2012年北京暴雨期间包含关键词的微博为例,利用提出的方法对微博数据集进行挖掘和时空分析,结果表明所提方法在实际应用中的有效性.
-
-
柳学丽;
毛波;
曹杰
- 《中国粮油学会第九届学术年会》
| 2018年
-
摘要:
粮食储藏关乎民生和国家安全,粮食在储藏过程中,由于各种因素的影响会发生数量减少和品质的下降,无论是人为可避免还是人为不可避免的因素,或多或少的都会造成储粮损失,有效和及时减少我国粮食产后损失浪费的迫切性显而易见,这将在保障国家粮食安全、稳定粮食价格等方面发挥着重要作用.本文主要是采用大数据分析研究的方法来实现对粮食损失文本的情感计算。通过数据获取模型抓取粮食相关网站上的粮食损失文本数据,并将爬去的文本数据保存为CSV格式,存储并建立分析数据库,并在此基础上通过对文本的一系列处理分析、相关统计的分析,以及建立LDA主题模型进行分类、后期数据处理之后的可视化等进行加工提炼出有效主题和关键词,从而达到理论上的语义建构与对策研究的有机结合,并结合前述提取的粮食损失因素,能够结合实际来分析粮食损失问题,结合情感分析,最后提出更具操作性的粮食减损建议。
-
-
-
-
李瑞;
王朝坤;
郑伟;
王建民;
王伟平
- 《第27届中国数据库学术会议》
| 2010年
-
摘要:
海量文本数据近似复制文本检测在现实生活中具有广泛应用,如相似网页检测。提出了一种基于MapReduce的相似文本匹配算法,给定一个文本集合和相似性阈值,该算法能够有效计算文本集合中不小于该阈值的所有文本对。在真实数据集合上的实验结果表明,与现有工作相比,所提算法能够快速返回相似文本对。
-
-
邓莉琼;
吴玲达;
陈丹雯;
袁志民
- 《第九届全国虚拟现实与可视化学术会议》
| 2009年
-
摘要:
针对同一文本信息数据源,将文本信息映射到时间和空间上的可视化界面上,实现了文本信息的时空可视化信息系统。结合MapX控件,以文本数据的时间信息和地理信息为文本标记,使用OpenGL图形库,根据所建立的可视化模型,得到了时间和空间的可视化信息系统。系统的可视化结果与原始数据相符,且图形化的可视化界面更易于人们理解。rn 系统所设计的交互式功能便于从可视化模型中挖掘出事件所隐藏的信息,具有较好的启发性与实用价值。
-
-
WANG Zhen-zhen;
王振振;
HE Ming;
何明;
DU Yong-ping;
杜永萍
- 《第四届全国智能信息处理学术会议》
| 2013年
-
摘要:
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型.提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果.实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果.
-
-
WANG Zhen-zhen;
王振振;
HE Ming;
何明;
DU Yong-ping;
杜永萍
- 《第四届全国智能信息处理学术会议》
| 2013年
-
摘要:
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型.提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果.实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果.