首页> 中国专利> 论文文档的处理方法、处理装置、电子设备及存储介质

论文文档的处理方法、处理装置、电子设备及存储介质

摘要

本发明实施例提供了一种论文文档的处理方法、处理装置、电子设备及存储介质,其中方法包括:获取待处理论文文档中各个段落的样式属性,并基于样式属性中的编号样式和编号内容,将具有相同编号样式且编号内容连续的段落所组成的最大段落区间对应的部分,确定为待处理论文文档的正文部分,确定正文部分中的不同标题段落的论文元素,以及各标题段落对应的文本内容段落的论文元素,确定待处理论文文档的非正文部分的论文元素,根据论文模板中预设的不同论文元素与不同样式属性的对应关系,为待处理论文文档中所确定的各个论文元素所对应的段落设置新的样式属性。本发明实施例能够降低用户的排版难度,改善用户体验不佳的问题。

著录项

  • 公开/公告号CN112651217A

    专利类型发明专利

  • 公开/公告日2021-04-13

    原文格式PDF

  • 申请/专利号CN201910955356.3

  • 发明设计人 辛洋;皮霞林;

    申请日2019-10-09

  • 分类号G06F40/186(20200101);G06F40/117(20200101);

  • 代理机构11413 北京柏杉松知识产权代理事务所(普通合伙);

  • 代理人丁芸;马敬

  • 地址 519015 广东省珠海市高新区唐家湾镇前岛环路321号金山软件园5号楼

  • 入库时间 2023-06-19 10:35:20

说明书

技术领域

本发明涉及计算机技术领域,特别是涉及一种论文文档的处理方法、处理装置、电子设备及存储介质。

背景技术

在编辑论文文档的时候,不仅要考虑论文的选题、方向等内容,通常还需要考虑论文的排版,以使论文符合版式要求。

一篇论文中通常包括:中文摘要、英文摘要、目录、引言等多个部分,每个部分中通常又包括多个段落,例如,引言部分可以由“引言”二字构成的段落和引言内容构成的段落组成。现有技术中,在对论文文档进行样式属性设置时,其处理过程具体为:用户终端接收针对论文文档中某一指定段落的样式属性更改指令(例如,更改该段落的行间距,或者更改该段落的字号),然后根据该样式属性更改指令更改所指定段落的样式属性。

然而,一篇论文中包括多个部分,每个部分的段落又包括多种样式属性,例如,行间距,字体,字号等样式属性,现有技术在对各样式属性进行设置时,每设置一种样式属性,用户便需发送一次相应的设置指令,因此增加了用户的操作难度,造成用户体验不佳。

发明内容

本发明实施例的目的在于提供一种论文文档的处理方法、处理装置、电子设备及存储介质,以降低用户在对论文文档进行样式属性设置时的操作难度。具体技术方案如下:

第一方面,本发明实施例提供了一种智能套用论文模板的方法,所述方法包括:

获取待处理论文文档中各个段落的样式属性,所述样式属性用于表示各段落的段落样式和字体样式;

基于所述样式属性中的编号样式和编号内容,将具有相同编号样式且编号内容连续的段落所组成的最大段落区间对应的部分,确定为所述待处理论文文档的正文部分,所述正文部分中包括:标题段落和文本内容段落;

确定所述正文部分中的不同标题段落的论文元素,以及各标题段落对应的文本内容段落的论文元素;其中,一个所述论文元素用于表示论文文档中具有相同样式属性的段落;

确定所述待处理论文文档的非正文部分的论文元素,所述非正文部分为所述待处理论文文档中除所述正文部分外的其他部分;

根据论文模板中预设的不同论文元素与不同样式属性的对应关系,为所述待处理论文文档中所确定的各个论文元素所对应的段落设置新的样式属性。

可选的,所述获取待处理论文文档中各个段落的样式属性的步骤,包括:

至少获取所述待处理论文文档中具有编号的段落的编号格式以及编号内容。

可选的,所述基于所述样式属性中的编号样式和编号内容,将具有相同编号样式且编号内容连续的段落所组成的最大段落区间对应的部分,确定为所述待处理论文文档的正文部分的步骤,包括:

将具有相同编号样式且编号内容连续的段落划分至一个段落区间,得到多个段落区间;

将所述多个段落区间中的最大段落区间对应的文本部分确定为正文部分;其中,所述正文部分的起始位置为所述最大段落区间的起始位置,所述正文部分的结束位置为所述最大段落区间后最近的含有预设关键词的位置。

可选的,所述确定所述正文部分中的不同标题段落的论文元素,以及各标题段落对应的文本内容段落的论文元素的步骤,包括:

将具有相同编号样式的所述标题段落识别为同一个层级;

确定不同层级对应的论文元素,以及所述文本内容段落对应的论文元素;所述论文元素用于表示论文文档中各段落的样式属性。

可选的,所述确定所述待处理论文文档的非正文部分的论文元素的步骤,包括:

针对所述待处理论文文档的非正文部分,按照预先建立的不同预设关键词与不同论文元素的对应关系,确定在所述非正文部分中所识别出的预设关键词对应的论文元素,作为该预设关键词所在段落的论文元素;

确定该预设关键词所在段落的下一段落对应的论文元素。

可选的,论文模板中预设有不同论文元素与不同样式属性的对应关系,所述根据论文模板中预设的不同论文元素与不同样式属性的对应关系,为所述待处理论文文档中所确定的各个论文元素所对应的段落设置新的样式属性的步骤,包括:

为所述待处理论文文档生成索引,所述索引表示所述待处理论文文档中段落序号与不同论文元素的对应关系,所述段落序号为段落在所述待处理论文文档所有段落中按顺序排列的序号;

在所述论文模板中查找第一论文元素,所述第一论文元素为与所述索引中记录的论文元素类型相同的论文元素;

获取所述第一论文元素的第一样式属性,第一样式属性为所述第一论文元素在所述论文模板中对应的样式属性;

根据所述第一样式属性,确定第二样式属性,所述第二样式属性为所述索引中论文元素的样式属性;

将所述第二样式属性设置到与索引中论文元素对应的段落序号所在的段落上。

可选的,所述确定所述待处理论文文档的非正文部分的论文元素步骤之后,所述方法还包括:

建立空白文档;

将所述待处理论文文档内容复制到所述空白文档中,所述空白文档中包含索引。

第二方面,本发明实施例提供了一种论文文档的处理装置,所述装置包括:

获取模块,用于获取待处理论文文档中各个段落的样式属性,所述样式属性用于表示各段落的段落样式和字体样式;

第一确定模块,用于基于所述样式属性中的编号样式和编号内容,将具有相同编号样式且编号内容连续的段落所组成的最大段落区间对应的部分,确定为所述待处理论文文档的正文部分,所述正文部分中包括:标题段落和文本内容段落;

第二确定模块,用于确定所述正文部分中的不同标题段落的论文元素,以及各标题段落对应的文本内容段落的论文元素;其中,一个所述论文元素用于表示论文文档中具有相同样式属性的段落;

第三确定模块,用于确定所述待处理论文文档的非正文部分的论文元素,所述非正文部分为所述待处理论文文档中除所述正文部分外的其他部分;

设置模块,用于根据论文模板中预设的不同论文元素与不同样式属性的对应关系,为所述待处理论文文档中所确定的各个论文元素所对应的段落设置新的样式属性。

具体的,所述获取模块,具体用于:

至少获取所述待处理论文文档中具有编号的段落的编号格式以及编号内容。

具体的,所述第一确定模块,包括:

划分子模块,用于将具有相同编号样式且编号内容连续的段落划分至一个段落区间,得到多个段落区间;

第一确定子模块,用于将所述多个段落区间中的最大段落区间对应的文本部分确定为正文部分;其中,所述正文部分的起始位置为所述最大段落区间的起始位置,所述正文部分的结束位置为所述最大段落区间后最近的含有预设关键词的位置。

具体的,所述第二确定模块,包括:

识别子模块,用于将具有相同编号样式的所述标题段落识别为同一个层级;

第二确定子模块,用于确定不同层级对应的论文元素,以及所述文本内容段落对应的论文元素;所述论文元素用于表示论文文档中各段落的样式属性。

具体的,所述第三确定模块,包括:

第三确定子模块,用于针对所述待处理论文文档的非正文部分,按照预先建立的不同预设关键词与不同论文元素的对应关系,确定在所述非正文部分中所识别出的预设关键词对应的论文元素,作为该预设关键词所在段落的论文元素;

第四确定子模块,用于确定该预设关键词所在段落的下一段落对应的论文元素。

具体的,所述设置模块,包括:

生成子模块,用于为所述待处理论文文档生成索引,所述索引表示所述待处理论文文档中段落序号与不同论文元素的对应关系,所述段落序号为段落在所述待处理论文文档所有段落中按顺序排列的序号;

查找子模块,用于在所述论文模板中查找第一论文元素,所述第一论文元素为与所述索引中记录的论文元素类型相同的论文元素;

获取子模块,用于获取所述第一论文元素的第一样式属性,第一样式属性为所述第一论文元素在所述论文模板中对应的样式属性;

第五确定子模块,用于根据所述第一样式属性,确定第二样式属性,所述第二样式属性为所述索引中论文元素的样式属性;

设置子模块,用于将所述第二样式属性设置到与索引中论文元素对应的段落序号所在的段落上。

具体的,所述装置还包括:

建立模块,用于建立空白文档;

复制模块,用于将所述待处理论文文档内容复制到所述空白文档中,所述空白文档中包含索引。

第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现本发明实施例第一方面提供的一种论文文档的处理方法的方法步骤。

第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行本发明实施例第一方面提供的一种论文文档的处理方法的方法步骤。

本发明实施例提供的一种论文文档的处理方法、处理装置、电子设备及存储介质,获取待处理论文文档中各个段落的样式属性,基于样式属性中的编号样式和编号内容,将具有相同编号样式且编号内容连续的段落所组成的最大段落区间对应的部分,确定为待处理论文文档的正文部分,再确定正文部分中的不同标题段落的论文元素,以及各标题段落对应的文本内容段落的论文元素,然后确定待处理论文文档的非正文部分的论文元素,进而根据论文模板中预设的不同论文元素与不同样式属性的对应关系,为待处理论文文档中所确定的各个论文元素所对应的段落设置新的样式属性。由于用户只需要发送一次设置指令,待处理论文文档就可以根据设置指令设置自身各段落的样式属性,从而避免了每设置一种样式属性用户便需发送一次相应的设置指令,从而导致的用户操作难度大,体验不佳的问题,因此本发明实施例能够降低用户的排版难度,改善用户体验不佳的问题。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种论文文档的处理方法的流程图;

图2为本发明实施例中步骤S102的一种流程示意图;

图3为本发明实施例中步骤S103的一种流程示意图;

图4为本发明实施例中步骤S104的一种流程示意图;

图5为本发明实施例中步骤S105的一种流程示意图;

图6为本发明实施例提供的另一种论文文档的处理方法的流程图;

图7为本发明实施例提供的一种论文文档的处理装置的结构示意图;

图8为本发明实施例中的第一确定模块的一种结构示意图;

图9为本发明实施例中的第二确定模块的一种结构示意图;

图10为本发明实施例中的第三确定模块的一种结构示意图;

图11为本发明实施例中的设置模块的一种结构示意图;

图12为本发明实施例提供的另一种论文文档的处理装置的结构示意图;

图13为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例提供了一种论文文档的处理方法,该过程可以包括以下步骤:

S101,获取待处理论文文档中各个段落的样式属性。

本发明实施例中,待处理论文文档可以是指用户终端上将要设置论文模板中的样式属性的论文文档,样式属性可以用于表示各段落的段落样式和字体样式,段落样式可以包括段落的编号格式、编号内容、行间距、首行缩进等;字体样式可以包括中文字号、中文字体、英文字号、英文字体等。

S102,基于样式属性中的编号样式和编号内容,将具有相同编号样式且编号内容连续的段落所组成的最大段落区间对应的部分,确定为待处理论文文档的正文部分。

其中,正文部分可以包括标题段落和文本内容段落,正文部分是待处理论文文档中主要介绍待处理论文文档主题的部分,且正文部分区别于待处理论文文档中其他部分的一个特征是正文部分存在多个层级的标题段落,而标题段落具有编号样式和编号内容这两个样式属性,因此可以基于编号样式和编号内容这两个样式属性以确定不同层级的标题段落所组成的段落区间。然而,一些非标题段落也具有编号样式和编号内容这两个样式属性,例如,参考文献部分的段落也具有编号样式和编号内容,因此会得到多个段落区间。由于正文部分是待处理论文文档中包含段落最多的一部分,所含段落越多,段落区间越大,因此可以将最大的段落区间对应的部分确定为待处理论文文档的正文部分。

S103,确定正文部分中的不同标题段落的论文元素,以及各标题段落对应的文本内容段落的论文元素。

其中,正文部分可以分为标题段落和文本内容段落,同一层级的标题段落对应一种类型的论文元素,正文部分中除标题段落以外的其他段落对应一种类型的论文元素,通过划分段落层级确定正文部分中的不同层级的标题段落的论文元素,将正文部分中除标题论文元素以外的其他段落确定为文本内容论文元素,一个论文元素用于表示论文文档中具有相同样式属性的段落。

S104,确定待处理论文文档的非正文部分的论文元素。

其中,非正文部分可以分为含有预设关键词的段落和不含预设关键词的段落,通过预先建立的不同预设关键词与不同论文元素的对应关系来确定含有预设关键词的段落的论文元素,将不含预设关键词的段落确定为该段落之前最近的论文元素的内容论文元素。上述待处理论文文档的非正文部分为待处理论文文档中除正文部分外的其他部分,包括中文摘要、英文摘要、目录、引言等内容。

S105,根据论文模板中预设的不同论文元素与不同样式属性的对应关系,为待处理论文文档中所确定的各个论文元素所对应的段落设置新的样式属性。

为待处理论文文档生成索引,在论文模板中查找与索引中的论文元素类型相同的论文元素,将该论文元素在论文模板中对应的样式属性设置到索引中论文元素对应的段落序号所在的段落上。其中,预设的不同的论文元素与不同样式属性的对应关系可以用一张表表示,示例性地,如表1所示,包括了三种类型不同的论文元素和多种样式属性,预设的不同的论文元素与不同样式属性的对应关系可以由技术人员根据实际业务需求设置,例如,中文摘要的字号可以设置为12号、15号或者22号。

表1 论文元素与样式属性对应表

作为本发明实施例一种可选的实施方式,上述步骤S101具体包括:

至少获取待处理论文文档中具有编号的段落的编号格式以及编号内容。

可以理解的是,样式属性有很多种,由于具有编号的段落的编号格式以及编号内容在后续步骤中用于确定待处理论文文档的正文部分,因此,至少要获取待处理论文文档中具有编号的段落格式以及编号内容,当然,还可以获取中文字号、英文字号、行间距等样式属性。

作为本发明实施例一种可选的实施方式,如图2所示,上述步骤S102,具体可以包括:

S1021,将具有相同编号样式且编号内容连续的段落划分至一个段落区间,得到多个段落区间。

上述具有相同编号样式且编号内容连续的段落均为标题段落,确定一个段落为标题段落的方法为:

根据样式属性,计算待处理论文文档中各个段落作为标题的预测值;根据计算得到的各个段落的预测值,在待处理论文文档各个段落中确定作为标题的段落,其中,根据样式属性,计算待处理论文文档中各个段落作为标题的预测值为现有技术,本发明实施例在此不做赘述。

将具有相同编号样式且编号内容连续的段落划分至一个段落区间,得到多个段落区间,该段落区间中包括具有相同编号样式且编号内容连续的标题段落和非标题段落,该段落区间为[标题段落中最小的段落序号,标题段落中最大的段落序号]。例如,编号1.1、1.2、1.3的编号样式相同且编号内容也连续,编号1.1、1.2、1.3所在的段落的段落序号分别为7、12、15,则段落区间就为[7,15]。

S1022,将多个段落区间中的最大段落区间对应的文本部分确定为正文部分。

各个段落区间中包含的段落数目是不一样的,包含的段落数目越多,段落区间越大,将多个段落区间中的最大段落区间对应的文本部分确定为正文部分。其中,正文部分的起始位置为最大段落区间的起始位置,正文部分的结束位置为最大段落区间后最近的含有预设关键词的位置,如果到待处理论文文档结束都不含预设关键词,则正文部分的结束位置为待处理论文文档的结束位置。

作为本发明实施例一种可选的实施方式,上述步骤S102,还可以包括:

步骤A,将具有相同编号样式且编号内容连续的段落划分至一个段落区间,得到多个段落区间。

步骤B,确定各段落区间的区间关系,区间关系分为相离、相交和包含,相交和包含统称为非相离关系。

其中,相离表示两个段落区间没有重合的部分,相交表示两个段落区间有一部分重合,包含表示一个段落区间完全在另一个段落区间内。示例性地,如果一个段落区间为[1,1],另一个段落区间为[2,2],两个区间之间没有重合的部分,则这两个区间之间的区间关系为相离;如果一个段落区间为[1,5],另一个段落区间为[2,2],第二个段落区间完全包含在第一个段落区间内,则这两个区间之间的区间关系为包含;如果一个段落区间为[1,2],另一个段落区间为[2,3]第一个段落区间与第二个段落区间重合的部分为[2,2],则两个段落区间时间的区间关系为相交。

步骤C,若第一段落区间和第二段落区间之间的区间关系为相离关系,则这两个段落区间保持不变;在得到的多个段落区间中,按各段落区间中最小的段落序号排序,第二段落区间排列在第一段落区间之后。

步骤D,若两个段落区间之间的区间关系为非相离关系,则取这两个段落区间的并集,得到新的段落区间。

例如,第一段落区间为[1,2],第二段落区间为[2,3],第一段落区间与第二段落区间存在重合的部分,则第一段落区间与第二段落区间之间的区间关系为相交,也是非相离关系,则取第一段落区间与第二段落区间的并集,得到新的段落区间为[1,3]。

步骤E,在最终得到的段落区间内获取最大段落区间,将最大段落区间确定为待处理论文文档的正文部分。

本发明实施例提供的一种论文文档的处理方法,将具有相同编号样式且编号内容连续的段落划分至一个段落区间,得到多个段落区间,将多个段落区间中最大的段落区间对应的文本部分确定为正文部分。从而将待处理论文文档分为正文部分和非正文部分,针对不同的部分,可以采用不同的方式设置样式属性,提高了对待处理论文文档设置样式属性的准确性。

作为本发明实施例一种可选的实施方式,如图3所示,上述步骤S103,具体可以包括:

S1031,将具有相同编号样式的标题段落识别为同一个层级。

可以理解的是,将具有相同编号样式的标题段落识别为同一个层级,可以得到多个层级。由于在待处理论文文档中,同一级标题论文元素的编号格式是相同的,因此,可以将具有相同编号样式的标题段落识别为同一个层级,再进一步确定不同层级对应的论文元素。

S1032,确定不同层级对应的论文元素,以及文本内容段落对应的论文元素。

获取每一层级中最小的段落序号后,可以得到一个最小段落序号组,再将最小段落序号组中最小的段落序号对应的段落的所有同级段落确定为一级标题论文元素,将第二小的段落序号对应的段落的所有同级段落确定为二级标题论文元素,上述的同级段落表示识别为同一个层级的段落,以此类推,可以确定各级标题论文元素。将正文部分中没有被确定为标题论文元素的其他段落确定为正文文本论文元素。例如,段落序号为3、7、9的标题段落为同一层级,段落序号为5、10、12的标题段落为同一层级,获取每一层级中最小的段落序号,即获取段落序号3和段落序号5,段落序号3和段落序号5组成最小段落序号组,段落序号3为最小段落序号组中最小的段落序号,则可以确定段落序号3对应段落和同级段落,即段落序号7和段落序号9对应的段落为一级标题论文元素。

本发明实施例可以将正文部分中除不同层级的标题论文元素对应的段落以外的其他段落确定为正文文本论文元素,其中,论文元素用于表示论文文档中各段落的样式属性。

作为本发明实施例一种可选的实施方式,上述步骤S1031,还可以包括:

步骤A,将具有相同样式属性的标题段落划分至一个段落组。

步骤B,根据段号以及以下表达式,确定每个段落组中每个标题段落的管理区间。

其中,管理区间可以表示正文部分每一个标题段落及与该标题相关的文本内容组成的区间。

步骤C,一个标题段落在所属段落组中存在下一相邻标题段落时,该标题段落的管理区间为:[该标题段落的段号,该标题段落在所属段落组中下一相邻标题段落的段号-1];该标题段落在所属段落组中不存在下一相邻标题段落时,该标题段落的管理区间为:[该标题段落的段号,该标题段落的段号]。

举例而言,如果一个标题段落的段号为1,而与其在同一个段落组内的下一个相邻标题段落的段号为4,则该标题段落的管理区间为[1,3];如果一个标题段落的段号为6,而在同一个段落组中,该标题段落不存在下一相邻段落,则该标题段落的管理区间为[6,6]。

步骤D,按照标题段落的段号排列顺序。

步骤E,确定第一段落的管理区间与第二段落的管理区间之间的区间关系,其中,第一段落和第二段落为:在标题段落中,按照段号排列顺序相邻的两个段落,按照段号排列顺序,第二段落排列在第一段落之后。

步骤F,在区间关系为相离关系时,判断第一段落的样式属性与第二段落的样式属性是否相同。

判断第一段落的样式属性与第二段落的样式属性是否相同,通过以下方式实现:

首先,判断第一段落和第二段落是否均有编号。

如果均有编号,则根据第一段落的编号格式和第二段落的编号格式,判断第一段落的样式属性与第二段落的样式属性是否相同。如果编号格式相同,则判断第一段落和第二段落的样式属性相同;

如果非均有编号,即第一段落和第二段落都没有编号,或者只有其中一段有编号,另一段没有,则根据段落的文本设置,判断第一段落的样式属性与第二段落的样式属性是否相同。如果段落的文本设置相同,则判断第一段落和第二段落的样式属性相同。

在一种情况中,段落的文本设置包括字号大小、是否居中和是否加粗,当字号、居中和加粗设置都相同时,即为段落的文本设置相同。

步骤G,若相同,确定第一段落和第二段落之间的层级关系为:同级段落。

步骤H,若不相同,查找相似段落,其中,相似段落为:按照段号排列顺序,所选择段落中在第一段落之前与第二段落的样式属性相同的标题段落;若存在相似段落,确定第二段落为与相似段落之间层级关系为:同级;若不存在相似段落,确定第一段落和第二段落之间的层级关系为:段号小的段落是段号大的段落的上一级段落。

在查找相似段落时,根据各个标题段落的段号,从第一段落的前一个标题段落开始,依次递归查找之前的标题段落。

步骤I,在区间关系为非相离关系时,执行查找相似段落的步骤。

若存在相似段落,则确定第二段落与相似段落之间的层级关系为:同级。

若不存在相似段落,则确定第一段落和第二段落之间的层级关系为:段号小的段落是段号大的段落的上一级段落。

作为本发明实施例一种可选的实施方式,如图4所示,上述步骤S104,具体可以包括:

S1041,针对待处理论文文档的非正文部分,按照预先建立的不同预设关键词与不同论文元素的对应关系,确定在非正文部分中所识别出的预设关键词对应的论文元素,作为该预设关键词所在段落的论文元素。

在待处理论文文档的非正文部分,其中一些段落含有预设关键词,一些段落不含预设关键词。对于含有预设关键词的段落,可以通过预先建立的不同预设关键词与不同论文元素的对应关系来确定含有预设关键词的段落的论文元素。其中,预先建立的不同预设关键词与不同论文元素的对应关系可以用一张表来表示,如表2所示,预先建立的不同预设关键词与不同论文元素的对应关系可以由技术人员根据实际业务需求设置,例如,中文摘要两个字这个论文元素对应的预设关键词可以设置为摘要、内容提要或者内容梗概。

遍历待处理论文文档全文,查找表2中的预设关键词,确定查找到的预设关键词在表中所对应的论文元素,将该论文元素作为该预设关键词所在段落的论文元素。

表2 论文元素和预设关键词对应表

S1042,确定该预设关键词所在段落的下一段落对应的论文元素。

对于非正文部分中不含预设关键词的段落,则可以查找该段落之前最近的含有预设关键词的论文元素,将该不含预设关键词的段落确定为查找到的论文元素的内容论文元素,例如,一个段落不含预设关键词,查找到该段落之前最近的含有预设关键词的论文元素为“引言”2个字论文元素,则将该不含预设关键词的段落确定为引言内容论文元素。

作为本发明实施例一种可选的实施方式,如图5所示,上述步骤S105,具体可以包括:

S1051,为待处理论文文档生成索引。

本发明实施例中的索引可以表示待处理论文文档中段落序号与不同论文元素的对应关系,段落序号为段落在待处理论文文档所有段落中按顺序排列的序号。如表3所示,表3是正文标题论文元素与段落序号对应关系的示例,索引表中可以包括段落序号和论文元素类型,一种论文元素类型可对应多个段落序号。

表3 论文元素与段落序号索引表

S1052,在论文模板中查找第一论文元素。

在待处理论文文档中,按段落序号依次获取各个段落序号在索引中对应的论文元素类型,然后再在论文模板中查找第一论文元素,其中,第一论文元素为与索引中记录的论文元素类型相同的论文元素。

S1053,获取第一论文元素的第一样式属性。

根据论文模板中预设的论文元素与样式属性对应表,获取上述查找到第一论文元素对应的样式属性,其中,第一样式属性为第一论文元素在论文模板中对应的样式属性。

S1054,根据第一样式属性,确定第二样式属性。

其中,第二样式属性为索引中论文元素的样式属性,第二样式属性可以与第一样式属性相同。

S1055,将第二样式属性设置到与索引中论文元素对应的段落序号所在的段落上。

在待处理论文文档生成的索引中,确认要设置第二样式属性的论文元素对应的段落序号,将第二样式属性设置到所确定的段落序号所在的段落上。

本发明实施例提供的一种论文文档的处理方法,获取待处理论文文档中各个段落的样式属性,基于样式属性中的编号样式和编号内容,将具有相同编号样式且编号内容连续的段落所组成的最大段落区间对应的部分,确定为待处理论文文档的正文部分,再确定正文部分中的不同标题段落的论文元素,以及各标题段落对应的文本内容段落的论文元素,然后确定待处理论文文档的非正文部分的论文元素,根据论文模板中预设的不同论文元素与不同样式属性的对应关系,为待处理论文文档中所确定的各个论文元素所对应的段落设置新的样式属性。由于用户只需要发送一次设置指令,待处理论文文档就可以根据设置指令设置自身各段落的样式属性,从而避免了每设置一种样式属性用户便需发送一次相应的设置指令,从而导致的用户操作难度大,体验不佳的问题,因此本发明实施例能够降低用户的排版难度,改善用户体验不佳的问题。

如图6所示,本发明实施例还提供了一种论文文档的处理方法,该方法可以包括:

S201,获取待处理论文文档中各个段落的样式属性。

该步骤与图1所示实施例中的步骤S101相同,在此不再赘述。

S202,基于样式属性中的编号样式和编号内容,将具有相同编号样式且编号内容连续的段落所组成的最大段落区间对应的部分,确定为待处理论文文档的正文部分。

该步骤与图1所示实施例中的步骤S102相同,在此不再赘述。

S203,确定正文部分中的不同标题段落的论文元素,以及各标题段落对应的文本内容段落的论文元素。

该步骤与图1所示实施例中的步骤S103相同,在此不再赘述。

S204,确定待处理论文文档的非正文部分的论文元素。

该步骤与图1所示实施例中的步骤S104相同,在此不再赘述。

S205,建立空白文档。

S206,将待处理论文文档内容复制到空白文档中,空白文档中包含索引。

可以理解的是,将待处理论文文档复制到空白文档中,得到一个新的待处理论文文档,接下来设置样式属性的步骤都在新的待处理论文文档中进行,而原待处理论文文档各段落的样式属性都保持不变。在用户想要保留原待处理论文文档的样式属性时,就可以生成一个新的待处理论文文档,对新的待处理论文文档设置样式属性。

S207,根据论文模板中预设的不同论文元素与不同样式属性的对应关系,为待处理论文文档中所确定的各个论文元素所对应的段落设置新的样式属性。

该步骤与图1所示实施例中的步骤S105相同,在此不再赘述。

本发明实施例提供的一种论文文档的处理方法,通过建立新的空白文档,并且将待处理论文文档复制到了空白文档中,得到一个新的待处理论文文档,该新待处理论文文档中包含索引,设置样式属性的步骤可以在新待处理论文文档中进行,而不用对原待处理论文文档的样式属性,从而保留原待处理论文文档的样式属性,改善用户体验。

如图7所示,本发明实施例还提供了一种论文文档的处理装置,包括:

获取模块301,用于获取待处理论文文档中各个段落的样式属性,样式属性用于表示各段落的段落样式和字体样式。

第一确定模块302,用于基于样式属性中的编号样式和编号内容,将具有相同编号样式且编号内容连续的段落所组成的最大段落区间对应的部分,确定为待处理论文文档的正文部分,正文部分中包括:标题段落和文本内容段落。

第二确定模块303,用于确定正文部分中的不同标题段落的论文元素,以及各标题段落对应的文本内容段落的论文元素;其中,一个论文元素用于表示论文文档中具有相同样式属性的段落。

第三确定模块304,用于确定待处理论文文档的非正文部分的论文元素,非正文部分为待处理论文文档中除正文部分外的其他部分。

设置模块305,用于根据论文模板中预设的不同论文元素与不同样式属性的对应关系,为待处理论文文档中所确定的各个论文元素所对应的段落设置新的样式属性。

作为本发明实施例一种可选的实施方式,上述第一确定模块301,具体用于:

至少获取待处理论文文档中具有编号的段落的编号格式以及编号内容。

作为本发明实施例一种可选的实施方式,如图8所示,上述第一确定模块302包括:

划分子模块3021,用于将具有相同编号样式且编号内容连续的段落划分至一个段落区间,得到多个段落区间。

第一确定子模块3022,用于将多个段落区间中的最大段落区间对应的文本部分确定为正文部分;其中,正文部分的起始位置为最大段落区间的起始位置,正文部分的结束位置为最大段落区间后最近的含有预设关键词的位置。

作为本发明实施例一种可选的实施方式,如图9所示,上述第二确定模块303包括:

识别子模块3031,用于将具有相同编号样式的标题段落识别为同一个层级。

第二确定子模块3032,用于确定不同层级对应的论文元素,以及文本内容段落对应的论文元素;论文元素用于表示论文文档中各段落的样式属性。

作为本发明实施例一种可选的实施方式,如图10所示,上述第三确定模块304包括:

第三确定子模块3041,用于针对待处理论文文档的非正文部分,按照预先建立的不同预设关键词与不同论文元素的对应关系,确定在非正文部分中所识别出的预设关键词对应的论文元素,作为该预设关键词所在段落的论文元素。

第四确定子模块3042,用于确定该预设关键词所在段落的下一段落对应的论文元素。

作为本发明实施例一种可选的实施方式,如图11所示,上述设置模块305包括:

生成子模块3051,用于为待处理论文文档生成索引,索引表示待处理论文文档中段落序号与不同论文元素的对应关系,段落序号为段落在待处理论文文档所有段落中按顺序排列的序号。

查找子模块3052,用于在论文模板中查找第一论文元素,第一论文元素为与索引中记录的论文元素类型相同的论文元素。

获取子模块3053,用于获取第一论文元素的第一样式属性,第一样式属性为第一论文元素在论文模板中对应的样式属性。

第五确定子模块3054,用于根据第一样式属性,确定第二样式属性,第二样式属性为索引中论文元素的样式属性。

设置子模块3055,用于将第二样式属性设置到与索引中论文元素对应的段落序号所在的段落上。

作为本发明实施例一种可选的实施方式,在图7所示装置结构的基础上,如图12所示,本发明实施例的一种论文文档的处理装置还可以包括:

建立模块401,用于建立空白文档。

复制模块402,用于将待处理论文文档内容复制到空白文档中,空白文档中包含索引。

本发明实施例提供的一种论文文档的处理装置,获取待处理论文文档中各个段落的样式属性,基于样式属性中的编号样式和编号内容,将具有相同编号样式且编号内容连续的段落所组成的最大段落区间对应的部分,确定为待处理论文文档的正文部分,再确定正文部分中的不同标题段落的论文元素,以及各标题段落对应的文本内容段落的论文元素,然后确定待处理论文文档的非正文部分的论文元素,根据论文模板中预设的不同论文元素与不同样式属性的对应关系,为待处理论文文档中所确定的各个论文元素所对应的段落设置新的样式属性。由于用户只需要发送一次设置指令,待处理论文文档就可以根据设置指令设置自身各段落的样式属性,从而避免了每设置一种样式属性用户便需发送一次相应的设置指令,从而导致的用户操作难度大,体验不佳的问题,因此本发明实施例能够降低用户的排版难度,改善用户体验不佳的问题。

本发明实施例还提供了一种电子设备,如图13所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,存储器503,用于存放计算机程序;

处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:

获取待处理论文文档中各个段落的样式属性;

基于样式属性中的编号样式和编号内容,将具有相同编号样式且编号内容连续的段落所组成的最大段落区间对应的部分,确定为待处理论文文档的正文部分;

确定正文部分中的不同标题段落的论文元素,以及各标题段落对应的文本内容段落的论文元素;

确定待处理论文文档的非正文部分的论文元素;

根据论文模板中预设的不同论文元素与不同样式属性的对应关系,为待处理论文文档中所确定的各个论文元素所对应的段落设置新的样式属性。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供的一种电子设备,获取待处理论文文档中各个段落的样式属性,基于样式属性中的编号样式和编号内容,将具有相同编号样式且编号内容连续的段落所组成的最大段落区间对应的部分,确定为待处理论文文档的正文部分,再确定正文部分中的不同标题段落的论文元素,以及各标题段落对应的文本内容段落的论文元素,然后确定待处理论文文档的非正文部分的论文元素,进而根据论文模板中预设的不同论文元素与不同样式属性的对应关系,为待处理论文文档中所确定的各个论文元素所对应的段落设置新的样式属性。由于用户只需要发送一次设置指令,待处理论文文档就可以根据设置指令设置自身各段落的样式属性,从而避免了每设置一种样式属性用户便需发送一次相应的设置指令,从而导致的用户操作难度大,体验不佳的问题,因此本发明实施例能够降低用户的排版难度,改善用户体验不佳的问题。

在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述任一一种论文文档的处理方法的步骤。

本发明实施例提供的一种计算机可读存储介质,获取待处理论文文档中各个段落的样式属性,基于样式属性中的编号样式和编号内容,将具有相同编号样式且编号内容连续的段落所组成的最大段落区间对应的部分,确定为待处理论文文档的正文部分,再确定正文部分中的不同标题段落的论文元素,以及各标题段落对应的文本内容段落的论文元素,然后确定待处理论文文档的非正文部分的论文元素,根据论文模板中预设的不同论文元素与不同样式属性的对应关系,为待处理论文文档中所确定的各个论文元素所对应的段落设置新的样式属性。由于用户只需要发送一次设置指令,待处理论文文档就可以根据设置指令设置自身各段落的样式属性,从而避免了每设置一种样式属性用户便需发送一次相应的设置指令,从而导致的用户操作难度大,体验不佳的问题,因此本发明实施例能够降低用户的排版难度,改善用户体验不佳的问题。

对于装置/存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,本发明实施例的装置及存储介质分别是应用上述一种论文文档的处理方法的装置及存储介质,则上述一种论文文档的处理方法的所有实施例均适用于该装置及存储介质,且均能达到相同或相似的有益效果。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号