首页> 中文学位 >基于多重构件的程序摘要自动生成方法研究
【6h】

基于多重构件的程序摘要自动生成方法研究

代理获取

目录

声明

第一章 绪论

1.1 研究背景

1.2 研究意义

1.3 国内外研究现状

1.4 主要研究内容及关键问题

1.5 论文的组织结构

1.6 本章小结

第二章 相关理论介绍

2.1 软件词汇化模型简介

2.2 骆驼拼写法

2.2.1骆驼拼写法简介

2.2.2骆驼拼写法分析

2.3 余弦相似性算法

2.3.1余弦相似性简介

2.3.2余弦相似性分析

2.4 本章小结

第三章 基于完整划分规则的预处理构件

3.1 预处理构件

3.1.1直接型语句

3.1.3特殊型语句

3.2 实验及结果分析

3.2.1实验设置

3.2.2评价指标和方法

3.2.3实验及结果分析

3.3 本章小结

第四章 基于优化自然语言模板的内处理构件

4.1 内处理构件

4.2 实验及结果分析

4.2.1实验设置

4.2.2评价指标和方法

4.2.3实验及结果分析

4.3 本章小结

第五章 基于排序优化算法的外处理构件

5.1 语句权重值计算

5.1.1主题权重值计算

5.1.2语句类型权重值

5.1.3语句排序算法

5.2 语句相似性计算

5.2.1余弦相似性计算

5.2.2语句优化算法

5.3 实验及结果分析

5.3.1实验设置

5.3.2评价指标和方法

5.3.3实验过程

5.3.4实验及结果分析

5.4 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

攻读硕士学位期间的主要工作

致谢

展开▼

摘要

当前,网络技术呈现出迅猛的发展态势,由此带来各式各样的应用软件。这些软件涵盖了人们生活的各个方面。不论是传统信息交流的方式,还是传统购物的方式等都发生了重大的变化,可以肯定的是,这些应用软件在未来的生活中将扮演着越来越重要的角色。为了提高应用软件的质量,程序人员通常会对应用软件进行定期维护,而在这个过程中需要花费大量的时间去查看和阅读源代码,尤其是当源代码中夹杂着一些晦涩难懂的标识符时,想要快速精准的理解源代码段的含义几乎是不现实的。研究表明,大多数的自然语言描述是由程序员手动添加完成,人工为源代码撰写相应的自然语言描述较为简洁且逻辑性高。然而,手动为大量源代码添加注释同样需要耗费大量的时间且难度较高,事实上这就要求程序维护人员事先必须深度掌握这些源代码的含义。因此,可行化的方式是自动生成源代码的自然语言形式的程序摘要。一些现有方法能够自动生成有意义的源代码注释来解释源代码的意图以帮助程序人员合理解释源代码的含义,但其生成的源代码注释无法准确表达出整个源代码段的含义,特别是一些方法将关键语句定义为源代码段的核心,这将导致仅从部分关键语句中所提供的摘要信息难以表达出整个源代码段真正的含义和整体语义。此外,与人工添加的程序摘要方式相比,自动化生成的程序摘要缺乏较高的逻辑性,并且包含较多的冗余信息,从而降低了程序代码的可读性。 针对上述问题,本论文提出了一种基于多重构件的程序摘要自动生成方法,输入给定程序代码,经过三个设计算法功能模块(本文称之为构件,各构件之间使用接口传输数据)的顺序处理,生成相应的整段程序功能的摘要描述。本文的主要研究内容及其对应的解决方案包括以下几个方面: (1)针对从部分关键语句的分析中难以生成能够表达出整个源代码段含义的问题,提出一种基于预处理构件的全段源代码的划分规则,在确保重要信息保留的同时兼顾所有源代码的信息,同时基于内处理构件构建新的自然语言模板,用于填充代码特性信息,优先生成程序行摘要语句。此外,根据划分规则划分出的各类语句设定类型权重值,作为计算程序行语句权重值的重要因素之一; (2)自动化生成的程序摘要缺乏较高的逻辑性且冗余信息较多,针对这个问题,提出一种基于外处理构件的语句权重值计算方法,对生成程序行摘要语句进行优先级排序;确保生成的程序段摘要具有较高的逻辑性,符合人类阅读习惯和规范,同时基于该构件提出一种余弦相似性度量方法,对冗余信息进行优化合并,使得基于该策略生成的程序语句具有较高的准确率和简洁性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号