首页> 中国专利> 一种英语作文内容切题分析方法

一种英语作文内容切题分析方法

摘要

一种英语作文内容切题分析方法,其特征是:第一,通过英语作文切题分析训练模块对作文范文集、训练作文集进行训练处理,构建英语作文切题度分析标准;第二,英语作文切题分析评分模块对待批作文进行分析处理,根据英语作文切题度分析标准,通过计算出待批作文切题度来判断待批作文是否切题。

著录项

  • 公开/公告号CN104778160A

    专利类型发明专利

  • 公开/公告日2015-07-15

    原文格式PDF

  • 申请/专利权人 桂林电子科技大学;

    申请/专利号CN201510204370.1

  • 发明设计人 黄桂敏;杨国花;周娅;

    申请日2015-04-27

  • 分类号G06F17/27(20060101);

  • 代理机构45112 桂林市华杰专利商标事务所有限责任公司;

  • 代理人罗玉荣

  • 地址 541004 广西壮族自治区桂林市七星区金鸡路1号

  • 入库时间 2023-12-18 09:52:52

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-12-13

    专利实施许可合同备案的生效 IPC(主分类):G06F17/27 专利申请号:2015102043701 专利号:ZL2015102043701 合同备案号:X2022450000190 让与人:桂林电子科技大学 受让人:桂林瑞威赛德科技有限公司 发明名称:一种英语作文内容切题分析方法 申请日:20150427 申请公布日:20150715 授权公告日:20171024 许可种类:普通许可 备案日期:20221125

    专利实施许可合同备案的生效、变更及注销

  • 2017-10-24

    授权

    授权

  • 2015-08-12

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20150427

    实质审查的生效

  • 2015-07-15

    公开

    公开

说明书

(一)技术领域

本发明涉及自然语言处理技术、英语作文内容分析技术,具体是一种英语作文内容是否切 题的分析方法。

(二)背景技术

传统的文本分析方法主要有潜在语义分析方法、概率潜在语义分析方法和潜在狄利克雷分 布方法。潜在语义分析方法是一种能够分析词之间内在语义联系的方法,它在文本和词之间加 入了一个语义维度。然而,随着概率统计方法的出现,概率潜在语义分析方法取代了潜在语义 分析方法成为文本分析的新方法。但是,概率潜在语义分析方法对训练文本集之外的文本分析 较难获得准确分析结果。因此,在概率潜在语义分析方法的基础上,人们又提出了潜在狄利克 雷分布方法。潜在狄利克雷分布是一种有监督的主题分析方法,它在分析文本内容与主题关系 时,用于训练文本要求具有相同的主题,当用相同主题的训练文本来分析其他主题文本时,难 以得到文本内容与主题是否相关的准确分析结果。因此,在实际英语教学中分析英语作文内容 是否切题,需要一种英语作文内容切题分析方法,通过它来分析英语作文内容是否切题和英语 作文内容的切题度,这对提高英语作文自动批阅水平具有重要的现实意义。

(三)发明内容

英语作文内容是作者按照作文题目与写作要求,用正确的英语语言阐述自己思想与观点的 文字表达,作文主题是作文题目与作文写作要求的总称,即作文内容所需要表达的思想与论述。 本发明的目的是提供一种英语作文内容切题分析方法,即分析作文内容是否围绕作文主题进行 阐述作者的思想。该分析方法包括英语作文切题分析训练模块、英语作文切题分析评分模块, 其总体流程如图1所示,其处理流程是:第一,通过英语作文切题分析训练模块对作文范文集、 训练作文集进行训练处理,构建英语作文切题度分析标准;第二,英语作文切题分析评分模块 对待批作文进行分析处理,根据英语作文切题度分析标准,通过计算出待批作文切题度来判断 待批作文是否切题。本发明分析方法的英语作文切题分析训练模块、英语作文切题分析评分模 块计算公式定义如下:

(1)训练作文内容主题概率分布计算公式

训练作文内容主题概率分布是指训练作文内容在其主题上的概率分布,它的计算公式如 下:

在公式(1)中,|训练作文i分配给主题j特征词数+主题抽样数|ij是一个i行j列的矩阵, 是一个i行的矩阵,i=1,2,…,n, j=1,2,…,k;特征词是作文内容中与作文主题相关的单词;训练作文i是训练作文集中第i 篇训练作文,训练作文集的训练作文总数是n;主题j是训练作文集与作文范文集中第j个作 文主题,主题数是指训练作文集与作文范文集的作文主题总数,取值是k;主题抽样数是训练 作文内容主题概率分布的对称狄利克雷分布,取值是0.1。

(2)训练作文主题特征词概率分布计算公式

训练作文主题特征词概率分布是指训练作文主题在特征词上的概率分布,它的计算公式如 下:

在公式(2)中,|训练作文特征词i分配给主题j次数+特征词抽样数|ij是一个i行j列的矩 阵,是一个j列的矩阵,i=1, 2,…,m,j=1,2,…,k;特征词是作文内容中与作文主题相关的单词;训练作文特征词i是训练作文中出现的训练作文与作文范文集中第i个特征词,训练作文与作文范文集的特征词 总数是m;特征词数是指训练作文集与作文范文集的特征词总数,取值是m;特征词抽样数是 训练作文主题特征词概率分布的对称狄利克雷分布,取值是0.01;主题j是训练作文集与作文 范文集中第j个作文主题,主题数是指训练作文集与作文范文集的作文主题总数,取值是k。

(3)作文范文内容主题概率分布计算公式

作文范文内容主题概率分布是指作文范文内容在其主题上的概率分布,它的计算公式如 下:

在公式(3)中,|作文范文i分配给主题j特征词数+主题抽样数|ij是一个i行j列的矩阵, 是一个i行的矩阵,i=1,2,…,z, j=1,2,…,k;特征词是作文内容中与作文主题相关的单词;作文范文i是作文范文集中第i 篇作文范文,作文范文集的作文范文总数是z;如果输入是训练作文集与作文范文集,主题j是训练作文集与作文范文集中第j个作文主题,主题数是指训练作文集与作文范文集的作文主 题总数,取值是k;如果输入是待批作文集与作文范文集,主题j是待批作文集与作文范文集 中第j个作文主题,主题数是指待批作文集与作文范文集的作文主题总数,取值是k;主题抽 样数是作文范文内容主题概率分布的对称狄利克雷分布,取值是0.1。

(4)基于训练作文的作文范文主题特征词概率分布计算公式

基于训练作文的作文范文主题特征词概率分布是指以训练作文与作文范文特征词数为基 础,来计算作文范文主题在特征词上的概率分布,它的计算公式如下:

在公式(4)中,|作文范文特征词i分配给主题j次数+特征词抽样数|ij是一个i行j列的矩 阵,是一个j列的矩阵, i=1,2,…,r,j=1,2,…,k;作文范文特征词i是作文范文中出现的训练作文与作文范文 集中第i个特征词,训练作文与作文范文集特征词总数是r;主题j是训练作文集与作文范文 集中第j个作文主题,训练作文集与作文范文集的作文主题总数是k;特征词是作文内容中与 作文主题相关的单词;特征词数是指训练作文与作文范文集的特征词总数,取值是r;特征词 抽样数是作文范文内容主题概率分布的对称狄利克雷分布,取值是0.01。

(5)训练作文切题判断值计算公式

训练作文切题判断值是指从训练作文内容主题概率分布中查找出训练作文最大主题,来判 断训练作文内容是否围绕作文主题进行阐述作者的思想,它的计算公式如下:

在公式(5)中,训练作文最大主题是指公式(1)计算出的训练作文内容主题概率分布最 大的训练作文主题,作文范文最大主题是指公式(3)计算出的作文范文内容主题概率分布最 大的作文范文主题。

(6)训练作文切题度计算公式

训练作文切题度是指训练作文内容与其作文主题要求的接近程度,它的计算公式如下:

在公式(6)中,主题j是训练作文集与作文范文集中第j个作文主题,作文范文i是作 文范文集中第i篇作文范文;训练作文集与作文范文集的作文主题总数是k,作文范文集的 作文范文总数是z;训练作文切题度取值范围在0到2之间,如果训练作文内容越切题,则 训练作文切题度值就越大;如果训练作文内容完全不切题时,则训练作文切题度值为0;如 果训练作文内容完全切题时,则训练作文切题度值为2。

(7)基于待批作文的作文范文主题特征词概率分布计算公式

基于待批作文的作文范文主题特征词概率分布是指以待批作文与作文范文特征词数为基 础,来计算作文范文主题在特征词上的分布概率,它的计算公式如下:

在公式(7)中,|作文范文特征词i分配给主题j次数+特征词抽样数|ij是一个i行j列的矩 阵,是一个j列的矩阵,i=1, 2,…,r,j=1,2,…,k;作文范文特征词i是作文范文中出现的待批作文与作文范文集中 第i个特征词,待批作文与作文范文集特征词总数是r;主题j是待批作文集与作文范文集中 第j个作文主题,待批作文集与作文范文集的作文主题总数是k;特征词是作文内容中与作文 主题相关的单词;特征词数是指待批作文与作文范文集的特征词总数,取值是r;特征词抽样 数是作文范文内容主题概率分布的对称狄利克雷分布,取值是0.01。

(8)待批作文内容主题概率分布计算公式

待批作文内容主题概率分布是指待批作文内容在其主题上的概率分布,它的计算公式如 下:

在公式(8)中,|待批作文i分配给主题j特征词数+主题抽样数|ij是一个i行j列的矩阵, 是一个i行的矩阵,i=1,2,…,u, j=1,2,…,k;待批作文i是待批作文集中第i篇待批作文,待批作文集的待批作文总数是u; 主题j是待批作文集与作文范文集中第j个作文主题,主题数是指待批作文集与作文范文集的 作文主题总数,取值是k;特征词是作文内容中与作文主题相关的单词;主题抽样数是待批作 文内容主题概率分布的对称狄利克雷分布,取值是0.1。

(9)待批作文主题特征词概率分布计算公式

待批作文主题特征词概率分布是指待批作文主题在特征词上的概率分布,它的计算公式如 下:

在公式(9)中,|待批作文特征词i分配给主题j次数+特征词抽样数|ij是一个i行j列的矩 阵,是一个j列的矩阵,i=1, 2,…,r,j=1,2,…,k;待批作文特征词i是待批作文中出现的待批作文与作文范文集中 第i个特征词,待批作文与作文范文集的特征词总数是v;主题j是待批作文集与作文范文集 中第j个作文主题,待批作文集与作文范文集的作文主题总数是k;特征词是作文内容中与作 文主题相关的单词;特征词数是指待批作文与作文范文集的特征词总数,取值是v;特征词抽 样数是待批作文主题特征词概率分布的对称狄利克雷分布,取值是0.01。

(10)待批作文切题判断值计算公式

待批作文切题判断值是指从待批作文内容主题概率分布中查找出待批作文最大主题,来判 断待批作文内容是否围绕作文主题进行阐述作者的思想,它的计算公式如下:

在公式(10)中,待批作文最大主题是指公式(8)计算出的待批作文内容主题概率分布 最大的待批作文主题,作文范文最大主题是指公式(3)计算出的作文范文内容主题概率分布 最大的作文范文主题。

(11)待批作文切题度计算公式

待批作文切题度是指待批作文内容与其作文主题的接近程度,它的计算公式如下:

在公式(11)中,主题j是待批作文集与作文范文集中第j个作文主题,作文范文i是作 文范文集中第i篇作文范文;待批作文集与作文范文集的作文主题总数是k,作文范文集的作 文范文总数是z;待批作文切题度取值范围在0到2之间,如果待批作文内容越切题,则待批 作文切题度值就越大;如果待批作文内容完全不切题时,则待批作文切题度值为0;如果待批 作文内容完全切题时,则待批作文切题度值为2。

(四)具体步骤

本发明分析方法的英语作文切题分析训练模块、英语作文切题分析评分模块处理流程如下 所述。

如图2所示,所述的英语作文切题分析训练模块处理流程如下:

S0201开始;

S0202读入作文范文集;

S0203读入训练作文集;

S0204去除作文范文集和训练作文集中的停用词、标点、缩写词;

S0205计算训练作文集和作文范文集中特征词的主题概率分布;

S0206设置最大迭代次数;

S0207如果迭代次数大于最大迭代次数,则转S0211操作;

S0208根据公式(1)计算训练作文内容主题概率分布,公式(2)计算训练作文主题特征 词概率分布,公式(3)计算作文范文内容主题概率分布,公式(4)计算基于训练作文的作文 范文主题特征词概率分布;

S0209计算训练作文内容主题概率分布与训练作文主题特征词概率分布的乘积,计算作文 范文内容主题概率分布与作文范文主题特征词概率分布的乘积;

S0210迭代次数增加1,转S0207;

S0211保存训练作文内容主题概率分布、训练作文主题特征词概率分布、作文范文内容主 题概率分布、基于训练作文的作文范文主题特征词概率分布;

S0212从训练作文内容主题概率分布中找出训练作文最大主题,从作文范文内容主题概率 分布中找出作文范文最大主题;

S0213根据公式(5)计算训练作文切题判断值;

S0214根据公式(6)计算训练作文切题度;

S0215分析计算出的训练作文切题判断值、训练作文切题度与训练作文人工切题判断值、 训练作文人工切题度的一致性得到英语作文切题度分析标准;

S0216输出英语作文切题度分析标准;

S0217结束。

如图3所示,所述的英语作文切题分析评分模块处理流程如下:

S0301开始;

S0302读入作文范文集;

S0303读入待批作文;

S0304去除作文范文集和待批作文中的停用词、标点、缩写词;

S0305计算待批作文和作文范文集中特征词的主题概率分布;

S0306设置最大迭代次数;

S0307如果迭代次数大于最大迭代次数,则转S0311操作;

S0308根据公式(7)计算待批作文内容主题概率分布,公式(8)计算待批作文主题特征 词概率分布,公式(3)计算作文范文内容主题概率分布,公式(9)计算基于待批作文的作文 范文主题特征词概率分布;

S0309计算待批作文内容主题概率分布与待批作文主题特征词概率分布的乘积,计算作文 范文内容主题概率分布与作文范文主题特征词概率分布的乘积;

S0310迭代次数增加1;

S0311保存待批作文内容主题概率分布、待批作文主题特征词概率分布、作文范文内容主 题概率分布、基于待批作文的作文范文主题特征词概率分布;

S0312从待批作文内容主题概率分布中找出待批作文最大主题,从作文范文内容主题概率 分布中找出作文范文最大主题;

S0313根据公式(10)计算待批作文切题判断值;

S0314根据公式(11)计算训练作文切题度;

S0315输出待批作文切题结果;

S0316结束。

(四)附图说明

图1是本发明方法的总体处理流程图;

图2是本发明方法的英语作文切题分析训练模块处理流程图;

图3是本发明方法的英语作文切题分析评分模块处理流程图。

(五)具体实施方式

本发明的一种英语作文内容切题分析方法的具体实施方式分为如下两个步骤。

第一步骤:执行“英语作文切题分析训练模块”

一、输入的作文范文集、训练作文集取材于中国学习者英语语料库中的英语作文。本发明 实施方式中作文范文的题目均为“My View on Job-Hopping”,但不是对本发明的限定,其他 题目的作文范文亦可。本实施方式输入的训练作文的题目包括“My View on Job-Hopping”、 “Haste Makes Waste”。且本实施方式作文主题为:

主题1:view、job-hopping、people、enjoy、taking

主题2:perseverance、child、view、job-hopping、people

主题3:view、job-hopping、exercise、work、confidence

主题4:view、job-hopping、people、enjoy、taking

主题5:changing、excellently、view、job-hopping、people

主题6:job、people、view、change、job-hopping

主题7:job、devote、feel、view、job-hopping

主题8:job、challenges、good、view、job-hopping

主题9:life、jobs、people、likes、whatever

主题10:makes、haste、waste、reason、quickly

当输入的训练作文的题目为“My View on Job-Hopping”时,实施结果如下所述:

(1)输入作文范文集、训练作文,其中一篇英语作文内容如下所示:

My View on Job-Hopping

Some people enjoy taking up one job all their life.Because they think that it can  exercise their perseverance.Another reason is that someone has a wish that he want  to devote himself to one job which he likes best from a child.Others do the work all  the time only because of their characters.

However,some people like changing their jobs because that they like challenges. They always have confidence that they can finish any work by their efforts.

My view on job-hopping is that whatever jobs you do,you should like them.If you  want to do a job excellently,you must be interested in it at first.Without interests, you can not devote yourself on it.Then,you certainly can not do it well.But,when  you put your hearts on the job,you will find it so good,and you will feel that your  life is also lively.

(2)去除输入的英语作文中的停用词、标点、缩写词后,生成的作文内容如下所示:

view job-hopping people enjoy taking job life exercise perseverance reason wish  devote job likes best child work time characters people changing jobs challenges  confidence finish work efforts view job-hopping whatever jobs job excellently  interested interests devote well put hearts job find good feel life lively

(3)对输入的去除停用词、标点、缩写词后的作文范文集、训练作文进行迭代处理,生 成的训练作文内容主题概率分布、作文范文内容主题概率分布如下所示:

生成的训练作文主题特征词概率分布、范文作文主题特征词概率分布如下所示,训练作文 主题特征词概率分布、范文作文主题特征词概率分布太多,无法一一列举,下面只列出部分训 练作文主题特征词概率分布、作文范文主题特征词概率分布的内容,其余的训练作文主题特征 词概率分布、作文范文主题特征词概率分布用省略号代替:

(3)由训练作文内容主题概率分布查找训练作文最大主题,由作文范文内容主题概率分 布查找作文范文最大主题,结果如下所示:

训练作文最大主题是:主题6

作文范文最大主题是:主题6

(4)计算训练作文切题判断值

根据公式(5)计算训练作文切题判断值,由于训练作文最大主题与作文范文最大主题相 同,所以计算结果为训练作文切题判断值为1,即训练作文切题。

(5)根据公式(6),由训练作文内容主题概率分布、作文范文内容主题概率分布,计算 训练作文切题度,计算结果为:

训练作文切题度:1.6458646966570719

二、当输入的训练作文的题目为“Haste Makes Waste”时,实施结果如下所述:

(1)输入作文范文集、训练作文,其中一篇英语作文内容如下所示:

Haste Makes Waste

As a proverb say:Haste Makes Waste.It's quite clear that a haste people can't  make achievement because he hasn't prepared enough.It is known to all of us.No one  can deny the proverb.Haste makes waste.For example:a very young baby,as we all  know,can't walk very well.He walks slowly.He throws himself to the ground now and  then.However,his mother let him run to her.He can't reach to her without any help. Every one learns to walk in childhood.No one can deny it cost him many time to walk  well,much more time to run.From the above we can conclude that without preparing

can't make a success.I have the opinion that haste makes waste.So we  should think it over before we begin it.Don't you think so?

(2)去除输入的英语作文中的停用词、标点、缩写词后,生成的作文内容如下所示:

haste makes waste proverb say haste makes waste quite clear haste people make  achievement because prepared enough known deny the proverb haste makes waste example  young baby walk walks slowly throws ground however mother let run reach without help  learns walk childhood deny cost time walk well more time run conclude without preparing  make success opinion haste makes waste think begin think

(3)对输入的去除停用词、标点、缩写词后的作文范文集、训练作文进行迭代处理,生 成的训练作文内容主题概率分布、作文范文内容主题概率分布如下所示:

生成的训练作文主题特征词概率分布、范文作文主题特征词概率分布如下所示,训练作文 主题特征词概率分布、范文作文主题特征词概率分布太多,无法一一列举,下面只列出部分训 练作文主题特征词概率分布、作文范文主题特征词概率分布的内容,其余的训练作文主题特征 词概率分布、作文范文主题特征词概率分布用省略号代替:

(3)由训练作文内容主题概率分布查找训练作文最大主题,由作文范文内容主题概率分 布查找作文范文最大主题,结果如下所示:

训练作文最大主题是:主题10

作文范文最大主题是:主题7

(4)计算训练作文切题判断值

根据公式(5)计算训练作文切题判断值,由于训练作文最大主题与作文范文最大主题不 相同,所以计算结果为训练作文切题判断值为0,即训练作文跑题。

(5)根据公式(6),由训练作文内容主题概率分布、作文范文内容主题概率分布计算训 练作文切题度,计算结果为:

训练作文切题度:0.025421879261034

三、分析计算出的训练作文集中每篇训练作文的训练作文切题判断值、训练作文切题度与 训练作文人工切题判断值、训练作文人工切题度的一致性得到英语作文切题度分析标准。

第二步骤:执行“英语作文切题分析评分模块”

英语作文切题分析评分模块是利用上述第一步骤生成的英语作文切题度分析标准,对待批 作文进行切题分析,最后输出待批作文切题分析的结果。

(1)下面是一篇题目是“My View on Job-Hopping”的输入待批作文:

My View on Job-Hopping

In these days,we may change our jobs constantly for all kinds of reasons.But do  people like it?Here are some news.

Someone like do one job all along.They think that doing one job for long time,they  may get lots of experience from it and do it better and better.More important is that  workmates are familiar to each other.However,someone change their jobs constantly. They think that only do many jobs,can they find which one they like most and they  may have more skills,meet more people and know more.

I think if you like your jobs.You may go on with it,it is good for your future. If you disgust it,you may change it and look for better ones.But be careful,you  must do everything from the very beginning when you get a new one.

对待批作文进行切题分析,分析结果如下所示:

待批作文最大主题:主题6

作文范文最大主题:主题6

待批作文切题判断值为:1

待批作文切题度为:1.7093883624062147。

(2)下面是一篇题目是“Haste Makes Waste”的输入待批作文:

Haste Makes Waste

In China there is a proverb:Haste makes waste.It means if you want something to  be done quickly,however,it would work slowly;if you want to make something done  better,but it would be worse.Why people think haste makes waste?The reason is that, when someone plans to do something,he always hopes to do it as quickly as possible, which may result in failure,so he must do it from the beginning,leading to waste  time.

For example,in winter,students get up late.Because we are too late to catch the  bus on time,so we want to save time.We may hurry to carry our books and notes to  the classroom,but when we reach the classroom,we would find the pen left in the  dormitory,or we find we got the wrong notes.This is a good example of haste makes  waste.

In order to avoid of haste makes waste,we should do everything carefully,we should  not wonder the result but wonder be careful.So,we can do everything well rather than  haste makes waste.

对待批作文进行切题分析,分析结果如下所示:

待批作文最大主题:主题9

作文范文最大主题:主题7

待批作文切题判断值为:0

待批作文切题度为:0.142576948213569。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号