首页> 中国专利> 信息分析系统、信息分析方法以及信息分析程序

信息分析系统、信息分析方法以及信息分析程序

摘要

信息分析系统(100)具有发言分析部(132B)、帖子分析部(132C)以及保存部(133)。发言分析部(132B)针对作为发表在网络上的发言的集合的帖子,按照该帖子所包含的每个发言,基于作为与该发言相关的数据的发言数据,对该发言的重要度进行分析。帖子分析部(132C)基于作为与所述帖子相关的数据的帖子数据,分析该帖子属于预先设定的多个类别中的哪个类别。保存部(133)按照每个所述发言将该发言、该发言的重要度、包含该发言的帖子的类别关联起来保存于规定的存储部中。

著录项

  • 公开/公告号CN106462614A

    专利类型发明专利

  • 公开/公告日2017-02-22

    原文格式PDF

  • 申请/专利权人 日本电信电话株式会社;

    申请/专利号CN201580027532.7

  • 发明设计人 折原慎吾;熊谷充敏;安部哲哉;

    申请日2015-05-25

  • 分类号G06F17/30;

  • 代理机构北京三友知识产权代理有限公司;

  • 代理人李辉

  • 地址 日本东京都

  • 入库时间 2023-06-19 01:44:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-18

    授权

    授权

  • 2017-03-22

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150525

    实质审查的生效

  • 2017-02-22

    公开

    公开

说明书

技术领域

本发明的实施方式涉及信息分析系统、信息分析方法以及信息分析程序。

背景技术

近年来,随着信息处理技术的高速化和低成本化以及因特网技术等网络技术的普及等,在网络上存储有数量庞大的信息(电子数据)。例如,在因特网上的布告栏(电子布告栏)上,按照时间顺序汇总有使用者发表的发言。

在此,为了供使用者获得期望的信息,而提出了推荐各种信息的信息推荐技术的方案。例如,有一种技术,其根据布告栏而生成特征向量来分析特征。在该技术中,例如,当使用者输入了关键字时,向使用者提示具有与所输入的关键字对应的特征的布告栏。

现有技术文献

专利文献

专利文献1:日本特开2010-231471号公报

发明内容

发明要解决的课题

但是,在以往的技术中,存在难以根据发表在网络上的信息而分析有益的发言的问题。例如,在根据布告栏而生成特征向量来分析特征的技术中,当在布告栏上包含很多没有意义的发言的情况下,导致有益的发言被埋没在没有意义的发言中。

因此,本发明的目的在于根据发表在网络上的信息对有益的发言进行分析。

用于解决课题的手段

实施方式的信息分析系统具有发言分析部、帖子分析部以及保存部。发言分析部针对作为发表在网络上的发言的集合的帖子,按照该帖子所包含的每个发言,基于作为与该发言相关的数据的发言数据,对该发言的重要度进行分析。帖子分析部基于作为与所述帖子相关的数据的帖子数据,分析该帖子属于预先设定的多个类别中的哪个类别。保存部按照每个所述发言将该发言、该发言的重要度以及包含该发言的帖子的类别关联起来保存于规定的存储部中。

发明效果

根据本申请所公开的技术的一个方式,产生能够根据发表在网络上的信息对有益的发言进行分析的效果。

附图说明

图1是示出第1实施方式的信息分析系统的结构的一例的图。

图2是示出第1实施方式的帖子数据存储部中存储的帖子数据的一例的图。

图3是示出第1实施方式的信息分析系统中的处理的流程的流程图。

图4是用于说明第1实施方式的效果的图。

图5是示出第2实施方式的信息分析系统中的处理的流程的流程图。

图6是用于说明第2实施方式的效果的图。

图7是示出第3实施方式的信息分析系统中的处理的流程的流程图。

图8是用于说明第3实施方式的效果的图。

图9是示出执行信息分析程序的计算机的图。

具体实施方式

以下参照附图,详细地说明本发明的信息分析系统、信息分析方法以及信息分析程序的实施方式。此外,本发明不限定于以下的实施方式。

[第1实施方式]

在以下的实施方式中,按顺序说明第1实施方式的信息分析系统的结构、信息分析系统中的处理的流程,而在最后说明第1实施方式的效果。

[信息分析系统的结构]

图1是示出第1实施方式的信息分析系统100的结构的一例的图。如图1所示,信息分析系统100具有通信处理部110、存储部120、功能部130以及控制部140。另外,信息分析系统100与因特网连接。

通信处理部110控制与和网络上的装置之间交换各种信息相关的通信。例如,通信处理部110通过后述的收集部131的控制而访问因特网上的各种电子布告栏(BBS:BulletinBoard System)站点。

如图1所示,存储部120具有帖子数据存储部121和分析结果存储部122。存储部120例如是RAM(Random Access Memory:随机存取存储器)、闪存(Flash Memory)等半导体存储器元件、或者硬盘、光盘等存储装置等。

帖子数据存储部121存储从因特网上的BBS站点收集的帖子数据。在此,帖子数据是与帖子(thread)相关的数据,其中帖子是发表在网络上的发言的集合。例如,帖子数据存储部121存储收集部131收集的帖子数据。另外,例如,由分析部132参照帖子数据存储部121。

图2是示出第1实施方式的帖子数据存储部121中存储的帖子数据的一例的图。如图2所示,例如帖子数据存储部121中存储的帖子数据10包含标题11、发言12以及发言13。在此,标题11是帖子的标题。另外,发言12、13是BBS的使用者发表的发言。发言12、13包含发言顺序、发言者姓名、发言时间和日期以及发言内容。在图2所示的例子中,示出了发言12的发言顺序是“1”、发言者姓名是“A1”、发言时间和日期是“A2”、发言内容是“A3”的情况。

分析结果存储部122存储分析结果。例如,分析结果存储部122存储后述的分析部132分析的分析结果。分析结果存储部122中存储的分析结果例如保存于后述的保存部133中。另外,按照使用者的请求,输出分析结果存储部122中存储的分析结果。

返回图1的说明。功能部130具有收集部131、分析部132以及保存部133。在此,功能部130是负责各处理之处,实际上作为软件(的1个组件)或者中间件来实现。另外,控制部140对通信处理部110、存储部120以及功能部130的动作进行控制,且对信息分析系统100的动作进行管理,实际上通过CPU(Central Processing Unit:中央处理单元)或MPU(MicroProcessing Unit:微处理单元)等集成电路等来实现控制部140。

收集部131从发表在网络上的信息中收集帖子数据。例如,收集部131对因特网上的BBS站点中进行巡查,并从BBS站点收集帖子数据。而且,收集部131将所收集的帖子数据保存于帖子数据存储部121中。

此外,收集部131在HTML(HyperText Markup Language:超文本标记语言)标签或脚本、广告等除了字符信息以外的信息包含于帖子中的情况下,将那些信息去除之后保存于帖子数据存储部121中。另外,关于由收集部131巡查的巡查对象的站点,既可以预先指定为URL(Uniform Resource Locator:统一资源定位符)等列表,也可以每次进行收集时进行指定。

分析部132分析收集部131所收集的帖子数据。如图1所示,分析部132具有发言剪切部132A、发言分析部132B以及帖子分析部132C。

发言剪切部132A从帖子数据中剪切帖子数据所包含的发言,而生成作为与发言相关的数据的发言数据。在此,所谓的发言数据例如是将“发言顺序”、“发言者姓名”、“发言时间和日期”、“发言内容”以及“附加信息”关联起来而得到的数据。“发言顺序”、“发言者姓名”、“发言时间和日期”以及“发言内容”是从帖子数据中提取出对应之处而得到的数据。另外,“附加信息”是将“字符数”、“回复标志”以及“回复数”关联起来而得到的数据。“字符数”与发言内容的字符数对应。“回复标志”是表示该发言是否是对别的发言的回复的标志。例如,在该发言的发言内容是从“>(数字)”开始的情况下,被赋予表示该发言是回复的回复标志“1”。另一方面,在不是从“>(数字)”开始的情况下,被赋予表示该发言不是回复的回复标志“0”。此外,(数字)表示回复对象的发言顺序。“回复数”表示对该发言回复的数量。例如,发言内容从“>(数字)”开始的发言的数量与该数字的发言编号的回复数对应。

例如,发言剪切部132A获取帖子数据存储部121中存储的帖子数据。而且,发言剪切部132A分别剪切所获取的帖子数据所包含的发言而分别生成发言数据。发言剪切部132A将所生成的各个发言数据送往发言分析部132B。另外,发言剪切部132A将所获取的帖子数据送往帖子分析部132C。

作为一例,对发言剪切部132A获取图2所示的帖子数据10的情况进行说明。发言剪切部132A从帖子数据10中剪切发言12的发言顺序“1”、发言者姓名“A1”、发言时间和日期“A2”以及发言内容“A3”。而且,发言剪切部132A对发言内容“A3”的字符数“A4”进行计数。另外,发言剪切部132A根据发言内容“A3”是否从“>(数字)”开始来生成回复标志“A5(A5是1或者0)”。另外,发言剪切部132A对帖子数据10所包含的发言中的从“>1”开始的发言的数量“A6”进行计数。其结果为,发言剪切部132A生成将发言顺序“1”、发言者姓名“A1”、发言时间和日期“A2”、发言内容“A3”、字符数“A4”、回复标志“A5”以及回复数“A6”关联起来而得到的数据作为发言12的发言数据。这样,发言剪切部132A针对帖子数据10所包含的所有的发言生成发言数据。

发言分析部132B基于发言数据,按照每个发言对帖子所包含的发言的重要度进行分析。例如,发言分析部132B使用用于根据发言数据计算发言的重要度(分数(score))的机器学习引擎,根据发言剪切部132A所生成的发言数据对发言的重要度进行分析。而且,发言分析部132B将发言的重要度作为分析结果送往保存部133。此外,在该情况下,在机器学习引擎中,预先学习重要的发言的特征向量和不重要的发言的特征向量。作为学习的方法,例如可举出如下的方法:从代表性的BBS站点中选择几个帖子,通过人工将帖子所包含的发言分类成重要的发言和不重要的发言而进行学习。

具体而言,发言分析部132B为了将发言数据施加到机器学习引擎而将各发言数据分别转换成特征向量。在此,发言分析部132B例如分别将发言数据中的数值数据和字符串数据单独地进行转换。例如,发言分析部132B将发言数据中的发言顺序、发言时间和日期、字符数、回复标志以及回复数等数值数据直接作为特征向量的值。此外,并不限于此,发言分析部132B也可以对数值数据实施某种数值运算处理而作为特征向量的值。

另外,发言分析部132B针对发言者姓名和发言内容等字符串数据使用词素解析、n-gram、或者分隔符转换成特征向量。例如,发言分析部132B在使用了词素解析的情况下,用词类分割字符串数据,并将它们转换成特征向量。在这样的词素解析中,例如能够使用开源代码Mecab等库。例如,发言分析部132B在字符串数据是“Twitter(注册商标)の使い方が、まだ、よくわからん。”的情况下,使用词素解析分割成“Twitter/の/使い方/が/、/まだ/、/よく/わから/ん/。”。

另外,发言分析部132B在使用了n-gram的情况下,将字符串数据从开头开始各错开1个字符创建n个字符的组,并将它们转换成特征向量。例如,发言分析部132B在字符串数据是“Twitterの使い方が、まだ、よくわからん。”的情况下,使用n-gram(n=3)而分割成“Twi/wit/itt/tte/ter/erの/rの使/の使い/···”。

另外,发言分析部132B在使用了分隔符的情况下,用另行规定的分隔符(空格或逗号“,”等)分割字符串数据,并将它们转换成特征向量。例如,发言分析部132B在字符串数据是“Twitterの使い方が、まだ、よくわからん。”,且分隔符是顿号“、”的情况下,使用分隔符分割成“Twitterの使い方が/まだ/よくわからん。”。此外,一般来说,在多数情况下,词素解析应用于日语的文章,空格分隔符应用于英语。

而且,发言分析部132B将像这样分割成要素的字符串数据转换成特征向量。作为特征向量的转换方法,例如有将各要素的出现次数直接作为特征向量的方式以及与次数无关地使出现的与否对应于1或者0的方式等。只要它们是所使用的机器学习引擎的库支持的方法,使用哪个方式都可以。

而且,发言分析部132B将从各发言数据转换的各特征向量赋予给机器学习引擎,计算各发言的重要度。在此,关于所使用的机器学习引擎,不限制种类,例如可以使用开源代码的Jubatus(注册商标)等。而且,发言分析部132B对各发言数据赋予由机器学习引擎计算出的各发言的重要度,且分别将发言数据和发言的重要度结合起来送往保存部133。

此外,上述的发言分析部132B的处理仅是一例。例如,发言分析部132B为了提高机器学习引擎的分析的精度,也可以对所输入的各发言数据进行不需要的字符的除去、字符种类的统一以及特定组的单词的置换等预处理。具体而言,作为不需要的字符的除去,发言分析部132B例如对字符串数据进行多余的空格或成为语言处理的障碍的URL等的删除。另外,例如,作为字符种类的统一,发言分析部132B对用于字符串数据的字符进行英语大写字符小写字符或所谓的半角全角的统一。另外,例如,作为特定组的单词的置换,发言分析部132B将“ガラケー”、“スマホ”、“スマートフォン”以及“ケータイ”这些单词置换成“携帯電話”这个单词。另外,例如,作为特征向量的基的字符串数据既可以仅使用发言内容,也可以如“发言者和发言内容”那样使用将几个要素连结起来的字符串数据。

帖子分析部132C基于帖子数据来分析帖子属于预先设定的多个类别(category)中的哪个类别。例如,帖子分析部132C使用用于根据帖子数据对帖子的类别进行分析的机器学习引擎,根据从发言剪切部132A受理的帖子数据对帖子所属的类别进行分析。而且,帖子分析部132C作为分析结果将帖子所属的类别送往保存部133。此外,在该情况下,在机器学习引擎中预先学习几个帖子及其类别。作为学习的方法,例如可举出如下的方法:从代表性的BBS站点中选择几个帖子,通过人工输入帖子所属的类别而进行学习。

具体而言,帖子分析部132C为了将帖子数据施加到机器学习引擎而将帖子数据转换成特征向量。在此,帖子分析部132C例如对帖子数据所包含的字符串数据(例如将标题与各发言的发言内容连结起来的字符串数据)使用词素解析、n-gram、或者分隔符而转换成特征向量。此外,使用词素解析、n-gram以及分隔符转换成特征向量的处理的说明与上述的说明相同,因此省略。

而且,帖子分析部132C将从帖子数据转换的特征向量赋予给机器学习引擎,决定帖子所属的类别。在此,关于所使用的机器学习引擎,不限制种类,例如可以使用开源代码的Jubatus等。而且,帖子分析部132C将由机器学习引擎决定的帖子的类别送往保存部133。

此外,上述的帖子分析部132C的处理仅是一例。例如,帖子分析部132C为了提高机器学习引擎的分析的精度,也可以对所输入的各发言数据进行不需要的字符的除去、字符种类的统一以及特定组的单词的置换等预处理。另外,例如,帖子分析部132C除了标题和各发言的发言内容以外,也可以组合使用发言者等其他要素作为成为特征向量的基的字符串数据。另外,帖子分析部132C不限于字符串数据,也可以使用发言数等数值数据求出特征向量。

保存部133按照每个发言将该发言、发言的重要度以及包含发言的帖子的类别关联起来保存于分析结果存储部122中。例如,保存部133按照每个发言从发言分析部132B受理发言数据及其重要度。另外,保存部133从帖子分析部132C受理帖子所属的类别。而且,保存部133对从发言分析部132B受理的发言数据及其重要度的组赋予从帖子分析部132C受理的帖子的类别作为发言的类别,且保存于分析结果存储部122中。

此外,对于由保存部133保存于分析结果存储部122中的信息,例如将“类别”作为关键字进行检索,并按照“重要度”的分数顺序进行排序而提示给使用者。另外,也可以仅提示特定的分数(重要度)以上的数据。

[基于信息分析系统的处理]

图3是示出第1实施方式的信息分析系统中的处理的流程的流程图。

如图3所示,信息分析系统100的收集部131从因特网上的BBS站点收集帖子数据(步骤S101)。收集部131将所收集的帖子数据保存于帖子数据存储部121中。

接着,发言剪切部132A从帖子数据中剪切发言,而生成发言数据(步骤S102)。例如,发言剪切部132A获取帖子数据存储部121中存储的帖子数据,并分别剪切所获取的帖子数据所包含的发言而分别生成发言数据。

而且,发言分析部132B按照每个发言对帖子所包含的发言的重要度进行分析(步骤S103)。例如,发言分析部132B使用用于根据发言数据计算发言的重要度(分数)的机器学习引擎,根据发言剪切部132A所生成的发言数据对发言的重要度进行分析。

而且,帖子分析部132C对帖子的类别进行分析(步骤S104)。例如,帖子分析部132C使用用于根据帖子数据对帖子的类别进行分析的机器学习引擎,根据从发言剪切部132A受理的帖子数据对帖子所属的类别进行分析。

而且,保存部133按照每个发言将发言数据、发言的重要度以及帖子的类别关联起来保存于分析结果存储部122中(步骤S105)。

此外,上述的处理步骤也可以未必按照上述的顺序执行。例如,步骤S103的处理和步骤S104的处理既可以按照上述顺序的相反的顺序来执行,也可以作为并行处理来执行。另外,例如,当存在已收集的帖子数据的情况下,也可以不执行步骤S101的处理。

[第1实施方式的效果]

如上所述,第1实施方式的信息分析系统100针对作为发表在网络上的发言的集合的帖子,基于发言数据按照每个发言对帖子所包含的发言的重要度进行分析。而且,信息分析系统100基于帖子数据来分析帖子属于预先设定的多个类别中的哪个类别。而且,信息分析系统100按照每个发言将发言、发言的重要度以及包含发言的帖子的类别关联起来保存于规定的存储部中。因此,信息分析系统100能够根据发表在网络上的信息对有益的发言进行分析。

图4是用于说明第1实施方式的效果的图。如图4所示,例如在信息分析系统100中,收集部131从因特网上的BBS站点收集帖子数据(S10),且将所收集的帖子数据送往发言剪切部132A(S11)。接着,发言剪切部132A从帖子数据中剪切发言而生成发言数据,且将所生成的发言数据送往发言分析部132B(S12)。而且,发言分析部132B按照每个发言对发言的重要度进行分析,且将发言数据和重要度的组送往保存部133(S13)。接着,发言剪切部132A将帖子数据送往帖子分析部132C(S14)。而且,帖子分析部132C对帖子的类别进行分析,且将所分析的类别送往保存部133(S15)。而且,保存部133按照每个发言将发言数据、重要度以及类别关联起来保存于分析结果存储部122中(S16)。这样,信息分析系统100按照所收集的帖子数据所包含的每个发言将发言数据、重要度以及类别关联起来进行存储。因此,例如即使在包含很多没有意义的发言的情况下,信息分析系统100也能够以可检索的状态来存储分析结果,而不会使有益的发言埋没在没有意义的发言中。另外,信息分析系统100以帖子为单位来进行类别的分析,由此,与以发言为单位进行分析的情况相比,能够增加分析对象的信息量,因此能够高精度地分析发言所属的类别。其结果为,在信息推荐技术中,与以帖子为单位进行提取/推荐的情况相比,使用者能够仅获得除去了无意义的发言的真正有用的发言。

[第2实施方式]

在第1实施方式中,说明了信息分析系统100按照每个发言对重要度进行分析的情况,但实施方式并不限于此。例如,也可以是信息分析系统100也对帖子的重要度进行分析而整合发言的重要度与帖子的重要度的情况。因此,在第2实施方式中,说明信息分析系统100也对帖子的重要度进行分析而整合发言的重要度与帖子的重要度的情况。此外,在以下的说明中,对与第1实施方式共同的结构和处理省略说明。

使用图1,对第2实施方式的信息分析系统100的结构进行说明。第2实施方式的信息分析系统100具有与图1所示的信息分析系统100相同的结构,但帖子分析部132C和保存部133中的处理有一部分不同。

帖子分析部132C除了在第1实施方式中说明的处理之外,还基于帖子数据对帖子的重要度进行分析。例如,帖子分析部132C使用用于从帖子数据中计算帖子的重要度的机器学习引擎,对帖子的重要度进行分析。而且,帖子分析部132C,除了帖子所属的类别之外还将帖子的重要度作为分析结果送往保存部133。此外,在该情况下,在机器学习引擎中,预先学习重要的帖子的特征向量和不重要的帖子的特征向量。作为学习的方法,例如可举出如下的方法:从代表性的BBS站点中选择几个帖子,通过人工分类成重要的帖子和不重要的帖子而进行学习。

具体而言,帖子分析部132C为了将帖子数据施加到机器学习引擎而将帖子数据转换成特征向量。在此,帖子分析部132C例如对帖子数据所包含的字符串数据(例如将标题与各发言的发言内容连结起来的字符串数据)使用词素解析、n-gram、或者分隔符而转换成特征向量。此外,使用词素解析、n-gram以及分隔符转换成特征向量的处理的说明与上述的说明相同,因此省略。

而且,帖子分析部132C将从帖子数据转换的特征向量赋予给机器学习引擎,计算帖子的重要度。在此,关于所使用的机器学习引擎,不限制种类,例如可以使用开源代码的Jubatus等。而且,帖子分析部132C将由机器学习引擎计算出的帖子的重要度送往保存部133。

此外,上述的帖子分析部132C的处理仅是一例。例如,帖子分析部132C不限于字符串数据,也可以使用帖子中的发言数等数值数据求出特征向量。

保存部133基于发言的重要度和帖子的重要度而计算发言的综合重要度。而且,保存部133按照每个发言将所计算出的综合重要度、发言以及包含发言的帖子的类别关联起来进行保存。

例如,保存部133按照每个发言从发言分析部132B受理发言数据和发言的重要度。另外,保存部133从帖子分析部132C受理帖子所属的类别和帖子的重要度。而且,保存部133基于从发言分析部132B受理的发言的重要度、从帖子分析部132C受理的帖子的重要度按照每个发言来计算综合重要度。在此,综合重要度的计算方法例如既可以是发言的重要度与帖子的重要度之和,也可以是积、平均以及其他算术运算的值。而且,保存部133将发言数据、综合重要度以及类别关联起来按照每个发言保存于分析结果存储部122中。

图5是示出第2实施方式的信息分析系统中的处理的流程的流程图。此外,图5所示的步骤S201~S203的处理与图3的步骤S101~S103的处理相同,因此省略说明。

如图5所示,信息分析系统100的帖子分析部132C对帖子的类别和帖子的重要度进行分析(步骤S204)。例如,帖子分析部132C除了在第1实施方式中说明的处理之外,还使用用于根据帖子数据计算帖子的重要度的机器学习引擎,对帖子的重要度进行分析。而且,帖子分析部132C除了帖子所属的类别之外还将帖子的重要度作为分析结果送往保存部133。

而且,保存部133根据发言的重要度和帖子的重要度来计算发言的综合重要度(步骤S205)。例如,保存部133计算发言的重要度与帖子的重要度之和、积、平均以及其他算术运算的值等作为综合重要度。而且,保存部133将发言数据、发言的综合重要度以及帖子的类别关联起来按照每个发言保存于分析结果存储部122中(步骤S206)。

此外,图5所示的处理步骤也可以未必按照上述的顺序执行。例如,步骤S203的处理和步骤S204的处理既可以按照上述顺序的相反的顺序来执行,也可以作为并行处理来执行。

这样,第2实施方式的信息分析系统100也对帖子的重要度进行分析而整合发言的重要度与帖子的重要度。由此,信息分析系统100能够在考虑了帖子的重要度的基础上计算每个发言的重要度,因此能够分析更有益的发言。

图6是用于说明第2实施方式的效果的图。如图6所示,例如在信息分析系统100中,收集部131从因特网上的BBS站点收集帖子数据(S20),且将所收集的帖子数据送往发言剪切部132A(S21)。接着,发言剪切部132A从帖子数据中剪切发言而生成发言数据,且将所生成的发言数据送往发言分析部132B(S22)。而且,发言分析部132B按照每个发言对发言的重要度进行分析,且将发言数据和重要度的组送往保存部133(S23)。接着,发言剪切部132A将帖子数据送往帖子分析部132C(S24)。而且,帖子分析部132C对帖子的类别和帖子的重要度进行分析,且将所分析的类别和帖子的重要度送往保存部133(S25)。而且,保存部133根据发言的重要度和帖子的重要度来计算发言的综合重要度,将发言数据、发言的综合重要度以及类别关联起来按照每个发言保存于分析结果存储部122中(S26)。由此,第2实施方式的信息分析系统100能够分析更有益的发言。

[第3实施方式]

第1和第2实施方式中,说明了信息分析系统100对帖子的类别进行分析的情况,但实施方式并不限于此。例如,也可以是信息分析系统100也分析对发言的内容进行了类别分类的发言类别而赋予至各个发言的情况。此外,所谓的发言类别例如包含“好意的”、“敌对的”、“赞赏”、“亵渎”之类的推测发言者感情的内容或“引用”、“建议”、“提问”、“回答”之类的推测发言的种类的内容等。即,发言类别是表示发言的内容属于预先设定的多个类别中的哪个类别的信息。

因此,在第3实施方式中,说明信息分析系统100对发言类别进行分析而赋予至各个发言的情况。此外,在以下的说明中,对与第2实施方式共同的结构和处理省略说明。

使用图1,对第3实施方式的信息分析系统100的结构进行说明。第3实施方式的信息分析系统100具有与第2实施方式的信息分析系统100同样的结构,但发言分析部132B和保存部133中的处理有一部分不同。

发言分析部132B除了在第1实施方式中说明的处理之外,还基于发言数据按照每个发言对发言类别进行分析。例如,发言分析部132B使用用于从发言数据中导出发言类别的机器学习引擎,对发言类别进行分析。而且,发言分析部132B除了发言的重要度之外还将发言类别作为分析结果送往保存部133。此外,在该情况下,在机器学习引擎中预先学习几个发言和发言类别的组。作为学习的方法,例如可举出如下的方法:从代表性的BBS站点中选择几个帖子,通过人工将帖子所包含的发言分类成“好意的”、“敌对的”、“赞赏”、“亵渎”、“引用”、“建议”、“提问”、“回答”之类的类别而进行学习。

具体而言,发言分析部132B将在第1实施方式的处理中转换的特征向量赋予给机器学习引擎,且按照每个发言计算发言类别。在此,关于所使用的机器学习引擎,不限制种类,例如可以使用开源代码的Jubatus等。而且,发言分析部132B将由机器学习引擎计算出的帖子的重要度送往保存部133。

保存部133将每个发言的发言类别按照该发言关联起来进行保存。例如,保存部133将发言数据、综合重要度、帖子的类别以及发言类别关联起来按照每个发言保存于分析结果存储部122中。

图7是示出第3实施方式的信息分析系统中的处理的流程的流程图。此外,图7所示的步骤S301~S302的处理与图3的步骤S101~S102的处理相同,因此省略说明。

如图7所示,信息分析系统100的发言分析部132B对发言的重要度和发言类别进行分析(步骤S303)。例如,发言分析部132B使用用于从发言数据中导出发言类别的机器学习引擎对发言类别进行分析。而且,发言分析部132B除了发言的重要度之外还将发言类别作为分析结果送往保存部133。

接着,帖子分析部132C对帖子的类别和帖子的重要度进行分析(步骤S304)。例如,发言分析部132B除了在第1实施方式中说明的处理之外,还使用用于根据帖子数据计算帖子的重要度的机器学习引擎,对帖子的重要度进行分析。而且,发言分析部132B除了帖子所属的类别之外还将帖子的重要度作为分析结果送往保存部133。

而且,保存部133根据发言的重要度和帖子的重要度来计算发言的综合重要度(步骤S305)。例如,保存部133将发言的重要度与帖子的重要度之和、积、平均以及其他算术运算的值等作为综合重要度进行计算。而且,保存部133将发言数据、发言的综合重要度、发言类别以及帖子的类别关联起来按照每个发言保存于分析结果存储部122中(步骤S306)。

此外,图7所示的处理步骤也可以未必按照上述的顺序执行。例如,步骤S303的处理和步骤S304的处理既可以按照上述顺序的相反的顺序来执行,也可以作为并行处理来执行。

这样,第3实施方式的信息分析系统100对发言类别进行分析而赋予至各个发言。由此,信息分析系统100除了帖子的类别之外还基于每个发言的发言类别来进行分析,因此能够分析更有益的发言。

图8是用于说明第3实施方式的效果的图。如图8所示,例如在信息分析系统100中,收集部131从因特网上的BBS站点收集帖子数据(S30),且将所收集的帖子数据送往发言剪切部132A(S31)。接着,发言剪切部132A从帖子数据中剪切发言而生成发言数据,且将所生成的发言数据送往发言分析部132B(S32)。而且,发言分析部132B按照每个发言对发言的重要度和发言类别进行分析,且将发言数据、发言的重要度以及发言类别的组送往保存部133(S33)。接着,发言剪切部132A将帖子数据送往帖子分析部132C(S34)。而且,帖子分析部132C对帖子的类别和帖子的重要度进行分析,且将所分析的类别和帖子的重要度送往保存部133(S35)。而且,保存部133根据发言的重要度和帖子的重要度而计算发言的综合重要度,且将发言数据、发言的综合重要度、发言类别以及帖子的类别关联起来按照每个发言保存于分析结果存储部122中(S36)。由此,第3实施方式的信息分析系统100能够分析更有益的发言。

此外,在第3实施方式中,说明了第2实施方式的信息分析系统100还对发言类别进行分析而赋予至各个发言的情况,但并不限于此。例如,也可以是第1实施方式的信息分析系统100对发言类别进行分析而赋予至各个发言的情况。即,在第3实施方式中,也可以不执行计算帖子的重要度的处理。

[系统结构等]

此外,图示的各装置的各结构要素是功能概念性的,在物理上未必需要如图示那样构成。即,各装置的分散/整合的具体方式并不限于图示的内容,可根据各种负荷或使用状况等,以任意的单位在功能上或者物理上分散/整合地构成其全部或者一部分。例如,保存部133既可以与分析部132整合,也可以与发言分析部132B或者帖子分析部132C整合。而且,在各装置所进行的各处理功能其全部或者任意的一部分可通过CPU和由CPU解析执行的程序来实现,或者可作为基于布线逻辑的硬件来实现。

并且,在本实施例所说明的各处理中,也可以手动执行作为自动执行的处理来说明的处理的全部或者一部分,或者也可以通过公知的方法自动执行作为手动执行的处理来说明的处理的全部或者一部分。除此以外,对于在上述文档中或者在附图中所示出的处理步骤、控制步骤、具体的名称以及包含各种数据或参数在内的信息,除了特殊说明的情况以外能够任意地变更。

[处理对象]

另外,在上述的第1实施方式~第3实施方式中,说明了作为处理对象分析BBS的帖子数据的情况,但实施方式并不限于此。例如,信息分析系统100将以帖子形式(连带显示针对规定的电子邮件的回复的形式)显示电子邮件的对象或者SNS(Social NetworkingService:社交网络服务)等中的对规定的发表进行回复的一系列的发言都能够作为处理对象。此外,在将电子邮件作为对象的情况下,在回复的判定或回复数的计数中,可着眼于电子邮件的“In-Reply-To”头部进行回复的判定或回复数的计数,来取代着眼于发言开头的“>(数字)”的方法。对于其他处理对象也同样,能够规定与处理对象对应的回复的判定法或回复数的计数方法。

[程序]

另外,也可以创建以计算机可执行的语言来描述了在上述实施方式中说明的信息分析系统100执行的处理的程序。例如,也可以创建以计算机可执行的语言来描述了第1实施方式的信息分析系统100执行的处理的信息分析程序。在该情况下,通过由计算机执行信息分析程序,能够获得与上述实施方式同样的效果。此外,也可以将该信息分析程序记录到计算机可读取的记录介质中,通过使计算机读入并执行该记录介质中记录的信息分析程序,实现与上述第1实施方式同样的处理。下面对执行实现与在图1所示的信息分析系统100同样的功能的信息分析程序的计算机的一例进行说明。

图9是示出执行信息分析程序的计算机1000的图。如图9所例示,计算机1000例如具有存储器1010、CPU 1020、硬盘驱动器接口1030、盘驱动器接口1040以及网络接口1070,这些各部件通过总线1080连接。

如图9所例示,存储器1010包含ROM(Read Only Memory:只读存储器)1011和RAM(Random Access Memory)1012。ROM 1011例如存储BIOS(Basic Input Output System:基本输入输出系统)等引导程序。如图9所例示,硬盘驱动器接口1030与硬盘驱动器1031连接。如图9所例示,盘驱动器接口1040与盘驱动器1041连接。例如磁盘或光盘等可以装卸的存储介质插入到盘驱动器中。

在此,如图9所例示,硬盘驱动器1031例如存储OS 1091、应用程序1092、程序模块1093以及程序数据1094。即,上述的任意程序作为描述有由计算机1000执行的指令的程序模块而存储于例如硬盘驱动器1031中。

此外,在上述实施方式中说明的各种数据作为程序数据而存储于例如存储器1010或硬盘驱动器1031中。而且,CPU 1020根据需要将存储器1010或硬盘驱动器1031中存储的程序模块1093或者程序数据1094读出到RAM 1012而执行各步骤。

此外,信息分析程序的程序模块1093或程序数据1094不限于存储于硬盘驱动器1031中的情况,例如也可以分别存储于可装卸的存储介质中而经由盘驱动器等由CPU 1020读出。或者,信息分析程序的程序模块1093或程序数据1094也可以分别存储于经由网络(LAN(Local Area Network:局域网)、WAN(Wide Area Network:广域网)等)连接的其他计算机中而经由网络接口1070由CPU 1020读出。

对于这些实施方式或其变形而言,如同属于本申请所公开的技术那样同样属于权利要求书所记载的发明及其均等的范围内。

标号说明

100:信息分析系统;110:通信处理部;120:存储部;121:帖子数据存储部;122:分析结果存储部;130:功能部;131:收集部;132:分析部;132A:发言剪切部;132B:发言分析部;132C:帖子分析部;133:保存部;140:控制部。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号