首页> 中国专利> 一种基于自然语言处理的围标串标行为识别方法及装置

一种基于自然语言处理的围标串标行为识别方法及装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请公开了一种基于自然语言处理的围标串标行为识别方法，相比于传统的依靠招投标项目评审专家在开标现场人工审核投标文件以确定围标串标行为的方式，该方法能够快速自动计算同一招标项目下多个投标文件之间的文本相似度，将相似度超过阈值的投标文件的所属投标人列为围标串标行为的疑似对象，大大提高识别效率，节省人力成本。此外，本申请还提供了一种基于自然语言处理的围标串标行为识别装置、设备及可读存储介质，其技术效果与上述方法的技术效果相对应。

著录项

公开/公告号CN113129118A

专利类型发明专利
公开/公告日2021-07-16

原文格式PDF
申请/专利权人政采云有限公司;
展开▼

申请/专利号CN202110535528.9
发明设计人李木青;郑伟林;蔡洁洁;
展开▼

申请日2021-05-17
分类号G06Q30/08(20120101);G06F16/14(20190101);
代理机构11227 北京集佳知识产权代理有限公司;
代理人张春辉
地址 310000 浙江省杭州市西湖区转塘科技经济区块9号1幢2区5楼
入库时间 2023-06-19 11:52:33

说明书

技术领域

本申请涉及计算机技术领域，特别涉及一种基于自然语言处理的围标串标行为识别方法、装置、设备及可读存储介质。

背景技术

招投标是市场经济的一种商品经营方式，在国内外项目实施中已被广泛地采用，这种商品经营方式是在货物、工程和服务的采购行为中，招标人通过事先公布的采购要求，吸引众多的投标人按照同等条件进行平等竞争，按照规定程序并组织技术、经济和法律等方面专家对众多的投标人进行综合评审，从中择优选定项目的中标人的行为过程。

在招投标领域，招标人是指通过招标公告或投标邀请书等形式，招请具有法定条件和具有承建能力的供应商参与投标竞争的行为人。投标人是指按照招标文件的规定填写投标文件，按照招标条件编制投标报价，在招标文件限定的时间内送达招标单位，并参与开标的行为人。投标文件指具备承担招标项目的能力的投标人，按照招标文件的要求编制的文件。

围标串标指通常是指几个投标人之间相互约定，一致抬高或压低投标报价进行投标，通过限制竞争，排挤其他投标人，使某个利益相关者中标，从而谋取非法利益的手段和行为，是投标人之间横向联合的一种违法行为。在招投标领域，围标串标行为极大地损害了招标者的利益。

目前，主要依靠招投标项目评审专家在开标现场人工比对投标文件以检测围标串标行为，这种方式成本高，效率低下，难以满足当前需求。

发明内容

本申请的目的是提供一种基于自然语言处理的围标串标行为识别方法、装置、设备及可读存储介质，用以解决基于人工实现的围标串标行为识别方案成本高，效率低下，难以广泛应用的问题。其具体方案如下：

第一方面，本申请提供了一种基于自然语言处理的围标串标行为识别方法，包括：

获取投标文件集合，所述投标文件集合用于记录同一招标项目下的投标文件；

生成所述投标文件集合中各个所述投标文件的向量表示；

根据所述投标文件的向量表示，计算所述投标文件两两之间的相似度；

筛选相似度大于阈值的目标投标文件；

将所述目标投标文件的所属投标人标记为围标串标行为的疑似对象。

可选的，所述生成所述投标文件集合中各个所述投标文件的向量表示，包括：

对所述投标文件集合中的投标文件进行文本提取、文本预处理和文本向量化，得到各个所述投标文件的向量表示。

可选的，所述对所述投标文件集合中的投标文件进行文本提取、文本预处理和文本向量化，得到各个所述投标文件的向量表示，包括：

利用词袋模型和TF-IDF模型对经过文本预处理的投标文件进行文本向量化，得到所述投标文件的向量表示。

可选的，所述对所述投标文件集合中的投标文件进行文本提取、文本预处理和文本向量化，得到各个所述投标文件的向量表示，包括：

利用Python的工具包对PDF格式的投标文件进行文本提取。

可选的，所述对所述投标文件集合中的投标文件进行文本提取、文本预处理和文本向量化，得到各个所述投标文件的向量表示，包括：

对所述投标文件进行文本预处理，所述文本预处理包括以下操作：正则清洗、分词、去除停用词。

可选的，所述根据所述投标文件的向量表示，计算所述投标文件两两之间的相似度，包括：

对所述投标文件的向量表示进行余弦相似度计算，得到所述投标文件两两之间的相似度。

可选的，所述筛选相似度大于阈值的目标投标文件；将所述目标投标文件的所属投标人标记为围标串标行为的疑似对象，包括：

计算所述投标文件集合中全部所述投标文件的相似度的平均值，得到模板相似度；

将所述投标文件的相似度减去所述模板相似度，得到所述投标文件的实际相似度；

筛选实际相似度大于实际阈值的目标投标文件；

将所述目标投标文件的所属投标人标记为围标串标行为的疑似对象。

第二方面，本申请提供了一种基于自然语言处理的围标串标行为识别装置，包括：

文件集合获取模块，用于获取投标文件集合，所述投标文件集合用于记录同一招标项目下的投标文件；

向量表示生成模块，用于生成所述投标文件集合中各个所述投标文件的向量表示；

相似度计算模块，用于根据所述投标文件的向量表示，计算所述投标文件两两之间的相似度；

文件筛选模块，用于筛选相似度大于阈值的目标投标文件；

标记模块，用于将所述目标投标文件的所属投标人标记为围标串标行为的疑似对象。

第三方面，本申请提供了一种基于自然语言处理的围标串标行为识别设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如上所述的基于自然语言处理的围标串标行为识别方法。

第四方面，本申请提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现上所述的基于自然语言处理的围标串标行为识别方法。

本申请所提供的一种基于自然语言处理的围标串标行为识别方法，包括：获取投标文件集合，该投标文件集合用于记录同一招标项目下的投标文件；生成投标文件集合中各个投标文件的向量表示；根据投标文件的向量表示，计算投标文件两两之间的相似度；筛选相似度大于阈值的目标投标文件；将目标投标文件的所属投标人标记为围标串标行为的疑似对象。

相比于传统的依靠招投标项目评审专家在开标现场人工审核投标文件以确定围标串标行为的方式，本申请能够快速自动计算同一招标项目下多个投标文件之间的文本相似度，将相似度超过阈值的投标文件的所属投标人列为围标串标行为的疑似对象，大大提高识别效率，节省人力成本。

此外，本申请还提供了一种基于自然语言处理的围标串标行为识别装置、设备及可读存储介质，其技术效果与上述方法的技术效果相对应，这里不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中基于人工实现的围标串标行为识别方案的流程图；

图2为本申请所提供的基于自然语言处理的围标串标行为识别方法实施例一的流程图；

图3为本申请所提供的基于自然语言处理的围标串标行为识别方法实施例二的流程图；

图4为本申请所提供的基于自然语言处理的围标串标行为识别装置实施例的功能框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在招投标领域，投标人为了中标的利益可能会采取围标串标行为，极大地损害了招标者的利益。围标串标行为的识别与治理工作一直是国内外招标投标领域关注的热点问题之一。

一般用来判断投标人是否串通投标的依据主要包括:不同投标人的投标文件是否异常一致或者投标报价是否呈规律性差异。这类情况需要对不同投标人的投标文件进行比对分析。投标文件是招投标活动中重要的文本信息载体，参与围标串标的投标人做出的标书往往出自同一人或同一团队，文本往往有雷同相似之处。故，对同一招标项目下不同投标人的投标技术文件进行文本相似度计算分析，能为招标方或者监管方提供识别串围标行为的重要参考依据。

目前，投标文件的相似度比对，是在招标项目开标时通过评审专家的人工阅读和比对，给出的人工判断结果。基于人工实现的围标串标行为识别方案的流程图如图1所示，这种依靠人工的方法依赖于评审专家的个人经验，专业门槛高，实施成本高，识别效率较低，尤其是在投标人数量较多的情况下，容易漏判误判。

针对上述问题，本申请提供了一种基于自然语言处理的围标串标行为识别方法、装置、设备及可读存储介质，能够自动化获取到包括同一招标项目下全部投标文件的投标文件集合，并对这些投标文件进行相似度计算，进而筛选出相似度较高的投标文件，将这些投标文件的所属投标人标记为围标串标行为的疑似对象，以供参考。大大提升了围标串标行为的识别效率，降低了方案实施成本和专业门槛，有利于广泛应用。

下面对本申请提供的基于自然语言处理的围标串标行为识别方法实施例一进行介绍，参见图2，实施例一包括：

S21、获取投标文件集合，该投标文件集合用于记录同一招标项目下的投标文件；

S22、生成投标文件集合中各个投标文件的向量表示；

具体的，上述生成投标文件的向量表示的过程，具体可以包括文本提取、文本预处理、文本向量化等过程，文本预处理可以进一步包括正则清洗、分词、去除停用词等操作。

实际应用中，投标文件一般为PDF格式，此时可以先利用Python的工具包对PDF格式的投标文件进行文本提取。

本实施例的目的在于将自然语言处理方法运用于招投标领域的围标串标行为识别，取代传统人工相似度比对的方法。可以理解的是，上述对投标文件进行文本向量化的过程，目的在于区别不同的投标文本，具体采用何种规则何种模型生成投标文本的向量表示，可以根据实际需求进行选择和调整，本实施例对此不做限定。

S23、根据投标文件的向量表示，计算投标文件两两之间的相似度；

具体的，对投标文件的向量表示进行余弦相似度计算，得到投标文件两两之间的相似度。

S24、筛选相似度大于阈值的目标投标文件；

S25、将目标投标文件的所属投标人标记为围标串标行为的疑似对象。

本实施例提供的基于自然语言处理的围标串标行为识别方法，相比于传统的依靠招投标项目评审专家在开标现场人工比对投标文件相似度的方法，具备如下优势：本实施例能够快速计算同一项目下多个投标文件之间的文本相似度，将相似度超过阈值的投标文件的所属投标人列为围标串标行为的疑似对象，提交给人工进一步判断，提高了围标串标行为识别的效率。在投标人众多的招标项目中具有较大优势，能够节省大量人力成本和时间成本，并且随着投标人数的增多，优势更加明显。

假设某地区一年有M个项目进行招投标，每个项目平均需要N个专家进行评审，每个项目平均有S个投标人参与开标，每个专家比对两份投标文件的相似度平均需要T分钟，则该地区一年中，招投标项目评审专家需要花费在比对投标文件相似度上的时间为：

M×N×(S2–S)/2×T/60(小时)

在实际情况中，如果M＝1000，N＝5,S＝5，T＝3，按照以上公式，该地区项目评审专家比对投标文件相似度一年需要花费2500(小时)，并且，随着项目投标人数S的增加，所需的时间也指数上升。

运用本实施例的方法后，比对两份投标文件的相似度的时间缩减为专家人工比对的1％，则该地区一年中，招投标项目评审专家在比对投标文件相似度上可节约的时间为：

M×N×(S2–S)/2×99％×T/60(小时)

如果M＝1000，N＝5,S＝5，T＝3，按照以上公式，该地区运用本实施例的方法后，招投标项目评审专家在比对投标文件相似度上可节约2475(小时)，节约了99％的时间，并且，随着项目投标人数S的增加，节约的时间也指数增多。

下面开始详细介绍本申请提供的基于自然语言处理的围标串标行为识别方法实施例二，实施例二基于实施例一实现，并在实施例一的基础上进行了一定程度上的拓展。

一方面，本实施例利用词袋模型和TF-IDF模型对经过文本预处理的投标文件进行文本向量化，得到更具备参考价值的向量表示；另一方面，本实施例在计算得到投标文件之间的相似度之后，还能够进一步计算出模板相似度，将投标文件的相似度与模板相似度的差值作为投标文件的实际相似度，参考意义更大。

参见图3，实施例二具体包括：

步骤1、获得同一招标项目中的所有投标文件，并提取投标文件的文本信息。

同一招标项目中n个投标人上传n份投标文件，分别记为第1投标文件、第2投标文件…第n投标文件。在本实施例中，投标文件为PDF格式，故先利用Python的工具包对PDF格式的投标文件的文本信息进行提取，舍弃文件中的图片等内容，只保留文本信息，获得同一招标项目下的n份投标文本。

步骤2、对投标文本进行文本预处理。

将上一步骤中获得的n份投标文本，通过正则清洗、分词、去除停用词3个文本预处理步骤，处理为一个个词语。即经过本步骤后，n份投标文本被处理为n个词语集合。下面分别对正则清洗、分词、去除停用词进行说明：

正则清洗：通过正则表达式，将投标文本中的日期(如：2020年1月1日)、序号(如：一、)、章节(如：第一章)、标点符号等剔除。

分词：将连续的文本按照一定的规范划分成一系列词语。汉语虽然是以字为最小单位，但是词语仍然是语义表达的最小单元。英文中单词之间是以空格作为自然分界符，而中文中词语没有一个形式上的分界符，因此中文分词需要特殊的技术处理。作为一种可选的实施方式，本实施例采用基于字符串匹配的分词方法进行中文分词，采用Python的工具包进行实现，将经过正则清洗的投标文本切分成一系列词语，从而方便计算机理解与处理。

实际应用中，也可以采用其他的中文分词方法，例如基于统计的分词方法、基于理解的分词方法、基于字符串匹配的分词方法等。

去除停用词：语气助词、介词、连接词等这类与文本语义无关，但又在文本中频繁出现的词被称为停用词。在投标文本经过分词处理得到一系列词语后，本实施例将停用词从词语集合中剔除，减少无效文本信息，有利于有效信息的获取。

步骤3、对各个词语集合进行文本向量化。

本步骤是将投标文件的文本特征抽象为数字化的向量表示。文本向量化就是将文本表示成一系列能够表达文本语义的数字向量。经过上一个步骤后，词语是表达投标文本的最基本单元。本步骤是将上一个步骤得到的n份词语集合，通过词袋模型和TF-IDF模型处理以实现词向量化。经过本步骤后，上步骤得到的n份词语集合被转化为n个数字向量，方便被计算机识别与处理。下面分别对词袋模型和TF-IDF模型进行介绍：

词袋模型：词袋模型假定对于一个文本，忽略它的单词顺序和语法、句法等要素，将其仅仅看作是若干个单词的集合，文档中每个单词的出现都是独立的，不依赖于其它单词是否出现。词袋模型处理时，会将n份词语集合看作一个大的语料库，列出语料库中所有出现的词语，给每个词语赋予一个唯一数字编号，构造一个字典，如{“我”：1，“喜欢”：2，“看电影”：3，“也”：4，“旅游”：5}。再根据字典将n份词语的集合向量化，每个向量的维数和字典大小一致，第i维上的数值代表编号为i的词语在这个词语集合里出现的频次。

例如：有一个词语集合为[“我”，“喜欢”，“看电影”，“也”，“喜欢”，“旅游”]，该集合经过字典映射向量化后，得到的向量为[1,2,1,1,1]，其中第2维上的数值2代表编号为2的词语“喜欢”在词语集合中出现了2次。

TF-IDF模型：TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)。词语的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。一个词语在一篇文档中出现次数越多,同时在所有文档中出现次数越少,越能够代表该文章。

TF-IDF公式如下，用于对词袋模型输出的频次进行更新：

TF-IDF(t,d)＝TF(t,d)×IDF(t)

TF(t,d)表示词语t在文档d中出现的频次，IDF(t)可以衡量词语t用于区分这篇文档和其他文档的重要性。IDF的公式如下，其中分母加1是为了避免分母为0。

IDF(t)＝log(文章总数/(包含单词t的文章总数+1))

比如在10篇文档中，1篇是猴子的，9篇是关于人的，关于人的文章中不出现“尾巴”这个词语，10篇文章中都出现“嘴巴”这个词语，那么“尾巴”这个词在这些文章中就很有区分度。从公式的角度也很容易看出。以10为底数的话，IDF(尾巴)＝0.70，IDF(嘴巴)＝-0.04，说明“尾巴”重要性更高点，它有区分性。

TF-IDF模型处理时，输入为词袋模型处理后得到的n个向量，根据TF-IDF公式计算处理后，输出为n个经过TF-IDF模型处理的向量，即投标文件的向量表示，其向量维数与词袋模型处理后得到的向量维数相同。

步骤4、依据投标文件的向量表示进行相似度计算。

本步骤是计算上个步骤得到的n个向量表示两两之间的余弦相似度，n个向量两两配对组合，共需计算(n2-n)/2次。上个步骤已将投标文件的文本特征抽象为数字化的向量表示，故两篇文本之间的相似度计算可以转换为数字向量之间的距离计算，通过数字向量之间的余弦相似度计算，可以对文本之间的相似度进行度量。经过本步骤后，可以得到同一项目中n份投标文件两两之间的文本相似度，具体可以以百分比数值体现。

余弦相似度的理论来自于数学中的余弦定理，其公式为：

cos(v1,v2)＝v1×v2/(||v1||*||v2||)

其中，v1,v2分别是代表投标文件文本1、投标文件文本2的向量表示。

步骤5、计算模板相似度，进而得到投标文件的实际相似度。

本步骤是计算同一招标项目中n份投标文件两两之间的文本相似度的平均值，并在上步骤得到的相似度数值中扣除该平均值，将最终得到的数值作为两篇投标文件之间的实际相似度。

可以理解的是，由于投标文件是在招标方发布的投标文件模板上进行完善，所以投标人上传的每份投标文件中都包含相同的模板内容，故每份投标文件之间会有基础的文本相似度。所以本实施例将同一招标项目中n份投标文件两两之间的文本相似度的平均值作为模板相似度，并从投标文件的相似度原数值中扣除模板相似度。

步骤6、对实际相似度超过阈值的投标文件及其所属投标人进行异常标记。

如果上一步骤得到的实际相似度超过设定的阈值，则将这两份投标文件的所属投标人判断为围标串标行为的疑似对象，提交给人工进行进一步甄别。

可见，本实施例提供的基于自然语言处理的围标串标行为识别方法，首先获得同一招标项目中的所有投标文件并提取文本信息，然后将文本信息作为自然语言处理的对象，通过文本预处理、文本向量化、文本相似度计算等步骤，最后得到同一招标项目下投标文件两两之间的相似度，并对相似度超过阈值的投标文件进行异常标记，将异常投标文件的所属投标人列为围标串标行为的疑似对象，提交给人工进一步判断。相比与人工一一比对投标文件相似度的方法，本实施例能大大提高相似度计算与围标串标行为识别的效率，节省人力成本。

下面对本申请实施例提供的基于自然语言处理的围标串标行为识别装置进行介绍，下文描述的基于自然语言处理的围标串标行为识别装置与上文描述的基于自然语言处理的围标串标行为识别方法可相互对应参照。

如图4所示，本实施提供的基于自然语言处理的围标串标行为识别装置，包括：

文件集合获取模块41，用于获取投标文件集合，所述投标文件集合用于记录同一招标项目下的投标文件；

向量表示生成模块42，用于生成所述投标文件集合中各个所述投标文件的向量表示；

相似度计算模块43，用于根据所述投标文件的向量表示，计算所述投标文件两两之间的相似度；

文件筛选模块44，用于筛选相似度大于阈值的目标投标文件；

标记模块45，用于将所述目标投标文件的所属投标人标记为围标串标行为的疑似对象。

本实施例的基于自然语言处理的围标串标行为识别装置用于实现前述的基于自然语言处理的围标串标行为识别方法，因此该装置的具体实施方式可见前文中的基于自然语言处理的围标串标行为识别方法的实施例部分，例如，文件集合获取模块41，向量表示生成模块42，相似度计算模块43，文件筛选模块44，标记模块45，分别用于实现上述基于自然语言处理的围标串标行为识别方法中步骤S21，S22，S23，S24，S25。所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的基于自然语言处理的围标串标行为识别装置用于实现前述的基于自然语言处理的围标串标行为识别方法，因此其作用与上述方法的作用相对应，这里不再赘述。

此外，本申请还提供了一种基于自然语言处理的围标串标行为识别设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如上文所述的基于自然语言处理的围标串标行为识别方法。

最后，本申请提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上文所述的基于自然语言处理的围标串标行为识别方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于自然语言处理的围标串标行为识别方法及装置 [P] . 中国专利： CN113129118A . 2021-07-16
2. 一种基于标签传播算法的居家行为自动识别方法及装置 [P] . 中国专利： CN114038053A . 2022-02-11
3. ACOUSTIC AND NATURAL LANGUAGE PROCESSING MODELS FOR SPEECH-BASED SCREENING AND MONITORING OF BEHAVIORAL HEALTH CONDITIONS [P] . WO2021081418A1 . 2021-04-29

机译：基于语音的筛选和监测行为健康状况的声学和自然语言处理模型
4. VIDEO-BASED HUMAN BEHAVIOR RECOGNITION METHOD, APPARATUS, DEVICE AND STORAGE MEDIUM [P] . US2021192194A1 . 2021-06-24

机译：基于视频的人类行为识别方法，装置，装置和存储介质
5. PLAY BEHAVIOR RECOGNITION SYSTEM, PLAY BEHAVIOR RECOGNITION PROGRAM, PLAY BEHAVIOR RECOGNITION METHOD, AND PLAY BEHAVIOR RECOGNITION APPARATUS [P] . 日本专利： JP2015122005A . 2015-07-02

机译：游戏行为识别系统，游戏行为识别程序，游戏行为识别方法和游戏行为识别装置