首页> 中国专利> 基于招聘信息的岗位词条构建方法

基于招聘信息的岗位词条构建方法

摘要

本申请提供基于招聘信息的岗位词条构建方法,属于招聘信息挖掘分析技术领域,方法采集招聘信息进行分割清洗,并构建招聘信息表;依据预设关键词表中的关键词为词首,对招聘信息表中的所有招聘信息进行短句分割,获取关键词句并构建关键词句列表;分别以岗位职责动名词表和岗位要求动名词表为约束,从关键词句列表中分离出岗位职责短句和岗位要求短句,并依据短句的句型对岗位职责短句和岗位要求短句进行词组分割与组合,构建岗位职责词条和岗位要求词条;最后依据词条修复逻辑对两个词条进行修复,确定招聘信息对应的岗位词条。本申请可以有效提取招聘信息中的关键词,提高了关键词提取准确度,能满足实际招聘的业务需求。

著录项

  • 公开/公告号CN116402046B

    专利类型发明专利

  • 公开/公告日2023.08.18

    原文格式PDF

  • 申请/专利号CN202310680645.3

  • 发明设计人 彭光辉;陶磊;

    申请日2023.06.09

  • 分类号G06F40/284(2020.01);G06F40/211(2020.01);G06Q10/1053(2023.01);

  • 代理机构成都市智恒博雅知识产权代理事务所(普通合伙) 51379;

  • 代理人胡玉

  • 地址 611700 四川省成都市高新区百叶路1号

  • 入库时间 2023-09-08 19:14:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-18

    授权

    发明专利权授予

说明书

技术领域

本申请属于招聘信息挖掘分析技术领域,具体涉及一种从招聘信息中挖掘任务词和技能词来构建岗位词条的方法。

背景技术

随着互联网的蓬勃发展,网络中的信息量开始爆炸式增长,如何从海量信息中快速准确地获取知识,成为人们最核心和迫切的需求。传统的招聘流程中,需要大量的招聘官人工地负责多次面试与筛选的流程,这会耗费大量的人力与时间。而招聘文本是一种特殊的信息文体,其记载的文本信息较为零散,且文本中的词汇受现有行业技术发展和调整的影响,容易出现新的招聘词汇,这对于招聘信息挖掘分析的准确性和适应性提出了较高的要求。

目前也有通过关键词模型来对招聘信息中的工作职责和技能要求关键词进行提取的技术方案,通常做法是先爬取智联上关于数据挖掘的岗位的招聘要求及其职责信息,根据分词技术对爬取的信息进行分词处理,如结巴分词等,从招聘信息提取出关键字,获得出现频率比较高的词汇,进而获取招聘信息中的关键词。但是现有分词技术如jieba,是针对通用词和常用词,或者自定义字典方式来实现分词的。而通用词和常用词模式分词的结果,往往会对工作职责和岗位要求的关键词从中截断,不能满足业务要求。同时,通过自定义字典方式进行关键词提取虽然能保障关键词提取质量,但工作量大,且部分职业招聘信息中的词汇连贯性强,自定义词典无法实现对各岗位招聘信息分词信息的穷举,关键词提取的准确度不高。

发明内容

为此,本申请提供一种基于招聘信息的岗位词条构建方法,有助于解决现有关键词提取方法难以有效提取招聘信息中的关键词,导致关键词提取准确度较低,不能满足实际招聘业务需求的问题。

为实现以上目的,本申请采用如下技术方案:

本申请提供一种基于招聘信息的岗位词条构建方法,包括:

采集招聘信息并依据第一预设序号列表规则对所述招聘信息进行分割清洗,构建招聘信息表;

依据预设关键词表中的关键词为词首,对所述招聘信息表中的所有招聘信息进行短句分割,获取关键词句并构建关键词句列表;所述预设关键词表具体包括岗位描述主题词表、岗位职责动名词表和岗位要求动名词表;

以所述岗位职责动名词表为约束,从所述关键词句列表中分离出岗位职责短句,并依据所述岗位职责短句的句型对所述岗位职责短句进行词组分割与组合,构建岗位职责词条;

以所述岗位要求动名词表为约束,从所述关键词句列表中分离出岗位要求短句,并依据所述岗位要求短句的句型对所述岗位要求短句进行词组分割与组合,构建岗位要求词条;

依据词条修复逻辑对所述岗位职责词条和岗位要求词条进行修复,确定所述招聘信息对应的岗位词条。

进一步地,所述采集招聘信息并依据第一预设序号列表规则对所述招聘信息进行分割清洗,构建招聘信息表,具体包括:

预先设置多个序号列表规则,并将每条序号列表规则依次链接,构成完整的正则表达式,获得第一预设序号列表规则;

采集招聘信息,依据第一预设序号列表规则对所述招聘信息中序号格式进行识别,并依据识别出的序号先后顺序对招聘信息文本进行数据分割,将每个序号对应的招聘信息的文本模式逐句转换为正则表达式,构成招聘信息表。

进一步地,所述依据预设关键词表中的关键词为词首,对所述招聘信息表中的所有招聘信息进行短句分割,获取关键词句并构建关键词句列表,具体包括:

预先定义设置岗位描述主题词表、岗位职责动名词表和岗位要求动名词表,以岗位描述主题词表中的岗位描述主题词、岗位职责动名词表中的岗位职责动名词和岗位要求动名词表中的岗位要求动名词作为短句的词首,对所述招聘信息表中的所有招聘信息进行短句分割,分别获取岗位描述短句、岗位职责短句和岗位要求短句;

分别对岗位职责短句和岗位要求短句进行主题化处理,以使岗位职责短句或岗位要求短句中只包含一个岗位职责动名词或岗位要求动名词;

分别遍历岗位职责短句,确定岗位职责动名词在岗位职责短句中开始和结束序号,构建岗位职责短句中前后两个关键词的开始序号组,以及遍历岗位要求短句,确定岗位要求动名词在岗位职责短句中开始和结束序号,构建岗位要求短句中前后两个关键词的开始序号和结束序号;

按照预设的关键词过滤逻辑分别对岗位描述短句、岗位职责短句和岗位要求短句进行关键词过滤处理,获得招聘信息的关键语句;

基于关键语句,以关键词为键,关键语句为值,通过键值对的方式构成关键语句列表。

进一步地,所述以所述岗位职责动名词表为约束,从所述关键词句列表中分离出岗位职责短句,并依据所述岗位职责短句的句型对所述岗位职责短句进行词组分割与组合,构建岗位职责词条,具体包括:

依据岗位职责动名词表中的岗位职责动名词,从关键词句列表分离出岗位职责短句;

遍历分离出的岗位职责短句,对岗位职责短句的句型进行判断,若岗位职责短句为标点符号句型语句,则以岗位职责短句中的岗位职责动名词为首词组,将原岗位职责短句作为一级任务词,构建出岗位职责词条;

若岗位职责短句为括号句型语句,则依据括号句型语句处理逻辑构建出岗位职责词条。

进一步地,所述括号句型语句处理逻辑具体为:

若岗位职责短句的句型是标准括号句型,则将首词组设置为岗位职责动名词,将标准括号前后的词组和标准括号内的文本信息进行分离,并将标准括号前后的词组组合成一级任务词,获得一级岗位职责词组,同时将标准括号中的文本信息按照标点符号分割为二级任务词,获得二级岗位职责词组,结合一级岗位职责词组和将二级岗位职责词组构建出岗位职责词条;

若岗位职责短句的句型是非标准括号句型,匹配首词组为岗位职责动名词,以第一预设关键字前面的词组为一级任务词,将第一预设关键字后面的词组按照标点符号分割为二级任务词,结合一级任务词和二级任务词。

进一步地,所述以所述岗位要求动名词表为约束,从所述关键词句列表中分离出岗位要求短句,并依据所述岗位要求短句的句型对所述岗位要求短句进行词组分割与组合,构建岗位要求词条,具体包括:

依据岗位要求动名词表中的岗位要求动名词,从关键词句列表分离出岗位要求短句;

遍历分离出的岗位要求短句,对岗位要求短句的句型进行判断,若岗位要求短句为标点符号句型语句,则按照岗位职责短句的标点符号句型语句处理逻辑构建出岗位要求词条;

若岗位要求短句为括号句型语句,则按照岗位职责短句的括号句型语句处理逻辑构建出岗位要求词条;

若岗位要求短句为双具句型语句,则依据双具句型处理逻辑构建出岗位要求词条。

进一步地,所述双具句型处理逻辑具体为:

若岗位要求短句包含三个词组,则依据预设的三段词规则构建岗位要求词条;

若岗位要求短句包含两个词组,则依据预设的两段词规则构建岗位要求词条。

进一步地,所述依据词条修复逻辑对所述岗位职责词条和岗位要求词条进行修复,确定所述招聘信息对应的岗位词条,具体包括:

分别对所述岗位职责词条和岗位要求词条进行标点符号分析,去除所述岗位职责词条和岗位要求词条前后的无效标点符号;

删除所述岗位职责词条和岗位要求词条前后的无效字符串;

分别对所述岗位职责词条和岗位要求词条进行词函数补充,确定所述招聘信息对应的岗位词条。

本申请采用以上技术方案,至少具备以下有益效果:

通过本申请提供的基于招聘信息的岗位词条构建方法,方法采集招聘信息并依据第一预设序号列表规则对所述招聘信息进行分割清洗,构建招聘信息表;依据预设关键词表中的关键词为词首,对所述招聘信息表中的所有招聘信息进行短句分割,获取关键词句并构建关键词句列表;所述预设关键词表具体包括岗位描述主题词表、岗位职责动名词表和岗位要求动名词表;以所述岗位职责动名词表为约束,从所述关键词句列表中分离出岗位职责短句,并依据所述岗位职责短句的句型对所述岗位职责短句进行词组分割与组合,构建岗位职责词条;以所述岗位要求动名词表为约束,从所述关键词句列表中分离出岗位要求短句,并依据所述岗位要求短句的句型对所述岗位要求短句进行词组分割与组合,构建岗位要求词条;依据词条修复逻辑对所述岗位职责词条和岗位要求词条进行修复,确定所述招聘信息对应的岗位词条。本申请通过以预设关键词表中的关键词为词首,对招聘信息表中的所有招聘信息进行短句分割,获取关键词句并构建关键词句列表,可以有效提取招聘信息中的关键词,提高了关键词提取准确度。同时,从关键词句列表分离出岗位要求短句和岗位职责短句进行词组分割与组合处理,构建出岗位要求词条和岗位职责词条,能在保障关键词提取质量的同时降低招聘数据分析的工作量,能满足实际招聘的业务需求。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是根据一示例性实施例示出的基于招聘信息的岗位词条构建方法流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将对本申请的技术方案进行详细的描述。

请参阅图1,图1是根据一种基于招聘信息的岗位词条构建方法,如图1所示,该方法包括:

S1:采集招聘信息并依据第一预设序号列表规则对所述招聘信息进行分割清洗,构建招聘信息表;

S2:依据预设关键词表中的关键词为词首,对所述招聘信息表中的所有招聘信息进行短句分割,获取关键词句并构建关键词句列表;所述预设关键词表具体包括岗位描述主题词表、岗位职责动名词表和岗位要求动名词表;

S3:以所述岗位职责动名词表为约束,从所述关键词句列表中分离出岗位职责短句,并依据所述岗位职责短句的句型对所述岗位职责短句进行词组分割与组合,构建岗位职责词条;

S4:以所述岗位要求动名词表为约束,从所述关键词句列表中分离出岗位要求短句,并依据所述岗位要求短句的句型对所述岗位要求短句进行词组分割与组合,构建岗位要求词条;

S5:依据词条修复逻辑对所述岗位职责词条和岗位要求词条进行修复,确定所述招聘信息对应的岗位词条。

进一步地,在一个实施例中,所述采集招聘信息并依据第一预设序号列表规则对所述招聘信息进行分割清洗,构建招聘信息表,具体包括:

预先设置多个序号列表规则,并将每条序号列表规则依次链接,构成完整的正则表达式,获得第一预设序号列表规则;

采集招聘信息,依据第一预设序号列表规则对所述招聘信息中序号格式进行识别,并依据识别出的序号先后顺序对招聘信息文本进行数据分割,将每个序号对应的招聘信息的文本模式逐句转换为正则表达式,构成招聘信息表。

其中,第一预设序号列表规则是从招聘序号表获取的,招聘序号表由招聘信息文本的编序正则表达式组成,一条表达式为列表中一个元素。招聘序号表的序号列表规则成员如下:

规则1:[0-9]{1,2}[、.]{1}覆盖‘1、’、‘12、’和‘2.’、‘16.’序号格式的招聘信息,序号可以是一位数,也可以是两位数;

规则2:[• ]{1}覆盖‘•’序号格式的招聘信息;

规则3:((]{1}[0-9]{1,2}[))]{1}覆盖‘(2),(32)’序号格式的招聘信息,‘()’可以是全角也可以是半角,序号可以是一位数,也可以是两位数;

规则4:[0-9]{1,2}[))]{1}覆盖‘3)’,‘12)’序号格式的招聘信息,‘)’可以是全角也可以是半角,序号可以是一位数,也可以是两位数。

具体实践过程中,对招聘信息进行分割清洗具体为:就是将招聘信息原文,按照上述招聘序号表的序号列表规则进行分割,构建一张新的招聘信息列表。招聘序号表如下:

['[0-9]{1,2}[、.]{1}','[• ]{1}','[((]{1}[0-9]{1,2}[))]{1}','[0-9]{1,2}[))]{1}']

招聘信息列表的构建流程大致为:

(1)提取序号列表规则,每条规则都是一个正则表达式。

(2)将每条规则链接在一起,构成一个完整的正则表达式,一个完整的表达式是由每条规则的或关系。

(3)数据分割,构成逐句的招聘信息列表。

具体的,本申请还给出了对招聘信息进行分割清洗的实例,具体如下:

(1)输入数据:

工作职责:1、负责腾讯游戏内容/作者理解体系搭建,协同算法、研发、数据、审核团队,搭建完善的内容理解优化链路,提升内容识别能力和效率;2、负责游戏内容数据科学运营,并能根据不同生态目标提供解决方案;3、负责内容运营策略优化,能够利用数据辅助决策,设置合理的数据效果评估体系,通过实验联动各模块持续迭代和验证,探索寻找新的方法以提升关键指标,赋能游戏用户增长。工作要求:1、本科以上学历,经济学、统计、数学、物理、信息技术及相关专业;2年以上内容中台/内容策略/内容生态等相关工作经验优先;有数据驱动业务的实战经验者优先,有咨询公司背景优先,互联网商业分析/BI背景优先;2、较强内容理解能力,关注行业/竞品动态,有互联网产品思维、逻辑清晰;3、优秀的数据分析能力(熟悉大数据工具),熟悉A/BTesting实验理论和流程,了解常用的机器学习和深度学习算法;善于利用数据驱动需求或指导决策;4、有较强的沟通协作能力、项目管理能力,目标导向,自我驱动,有较强好奇心和学习能力。

(2)输出结果:

['工作职责:', '负责腾讯游戏内容/作者理解体系搭建,协同算法、研发、数据、审核团队,搭建完善的内容理解优化链路,提升内容识别能力和效率;', '负责游戏内容数据科学运营,并能根据不同生态目标提供解决方案;', '负责内容运营策略优化,能够利用数据辅助决策,设置合理的数据效果评估体系,通过实验联动各模块持续迭代和验证,探索寻找新的方法以提升关键指标,赋能游戏用户增长。工作要求:', '本科以上学历,经济学、统计、数学、物理、信息技术及相关专业;2年以上内容中台/内容策略/内容生态等相关工作经验优先;有数据驱动业务的实战经验者优先,有咨询公司背景优先,互联网商业分析/BI背景优先;', '较强内容理解能力,关注行业/竞品动态,有互联网产品思维、逻辑清晰;','优秀的数据分析能力(熟悉大数据工具),熟悉A/BTesting实验理论和流程,了解常用的机器学习和深度学习算法;善于利用数据驱动需求或指导决策;', '有较强的沟通协作能力、项目管理能力,目标导向,自我驱动,有较强好奇心和学习能力。']

进一步地,在一个实施例中,所述依据预设关键词表中的关键词为词首,对所述招聘信息表中的所有招聘信息进行短句分割,获取关键词句并构建关键词句列表,具体包括:

预先定义设置岗位描述主题词表、岗位职责动名词表和岗位要求动名词表,以岗位描述主题词表中的岗位描述主题词、岗位职责动名词表中的岗位职责动名词和岗位要求动名词表中的岗位要求动名词作为短句的词首,对所述招聘信息表中的所有招聘信息进行短句分割,分别获取岗位描述短句、岗位职责短句和岗位要求短句;

分别对岗位职责短句和岗位要求短句进行主题化处理,以使岗位职责短句或岗位要求短句中只包含一个岗位职责动名词或岗位要求动名词;

分别遍历岗位职责短句,确定岗位职责动名词在岗位职责短句中开始和结束序号,构建岗位职责短句中前后两个关键词的开始序号组,以及遍历岗位要求短句,确定岗位要求动名词在岗位职责短句中开始和结束序号,构建岗位要求短句中前后两个关键词的开始序号和结束序号;

按照预设的关键词过滤逻辑分别对岗位描述短句、岗位职责短句和岗位要求短句进行关键词过滤处理,获得招聘信息的关键语句;

基于关键语句,以关键词为键,关键语句为值,通过键值对的方式构成关键语句列表。

其中, 岗位描述关键词表由招聘信息针对工作职责和工作要求开始提示主题词组成,一条主题词为列表中一个元素。 岗位职责动词表由招聘信息中定义工作职责目标任务的动名词组成,一条动词为列表一个成员。本发明借用英语中的动名词概念,说明招聘信息中的一类专用动词,本发明所说的动名词句中是在招聘信息中充当主语的以动词为主的词组。 岗位要求动词表由招聘信息中定义工作要求熟练程度的动名词组成,一条动词为列表一个成员。关键词句的构建旨在以关键词表中关键词为词首、分割输入列表(即招聘信息表)中每个元素,构建关键词句列表。关键词句列表元素为键值对,键为关键词,值为以关键词开头的短句。

具体的,在一个实施例中,本申请设置的岗位描述主题词表、岗位职责动名词表和岗位要求动名词表中关键词的词组内容如下:

(1)岗位描述主题词表:['岗位要求','岗位职责','岗位描述','工作职责','工作要求','职位要求','任职资格','职能类别',【岗位职责】,【任职资格】]。

(2)岗位职责动名词表:['负责','承担','参与','主导','评估和测试','定期主导','协助组织','协调和主导','从事','分析和跟踪','洞察', '挖掘','跟踪','探索']。

(3)岗位要求动名词表:['了解', '熟知', '熟悉', '掌握', '精通', '具备','具有', '理解','深度参与','深入了解', '熟练使用', '熟练应用', '熟练阅读','深刻理解', '熟练掌握','深入理解','深度参与或领导过']。

进一步地,根据上述实施例提供的关键词来构建关键语句的过程具体如下:

(1)对岗位职责短句和岗位要求短句进行主题化处理,即每条短句中只有一个动名词,且这个动名词一定要位于该短句最前面。

(2)分别遍历岗位职责短句,确定岗位职责动名词在岗位职责短句中开始和结束序号,构建岗位职责短句中前后两个关键词的开始序号组,以及遍历岗位要求短句,确定岗位要求动名词在岗位职责短句中开始和结束序号,构建岗位要求短句中前后两个关键词的开始序号和结束序号。

(3)当遇到有“深度参与”和“深度参与或领导过”两个关键词同时存在时,将短的关键词(即深度参与)过滤掉,只保留长的关键词(即深度参与或领导过)。

(4)对“熟练掌握”和“掌握”两动名词的处理方式:当遇到“熟练掌握”时,在定位时这两个动名词的位置都有效,而且“熟练掌握”的位置序号一定在“掌握”之前,这时“掌握”这个动名词在本句为无效动名词,在截取关键词句时要跳过“掌握”这个动名词,用下一个动名词的位置序号为第二动名词位置序号。

(5)当有两个相邻的岗位描述主题词时,则需跳过短的动名词位置进行分割。

(6)处理关键词在短句中间情况,这种情况下需要跳过这个关键词,满足条件是第二个关键词文本前面是一个字符且必须为标点符号。

(7)按照关键词句中序号组的值分段截取短句的字符串作为新构建的关键词句列表成员。

其中,上述流程(3)、(4)、(5)和(6)是本申请预设的关键词过滤逻辑。本申请给出了构建关键语句列表的实例分析结果,具体如下:

(1)输入数据:

['岗位职责:', '负责计算机视觉前沿研究与技术创新,聚焦表征学习、人脸分析、检测识别、生成技术等,相关成果可投稿顶会;', '负责人脸相关算法的研发和优化,包括人脸的识别、检测、关键点定位、3D重建、GAN等;', '参与和推动上述相关技术在头条、抖音等产品线的落地。岗位要求:', '数学、计算机、电子、自动化等相关专业;', '熟悉C++或Python,具有较强的代码开发能力;', '在国际顶尖会议或期刊(包括但不限于CVPR,ICCV,ECCV,NeurIPS,ICML,AAAI,TPAMI,IJCV等)上发表过论文者优先;', '每周出勤至少能够保证4天,可连续实习3个月以上,非常欢迎长期实习,同时需征得导师同意。']

(2)输出结果:

[{'岗位职责': '岗位职责:'}, {'负责': '负责计算机视觉前沿研究与技术创新,聚焦表征学习、人脸分析、检测识别、生成技术等,相关成果可投稿顶会;'}, {'负责':'负责人脸相关算法的研发和优化,包括人脸的识别、检测、关键点定位、3D重建、GAN等;'},{'参与': '参与和推动上述相关技术在头条、抖音等产品线的落地。'}, {'岗位要求': '岗位要求:'}, {'熟悉': '熟悉C++或Python,'}, {'具有': '具有较强的代码开发能力;'}]

关键词句元素实例:{'参与': '参与和推动上述相关技术在头条、抖音等产品线的落地。'},{'岗位要求': '岗位要求:'}。这些元素中三类用于岗位职责词条(本申请也称任务词条)构建、二类(即不包含“工作职责”、“岗位要求”和“岗位职责”等词条的关键语句元素)用于岗位要求词条(本申请也称技能词条)构建,三类(即“工作职责”、“岗位要求”和“岗位职责”等关键语句元素)是指由工作职责为键的成员只做边界成员,在构建任务词条和技能词条时不用该关键语句元素。

进一步地,在一个实施例中,所述以所述岗位职责动名词表为约束,从所述关键词句列表中分离出岗位职责短句,并依据所述岗位职责短句的句型对所述岗位职责短句进行词组分割与组合,构建岗位职责词条,具体包括:

依据岗位职责动名词表中的岗位职责动名词,从关键词句列表分离出岗位职责短句;

遍历分离出的岗位职责短句,对岗位职责短句的句型进行判断,若岗位职责短句为标点符号句型语句,则以岗位职责短句中的岗位职责动名词为首词组,将原岗位职责短句作为一级任务词,构建出岗位职责词条;

若岗位职责短句为括号句型语句,则依据括号句型语句处理逻辑构建出岗位职责词条。

其中,所述括号句型语句处理逻辑具体为:

若岗位职责短句的句型是标准括号句型,则将首词组设置为岗位职责动名词,将标准括号前后的词组和标准括号内的文本信息进行分离,并将标准括号前后的词组组合成一级任务词,获得一级岗位职责词组,同时将标准括号中的文本信息按照标点符号分割为二级任务词,获得二级岗位职责词组,结合一级岗位职责词组和将二级岗位职责词组构建出岗位职责词条;

若岗位职责短句的句型是非标准括号句型,匹配首词组为岗位职责动名词,以第一预设关键字前面的词组为一级任务词,将第一预设关键字后面的词组按照标点符号分割为二级任务词,结合一级任务词和二级任务词。

具体的,在一个实施例中,岗位职责词条构建是在岗位职责动名词表的约束下,从基于关键词句列表元素中分离词条,每个岗位职责词条结构是:《岗位职责动名词:一级词条->二级次条(可选)》;岗位职责动名词表如下:['负责','承担','参与','主导','评估和测试','定期主导','协助组织','协调和主导','从事','分析和跟踪','洞察', '挖掘','跟踪','探索'。];

具体的岗位职责词条构建如下:岗位职责短句有括号句型和标点符号句型,括号句分“()”句型和非“()”句型,即标准括号句型和非标准括号句型,每种句型需分别处理。

1)标准括号句型分析:遍历被分析短句,匹配首词组为岗位职责动名词,输出()前后词组和()信息。使用这种规则可以将()前后的词组分离出来,分离的词组合并为新词组,并组成一级岗位职责词组,()中的信息按照标点符号分割组成二级岗位职责词组。

相关实例:岗位职责短句原文一条:负责轻量级虚拟化(业界同类产品KataContainer、Firecracker、gVisor等)场景虚拟化等新型软硬件架构设计。

经过分离组合后,岗位职责词条的构建结果有三条,分别为:

负责:轻量级虚拟化场景虚拟化等新型软硬件架构设计->业界同类产品KataContainer ;

负责:轻量级虚拟化场景虚拟化等新型软硬件架构设计->Firecracker ;

负责:轻量级虚拟化场景虚拟化等新型软硬件架构设计->gVisor 。

2)非标准括号句型分析:匹配首词组为岗位职责动名词,匹配动名词和[:包括,例如,如]标识符信息,输出标识符前后词组,标识符“包括”,“例如”和“如”即第一预设关键字。这种句型中关键字“如”前面的词组为一级任务词,“如”后面的词组依标点符号分割为二级任务词。

实例:岗位职责短句原文一条:参与操作系统生态链构建,如技术探索、开源、行业认证等。

经过分离组合后,岗位职责词条的构建结果有三条,分别为:

参与:操作系统生态链构建->技术探索;

参与:操作系统生态链构建->开源;

参与:操作系统生态链构建->行业认证。

标点符号句型分析:即以标点符号分割的句型,如:[、,;]等标点符号。

对这种句型,不用分割词句内容,原词句即为一级任务词,无二级任务词。

相关实例:

原文一条:探索微内核、宏内核和外核系统的新技术,围绕业务场景和硬件体系发展变化;

结果一条:探索:微内核、宏内核和外核系统的新技术,围绕业务场景和硬件体系发展变化。

进一步地,本申请还整体给出了一个岗位职责词条构建实例,具体如下:

(1)输入为关键词句列表,如下:

[{'岗位职责': '岗位职责:面向公司公有云、私有云、混合云业务,'}, {'主导':'主导/聚焦操作系统领域的能力构建和技术创新,'}, {'岗位职责': '岗位职责包括但不限于:'}, {'负责': '负责面向CPU、DPU、GPU等多样性算力芯片的OS设计,实现Host-device异构部署集成统一标准;'},{'负责': '负责多样性算力硬件下数据面OS的架构设计,实现按负载调度算力,达到资源利用率与性能最佳。'}, {'岗位要求': '岗位要求:'},{'精通': '精通计算机体系架构,对X'}, {'精通': '精通操作系统理论,对Linux或Windows等OS内核丰富的设计开发经验;'}]。

(2)输出为岗位职责词条列表,如下:

['主导:聚焦操作系统领域的能力构建和技术创新', '负责:面向CPU、DPU、GPU等多样性算力芯片的OS设计,实现Host-device异构部署集成统一标准', '负责:多样性算力硬件下数据面OS的架构设计,实现按负载调度算力,达到资源利用率与性能最佳']。

进一步地,在一个实施例中,所述以所述岗位要求动名词表为约束,从所述关键词句列表中分离出岗位要求短句,并依据所述岗位要求短句的句型对所述岗位要求短句进行词组分割与组合,构建岗位要求词条,具体包括:

依据岗位要求动名词表中的岗位要求动名词,从关键词句列表分离出岗位要求短句;

遍历分离出的岗位要求短句,对岗位要求短句的句型进行判断,若岗位要求短句为标点符号句型语句,则按照岗位职责短句的标点符号句型语句处理逻辑构建出岗位要求词条;

若岗位要求短句为括号句型语句,则按照岗位职责短句的括号句型语句处理逻辑构建出岗位要求词条;

若岗位要求短句为双具句型语句,则依据双具句型处理逻辑构建出岗位要求词条。

其中,所述双具句型处理逻辑具体为:

若岗位要求短句包含三个词组,则依据预设的三段词规则构建岗位要求词条;

若岗位要求短句包含两个词组,则依据预设的两段词规则构建岗位要求词条。

具体的,在一个实施例中,岗位要求词条构建是在岗位要求动名词表的约束下,从关键词句列表元素中分离词条,每个岗位要求词条结构是:《岗位要求动名词:一级词条->二级次条(可选)》。岗位要求动名词表如下:['了解', '熟知', '熟悉', '掌握', '精通','具备', '具有', '理解','深度参与','深入了解', '熟练使用', '熟练应用', '熟练阅读','深刻理解', '熟练掌握','深入理解','深度参与或领导过']。

根据上述岗位要求动名词表构建岗位要求词条的过程具体如下:

(1)岗位要求短句有括号句型、双具句型和标点符号句型,括号句型构建方式与岗位职责短句的括号句型处理逻辑相同。

(2)双具句型:如:具有...经验、具备...管理能力。双具句型关键词句表有两个,一个是两段词句表,另一个是三段词句表,这两个词句表结构如下:

两段词句表:jbjy_2 = [['具有', '项目经验'],['具备','项目经验'],

['具备','项目能力'],['具有','项目能力'],

['具有','管理经验'],['具备','管理经验'],

['具有','管理能力'],['具备','管理能力']]

三段词句表:jbjy_3 = [['具有', '渠道资源', '经验'],

双具句型的岗位要求词条构建方法具体为:

1)三段词规则:

三段词规则含义是匹配满足三段句型词组1、2、3,词组1、词组2和词组3分别对应上述三段词句表中的关键词句(如词组1为‘具备’、词组2为‘渠道经验’,词组3为‘经验’),在词组1与词组2、词组2与词组3之间的词句分别是匹配值,匹配值即招聘信息中的岗位要求相关的词句。

对词组1与词组2之间的匹配值再分割,分割规则为标点符号[、,;//]{1},输出K个岗位要求二级词条。

一个完整的岗位要求词条由词组1 + 词组3+ 岗位要求二级词条组成。相应的三段词规则逻辑代码为:ptn = jndc_ + '(.*?)' + v[1] + '[及,与,或]{0,1}(.*?)' + v[2]。

实例:具有证券投资、信贷投资等渠道资源,以及3年以上银行或金融云业务相关渠道拓展工作经验或销售经验。

按照上述三段词规则进行岗位要求词条构建,获得的岗位要求词条具体为:

1、具有证券投资渠道资源,以及3年以上银行或金融云业务相关渠道拓展工作经验或销售经验;

2、具有信贷投资渠道资源,以及3年以上银行或金融云业务相关渠道拓展工作经验或销售经验。

2)两段词规则:

两段词规则含义是匹配满足两段句型词组1和词组2,输出词组1与词组2之间的匹配值。

对词组1与词组2之间的匹配值再分割,分割规则为标点符号,[、,;//]{1},输出K个岗位要求词条。

一个完整的岗位要求词条由词组1 + 岗位要求词条组成。相应的两段词规则逻辑代码具体为:ptn = jndc_ + '(.*?)' + v[1]。

实例:具备良好的团队合作精神,有较强的沟通能力和钻研能力。

将上述词句按照两段词规则处理后,构建出的岗位要求词条具体为:

1、具备良好的团队合作精神;

2、具备较强的沟通能力和钻研能力。

(3)标点符号句型分析:即以标点符号分割的句型,如:[、,;//]等标点符号,完成数据分割,输出K条岗位要求词条。构建岗位要求词条,词条由岗位要求动名词+岗位要求词条。具体的短句分割处理过程参照上述岗位职责词条构建过程中的标点符号句型处理逻辑。标点符号句型的匹配规则逻辑代码为:

ptn = '[、,;//]{1}';

jn = re.split(r'[、,,;]{1}',jndy_t[0])。

具体实践过程中,本申请还整体给出了一个岗位要求词条构建实例,具体如下:

(1)输入值是关键词句列表,如下:

 [{'工作职责': '工作职责:'}, {'负责': '负责同步助手/腾讯相册管家iOS,LemonMac等开发工作;'}, {'承担': '承担包括iOS客户端的需求分析、方案设计与开发实现、性能调优、重点/难点技术攻坚等;'}, {'负责': '负责系统和模块级的架构设计工作;'}, {'承担': '承担并推动团队内成员技术分享。'}, {'工作要求': '工作要求:'},{'掌握': '掌握iOS开发工具和测试工具的使用;'}, {'熟悉': '熟悉面向对象化编程思想和设计模式,有一定的架构设计能力;'},{'具备': '具备良好的分析解决问题能力;'},{'具备': '具备良好的团队合作精神,有较强的沟通能力和钻研能力;'}]。

(2)输出值是岗位要求词条列表,如下:

['掌握:iOS开发工具和测试工具的使用', '熟悉:面向对象化编程思想和设计模式', '熟悉:有一定的架构设计能力', '具备:良好的分析解决问题能力', '具备:良好的团队合作精神', '具备:有较强的沟通能力和钻研能力']。

进一步地,在一个实施例中,可以通过构建句型标识表以便于在词条构建过程对短句的句型进行分析。句型标识表由能表达一种句型的关键词组构成,一个词组为列表中一个成员。

句成员包括: '(包括:','例如:',':',':','包括','如','(','('。

其中,具有/具备句成员包括:

三段句成员:['具有', '渠道资源', '经验'],

           ['具备', '渠道资源', '经验']。

两段句成员:['具有', '项目经验'],['具备','项目经验'],

           ['具备','项目能力'],['具有','项目能力'],

           ['具有','管理经验'],['具备','管理经验'],

           ['具有','管理能力'],['具备','管理能力']。

进一步地,在一个实施例中,所述依据词条修复逻辑对所述岗位职责词条和岗位要求词条进行修复,确定所述招聘信息对应的岗位词条,具体包括:

分别对所述岗位职责词条和岗位要求词条进行标点符号分析,去除所述岗位职责词条和岗位要求词条前后的无效标点符号,如逗号、句号、冒号、分号和顿号等,具体可以根据实际需要进行设置。

删除所述岗位职责词条和岗位要求词条前后的无效字符串,如包括但不限于、并、加分项、者加分、能够和能力等字词,具体可以根据实际业务需求进行设置。

分别对所述岗位职责词条和岗位要求词条进行词函数补充,确定确定所述招聘信息对应的岗位词条。其中,词条修复是先根据预设规则对词条的完整性进行判断,根据判断结果再利用词函数对词条的完整性进行修复。

进一步地,在一个实施例中,还可以构建词条修改表以便于对词条进行修复。修复词条表由词条前后需删除的标点符号、词条尾补充表、形容词词表构成和其他可删除词表。

词条前后需删除的标点符号包括:',', '、', ';', ',', ';', '。', ':', ')',')', '-','· ',':','的','等'。

词条句尾补充词字典:{'有深入':'了解'}。

形容词表:'富有','并能','一定的','大型的','优秀的','较强的','常用的','敏锐的','强烈的','出色的','复杂的','丰富的','主流的','良好的','积极的', '条件优秀的','沟通协调','无违规','职业道德','积极参与','并,'喜欢'。

其他可删除词表:'至少一种','三门以上','至少2种','一种或多种','1至2种','并且','者录取','者优先录取','的候选人优先', '一门或多门','加分','优先','者','者优先'。

本发明提出的实现方法支持所有词表的扩展,词表成员来源于招聘信息原文。

进一步地,在本申请的另一些实施例中,词条的修复过程也可以在岗位职责词条和岗位要求词条的构建过程中进行,可以进一步的简化方法的处理流程。

本申请通过以预设关键词表中的关键词为词首,对招聘信息表中的所有招聘信息进行短句分割,获取关键词句并构建关键词句列表,可以有效提取招聘信息中的关键词,提高了关键词提取准确度。同时,从关键词句列表分离出岗位要求短句和岗位职责短句进行词组分割与组合处理,构建出岗位要求词条和岗位职责词条,能在保障关键词提取质量的同时降低招聘数据分析的工作量,能满足实际招聘的业务需求。

与现有的招聘信息关键词提取技术相比,本申请能在保证关键词提取质量的同时,还能适应新招聘词汇的信息挖掘分析,解决了现有通过分词技术提取关键词时难以满足业务要求,以及自定义词典技术不能穷举岗位招聘分词信息的问题。可以为院校、企业等机构的人才培养计划、课程大纲和教学任务的调整提供技术支撑和后续数据分析,能根据行业需求进行个性化学习的指引,实现行业人才的自主学习和终身学习。

可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号