首页> 中国专利> 一种预测最大婚姻满意度的婚姻匹配方法

一种预测最大婚姻满意度的婚姻匹配方法

摘要

本发明公开了一种预测最大婚姻满意度的婚姻匹配方法,包括步骤:(A)收集包含个人特征和婚姻满意度打分的夫妻对数据集;(B)根据夫妻双方婚姻满意度打分,将所述数据集划分为两类,一类是夫妻双方都处于最大婚姻满意度状态,另一类是夫妻双方中有任意一方不是处于最大婚姻满意度状态;(C)根据夫妻个人特征变量和夫妻婚姻满意度构建训练集;(D)基于所述的训练集,使用改进梯度提升决策树算法进行训练,建立二分类预测算法模型;(E)基于所述预测模型,输入一对男女的个人特征信息,预测该对男女匹配在一起后双方是否都会获得最大婚姻满意度。

著录项

  • 公开/公告号CN112365104A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 杭州师范大学;

    申请/专利号CN202011436982.0

  • 发明设计人 黄剑平;吴银豪;

    申请日2020-12-07

  • 分类号G06Q10/04(20120101);G06Q10/06(20120101);G06Q50/00(20120101);G06Q50/26(20120101);G06K9/62(20060101);G06N20/00(20190101);

  • 代理机构33224 杭州天勤知识产权代理有限公司;

  • 代理人胡红娟

  • 地址 311121 浙江省杭州市余杭区余杭塘路2318号

  • 入库时间 2023-06-19 09:54:18

说明书

技术领域

本发明涉及匹配技术领域,具体涉及一种预测最大婚姻满意度的婚姻匹配方法。

背景技术

婚姻匹配,简单地说就是满足择偶双方的需求,个体根据自身的需要选择结婚对象的非随机过程。由于男女双方个体特征的私有性和异质(男女个体特征之间存在差异),完全竞争的条件并不满足,因此,需要通过合适的“配对”最大限度满足男女双方的需求并实现“联盟”总效用的最大化。

对于婚姻匹配的最早研究可以追溯到1962年,两位数理经济学家David Gale与Lloyd Shapley在一篇名为“大学录取和婚姻稳定性”的论文中首次提到了稳定完备婚姻问题。为了解决这个婚姻问题,Gale和Shapley从数学与博弈论的分析角度出发,提出了能够促使稳定婚姻匹配的Gale-Shapley匹配算法。

虽然越来越多的学者对婚姻匹配问题理论进行了扩展补充,以及对Gale-Shapley匹配算法进行了改进与优化,但是传统的婚姻匹配算法依然存在两大问题:

一是,待匹配的男女双方由于不了解对方性格、情感等信息,导致无法较为准确地判断对方是否真的适合自己,从而无法给出正确的严格偏好排序;

二是,经典的Gale-Shapley算法只能求解单边最优解,算法结果的准确性存在一定偏误。

本发明基于已有的包含个人特征和婚姻满意度打分的夫妻数据集,通过引入二分类的预测算法模型去完成男女之间的双边婚姻匹配,能够有效克服以上两大问题。

发明内容

针对上述目前婚姻匹配方法存在的两大问题,本发明提供了一种预测最大婚姻满意度的婚姻匹配方法,可帮助不同特征下的男女更好地匹配在一起,可以匹配出最大婚姻满意度下的夫妻以及较好解决个体对异性偏好不明确的问题。

一种预测最大婚姻满意度的婚姻匹配方法,包括步骤:

(A)收集包含个人特征和婚姻满意度打分的夫妻对数据集;

(B)根据夫妻双方婚姻满意度打分,将所述数据集划分为两类,一类是夫妻双方都处于最大婚姻满意度状态(如夫妻婚姻满意度分值最高),另一类是夫妻双方中有任意一方不是处于最大婚姻满意度状态;

(C)根据夫妻个人特征变量和夫妻婚姻满意度构建训练集;

(D)基于所述的训练集,使用改进梯度提升决策树算法进行训练,建立二分类预测算法模型;

(E)基于所述预测模型,输入一对男女的个人特征信息,预测该对男女匹配在一起后双方是否都会获得最大婚姻满意度。

所述步骤(A)中收集具有包含个人特征和婚姻满意度打分的夫妻对数据信息时,首先筛选出夫妻数据对,然后选用已有的个人特征和婚姻满意度,个人特征包括非人格特征和人格特征,其中非人格特征包括户口、学历、是否党员、外貌、BMI指数,人格特征包括有成就感的重要程度、喜欢信任还是怀疑别人、生活有乐趣的重要程度、不孤单的重要程度、人缘有多好、传宗接代的重要性、情绪低落程度、对未来信心程度。

所述步骤(B)中,根据夫妻双方婚姻满意度来划分数据集:首先将夫妻双方婚姻满意度都为最大的情况归为一类,其它情况归为另一类,然后前者作为正样本,后者作为负样本,保证两类数据比例为1:1。

所述步骤(C)中,将每对夫妻的个人特征作为自变量,每对夫妻是否双方都处于最大婚姻满意度状态作为因变量,构建训练集。

所述步骤(D)中,基于步骤(C)所构建的训练集,使用改进梯度提升决策树算法去构建预测模型,具体步骤包括:

(1)初始化每个样本预测值,并定义好损失函数;

(2)计算所述损失函数对于每个样本预测值的导数;

(3)根据所述导数信息建立一颗新的决策树;

(4)将新的决策树样本预测值累加到原来的样本预测值上形成新样本预测值,以拟合上次预测的残差;

(5)重复步骤(2)-(5)直到超过最大树高以及增益小于阈值停止建树,得到所述二分类预测算法模型。

所述损失函数如下:

其中,y

所述二分类预测算法模型如下:

其中,K代表树的数量,f

所述步骤(E)中,用于预测的结果值分布在0和1之间,通过判断所述结果值来预测该对男女匹配在一起后双方是否都会获得最大婚姻满意度,其中结果值为1时,表示该对男女匹配在一起后双方都会获得最大婚姻满意度,反之则至少有一方不会。

本发明与现有技术相比,主要优点包括:

(1)通过引入机器学习算法,无需个体对每一个异性进行偏好打分就能获得最适合自己的伴侣,解决了个体无法很好地衡量每一个异性的偏好排序的问题。

(2)本发明所求结果可以获得夫妻双方的最大婚姻满意度,更好地解决了传统匹配算法只能求解单边最优解的问题。

附图说明

图1为本发明的一种预测最大婚姻满意度的婚姻匹配方法的流程示意图。

具体实施方式

下面结合附图及具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的操作方法,通常按照常规条件,或按照制造厂商所建议的条件。

如图1所示,本实施例的预测最大婚姻满意度的婚姻匹配方法,包括:收集包含个人特征和婚姻满意度打分的夫妻对数据集,并通过数据筛选以及数据填充等手段获得有效的数据集;以每对夫妻特征作为自变量,每对夫妻是否都处于最大婚姻满意度状态作为因变量来建立数据模型,并使用改进梯度提升决策树算法来帮助预测某对男女匹配在一起是否会获得最大婚姻满意度,从而为他们寻找到适合自己的伴侣。

具体步骤包括:

(A)收集包含个人特征和婚姻满意度打分的夫妻对数据集;

从中国家庭追踪调查(CFPS)官网(http://www.isss.pku.edu.cn/cfps/)中下载个人数据集,并从中筛选出包含个人特征和婚姻满意度打分的夫妻对数据。其中个人特征指标如表1、表2所示。由于被采访人拒绝回答、不知道如何回答、遗漏等各种原因会导致数据缺失的问题。为了保证数据有效性和完整性,我们需要对缺失数据进行填充,首先CFPS个人问卷是由多份问卷组成的,许多个人指标会在不同问卷中重复出现。我们可以通过多份问卷组合提取合法数据的方式,填充缺失数据。

再者,经过上述方式处理后,依然存在部分少量缺失值。我们可以使用固定值填充、众数填充、平均值填充、中位数填充以及邻近数填充等方法来处理。

表1非人格特征指标

表2人格特征指表

(B)根据夫妻双方婚姻满意度打分,将所述数据集划分为两类,一类是夫妻双方都处于最大婚姻满意度状态,夫妻双方婚姻满意度打分都是最大值5分,作为正样本,另一类是夫妻双方中有任意一方不是处于最大婚姻满意度状态,即夫妻双方中有任意一方婚姻满意度打分低于5分,作为负样本;

在CFPS数据集中,我们需要知道在2018年的CFPS个人问卷中所对应的婚姻满意度代码和问题分别为“QM801”和“您对您当前的婚姻/同居生活有多满意”。其中的婚姻满意度被分为五个等级,分别是“非常不满意”、“不满意”、“一般”、“满意”、“非常满意”,依次编码对应分值1到5。

本发明的因变量为“匹配双方的婚姻满意度是否都处于非常满意的状态”,将已筛选的夫妻数据集经过分类标记后,两类数据的比例基本接近于1:1。

(C)根据夫妻个人特征变量和夫妻婚姻满意度构建训练集;

我们选用步骤(A)每对夫妻的个人特征作为自变量,步骤(B)的是否是非常满意的匹配状态作为因变量。个人特征变量进行编码量化如下:

户口编码为1,2,3,依次对应表1户口状态的没有户口、非农业户口及农业户口。

学历编码为1,2,3,4,5,6,7,8依次对应表1学历状态的文盲/半文盲/没有上过学、小学、初中、高中/中专/技校/职高、大专、本科、硕士、博士。

表1中党员状态编码为0,1,依次对应表1是否党员状态的非党员和党员。

表1中外貌打分编码与原始数据保持一致,1-7分,分值越高代表外貌越好。

表1中BMI指数编码与原始数据保持一致。

表2中的有成就感的重要程度分值编码与原始数据保持一致。

表2中的信任还是怀疑别人的分值编码为0,1依次对应认为大多数可信赖的和越小心越好。

表2中生活有乐趣的重要程度的分值编码与原数据保持一致。

表2中不孤单的重要程度的分值编码与原数据保持一致。

表2中人缘有多好的分值编码与原数据保持一致。

表2中传宗接代的重要性分值编码与原数据保持一致。

表2中情绪低落程度分值编码为1,2,3,4依次对应几乎没有、有些时候、经常有和绝大多数时候。

表2中对未来信心程度分值编码与原数据保持一致。

其中考虑到男/女性相同特征变量对目标变量产生的影响可能不同,故需要对其分类编码用于区分,若是男性,该变量名字符串后缀加‘1’,若是女性,该变量名字符串后缀加‘0’。

(D)基于所述的训练集,使用改进梯度提升决策树算法进行训练,建立二分类预测算法模型;

所述二分类预测算法模型如下:

其中,K代表树的数量,f

设置改进梯度提升决策树算法的参数,包括树的最大深度(树高)以及分裂的阈值,并使用该算法对训练集进行训练,建立预测模型。具体步骤包括:

(1)初始化每个样本预测值,并定义好如下的损失函数:

其中,y

(2)计算所述损失函数对于每个样本预测值的导数;

(3)根据所述导数信息建立一颗新的决策树;

(4)将新的决策树样本预测值累加到原来的样本预测值上形成新样本预测值,以拟合上次预测的残差;

(5)重复步骤(2)-(5)直到超过最大树高以及增益小于阈值停止建树,得到所述二分类预测算法模型。

(E)基于所述预测模型对测试集进行验证。

与步骤(D)中构建训练集相类似,构建相应的测试集。并使用所构建的预测模型对测试集进行验证。其中验证时,输入变量为一对男女的个人特征信息,输出变量为匹配双方的婚姻满意度是否都处于非常满意的状态。

(F)根据验证结果判断该模型是否具有预测男女双方最大婚姻满意度的能力。

通过判断测试结果来预测某对男女匹配在一起是否都会获得最大婚姻满意度。其中结果值为1时,表示该对男女匹配在一起双方都会获得最大婚姻满意度,反之则至少有一方不会。从预测结果来看,该模型可达到准确率和AUC分别为0.7和0.75。

此外应理解,在阅读了本发明的上述描述内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号