摘要:粗糙集理论是波兰学者Pawlak于1982年提出的一种数据分析工具,主要应用于模式识别、机器学习和数据挖掘等领域.它作为一种处理不完整、不一致、不精确等各种不完善信息的有效工具,与证据理论、模糊理论等其他处理不确定性问题理论的方法相比,最大的优点在于不需要先验知识,且与模糊理论有很强的互补性.中医方剂数据浩瀚如烟海,截至晚清的历代古方就有近10万首,本文将粗糙集模型及属性约简方法进行改进,用于海量中医方剂数据分析,主要基于以下考虑:一方面,方剂数据量非常庞大,源于几千年的文化传承,以人工记载为主,存在大量的数据缺失和模糊信息,数据噪声极大,是典型的不完备信息系统.因此,本文对Ziarko于1993年提出的变精度粗糙集模型进行改进,在知识表示系统和决策表中引入数据对象的权值函数和属性特性函数,使之可以表示数据的不同重要性和属性的不同特性,得到加权可变精度模型,相比Ziarko模型,该模型能更好地克服了噪音数据的干扰。另一方面,考虑到中医辨证施治的特殊性,方剂数据库中存在大量“可意会不可言传”的数据,并且很多数据的差别很细微,本文将加权可变精度模型与相容关系粗集模型相结合,提出了加权可变精度容差关系模型,并提出了该模型下基于属性敏感度的约简算法,用以分析中医方剂配伍关系。实验结果表明,该模型能处理含有噪音的不完备方剂信息系统,得出的方证对应关系能很好地体现中医方剂配伍规律的精髓,可用于指导临床用药。