针对传统文本匹配方法无法学习文本间深度语义匹配特征,深度短文本匹配模型难以捕获长文本细粒度匹配信号等问题,提出一种面向长文本的两阶段文本匹配模型TP-TM(Two-Phase Text Matching)。首先使用句子级过滤器过滤噪声句并提取关键句,然后将所获关键句输入词语级过滤器,利用融入了改进版删减策略的BERT(Bidirectional Encoder Representations from Transformers)模型挖掘文本间深度交互特征,对关键句进行词语级噪声过滤和细粒度匹配操作,最终通过拼接BERT不同位置特征预测文本对关系。在中文长文本公开新闻数据集CNSE(Chinese News Same Event)和CNSS(Chinese News Same Story)上进行实验,结果显示,相较于基线模型,TP-TM模型在CNSE和CNSS数据集上的准确率分别提升了0.99和1.55个百分点,F1值分别提升了0.98和1.46个百分点,有效提升了长文本匹配任务的准确度。
展开▼