摘要: 内检测数据对齐有助于提高内检测数据的利用率,目前国内外学者已初步建立内检测对齐流程.然而针对管道大数据背景下需匹配字段繁杂、中文字段描述多样等问题仍缺乏解决方案.本文采用中文语义相似度计算方法,计算各类字段与模板字段的相似度,确定其匹配度,可以从大量字段中选取匹配字段,实现不同来源内检测数据的对齐.本文在原有的基于同义词词林计算方法的基础上进行改进,并使用内检测报告中的实际字段进行计算,通过比对发现,本文改进的方法能够区分内检测报告中的不同字段,对多来源内检测数据对齐有较好的适用性.
关键词:
语义相似度,
内检测,
数据对齐,
同义词词林,
长输管道
张河苇;金剑;董绍华;张来斌;李宁. 语义相似度计算在内检测数据参数匹配中的应用[J]. , 2018, 3(4): 446-451.
ZHANG Hewei;JIN Jian;DONG Shaohua;ZHANG Laibin;LI Ning. Application of semantic similarity calculation in parameter matching of detection data[J]. , 2018, 3(4): 446-451.