曹倩雯;李维;林伯韬;金衍;韩雪银;张家豪
. 2024, 9(5): 750-763.
钻井工程报告记录了油气藏的地质信息以及钻井工程的参数,自动提取报告中的非结构化信息能够显著提高数据入湖的效率,从而实现高效数据管理.然而,这类报告通常具有特定领域的特征,且结构和语言的多样性给命名实体的准确识别带来了诸多挑战.目前,命名实体识别常用的深度神经网络模型通常基于小规模标注数据集进行训练或微调,导致两方面问题.首先,缺乏大规模的标注语料库,限制了训练样本的多样性,进而导致模型在面对新数据或未见过的数据时表现不佳,降低了模型在不同类型数据上的泛化能力.其次,现有模型缺乏针对长距离上下文的文本建模能力,由于相关实体可能分散在钻井工程报告内较长的文本段落中,这类方法难以有效捕获和识别复杂文档中命名实体的关系.为了解决上述问题,本文提出了一种融合旋转位置编码和掩码条件随机场的钻井工程命名实体智能识别方法.该方法基于Transformer编码器、双向长短期记忆网络(BiLSTM)和条件随机场(CRF)架构.Transformer编码器利用预训练语言模型提供丰富的上下文语义表示,BiLSTM捕捉序列依赖性,而CRF则用于序列标注.此外,通过设计掩码建模机制改进了传统的CRF,限制了倒置序列的生成,提高了序列标注次序的一致性.旋转位置编码的集成进一步增强了模型对文本中相对位置信息的感知,促进模型捕捉远距离单词之间的依赖关系,从而提高识别跨越较大上下文范围的命名实体的能力.除了模型改进之外,本文还通过构建领域特定的命名实体语料库来解决训练数据不足的问题.该语料库包括 12类实体的标注,覆盖了共20 727 个实体标签,分布于4 000 个文本段落中,为模型提供了更多样化的训练样本,帮助提高模型的泛化能力.实验结果表明,本文提出的模型在测试集上的F1 值为 86.49,相较于之前的最优模型提高了 2.65,在长尾分布的实体识别上的性能也显著提高.该方法不仅扩展了命名实体识别在钻井工程中的应用,还能够为工程师提供高效的信息提取工具,加速钻井数据的分析,提高钻井操作管理的效率,并增强数据入湖的效率,从而对钻井项目的决策过程带来积极影响.