传统文本实体关系抽取算法多数是基于特征向量对单一实体对语句进行处理,缺少考虑文本语法结构及针对多对实体关系的抽取算法.基于此,提出一种基于CNN(Convolutional Neural Network)和改进核函数的多实体关系抽取技术—KMCNN(Multi-Entity Convolutional Neural Network Based on Kernel),并将所提技术运用于海量法律文书的实体关系抽取上.KMCNN从抽取大规模历史法律文书的人物关系出发,构建短语有效子树,采用基于改进的核函数来计算短语有效子树的相似度,以实现运用CNN算法对多对实体关系进行挖掘的目标.在真实数据集上的实验表明,所提技术具有较好的抽取效果和较高的计算效率.
目前,在关系抽取和分类任务中,通过将卷积神经网络和循环神经网络与注意力机制相结合的深度学习技术,一直以来都是主流和最佳的解决方法.最近提出的BERT(Bidirectional Encoder Representations from Transformers)模型在自然语言处理方向的多项任务中都达到了最佳效果,尤其对于文本分类任务,仅利用从模型中得到的句子向量结合全连接层便可使得分类效果有较大提升.针对实体关系分类任务,它与文本分类任务最主要的区别在于它更需要突出实体信息,因此该文章提出实体关系分类模型ENT-BERT,该模型首先通过BERT得到句子向量和字向量,再通过对实体中的字向量取平均得到实体向量,然后通过注意力机制将句子向量和实体向量相结合,最终利用全连接层和softmax函数来确定实体对之间的关系,实现实体关系的分类.实验结果表明,该模型能有效突出实体信息,并且在中英文数据集上都取得较佳效果.