网页结构相似性的度量是Web信息处理中的一项重要任务,在数据抽取和搜索引擎等研究领域有着潜在的重要研究价值.好的相似性度量方法可以提高数据抽取的准确率和速度,还可以提高搜索引擎的速度,提高返回数据的质量,减少大量冗余数据占据的存储空间.实现该任务的已有算法往往存在着计算复杂度过高的问题,针对这一问题研究HTML文档标签特点,减少传统算法中使用的算子,进而采用简单树匹配算法来计算Web文档之间的结构相似度.简单树匹配不允许结点的替换和跨层匹配,从而大大提高了算法的运行效率.实验结果表明,所提出的方法不论在速度还是精度上都优于著名的Bag of XPaths方法.
现有的命名实体识别方法需要大量训练数据,在小样本场景下容易过拟合.针对该问题,提出一种基于预训练模型掩码预测的方法,引入上下文信息改善模型泛化能力.首先使用两路BERT(Bidirectional Encoder Representation from Transformers)预训练模型,通过掩码替换计算当前词汇的词元表征和上下文表征;随后计算两者在BERT词表上的概率向量,使用自适应门控机制加权求和获得融合概率.若预测概率最大的词为本文预定义的类别标签词,则将当前词元分类为实体,否则分类为非实体.在来自不同领域的CoNLL03、OntoNotes5.0以及MIT-Movie数据集上的实验结果表明,所提算法的平均F1值相较于基准方法提升了12%,相较于提示词方法提升了4%~11%,有效改善了小样本下的泛化性能,证明引入上下文信息的有效性.