为高效地自动挖掘开源异构大数据中的威胁情报实体和关系,提出一种威胁情报实体关系抽取(TIERE)方法。首先,通过分析开源网络安全报告的特点,研究并提出一种数据预处理方法;然后,针对网络安全领域文本复杂度高、标准数据样本集少的问题,提出基于改进自举法的命名实体识别(NER-IBS)算法和基于语义角色标注的关系抽取(RE-SRL)算法。利用少量样本和规则构建初始种子,通过迭代训练挖掘非结构化文本中的实体,并通过构建语义角色的策略挖掘实体之间的关系。实验结果表明,在少样本网络安全信息抽取数据集上,NER-IBS算法的F1值为84%,与RDF-CRF(Regular expression and Dictionary combined with Feature templates as well as Conditional Random Field)算法相比提高了2个百分点,且RE-SRL算法对于无类别关系抽取的F1值为94%,说明TIERE方法具有高效的实体关系抽取能力。
针对如何从开源网络安全报告中高效挖掘威胁情报的问题,提出了一种基于威胁情报命名实体识别(Threat Intelligence Named Entity Recognition, TI-NER)算法的威胁情报挖掘(TI-NER-based Intelligence Mining, TI-NER-IM)方法。首先,收集了近10年的物联网安全报告并进行标注,构建威胁情报实体识别数据集;其次,针对传统实体识别模型在威胁情报IoC攻击指示器挖掘领域的不足,提出了基于自注意力机制和字符嵌入的威胁情报实体识别(Threat Intelligence Entity Identification based on Self-attention Mechanism and Character Embedding, TIEI-SMCE)模型,该模型融合字符嵌入信息,再通过自注意力机制捕获单词间潜在的依赖权重、语境等特征,从而准确地识别威胁情报IoC实体;然后,基于TIEI-SMCE模型,提出了一种威胁情报命名实体识别算法;最后,集成上述模型和算法,进一步提出了一种新的威胁情报挖掘方法。TI-NER-IM方法能实现从非结构化、半结构化网络安全报告中自动挖掘威胁情报IoC实体。实验结果表明,与BERT-BiLSTM-CRF模型相比,TI-NER-IM方法的F1值提升了1.43%。