国际疾病分类(International Classification of Diseases,ICD)编码任务是将疾病编码分配给电子病历,每份电子病历分配一个或多个ICD编码。现有的方法大多考虑临床文本中症状与诊断之间的关系,而对诊断与诊断间关系以及症状与症状间关系缺乏考量。针对这一现状,对于诊断与诊断间关系,构造编码共现任务,采用多任务的形式使得预测结果不依赖于标签之间的顺序关系,且不会进行错误预测的传播;对于症状与症状间关系,使用对比学习获取有意义的表征,学习同一临床文本中的症状一致性。通过以上任务的组合,构建基于多任务学习的ICD自动编码模型框架。在MIMIC-Ⅲ数据集上的实验表明,所提出的方法相较于优异模型在Micro-f1指标上提高了1.0%,在Micro-auc指标上提高了0.3%,在P@5指标上提高了0.7%。
国际疾病分类(ICD)编码的频率分布呈现出长尾的情况,因此,对少样本编码进行多标签文本分类极具挑战性。针对少样本编码分类中训练数据不足的问题,提出了一种基于元网络的自动ICD编码模型(MNIC)。首先,将特征空间中的实例和语义空间中的特征拟合到同一个空间进行映射,并将频繁编码的特征表示映射到它的分类器权重上,从而通过元网络学习到元知识;然后将学习到的元知识从数据丰富的频繁编码转移到数据贫乏的少样本编码;最后,为元知识的可转移性和通用性提供了合理的解释。在MIMIC-Ⅲ数据集上的实验结果表明,与次优的AGM-HT(Adversarial Generative Model conditioned on code descriptions with Hierarchical Tree structure)模型相比,MNIC将少样本编码的Micro-F1与曲线下面积(Micro-AUC)分别提高了3.77和3.82个百分点,显著提高了少样本编码分类的性能。