搜索到902篇“ 中文命名实体识别“的相关文章
- 中文命名实体识别研究综述被引量:8
- 2024年
- 命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。
- 赵继贵钱育蓉王魁侯树祥陈嘉颖
- 关键词:自然语言处理中文命名实体识别
- 基于词汇增强和特征融合的中文命名实体识别研究与实现
- 随着互联网的迅猛发展,网络上的文本内容呈现爆炸式的增长趋势。在面对如此庞大的文本数据时,如何高效地处理和利用这些数据成为了一项重要任务。其中,命名实体识别在文本处理任务中扮演着重要的角色。通过识别文本中的实体,我们能够从...
- 陈克金
- 关键词:中文命名实体识别K近邻算法
- RIB-NER:基于跨度的中文命名实体识别模型
- 2024年
- 命名实体识别是自然语言处理领域中诸多下游任务的重要基础。汉语作为重要的国际语言,在许多方面具有独特性。传统上,中文命名实体识别任务模型使用序列标记机制,该机制需要条件随机场捕获标签的依赖性,然而,这种方法容易出现标签的错误分类。针对这个问题,提出基于跨度的命名实体识别模型RIB-NER。首先,以RoBERTa-wwm-ext作为模型嵌入层,提供字符级嵌入,以获得更多的上下文语义信息和词汇信息。其次,利用IDCNN的并行卷积核来增强词之间的位置信息,从而使词与词之间联系更加紧密。同时,在模型中融合BiLSTM网络来获取上下文信息。最后,采用双仿射模型对句子中的开始标记和结束标记评分,使用这些标记探索跨度。在MSRA和Weibo 2个语料库上的实验结果表明,RIB-NER能够较为准确地识别实体边界,并分别获得了95.11%和73.94%的F1值。与传统深度学习相比,有更好的识别效果。
- 田红鹏吴璟玮
- 关键词:中文命名实体识别
- 基于多特征信息融合自注意机制的中文命名实体识别方法
- 2024年
- 工业领域数据由于其非结构化、领域特定性和数据稀缺性等特点,传统的中文命名实体识别技术在工业领域的应用并不理想。本文以汽车产业数据为依托,提出一种将标签语义与字形拼音信息相融合的自注意网络算法,结合字符级和标签级特征进行多维特征提取。模型引入自注意机制获得文本长距离依赖关系,将分词特征整合到字符级,并结合标签语义特征的上下文进行预测,提高了字符词边界的识别性能。在一定程度上解决了词边界分割歧义及短语组合上下文依赖问题。本文方法在MSRA和Weibo数据集及自构建工业维修文档数据集上进行了实验,结果表明所提方法能够提高实体识别准确性,并在工业领域汽车零配件数据集上实现了工业场景化应用。
- 张建伟刘瑾杨海马曾国辉邢季张锐
- 关键词:中文命名实体识别多特征融合
- 一种结合词汇信息特征的中文命名实体识别方法
- 2024年
- 在中文命名实体识别任务中,基于字符级嵌入的模型通常仅采用BiLSTM网络获取序列中字符的上下文特征进行实体识别,并没有考虑到词汇信息特征能够在识别实体边界时提供更优的约束.针对此问题,该文提出了一种结合词汇信息特征的中文命名实体识别方法.首先,采用带有残差连接的门控空洞卷积网络提取序列局部特征来表示词汇信息特征,以及采用BiGRU提取序列全局上下文信息特征,并添加句子级注意力机制来增强网络的长序列建模能力;其次,利用稀疏注意力机制对特征进行动态融合,获得包含词汇信息的文本特征;最后,运用CRF学习序列中的约束条件,得到最佳的实体标注结果.对比实验结果表明,该文方法在Resume和CLUENER2020数据集上优于主流的中文命名实体识别方法.
- 闫河李尧雷秋霞王旭
- 关键词:中文命名实体识别
- 基于词汇增强和表格填充的中文命名实体识别
- 2024年
- 中文命名实体识别主要包括中文平面命名实体识别和中文嵌套命名实体识别两个任务,其中中文嵌套命名实体识别任务难度更大。提出了一个基于词汇增强和表格填充的统一模型TLEXNER,该模型能够同时处理上述任务。该模型首先针对中文语料分词困难的问题,使用词典适配器将词汇信息融合到BERT预训练模型,并且将字符与词汇组的相对位置信息集成到BERT的嵌入层中;然后通过条件层归一化和双仿射模型构造并预测字符对表格,使用表格建模字符与字符之间的关系,得到平面实体与嵌套实体的统一表示;最后根据字符对表格上三角区域的数值判断实体类别。提出的模型在平面实体的公开数据集Resume和自行标注的军事领域嵌套实体数据集上F1分别是97.35%和91.96%,证明了TLEXNER模型的有效性。
- 褚天舒唐球梁军学徐睿王明阳刘涛
- 关键词:中文命名实体识别
- 基于多头注意力机制字词联合的中文命名实体识别
- 2024年
- 针对现有基于字词联合的中文命名实体识别方法会引入冗余词汇干扰、模型网络结构复杂、难以迁移的问题,提出一种基于多头注意力机制字词联合的中文命名实体识别算法.算法采用多头注意力机制融合词汇边界信息,并通过分类融合BIE词集降低冗余词汇干扰.建立了多头注意力字词联合模型,包含字词匹配、多头注意力、融合等模块.与现有中文命名实体识别方法相比,本算法避免了设计复杂的序列模型,方便与现有基于字的中文命名实体识别模型结合.采用召回率、精确率以及F 1值作为评价指标,通过消融试验验证模型各个部分的效果.结果表明,本算法在MSRA和Weibo数据集上F 1值分别提升0.28、0.69,在Resume数据集上精确率提升0.07.
- 王进王猛旗张昕跃孙开伟朴昌浩
- 关键词:中文命名实体识别
- 基于多特征融合和特征提取增强的中文命名实体识别
- 命名实体识别是自然语言处理领域中的基本任务,命名实体的识别效果直接影响着相关下游任务的效果,如信息抽取、情感分析、事件抽取等。而在中文命名实体识别中,因为中文文本常常出现一字多音不同义的现象,同时在相关专业领域词汇晦涩难...
- 李彦楠
- 关键词:中文命名实体识别自然语言处理
- 基于多特征融合和数据增强的中文命名实体识别方法研究
- 作为中文文本信息处理中的一项基础且关键的任务,中文命名实体识别(Chinese Named Entity Recognition,CNER)的核心目标是从非结构化的中文文本中识别并抽取具有特定意义的命名实体。尽管相关的中...
- 李张岩
- 关键词:自然语言处理中文命名实体识别多特征融合
- 基于汉字上下文信息增强词典知识融入的中文命名实体识别
- 2024年
- 由于中文语言缺少显式的分隔符,使得中文命名实体识别任务面临缺少词语边界信息的难题.为了解决这一问题,现有的主流模型通过引入词典来利用词语边界信息.然而,词典中的词语信息只是根据字词之间的匹配关系融入汉字表示中,忽视了句子信息对于词语选择的影响,与句子语义信息无关的词语不可避免地引入到模型中,使模型感知错误的词语边界信息.为了减少无关词语对于实体识别结果的影响,本文提出了一种新的中文命名实体识别方法 ELKI,通过带有句子语义信息的汉字上下文表示来增强词典知识的融入,从而改善模型感知词语边界的精度.具体地,本文设计了一种新型的交叉注意力网络从词典中挖掘与语义信息相关的词语信息.同时,本文构造了一种门控融合网络来动态地将词典知识融入到汉字的上下文表示中.在Resume、MSRA和OntoNotes三个基准数据集上的实验结果表明本文方法优于其它的基线模型.
- 赵振宇朱静静张宇馨刘梦珠陈黎琚生根
- 关键词:中文命名实体识别信息抽取
相关作者
- 冯元勇

- 作品数:14被引量:151H指数:6
- 供职机构:中国科学院软件研究所
- 研究主题:中文信息处理 自然语言处理 计算机应用 中文命名实体识别 条件随机场
- 张大鲲

- 作品数:12被引量:171H指数:4
- 供职机构:中国科学院软件研究所
- 研究主题:自然语言处理 中文命名实体识别 条件随机场 机器翻译 统计机器翻译
- 俞鸿魁

- 作品数:10被引量:482H指数:5
- 供职机构:北京信息科技大学中文信息处理研究中心
- 研究主题:ICTCLAS 角色标注 命名实体识别 中文命名实体识别 隐马尔可夫模型
- 孙乐

- 作品数:129被引量:500H指数:12
- 供职机构:中国科学院软件研究所
- 研究主题:语言模型 中文信息处理 抽取 自然语言处理技术 自然语言处理
- 李文波

- 作品数:36被引量:244H指数:7
- 供职机构:中国科学院软件研究所
- 研究主题:中文信息处理 LDA模型 自然语言处理 计算机应用 单字