李正华
- 作品数:46 被引量:51H指数:4
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金江苏高校优势学科建设工程资助项目江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术文化科学语言文字更多>>
- 一种轻量级的汉语语义角色标注规范被引量:4
- 2020年
- 作为主流的浅层语义表示形式,语义角色标注一直是自然语言处理领域的研究热点之一。目前学术界已有的语义角色标注规范(PropBank规范和北大规范)主要存在三个问题:①基于片段的论元表示让标注难度加大;②PropBank中谓词框架的定义难度较大;③北大规范缺乏省略论元的标注。经过充分调研,该文尝试融合已有的中英文语义角色标注规范的优点,同时结合实际标注中遇到的问题,制定了一种轻量级的适合非语言学背景的标注者参与的中文语义角色标注规范。第一,采用基于词的论元表示,避免了片段边界的确定,从而降低标注难度;第二,标注者直接根据句子上下文信息,标注谓词相关论元角色,而无须预先定义每个谓词的所有语义框架;第三,显式标注句子中省略的核心论元,更准确地刻画句子的语义信息。此外,为了保证标注一致性和提高数据标注质量,规范针对各种复杂语言现象,给出了明确的优先级规定和难点分析。
- 刘亚慧杨浩苹李正华张民
- 关键词:语义角色标注浅层语义分析论元角色谓词
- 基于词模式嵌入的词语上下位关系分类被引量:10
- 2019年
- 提出一种基于词模式的上下位关系分类方法,可以有效地缓解传统的基于模式的分类方法存在的稀疏问题,提高了关系分类的召回率。进一步地,通过词模式嵌入,将基于模式的方法与基于词嵌入的方法进行有效的融合。为了验证方法的有效性,标注一个包含12000个汉语词语对的数据集。实验结果表明,该词模式嵌入方法是有效的, F1值可以达到95.36%。
- 孙佳伟李正华陈文亮张民
- 基于模板的中文上下位关系抽取方法被引量:2
- 2022年
- 基于模板的上下位关系抽取是上下位关系自动获取的重要方法。目前学术界通常采用两类模板,但目前中文上下位关系抽取研究尚缺乏对这两类模板的客观比较。针对这一问题,提出基于大规模语料的匹配抽取和高质量人工标注,以实现对两类模板的优劣进行客观对比和评价,为上下位关系自动获取提供坚实基础。对于四种主流的上下位相关句型,在3800万句中文语料上进行匹配抽取,并人工标注2800个随机抽取的上下位候选词对。实验结果表明,依存句法模板的准确度比词法模板高出9.07百分点,而召回度则略低了0.32百分点。
- 章岳黄赛豪陆凯华李正华
- 关键词:上下位关系
- 面向多领域多来源文本的汉语依存句法树库构建被引量:7
- 2019年
- 为了支持汉语句法分析研究,目前句法分析领域已经标注了多个汉语依存句法树库。然而,已有树库主要针对较规范文本,而对各种网络文本如博客、微博、微信等考虑较少。为此,该文基于近期研制的标注规范及可视化在线标注系统,开展了大规模数据标注。聘请了15名兼职标注者,并采用严格的标注流程保证标注质量,目前,已经标注了约3万句的汉语依存句法树库,其中包含约1万句淘宝头条文本。该文重点介绍了数据选取、标注流程等问题,并详细分析了标注准确率、一致性和标注数据的分布情况。未来将继续对多领域多来源文本进行标注,扩大树库规模,并以合适的方式公开相应的标注数据。
- 郭丽娟彭雪李正华张民
- 属性词识别及其层次构建方法、装置、设备及存储介质
- 本发明提供一种属性词识别方法及装置,包括:获取评论语料的名词词表;获取上下位关系矩阵,所述上下位关系矩阵为种子词与种子词的下位词的上下位关系的矩阵;根据所述上下位关系矩阵及所述名词词表中的各词,确定所述名词词表中各词的预...
- 李正华陈志鹏陈文亮袁坤刘婷婷黄婷婷
- 文献传递
- 基于序列标注建模的多粒度分词方法及系统
- 本发明涉及一种基于序列标注建模的多粒度分词方法与系统,提供了一种采用机器学习的方式获取多粒度标签序列的方法及系统,本发明所述的方法,包括:将至少一种单粒度标注数据集中的句子分别转化为遵守其他n‑1种分词规范的分词序列,将...
- 张民李正华龚晨
- 面向词性标注的多资源转化研究
- 2015年
- 利用多资源转化方法进行词性标注研究,旨在将源端资源的标注进行转化,以符合目标端标注规范,进而将转化后的资源与目标资源合并,增大训练数据规模。做了两方面创新:在转化过程中,额外利用指导特征的置信度信息;在转化后的资源中,用模糊标注表示方法减少错误标注。实验表明,利用置信度信息能有效帮助转化,而模糊标注表示方法的影响不大。
- 高恩婷巢佳媛李正华
- 关键词:条件随机场词性标注
- 基于多级词典的分词方法、装置、设备及可读存储介质
- 本申请公开了一种基于多级词典的分词方法,该方法采用至少两个词典以辅助分词模型进行分词,在对字符进行表示的时候,不仅生成常规的向量表示,还生成该字符在至少两个词典中的特征表示,最终根据向量表示和特征表示确定该字符的成词标签...
- 李正华周厚全侯洋周仕林张民
- 文献传递
- 基于三元训练的跨领域依存句法分析被引量:2
- 2022年
- 基于大规模领域内标注数据训练的句法分析模型在领域外数据上测试时,性能会急剧下降.导致该现象的原因之一是缺乏高质量的目标领域标注数据.由于人工标注数据耗时耗力,自动生成目标领域标注数据是一种有效的解决方法.其中,三元训练(tri-training)作为一种典型的多模型决策协同训练方法,旨在利用多个模型的预测结果来保证自动标注数据的质量.本文针对跨领域依存句法分析任务,系统比较了3种常用的tri-training方法,在NLPCC-2019评测数据集上取得了目前最佳的性能,并大幅度超过了目前最好结果.此外,还设计了详细的分析实验以深入理解跨领域模型性能下降的原因以及tri-training所起的作用.
- 李帅克李英李正华张民
- 基于弱标注数据的汉语分词领域移植被引量:2
- 2019年
- 近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损失函数;进而提出一种简单有效的数据筛选方法,从海量弱标注数据中筛选和目前领域更相关的数据;最后,该文发现数据预处理和在神经网络中引入传统特征均可以有效提高分词性能。在SIGHAN Bakeoff 2010和ZhuXian标注测试集上的实验结果表明,该文所提方法可有效提升汉语分词领域移植性能,平均F值提高了3.6%。
- 朱运李正华黄德朋张民
- 关键词:汉语分词