李国臣
- 作品数:28 被引量:202H指数:8
- 供职机构:太原工业学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家社会科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于Dropout正则化的汉语框架语义角色识别
- 汉语框架语义角色识别是汉语框架语义分析的重要任务之一.本文基于汉语词语、词性等特征的分布式表示,使用一种多特征融合的神经网络结构来构建汉语框架语义角色识别模型.鉴于可用的训练语料规模有限,本文采用了Dropout正则化技...
- 王瑞波李济洪李国臣杨耀文
- 基于词元语义特征的汉语框架排歧研究被引量:7
- 2013年
- 框架排歧指的是在一个给定的句子中,判断句中目标词激起的语义场景与该目标词可能激起的哪个框架一致,则将该框架分配给当前的目标词。框架排歧最重要的一个步骤就是特征选择,目前常用的方法是人工特征选择方法,但是这种方法不能有效地利用每个目标词的语义特征,而且大量实验表明,不同的目标词取得最好的结果时所用的特征模板是不同的。因此,该文为每个目标词设置一个特征模板,并提出了特征模板的自动选择算法,首先从语料中抽取特征构成特征集,然后利用打分机制,把特征集中得分最高的特征逐个加入到特征模板中,直到相邻两次的得分不再增加。该文借助汉语框架网语义资源,利用最大熵模型建模,使用自动特征选择算法选出特征模板,并进行5-fold交叉验证,平均精确率可达到84.46%。
- 李国臣张立凡李茹刘海静石佼
- 基于规则的中文阅读理解问题回答技术研究被引量:1
- 2009年
- 该文针对中文阅读理解问答中的时间、人物、地点、数值、实体、描述六类问题,制定了各类问题回答的启发式规则集。对规则集中每条规则赋予一个相应权值,利用正交表对各规则所对应的权值进行了调优选取,给出了各候选答案句基于相应规则的得分计算方法。该文方法在山西大学自主开发的中文阅读理解语料库CRCC v1.1上进行了实验,在整个语料库上得到了83.09%的HumSent准确率。为了与文献[10]中的最大熵方法比较,该文在与文献[10]中完全相同的训练集上调优规则的权值,在相同的测试集上测试,最终得到HumSent准确率81.13%,比最大熵的方法高大约1%,且在全部的六类问题上,该文方法的HumSent准确率都不低于最大熵方法。
- 李济洪杨杏丽王瑞波张娜李国臣
- 关键词:计算机应用中文信息处理问答系统正交表
- 基于最大熵模型的中文阅读理解问题回答技术研究被引量:7
- 2008年
- 该文基于山西大学自主开发的中文阅读理解语料库CRCC v1.1版,根据问句和候选答案句的对应关系,构建了词层面以及句法层面共计35个特征,基于最大熵模型对中文阅读理解问题回答进行了建模,在35个特征全部加入最大熵模型的情况下,测试集上得到了75.46%的HumSent准确率。考虑到特征取值之间的相关性对权重估计的影响,笔者先对35个特征观测值矩阵进行主成分降维,选择适当的主成分个数重构特征,然后再使用最大熵模型进行建模,在测试集上的HumSent准确率达到80.18%.实验结果表明,在阅读理解问答系统中,采用特征的主成分降维方法,能有效融合全部特征信息,回避了最大熵模型中特征筛选的过程,并且提高了阅读理解系统的准确率。
- 李济洪王瑞波王凯华李国臣
- 关键词:计算机应用中文信息处理问答系统最大熵模型主成分
- 基于条件随机场模型的汉语功能块自动标注被引量:8
- 2010年
- 汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%.
- 李国臣王瑞波李济洪
- 关键词:条件随机场模型句法分析
- 基于FrameNet框架关系的文本蕴含识别被引量:9
- 2012年
- 文本蕴含识别是处理自然语言中广泛存在的同义异形现象的一种有效途径。该文基于FrameNet中框架及框架之间的八种关系,结合WordNet中词汇间的语义关系,提出了一种文本蕴含识别方法。在给定文本T和假设H中词元激起的框架基础上,该方法利用深度优先搜索,在FrameNet框架关系图中,查询T和H中框架之间的上下位关系;再使用WordNet中语义关系比较二者的框架元素是否一致或相似。实验对RTE2007中50个文本对进行了测试,达到了76.6%的准确率,略高于RTE2007评测的最优结果。
- 张鹏李国臣李茹刘海静石向荣Collin Baker
- 关键词:FRAMENET
- 采用优先选择策略的中文人称代词的指代消解
- 指代消解是自然语言理解研究中常见的语言现象。本文针对中文人称代词的指代特点,提出了一种基于语料库的,运用决策树机器学习算法并结合优先选择策略,进行指代消解的方法。该方法充分考虑了与指代相关的若干属性,及相互之间的影响,实...
- 罗云飞李国臣
- 关键词:语料库人称代词指代消解
- 文献传递
- 汉语框架自动识别中的歧义消解被引量:11
- 2011年
- 该文研究了汉语框架自动识别中的歧义消解问题,即对给定句子中的目标词,基于其上下文环境,从现有的框架库中,为该目标词自动标注一个合适的框架。该文将此任务看作分类问题,使用最大熵建模,选用词、词性、基本块、依存句法树上的若干特征,并使用开窗口技术和BOW策略,以目前汉语框架语义知识库中的88个词元的2 077条例句为训练、测试语料,进行了3-fold交叉验证实验,最好结果取得69.28%的精确率(Accuracy)。
- 李济洪高亚慧王瑞波李国臣
- 关键词:框架语义最大熵模型
- 基于基本块的汉语功能块自动标注
- 本文研究了基于基本块信息使用条件随机场模型(CRF)对汉语功能块进行自动标注的问题,针对词和基本块的两种不同的标注策略,将汉语基本块信息分别形式化成相应的特征,通过大量的特征组合优化实验,进行特征选择和模型参数估计。实验...
- 李国臣王瑞波李济洪
- 关键词:汉字处理词义标注条件随机场数理语言学
- 文献传递
- 基于FrameNet框架关系的文本蕴含识别
- 文本蕴含识别是处理自然语言中广泛存在的同义异形现象的一种有效途径。本文基于FrameNet中框架及框架之间的八种关系,结合WordNet中词汇间的语义关系,提出了一种文本蕴含识别方法。在给定文本T和假设H中词元激起的框架...
- 张鹏李国臣李茹刘海静石向荣
- 关键词:FRAMENET
- 文献传递