国家重点实验室开放基金(SKLSE2012-09-30)
- 作品数:9 被引量:105H指数:5
- 相关作者:段利国李爱萍邸鹏徐庆阴桂梅更多>>
- 相关机构:太原理工大学武汉大学太原师范学院更多>>
- 发文基金:国家重点实验室开放基金山西省自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 实体词语义信息对中文实体关系抽取的作用研究被引量:7
- 2017年
- 为了探索从外部词典提取的实体词语义信息在中文实体关系抽取上的作用,提出了知网语义树和《同义词词林》编码树两种新特征,并连同已有的最短路径依存树、知网第一基本义原、《同义词词林》编码、实体大类和实体小类特征一起探究了其对抽取性能的影响。实验数据表明,作为单一特征时,提出的两种新特征性能虽然不如实体大类和实体小类特征,但是比最短路径依存树、知网第一基本义原、《同义词词林》编码好;作为组合特征时,最短路径依存树和两种新特征的组合特征取得了最好的性能。由此可以得出结论,从非语料中获取的最短路径依存树、知网语义树和《同义词词林》编码树特征可以代替从语料中获取的实体大类和实体小类特征,可以用于下一步开放域的关系抽取。
- 段利国徐庆李爱萍崔敏君
- 关键词:知网树核函数关系抽取
- 基于复杂句式的文本情感倾向性分析被引量:3
- 2015年
- 在文本的情感倾向性研究中缺乏对多种复杂句式的有效分析,而复杂句式中多种情感共现的特点使得传统的情感分类器对复杂句式的情感分析效率不高,所以提出一种新的可以对复杂句式进行有效情感分析的情感分类模型。该模型充分分析了汉语中复杂句式的结构特点,通过已有资源构建中文情感词典、关联词表、否定词表,并提出了一种复杂句式模型来匹配各种复杂句式。最后将该复杂句模与朴素贝叶斯分类器相结合,得到新的针对复杂句式的情感分类模型。在实验中,新的情感分类模型在准确率、召回率、F值上都比传统的情感分类器有了明显的提高。实验证明该模型能更好的分析各种复杂句式的情感。
- 邸鹏段利国
- 关键词:朴素贝叶斯
- 基于复杂句式短文本情感分类研究被引量:2
- 2018年
- 目前,网络文本中主观内容的情感倾向性识别成为文本信息处理的研究热点。针对汉语中复杂句式的结构特点以及对多种复杂句式的有效分析,基于word2vec进行情感词典的扩建,将扩充后的情感词典、关联词表、否定词表进行特征提取,得到有效的特征词序列,构建新的复杂句式模型并结合SVM进行训练和预测,完成复杂句式情感分类。实验结果表明,提出的复杂句式情感分类模型在处理精度方面比传统的句子级情感分类方法有了明显的提高,获得良好的情感分析效果。
- 李毅捷段利国李爱萍
- 关键词:文本信息处理情感分析SVM
- 基于句子情感加权算法的篇章情感分析被引量:11
- 2015年
- 针对篇章级的文本情感倾向性分析准确率不高的问题,提出一种新的基于句子加权算法的篇章级文本情感倾向性分析方法.该方法将文本细化为句子的集合,在充分分析汉语中各种句子的句式结构特点的基础上,对复杂句采用新的情感判断规则判别情感,对简单句采用朴素贝叶斯算法判别情感,依据新提出的句子情感值的计算规则为每个句子赋予情感权值,最后依据此次研究提出的句子情感权值合成算法计算得出篇章级文本的情感倾向性.在实验中,使用本文所提出的方法对篇章级文本进行情感分析获得了较好的准确率、召回率和F值.实验证明,基于句子加权算法的情感分析方法要比传统的文本分类方法效率更高.
- 李爱萍邸鹏段利国
- 关键词:复杂句简单句
- 基于实体词语义相似度的中文实体关系抽取被引量:4
- 2015年
- 为了探索语义相似度在中文实体关系抽取上的作用,提出由实体词在《同义词词林》中的5层编码构建成的《同义词词林》编码树和由关系实例中的实体词,各个类别中所有实体词计算相似度后求得的平均值构建成的实体词语义相似度树2种新特征,并连同已有的《同义词词林》编码、实体类型信息共4种特征探究其对抽取性能的影响。单一特征的试验中,实体类型特征效果最好,F值达到了小类84.9、大类83.2;组合特征的试验中,实体类型和《同义词词林》编码树的组合特征效果最好,大类小类的F值都比实体类型特征提高了2.5,3种组合特征性能不升反降。试验结果表明《同义词词林》编码树是对实体类型的有效补充,但过多的特征会造成信息冗余,使抽取性能下降。
- 徐庆段利国李爱萍阴桂梅
- 关键词:中文实体关系抽取语义相似度树核函数语法树
- 一种基于语义与句法结构的短文本相似度计算方法被引量:19
- 2018年
- 为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。
- 赵谦荆琪李爱萍李爱萍
- 关键词:词义消歧情感特征
- 一种新型朴素贝叶斯文本分类算法被引量:51
- 2014年
- 针对在文本分类中先验概率的计算比较费时而且对分类效果影响不大、后验概率的精度损失影响分类准确率的现象,对经典朴素贝叶斯分类算法进行了改进,提出了一种"先抑后扬"(抑制先验概率的作用,扩大后验概率的影响)的文本分类算法。算法中去掉了对先验概率的计算,并在后验概率的计算中引入了一个放大系数。实验结果表明,分类时不计算先验概率对分类精度影响甚微但可以明显加快分类的速度,在后验概率的计算中引入放大系数减少了误差传播的影响,提高了分类精度。
- 邸鹏段利国
- 关键词:文本分类朴素贝叶斯先验概率后验概率
- 多特征层次化答案质量评价方法研究被引量:2
- 2016年
- 社交媒体中的问答对可以为自动问答系统提供答案,但有些答案的质量不高,因此答案质量评价方法具有研究价值。已有的评价方法没有考虑问题类别特征,对不同类型的问题采用统一的评价方法。因此提出了一个层次分类模型。首先分析问题类型;然后提取文本、非文本、语言翻译性、答案中的链接数4类特征,依据特征分类影响力随问题类型不同而不同这一客观现象,采用逻辑回归算法对各类型问题的答案质量进行评价,取得了较好的实验效果;最后分析了影响各类问题答案质量的主要特征。
- 崔敏君段利国李爱萍
- 基于维基百科的短文本相关度计算被引量:7
- 2018年
- 为提高短文本语义相关度的计算准确率,将维基百科作为外部语义知识库,利用维基百科的结构特征,如维基百科的分类体系结构、摘要中的链接结构、正文中的链接结构以及重定向消歧页等,提出类别相关度与链接相关度相结合的词语相关度计算方法。在此基础上,提出基于词形结构、词序结构以及主题词权重的句子相关度计算方法。实验结果表明,在词语相关度计算方面,该方法的Spearman参数比文本相关度计算方法提高2.8%,句子相关度准确率达到73.3%。
- 荆琪段利国李爱萍赵谦
- 关键词:维基百科语义相似度语义相关度