云南省教育厅科研基金(07Z11139)
- 作品数:10 被引量:97H指数:5
- 相关作者:郭剑毅余正涛张志坤毛存礼薛征山更多>>
- 相关机构:昆明理工大学云南省智能信息处理研究所昆明冶金高等专科学校更多>>
- 发文基金:云南省教育厅科学研究基金国家自然科学基金云南省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 领域本体概念实例、属性和属性值的抽取及关系预测被引量:32
- 2012年
- 研究了如何使用协作分类器(协作使用条件随机场(CRFs)和支持向量机(SVM))解决领域概念实例、属性及属性值的抽取以及它们三者之间对应关系预测的问题.首先将概念实例、属性及属性值看作三类实体,把概念实例、属性及属性值的抽取问题转化为命名实体识别问题,利用条件随机场建模进行命名实体识别;在此基础上定义实体间对应关系,对概念实例、属性及属性值三者的对应关系做预测,把概念实例、属性与属性值三者之间存在关系的向量标记为1,否则标记为0,利用支持向量机建模进行关系的预测.且以云南旅游景点概念实例、属性及属性值进行六组相关的实验.实验表明,在开放测试中协作分类器精确度达到84.4%、召回率达到82.7%及F值达到为83.6%,相比于词语共现F值提高了20个百分点.
- 郭剑毅李真余正涛张志坤
- 关键词:领域本体属性抽取条件随机场支持向量机
- 旅游领域实体答案的抽取被引量:2
- 2009年
- 提出一种基于模式匹配与命名实体识别相结合的领域答案抽取方法,该方法用答案模式串、答案模式权值和答案类型三要素来定义并构建答案模式库,结合旅游领域命名实体识别方法和模式匹配方法,实现了旅游领域实体答案的抽取。在旅游领域进行实体答案抽取实验,取得了较好的效果,其中召回率达88.78%,准确率达86.04%。
- 李桂兰余正涛毛存礼郭剑毅侯波线岩团
- 关键词:答案抽取命名实体识别
- 利用问句语义结构构建旅游领域数据库查询
- 2009年
- 为了提高数据库查询的准确率,提出一种利用问句语义结构构建领域自然语言数据库查询方法。该方法通过定义问句语义模板,借助领域知识,对领域问句进行语义分析,提取问句语义块,并通过语义模式匹配实现问句语义模板向SQL的转换,从而实现自然语言数据库查询。在云南旅游领域实验的结果表明,该方法取得了较好的效果。
- 王凤林余正涛毛存礼郭剑毅
- 关键词:自然语言查询数据库查询
- 基于改进贝叶斯的领域问答对自动获取被引量:4
- 2009年
- 问答对的规模和质量是影响基于常问问题集问答系统性能的重要因素,目前所使用的问答对库一般是人工构建的,往往需要耗费大量的时间和人力物力。针对此问题,提出一种基于改进贝叶斯的领域问答对自动获取方法。该方法将HTML页面解析成DOM树,选择DOM树的节点信息和结构信息作为问答对的分类特征,结合受限领域知识库,利用改进贝叶斯分类模型,从HTML页面中自动获取问答对并过滤出领域问答对。实验结果表明,该方法效果显著。
- 孟祥燕余正涛许洋波毛煜郭剑毅
- 关键词:问答系统改进贝叶斯
- 领域术语自动抽取方法研究
- 提出了一种领域术语抽取方法,该方法结合分词和粗切分两种方式对语料进行处理,利用体现字串间结合强度的互信息算法构建候选词集,选定领域种子词,通过T评价方式识别出候选集中的术语。最后构建了云南旅游领域术语自动抽取系统,并进行...
- 邱艳霞余正涛张志坤司圣涛韩露孟祥燕
- 关键词:互信息术语抽取
- 文献传递
- 基于信息增益改进贝叶斯词义消歧模型
- 词义消歧是自然语言处理的关键问题。本文通过信息增益的方法,统计出歧义词上下文各个位置对岐义词词义的影响,以此为基础,选取影响岐义词前后6个位置词构建词义消歧特征向量,采用贝叶斯算法,通过信息增益为特征向量12维特征赋予不...
- 邓宾余正涛韩露车文刚郭剑毅
- 关键词:词义消歧信息增益贝叶斯模型
- 文献传递
- 基于层叠条件随机场的旅游领域命名实体识别被引量:37
- 2009年
- 针对旅游领域,提出了一种基于层叠条件随机场模型的旅游领域命名实体识别方法。该方法在低层条件随机场中以字为切分粒度,结合旅游景点常用字表、景点常用后缀表、地名常用字表等特征词典,实现简单旅游命名实体的识别;其识别结果传递到高层模型,以词为切分粒度,结合复杂特征,实现嵌套景点、特产风味、地点的识别。最后进行了两组相关实验,结果表明,在开放测试中,层叠条件随机场模型相比于单层模型,F值提高了8个百分点;相比于HMM模型,正确率提高了8个百分点,召回率提高了22个百分点,F值提高了15个百分点。
- 郭剑毅薛征山余正涛张志坤张宜浩姚贤明
- 关键词:计算机应用中文信息处理旅游领域命名实体识别层叠条件随机场
- 基于HMM的中文旅游景点的识别被引量:11
- 2009年
- 针对旅游领域,提出了一种基于隐马尔可夫模型(HMM)的旅游景点实体识别方法.该方法采用HMM学习算法,选取句子各态顺序遍历模型,结合词性特征和校正规则实现了旅游景点的自动识别.最后进行了旅游景点实体识别测试实验,结果表明所提方法取得了较好的效果.其中,开放测试识别准确率、召回率、F值分别达到了83.4%、95.7%、89.1%.
- 薛征山郭剑毅余正涛张志坤姚贤明
- 关键词:命名实体识别HMM旅游景点
- 领域知识关系对领域文本分类的影响
- 文本分类通常采用统计方法选取特征,在不同领域之间进行文本分类时,通常不考虑领域内部所具有的特有的知识关系。本文提出了一种基于领域知识关系的领域文本分类模型,该模型采用支持向量机学习算法,结合样本统计与领域术语构造领域分类...
- 韩露余正涛邓锦辉章程毛存礼郭剑毅
- 文献传递
- 基于模式学习的中文问答系统答案抽取方法被引量:7
- 2008年
- 答案抽取是中文问答系统的关键,而通常答案是借助于问题的答案句子模式抽取得到,由于答案句子模式是语言专家根据语言规则提炼获得,因此非常依赖于专家经验。针对这一局限性,提出了一种利用模式学习来获得中文答案句子模式的方法,该方法利用搜索引擎从互连网上检索相关问题文本,人工提取包含答案的句子段,并标注问题类型及答案,形成各种问题类型的问答训练语料。通过统计学习,提取候选答案句子模式,计算候选句子模式权重,并根据权重获得相应问题类型的答案句子模式。基于事实的问题答案抽取结果表明,提出的基于模式学习的方法有很好的效果,实验答案提取准确率值达到了0.28,学习方法获得的模式基本上覆盖了常规答案句子模式。
- 余正涛毛存礼邓锦辉章程郭剑毅
- 关键词:计算机软件问答系统答案抽取