冯元勇
- 作品数:14 被引量:151H指数:6
- 供职机构:中国科学院软件研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中国科学院知识创新工程重要方向项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 中文实体关系抽取中的特征选择研究被引量:61
- 2007年
- 命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为:包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF模型框架下,以ACE2007的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。
- 董静孙乐冯元勇黄瑞红
- 关键词:计算机应用中文信息处理实体关系抽取
- 中文实体提及识别及其共指消解关键技术研究
- 随着计算机应用的深入和互联网的发展,人们可获得的信息量急剧增加,如何自动有效地从网络资源中找到用户真正需要的信息成为当前的迫切需求。文本内容抽取提供了一种对文档实体等信息进行有效提取、结构化的手段。文本内容抽取的关键技术...
- 冯元勇
- 关键词:中文命名实体识别
- 词汇搭配和用户模型在拼音输入法中的应用被引量:6
- 2007年
- 中文输入法是中文信息处理的难题之一。随着互联网上中文用户的不断增加,中文输入法的重要性也变得日益突出。本文在对句子中长距离词汇依赖现象观察的基础上,抽取出语料库中的词汇搭配来获取长距离特征,并以此构建基于词汇搭配关系的拼音输入法系统;同时将词汇搭配的思想应用到拼音输入法的用户模型中,从而使我们的输入法系统能够辅助用户更加有效的输入。实验表明基于词汇搭配关系的改进方法对提高输入法的准确率有积极的作用。
- 张玮孙乐冯元勇李文波黄瑞红
- 关键词:中文信息处理中文输入法中文信息处理统计语言模型词汇搭配用户模型
- 基于受限中文的轻型业务规则管理系统的设计与实现被引量:5
- 2005年
- 业务规则管理是实现企业灵活多变的业务控制和客户服务的理想方案。本文介绍了业务规则管理系统的基本思想,并面向业务分析人员设计了一种受限中文业务规则语言,实现了一个轻型业务规则管理系统。
- 徐黎冯元勇糜宏斌孙玉芳
- 关键词:中文企业客户服务
- 基于业务对象模型的业务规则语言的设计及实现被引量:7
- 2005年
- 面向业务人员设计了一套类自然语言的业务规则语言,并根据其语法设计了规则语句编辑的在线提示算法,该算法能迅速提供与语法语义相容的词选项列表,引导用户完成规则录入。
- 徐黎糜宏斌冯元勇孙玉芳
- 基于单字提示特征的中文命名实体识别快速算法被引量:30
- 2008年
- 近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。
- 冯元勇孙乐李文波张大鲲
- 关键词:计算机应用中文信息处理中文命名实体识别条件随机场自然语言处理
- 一种结合分类模型的中文输入法
- 中文输入法是中文信息处理的基础软件。本文针对现有输入法很少考虑利用候选词语本身特性来进行排序的情况,给出了将输入法词库进行类别标注以及在输入法系统中集成分类引擎的方法,提高和当前输入内容相关的候选词权重。首先给出了语言模...
- 张玮孙乐冯元勇吕元华
- 关键词:中文输入法中文信息处理分类引擎语言模型
- 文献传递
- 基于小规模尾字特征的中文命名实体识别研究被引量:32
- 2008年
- 本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征.实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度.该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点.在SIGHAN 2006命名实体识别语料上的结果也居于前列.
- 冯元勇孙乐张大鲲李文波
- 关键词:中文命名实体识别条件随机场自然语言处理
- 基于核方法的中文实体关系抽取研究被引量:22
- 2008年
- 命名实体关系抽取是信息抽取领域中的重要研究课题之一。该文探讨了核方法在中文关系抽取上的有效性问题,主要分为三部分:研究了在卷积树核中使用不同的语法树对关系抽取性能的影响;通过构造复合核检查了树核与平面核之间的互补效果;改进了最短路径依赖核,将核计算建立在原最短依赖路径的最长公共子序列上,以消除原始最短路径依赖核对依赖路径长度相同的过严要求。因为核方法开始被用于英文关系抽取时,F1值也只有40%左右,而我们在ACE2007标准语料集上的实验结果表明,只使用作用在语法树上的卷积核时,中文关系抽取的F1值达到了35%,可见卷积核方法对中文关系抽取也是有效的,同时实验也表明最短路径依赖核对中文关系抽取效果不明显。
- 黄瑞红孙乐冯元勇黄云平
- 关键词:计算机应用中文信息处理中文实体关系抽取核方法复合核
- 基于非连续短语的统计翻译模型研究被引量:5
- 2007年
- 目前统计机器翻译的主流方法仍然是基于短语的翻译模型。然而,该模型并没有考虑对非连续短语的处理。本文提出了一种基于非连续短语的统计翻译模型,利用该模型可以使翻译的基本单元从连续短语扩展到带有间隔的非连续短语,以更好地解决词语翻译时的上下文依赖问题。同时,由于该方法抽取的短语数量较少,也使得解码的效率得到了提高。实验表明,在效率提高的情况下,非连续短语模型可以取得与层次型短语模型相当的翻译结果。
- 张大鲲张玮冯元勇孙乐
- 关键词:人工智能机器翻译统计机器翻译