您的位置: 专家智库 > >

国家自然科学基金(60672149)

作品数:10 被引量:146H指数:5
相关作者:黄河燕史树敏周浪张海军冯冲更多>>
相关机构:中国科学院南京理工大学中国科学技术大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术理学环境科学与工程更多>>

文献类型

  • 10篇期刊文章
  • 1篇会议论文

领域

  • 11篇自动化与计算...
  • 1篇环境科学与工...
  • 1篇语言文字
  • 1篇理学

主题

  • 3篇登录
  • 3篇中文
  • 3篇未登录词
  • 3篇抽取
  • 2篇域模型
  • 2篇术语抽取
  • 2篇条件随机域
  • 2篇条件随机域模...
  • 2篇中文分词
  • 2篇分词
  • 2篇抽取方法
  • 1篇短语
  • 1篇性能评测
  • 1篇语料
  • 1篇语料库
  • 1篇知识获取
  • 1篇散列
  • 1篇散列表
  • 1篇时间复杂度
  • 1篇识别方法

机构

  • 9篇中国科学院
  • 5篇南京理工大学
  • 4篇中国科学技术...
  • 3篇北京理工大学
  • 2篇新疆师范大学
  • 1篇南京大学
  • 1篇内蒙古师范大...
  • 1篇宁波职业技术...

作者

  • 9篇黄河燕
  • 5篇史树敏
  • 4篇张海军
  • 4篇周浪
  • 4篇冯冲
  • 2篇朱朝勇
  • 2篇丁溪源
  • 2篇张孝飞
  • 1篇刘东升
  • 1篇王平尧
  • 1篇张亮
  • 1篇陈肇雄

传媒

  • 3篇计算机工程与...
  • 3篇计算机科学
  • 1篇模式识别与人...
  • 1篇小型微型计算...
  • 1篇情报学报
  • 1篇中文信息学报

年份

  • 1篇2011
  • 5篇2010
  • 3篇2009
  • 1篇2008
  • 1篇2007
10 条 记 录,以下是 1-10
排序方式:
基于分词提取重复串的未登录词遗漏量化模型被引量:5
2011年
基于重复串构造候选词集合是未登录词识别(UWI)的重要方法,目前有两种策略用于重复串提取:基于字符和基于分词。该文针对这两种策略实施了大量对比研究,并提出了基于分词提取重复串的未登录词遗漏量化模型,用以评估未登录词漏召问题。分析表明,该量化模型与实验数据之间具有良好的交互验证关系。根据对量化模型的讨论,该文得出了应用不同策略进行未登录词识别的可靠结论,该结论对后续研究具有一定的参考价值。
张海军史树敏丁溪源黄河燕
关键词:未登录词识别条件随机域模型中文分词
基于词频分布变化统计的术语抽取方法被引量:28
2009年
提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语。目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征。通过对术语在各文档中的分布情况进行观察,提出了一种利用术语在语料中词频分布变化程度的统计信息来检验术语的领域相关性的方法,同时结合机器学习方法获取的语言知识,从计算机领域的语料中抽取领域特征明显的词组型术语。实验证明,该方法对低频术语和高频普通词串有较强的分辨能力。
周浪张亮冯冲黄河燕
关键词:术语抽取知识获取
一种面向术语抽取的短语过滤技术被引量:7
2009年
在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出了一种基于左右熵的短语过滤方法,估算出短语或短语碎片中词语的活跃度,并过滤掉活跃度较高的短语或短语碎片。将该方法应用到一个术语抽取系统中,实验证实能够有效去除这些干扰项,提升术语抽取系统的性能。
周浪冯冲黄河燕
关键词:术语抽取
一种应用组合特征的中文未登录词词性猜测研究被引量:4
2010年
未登录词词性猜测是未登录词识别的重要步骤.论文中应用条件随机域模型,使用词的外部和内部特征(组合特征),进行中文未登录词的词性猜测.文中提出增加一种新颖的内部特征--汉字偏旁,来提高词性猜测效果.试验表明,使用组合特征的词性猜测方法是有效的,汉字偏旁的加入能显著提高词性猜测的准确性,开放试验的准确率达到94.67%.实验还初步证明,将汉字偏旁作为内部特征,在词法分析方面,具有一定的实用价值.
张海军冯冲史树敏黄河燕
关键词:中文分词未登录词条件随机域模型
基于多策略融合的中文术语抽取方法被引量:29
2010年
中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术。相对于单词型术语,词组型术语的识别过程要更加复杂。由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题。文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务。实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能。
周浪史树敏冯冲黄河燕
一种面向机器翻译的双语组块识别方法
指出双语组块最重要的特点是语义自足性、结构合法性和翻译转换的充分性,即识别出来的“双语组块”包含有确定的语义信息和双语对译信息,并且符合一定的语法规范。为此,相应地提出了一种双语组块分析方法。其基本思路是:通过规则与统计...
张孝飞黄河燕陈肇雄
关键词:机器翻译语料库
文献传递
中文新词识别技术综述被引量:42
2010年
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词性猜测一直是中文词性标注的技术瓶颈。详细分析了中文新词识别技术的研究现状,重点讨论了候选新词提取和词性猜测的研究方法与存在的主要问题,最后对新词识别研究方向进行了展望。
张海军史树敏朱朝勇黄河燕
关键词:新词识别未登录词
一种基于独立性统计的子串归并算法被引量:1
2010年
现行的子串归并算法都是采用一对一的方式针对同频子串提出的。但是在使用词法分析工具对文本进行切分时,不可避免地会产生很多的分词碎片,这直接导致了很多无意义子串的产生。通过分析这些无意义子串和众多父串之间的这种一对多关系,提出了一种基于独立性统计的子串归并算法。最后将该子串归并算法应用在中文术语抽取系统中,使得系统的准确率从91.3%提升到了93.32%。
周浪冯冲黄河燕王平尧
一种改进的中文字符串排序方法被引量:3
2010年
对中文字符串排序,最快算法的时间复杂度是O(nlgn)。基数排序算法是目前最快的排序方法之一,时间复杂度是O(dn),但其一般适用于相同长度的整型数据排序。提出了一种快速的变换方法,将字符串转换为与之等长的整型数组,使用基数排序算法对代表字串的整型数组排序,用以实现对字符串的快速排序。实验表明,提出的算法能快速地进行中文字符串排序,比快速排序算法具有更好的性能,且排序时间与数据规模之间是线性关系,算法的时间复杂度为O(dn)。
张海军丁溪源朱朝勇
关键词:中文字符串散列表时间复杂度
一种采用聚类技术改进的KNN文本分类方法被引量:37
2009年
KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思路是,通过文本聚类将样本中的若干相似文档合并成一个中心文档,并用这些中心文档代替原始样本建立分类模型,这样就减少了需要进行相似计算的文档数,从而达到提高分类速度的目的.实验表明,以分类准确率、召回率和F-score为评价指标,文中方法在与经典KNN算法相当的情况下,分类速度得到较大提高.
张孝飞黄河燕
关键词:文本分类文本聚类聚类中心
共2页<12>
聚类工具0