国家自然科学基金(90920004)
- 作品数:13 被引量:136H指数:6
- 相关作者:周国栋朱巧明李培峰孔芳鞠久朋更多>>
- 相关机构:苏州大学江苏省计算机信息处理技术重点实验室信息技术有限公司更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于改进的K-means算法的人名消歧系统的设计与实现被引量:5
- 2010年
- 人名歧义是一种身份不确定的现象,指的是文本中具有相同姓名的字符串指向现实世界中的不同实体人物。人名消歧很长时间一直是一个具有挑战性的问题,关注网页里的人名消歧的问题。因为经典的K-means算法如果选择了一个差的随机初始聚类中心,算法会遇到局部收敛的问题,所以文章提出一种基于最大最小原则的改进的K-means算法来进行人名消歧。同时使用了WePS的训练数据作为实验的语料。实验结果表明,改进的方法比层次聚类方法有着更好的性能。
- 杨欣欣李培峰朱巧明王英帅
- 关键词:人名消歧聚类
- 一个基于分层的网页文本过滤系统
- 2010年
- 设计并实现了一种高效率、高性能的网页文本过滤系统,该系统采用分层过滤策略,包括实时过滤和事后分析。实时过滤模块是基于Linux下的IP Queue机制实现的,采用高效的过滤策略,在保证过滤实时性的同时也保证了过滤的准确性;事后分析模块研究过滤系统经过协议还原后备份的网页文本,通过网页预处理、非法关键词抽取、特征选择等步骤,实现了基于二元模型的文本过滤方法,该方法在一定大小的词语距离窗口内,采用包含非法关键词的二元词串作为特征,解决了使用二元词串带来数据稀疏的问题,同时保留了二元词串的强类别分辨能力的特征。实验表明,文章实现的过滤系统有较高的效率和准确率,用于事后分析的基于二元模型的文本过滤方法达到了较高的性能,其准确率、召唤率和F1的值分别为:96.98%,85.75%和91.02%。
- 周聚李培峰朱巧明
- 关键词:文本过滤
- 一个面向信息抽取的中英文平行语料库被引量:2
- 2015年
- 除了机器翻译,平行语料库对信息检索、信息抽取及知识获取等研究领域具有重要的作用,但是传统的平行语料库只是在句子级对齐,因而对跨语言自然语言处理研究的作用有限。鉴于此,以OntoNotes中英文平行语料库为基础,通过自动抽取、自动映射加人工标注相结合的方法,构建了一个面向信息抽取的高质量中英文平行语料库。该语料库不仅包含中英文实体及其相互关系,而且实现了中英文在实体和关系级别上的对齐。因此,该语料库将有助于中英文信息抽取的对比研究,揭示不同语言在语义表达上的差异,也为跨语言信息抽取的研究提供了一个有价值的平台。
- 惠浩添李云建钱龙华周国栋
- 关键词:语义关系平行语料库
- 基于逗号的汉语子句识别研究被引量:22
- 2013年
- 根据篇章分析的任务和实践,结合传统研究,提出汉语的基本篇章单位为子句,并从结构、功能、形式等方面给出其定义。分析了逗号与子句的关系,并在标注语料上进行了基于逗号的汉语子句识别研究。首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息,在标注结果中抽取句法、词汇、长度等特征进行实验,子句识别准确率为90%。然后利用信息增益选出贡献最大的9个特征,使用它们也可获得较高的子句识别准确率。最后仅使用词法信息,子句识别准确率可达84.5%。实验证明子句的定义合理,基于逗号的子句识别在理论上和实验上均可行。
- 李艳翠冯文贺周国栋朱坤华
- 关键词:逗号
- 基于树核函数的中英文代词消解被引量:23
- 2012年
- 基于树核函数,提出了从使用中心理论、集成竞争者信息和融入语义角色相关信息这3个方面对结构化句法树进行动态扩展来提升中英文代词消解的性能.首先探索了3种基本结构化句法树捕获方案,并使用SVMLight中提供的卷积树核函数直接进行基于结构化句法树的相似度计算,从而完成指代消解任务;其次,在分析3种结构化句法树捕获方案的基础上,从中心理论、竞争者信息和语义角色相关信息等几方面对捕获的结构化句法树进行了扩展;最后,通过ACE 2004 NWIRE英文语料和ACE 2005 NWIRE中文语料上的实验,说明了这些扩展能够提升代词消解的性能.
- 孔芳周国栋
- 关键词:代词消解树核函数
- 基于不平衡数据的中文情感分类
- 近些年来,情感分类在自然语言处理研究领域获得了显著的发展。然而,大部分已有的研究都假设参与分类的正类样本和负类样本一样多,而实际情况中正负类数据的分布往往是不平衡的。本文收集四个产品领域的中文评论文本,发现正类样本的数目...
- 王中卿李寿山朱巧明李培峰周国栋
- 关键词:中文信息处理情感分类
- 文献传递
- 基于树核函数的英文句子情感分类研究被引量:3
- 2011年
- 最近几年,由于在线客户评论信息飞快地增长。如何把这些信息分类为正向和负向情感是一个迫切需要解决的问题。提出了一种细粒度级别(句子级别)的情感分类方法,该方法在SVM分类器中使用了树核和复合核函数来进行句子级别情感的分类。实验结果表明在句子级别的情感分类中树核和复合核的方法比线性核具有更佳的性能。
- 张伟李培峰朱巧明
- 关键词:情感分类树核函数细粒度
- 基于机器学习方法的英文事件代词消解研究被引量:2
- 2012年
- 与实体指代不同,事件指代因为其先行词候选是一个事件,与名词性的指代词具有完全不同的语义分类体系,因此适用于实体指代消歧的大多数特征都不能用于事件指代消歧。该文给出了一个基于机器学习方法的事件代词指代消歧平台,详细介绍了平台的实例生成和特征选择过程,并给出了平台在OntoNotes3.0语料上的事件代词指代消歧的结果,对结果进行了分析。从实验结果可以看到,给出的平台获得了较好的系统性能。
- 张宁孔芳李培峰周国栋朱巧明
- 关键词:机器学习方法
- 中英文指代消解中待消解项识别的研究被引量:15
- 2012年
- 深入研究了中英文指代消解中的待消解项识别问题.在前人工作的基础上,首先使用规则方法识别与上下文无关或具有显著固定模式的非待消解项;针对与上下文相关的非待消解项识别,从平面特征方法和结构化树核函数方法两方面入手进行了探索;利用复合核函数将平面特征和结构化特征有效结合,对待消解识别问题进行了进一步研究.在ACE2003英文语料和ACE2005中文语料上的实验结果表明,提出的多种待消解项识别方案各具特色,都取得了不错的性能.最后将得到的待消解项识别模块应用于中英文的指代消解任务.实验结果表明,合适的待消解项识别能够大大提高中英文指代消解的性能.
- 孔芳朱巧明周国栋
- 最大熵和规则相结合的藏文句子边界识别方法被引量:17
- 2011年
- 句子边界识别是藏文信息处理领域中一项重要的基础性工作,该文提出了一种基于最大熵和规则相结合的方法识别藏语句子边界。首先,利用藏语边界词表识别歧义的句子边界,最后采用最大熵模型识别规则无法识别的歧义句子边界。该方法有效利用藏语句子边界规则减少了最大熵模型因训练语料稀疏或低劣而导致对句子边界的误判。实验表明,该文提出的方法具有较好的性能,F1值可达97.78%。
- 李响才藏太姜文斌吕雅娟刘群
- 关键词:最大熵句子边界识别藏文信息处理