国家高技术研究发展计划(2001AA114210)
- 作品数:13 被引量:132H指数:8
- 相关作者:钟义信张素香李蕾陆汝占陈群秀更多>>
- 相关机构:北京邮电大学上海交通大学北京大学更多>>
- 发文基金:国家高技术研究发展计划国家重点基础研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 人称代词和名词的组合搭配研究
- 人称代词(r)和名词(n)的线性序列中人称代词和名词的关系呈现出多样性,本文在现代汉语语法信息词典的基础上考察了r和n的组合类别,指出汉语r+n的搭配存在选择限制,r和n可以形成表示领属关系的定中结构,也可以形成表示同指...
- 王治敏李芸俞士汶
- 文献传递
- 现代汉语语义知识库用于句法分析的研究被引量:3
- 2004年
- 汉语在词类这个语言层次上存在着许多歧义结构,仅仅依靠句子中词的词性标记无法正确 获得汉语词之间的句法关系。针对这种情况,在已有的基于规则与概率模型的句法分析器基础上,使用 现代汉语语义知识库作为语义资源,进行了在句法分析中引入语义信息以提高分析正确性的研究。
- 尹一瓴陈群秀
- 关键词:句法分析语义信息排歧
- 现代汉语述语动词机器词典在中文教学现代化中的应用设想
- 论文首先阐述了对外汉语教学、中文教学现代化的重要性和发展趋势,接着介绍了清华大学等共同建造的现代汉语语义知识库平台和现代汉语述语动词机器词典,然后从学习汉语动词的新义项、学习汉语动词某个义项的不同语义模式和变换式、学习汉...
- 陈群秀
- 关键词:对外汉语教学
- 现代汉语语义知识库对外汉语辅助教学软件研究和设计
- 逐渐壮大的对外汉语语言教学市场,日趋完备的现代汉语语义知识库,以及灵活多样的计算机教学技术,为计算机辅助对外汉语教学软件提供了巨大的发展空间。论文首先描述了现代远程教育的意义、特点、国内外发展近况和现代教育的发展趋势。然...
- 陈群秀刘明
- 关键词:现代远程教育
- 文献传递
- 词语兼类暨动词向名词漂移现象的计量分析
- 《现代汉语语法信息词典》建立了面向信息处理的汉语词类体系并完成了8万词语的归类,进而分类描述每个词语的详细语法属性。“大规模基本标注语料库”则对数千万字文本完成了词语切分和词性标注等基本加工。以北大计算语言学研究所拥有的...
- 俞士汶段慧明朱学锋
- 关键词:自然语言处理兼类词
- 文献传递
- 现代汉语语义资源用于短语歧义模式消歧研究被引量:11
- 2007年
- 现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。
- 王锦陈群秀
- 关键词:计算机应用中文信息处理搭配词典
- 人民日报标注语料的索引方法研究
- 本文对人民日报标注语料的索引方法进行了研究,提出一种词语和标记的二元混合索引的方法,在可以同时检索词语和标记串的基础上,有效地提高了检索效率。
- 王洪俊施水才俞士汶肖诗斌
- 关键词:混合索引
- 文献传递
- 实体关系的自动抽取研究被引量:10
- 2006年
- 针对实体关系的自动获取难题,将极大熵算法和Bootstrapping算法相结合,利用Bootstrapping算法和标量聚类的思想,通过设置种子模板和种子词获取了极大熵算法中所需的特征词.结合极大熵算法,从语言的形态学、语法、语义等方面系统地设计了9个特征,尽可能全方位地描述文实体的真实情况.搭建了实验所需的系统框架,实现了实体关系的自动抽取.实验结果表明:该方法能够有效地解决实体关系的自动生成问题.
- 张素香文娟秦颖袁彩霞钟义信
- 关键词:极大熵BOOTSTRAPPING实体关系抽取评测
- 基于潜在语义索引和句子聚类的中文自动文摘被引量:9
- 2008年
- 自动文摘是自然语言处理领域的一项重要的研究课题。提出一种基于潜在语义索引和句子聚类的中文自动文摘方法。该方法的特色在于:使用潜在语义索引计算句子的相似度,并将层次聚类算法和K-中心聚类算法相结合进行句子聚类,这样提高了句子相似度计算和主题划分的准确性,有利于生成的文摘在全面覆盖文档主题的同时减少自身的冗余。实验结果验证了该文提出的方法的有效性,对比传统的基于聚类的自动文摘方法,该方法生成的文摘质量获得了显著的提高。
- 陈戈段建勇陆汝占
- 关键词:自动文摘潜在语义索引
- 基于Boot Strapping的中文实体关系自动生成被引量:3
- 2006年
- 针对中文信息抽取系统中建立提取事件模板的难点问题,基于Bootstrapping思想,提出一种简单、可行的实体关系自动生成方法,利用由种子词和种子模板组成的知识库建立学习器,采用标量聚类的方法,通过种子模板抽取更多的与种子词相似语义关系的特征词。在此基础上,利用最近邻居的原则,进而生成更多的抽取模板。丰富了知识库,为分析二元实体关系奠定基础,使得生成复杂的消息模板成为可能,同时极大地减轻手工建立模板的复杂度,有利于系统进行移植。
- 张素香李蕾秦颖钟义信
- 关键词:BOOT