罗振声
- 作品数:22 被引量:277H指数:11
- 供职机构:清华大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 中文文本自动校对中的语法错误检查被引量:16
- 2003年
- 文章将中文文本的语法错误分为搭配错误和与句型成分相关的错误两大类。分别采用模式匹配的方法和基于句型成分分析的进行检查,这两种方法的结合,可以同时考虑局部和全局的语法限制信息,并且降低了语法检查的复杂度。通过对实验结果的分析和评测,证明文章所述的方法是可行的。
- 龚小谨罗振声骆卫华
- 关键词:语法错误
- 汉语句子谓语中心词的自动识别被引量:26
- 2003年
- 谓语中心词的识别是句法成分分析中的一个非常重要的部分。本文提出了一种规则和特征学习相结合的谓语识别方法 ,将整个谓语识别的过程分为语片捆绑、谓语粗筛选和谓语精筛选三个阶段。在谓语粗筛选中 ,利用规则过滤掉明显不能充当谓语的词 ,得到一个准谓语集 ;在精筛选阶段 ,选择谓语的支持特征 ,根据统计计算得到每个特征对谓语的支持度 ,然后利用准谓语在句子中的上下文出现的特征对准谓语集中的词进行再次筛选 ,从而确定出句子的谓语中心词。经过测试表明 。
- 龚小谨罗振声骆卫华
- 关键词:计算机应用中文信息处理
- 基于反比概率模型和规则的中文姓名自动辨识系统
- 中文姓名的辨识是自动分词、自动文摘的基础.我们提出了基于语料库统计的反比姓名概率模型,并结合上下文模式、邻接链、特殊姓、位置依存信息等四个辨识模块,设计了一个中文姓名辨识系统.本文描述了本系统的算法,测试结果表明系统有较...
- 季姮罗振声
- 关键词:数据稀疏
- 清华大学ZW大型通用汉语语料库的研究被引量:2
- 1994年
- 随着计算语言学研究方法与观念的更新和发展,特别是语料库语言学的兴起,作为语言学研究的得力工具与基础性设施的语料库研制已引起人们的重视。本文介绍“清华大学ZW大型通用汉语语料库”的研究。 一。
- 罗振声
- 关键词:信息处理汉语语料库
- 文本自动分类中特征权重算法的改进研究被引量:80
- 2005年
- 文章研究并改进了文本自动分类中的特征权重算法。传统的特征权重算法着重于考虑频率和反文档频率等因素,而未考虑特征的类间、类内分布与低频高权信息。该文重点研究了特征的类间、类内分布,以及低频高权特征对分类的影响,并在此基础上提出了低频高权特征集的构造方法及特征权重的新算法,同时将该算法推广到多层次分类体系。实验证明该算法能有效提高分类的精确度,而且在多级分类中也能取得很好的效果。
- 徐凤亚罗振声
- 关键词:分布信息文本分类
- 基于概念统计的英文自动文摘研究被引量:19
- 2002年
- 文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分布划分意义块,以意义块为单位抽取文摘,初步解决多主题文章的文摘结构不平衡问题。该文主要介绍概念层次树的构造,主题概念的抽取步骤,句子重要度的计算和意义块的划分算法。测试表明该文提到的方法比传统的基于词频统计的方法有更高的召回率与精确率。
- 万敏罗振声季姮高小云
- 关键词:主题概念向量空间模型计算机
- 面向非受限领域的综合式自动中文文摘方法被引量:12
- 2002年
- 讨论了一种面向非受限领域的综合式中文自动文摘方法。其基本思路是 :采用向量空间模型对篇章结构进行自动分析 ,建立基于语义相似度的段落关系图 ,获取段落的重要度信息 ,并使用标题或聚类的方法划分意义段 ;根据词的频度 ,句子位置、提示语等文本形式特征计算句子的权值 ,分别从各意义段中选取高权值的句子作为文摘句 ;对文摘句进行句法和语义分析 ,消除冗余 ,解决指代词悬挂、文摘不连贯等问题 ,最终组成一篇简洁、通顺。
- 郭玉箐万敏罗振声
- 关键词:自动文摘方法向量空间模型篇章结构分析中文信息处理
- 汉语句型自动分析与频度统计被引量:3
- 1997年
- 汉语句型分析与频度统计的研究,是清华大学中文系承担的国家自然科学基金资助项目。完成后已通过了国家教委组织的专家鉴定。 课题分为实验模型和系统实现两个阶段进行。第一阶段对大约二十五万字的真实语科进行了第一次大规模的分析和统计。
- 罗振声孙长健
- 关键词:频率统计中文信息处理
- 基于概念层次的英文文本自动分类研究被引量:11
- 2004年
- 该文意在设计并且实现一个针对英文文本的自动归类以及检索系统,重点在于提高分类方法的准确率。自动文本分类系统中,一般来说文本内容是以N维特征空间的形式存储的,所以特征提取的方法和准确率极大地影响到分类结果的正确率。传统方法是基于词形的,并不考察词语的意义,忽略了同一意义下词形的多样性、不确定性以及词义之间的关系,尤其是上下位关系。该文提出的方法,在向量空间模型(VSM)的基础上,以“概念”为基础,同时考虑词义的上位关系,使得训练过程中可以从词语中提炼出更加概括性的信息,从而达到提高分类精度的目的。
- 厉宇航罗振声程慕胜
- 关键词:自动文本分类VSMWORDNET
- 模式匹配在中文问答系统中的应用研究被引量:8
- 2006年
- 针对汉语文本,对自动问答系统的实现进行了初步探索,主要是基于向量空间模型对文档信息进行检索,重点研究了模式匹配在判断问句类型和获取答案方面的作用,设计并初步实现了一个面向受限领域内中文自动问答系统。
- 杨晓明罗振声
- 关键词:向量空间模型