段建勇
- 作品数:4 被引量:43H指数:3
- 供职机构:上海交通大学电子信息与电气工程学院计算机科学与工程系更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于潜在语义索引和句子聚类的中文自动文摘被引量:9
- 2008年
- 自动文摘是自然语言处理领域的一项重要的研究课题。提出一种基于潜在语义索引和句子聚类的中文自动文摘方法。该方法的特色在于:使用潜在语义索引计算句子的相似度,并将层次聚类算法和K-中心聚类算法相结合进行句子聚类,这样提高了句子相似度计算和主题划分的准确性,有利于生成的文摘在全面覆盖文档主题的同时减少自身的冗余。实验结果验证了该文提出的方法的有效性,对比传统的基于聚类的自动文摘方法,该方法生成的文摘质量获得了显著的提高。
- 陈戈段建勇陆汝占
- 关键词:自动文摘潜在语义索引
- 多词表达抽取及其应用
- 多词表达是自然语言处理中的难点,它是一种由若干词汇组成的语义单元,但其句法与语义属性并不能显式地由其构成词汇给出。经典的自然语言处理系统通常假设每个词汇为一个语义单元,这并没有包括多词表达在里面,多词表达跨越词汇边界,因...
- 段建勇
- 关键词:自然语言语言处理生物信息学词义消歧术语抽取
- 基于两阶段分类的口语理解方法被引量:3
- 2008年
- 口语理解是实现口语对话系统的关键技术之一.它主要面临两方面的挑战:1)稳健性,因为输入语句往往是病态的;2)可移植性,即口语理解单元应能够快速移植到新的领域和语言.提出了一种新的基于两阶段分类的口语理解方法:第1阶段为主题分类,用来识别用户输入语句的主题;第2阶段为主题相关的语义槽分类,根据识别的主题抽取相应的语义槽/值对.该方法能对用户输入语句进行深层理解,同时也能保持稳健性.它基本上是数据驱动的,而且训练数据的标记也比较容易,可方便地移植到新的领域和语言.实验分别在汉语交通查询领域和英语DARPA Communicator领域进行,结果表明了该方法的有效性.
- 吴尉林陆汝占段建勇刘慧高峰陈玉泉
- 关键词:口语对话系统主题分类决策表
- 基于语言建模的文本情感分类研究被引量:30
- 2007年
- 提出了一种基于语言建模的文本情感分类的方法.将文本的情感倾向标记为"赞扬"或"批评",可以为文本提供主题之外的语义信息.为此提出了从训练数据中分别估计出代表"赞扬"和"批评"两种情感倾向的语言模型,然后通过比较测试文本自身的语言模型和这两种训练好的情感模型之间的Kull-back-Leibler距离,分类测试文本的思路.各个模型的参数分别选用词形特征的unigram和bigram,而相应的参数估计也分别尝试了最大似然和平滑两种策略.当在电影评论语料上和代表不同分类模型的支持向量机及朴素贝叶斯分类器进行比较时,语言建模的方法表现出了较好的分类性能和鲁棒性.
- 胡熠陆汝占李学宁段建勇陈玉泉
- 关键词:情感分类语言建模KL距离鲁棒性