国家高技术研究发展计划(2004AA117010-08)
- 作品数:8 被引量:75H指数:5
- 相关作者:赵铁军赵华王浩畅张姝郑德权更多>>
- 相关机构:哈尔滨工业大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于内容分析的话题检测研究被引量:27
- 2006年
- 通过分析大量的英文报道的特点,针对目前话题检测研究中存在的难以区分两次不同的火车事故或爆炸事件的问题提出了基于内容分析的话题检测算法.该算法以S ingle-Pass聚类策略为基础,通过内容分析将话题表示成两个中心向量:标识中心向量及内容中心向量.实验证明基于内容分析的话题检测算法不但简单易行,而且对于解决上述的“难以区分”问题非常有效.
- 赵华赵铁军张姝王浩畅
- 常用统计翻译模型在口语汉英翻译中的比较研究被引量:1
- 2007年
- 通过汉语到英语的翻译实验以及对结果译文的分析,对基于词的模型、基于短语的模型和基于句法的模型的翻译性能进行了比较。结果表明基于短语的模型性能优于其他两个模型,但是使用的参数较多;基于句法的模型虽然翻译性能不理想,但可以用较少的参数表达更丰富的信息,值得深入研究。
- 李俊薛永增赵铁军
- 关键词:自然语言处理统计机器翻译翻译模型句法分析器
- 基于查询向量的英语话题跟踪研究被引量:8
- 2007年
- 通过分析英语新闻报道的特点,提出了一种基于词汇区分和位置特征相结合的特征项抽取算法.词汇区分是指将单词分为首字母是大写的单词和首字母不是大写的单词,位置特征利用新闻报道的倒金字塔式的结构特点决定单词的重要性.提出了一种基于多个特征项抽取算法融合的特征项权值计算方法,该方法认为被越多的特征项抽取算法选中的特征项越重要.提出了一种基于多数投票策略的双重过滤算法,对报道和话题是否相关进行两次过滤,大大降低了系统的误报率.实验表明提出的3种算法不但取得了很好的效果,而且具有很好的可扩展性.
- 赵华赵铁军于浩郑德权
- 时间信息在话题检测中的应用研究被引量:11
- 2008年
- 为了克服话题检测中使用静态阈值的缺点,我们提出了基于时间信息的动态阈值模型。在该模型中,探索了一种比值法来选择与某个特定报道最相似的话题。实验结果表明,动态阈值模型很好地改善了话题检测系统的性能。
- 赵华赵铁军赵霞
- 关键词:动态阈值
- 基于SVM的生物医学命名实体的识别被引量:18
- 2006年
- 命名实体识别是生物医学数据挖掘的基本任务.文章使用了基于支持向量机的方法对生物医学文本中的命名实体进行了识别,系统中结合了丰富的特征集,包括局部特征,全文特征和外部资源特征,对不同的特征和不同的特征组合对系统的贡献进行了评测和实验.为了进一步提高系统的性能,还引入了缩写词识别模块和过滤器模块.实验结果表明,该方法对生物医学文本中命名实体的识别取得到了较好的结果.
- 王浩畅赵铁军
- 关键词:命名实体识别SVM缩写词
- 面向奥运的汉英RBMT与EBMT研究被引量:1
- 2006年
- 介绍了采用基于实例的方法和基于规则的方法在面向奥运的汉英机器翻译系统的最新进展。揭示了二者不同的翻译处理过程和翻译知识学习机制。通过2003年和2005年两次863汉英测试的结果比较了二者的性能差别。采用4元Bleu指标作为评分标准,在2005年863评测中RBMT系统的篇章类得分为0.1056。对话类得分为0.1714;EBMT系统的篇章类得分为0.0718,对话类得分为0.1454。
- 蒋宏飞杨沐昀赵铁军
- 关键词:机器翻译
- 基于浅层分析的多文档自动文摘技术被引量:7
- 2007年
- 提出一种基于浅层分析的多文档文摘方法,该方法分析了单文档的结构信息,多文档的统计信息,并利用改进的MMR方法动态地计算文摘候选句子的加入对文摘的贡献,去除冗余信息,最终按照一定时间顺序输出多文档文摘.对生成的英文文摘进行基于n-gram方法的自动评测,结果表明该方法具有较好的信息覆盖率,具有一定的实用价值.
- 张姝赵铁军郑德权杨沐昀
- 关键词:多文档文摘浅层分析自动评测
- 基于词汇化模型的汉语句法分析被引量:3
- 2007年
- 该文以处理大规模真实文本为目标,把句法分析分解为分词/词性标注、短语识别两个部分。首先提出了一个一体化的分词/词性标注方法,该方法在隐马尔科夫模型(HMM)的基础上引入词汇信息,既保留了HMM简单快速的特点,又有效提高了标注精度;然后应用中心驱动模型进行短语识别,这是一个词汇化的英文句法分析模型,该文将其同分词/词性标注模型结合进行汉语句法分析。在公共的测试集上对句法分析器的性能进行了评价,精确率和召回率分别为77.57%和74.96%,这一结果要明显好于目前唯一可比的工作。
- 曹海龙赵铁军李生
- 关键词:句法分析隐马尔科夫模型