国家自然科学基金(60673042)
- 作品数:5 被引量:87H指数:4
- 相关作者:赵军刘康韩先培王根徐波更多>>
- 相关机构:中国科学院自动化研究所更多>>
- 发文基金:北京市自然科学基金国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于布局特征与语言特征的网页主要内容块发现
- 本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征分...
- 韩先培刘康赵军
- 关键词:语言特征
- 文献传递
- 基于布局特征与语言特征的网页主要内容块发现被引量:12
- 2008年
- 本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征分别建立了独立的分类器,然后组合这两个分类器来进行网页内容块分类。实验结果表明,在保持非噪音块召回率在90%以上的同时,组合分类器的准确率达到85%,比只使用布局特征的分类器提高5个百分点,比只使用语言特征的分类器提高15个百分点;在5个站点上的分类结果表明组合分类器在不同站点上性能稳定,具有良好的通用性。
- 韩先培刘康赵军
- 关键词:计算机应用中文信息处理语言特征
- 基于领域语义信息的百科问答系统
- 本文构建了一个基于领域语义信息的百科问答系统,描述了如何在问答系统的语料预处理、问句处理和答案抽取模块中引入领域语义信息来提升问答系统的性能。实验结果表明,相比于检索系统和未加入语义信息的问答系统,基于领域语义信息的问答...
- 韩先培齐振宇田野王渝丽赵军
- 关键词:问答系统语义元数据语义标注
- 文献传递
- 利用单语网页挖掘辅助汉英人名反向音译
- 本文提出一种利用单语言网页挖掘辅助汉英人名反向音译的方法。该方法由两个阶段组成。第一个阶段是矫正过程,统计音译结果被划分成音节,然后将这些音节组成查询,利用基于音节的搜索过程从一个大规模Web词典中搜索与音译候选相似的单...
- 赵军杨帆
- 关键词:统计翻译模型
- 文献传递
- 基于多重冗余标记CRF的句子情感分析研究
- 本文针对评论分级的问题展开讨论,提出了一种多重冗余标记的 CRF 方法。在理论上,该方法为基于最大似然训练的学习算法解决序回归问题提供了一条途径.在情感分析任务中,该方法不仅能够有效地解决有序标记的分类问题,还能够在保持...
- 王根赵军
- 关键词:条件随机场
- 文献传递
- 基于Wikipedia的语义元数据生成
- 语义元数据提供数据的语义信息,在数据的理解、管理、发现和交换中起着极为重要的作用。随着互联网上数据爆炸式的增长,对自动元数据生成技术的需求也就变得更加迫切。获得目标语义元数据及得到足够的训练语料是使用自动生成技术的两个基...
- 韩先培赵军
- 关键词:元数据语义元数据语料库构建语义标注
- 文献传递
- 基于Wikipedia的语义元数据生成被引量:4
- 2009年
- 语义元数据提供数据的语义信息,在数据的理解、管理、发现和交换中起着极为重要的作用。随着互联网上数据爆炸式的增长,对自动元数据生成技术的需求也就变得更加迫切。获得目标语义元数据及得到足够的训练语料是使用自动生成技术的两个基本问题。由于获得目标语义元数据需要专家知识,而获得足够的训练语料需要大量的手工工作,这也就使得这两个问题在构建一个成功的系统时至关重要。该文基于Wikipedia来解决这两个问题:通过分析一个类别中条目的目录表(table-of-contents)来抽取目标语义元数据,通过对分析文档结构和赋予目标结构正确的语义元数据来构建训练语料库。实验结果表明,该文的方法能够有效地解决这两个问题,为进一步的大规模的语义元数据应用系统打下了坚实的基础。
- 韩先培赵军
- 关键词:中文信息处理元数据语义元数据语料库构建语义标注
- 基于层叠CRFs模型的句子褒贬度分析研究被引量:29
- 2008年
- 本文研究句子的褒贬度分析问题。针对传统的基于分类的句子褒贬度分析方法不能考虑上下文信息的问题,以及基于单层模型的句子褒贬度分类方法中的由于标记冗余引起的分类精度不高问题,本文提出了基于层叠式CRFs模型的句子褒贬度分析方法。该方法利用多个CRFs模型从粗到细分步地判断句子的褒贬类别及其褒贬强度,其中层叠式框架可以考虑句子褒贬类别与褒贬强度类别之间的层级冗余关系,而CRFs模型可以利用上下文信息对于句子褒贬类别和强度的影响。该方法在有效识别句子褒贬度的同时,提高了句子褒贬强度判别的准确度。实验证明相对于传统分类方法和单层CRFs模型,本文的方法取得了良好的效果。
- 刘康赵军
- 关键词:计算机应用中文信息处理
- 基于层叠CRFs模型的句子褒贬度分析研究
- 本文研究句子的褒贬度分析问题。针对目前文本分类方法不能考虑上下文信息的问题,以及单层模型中的由于标记冗余引起的分类精度不同问题,本文提出了基于层叠式 CRFs 模型的句子褒贬度分析方法,利用多个 CRFs 模型从粗到细分...
- 刘康赵军
- 文献传递
- 基于动作建模的中文依存句法分析
- 决策式依存句法分析,也就是基于分析动作的句法分析方法,常常被认为是一种高效的分析算法,但是它的性能稍低于一些更复杂的句法分析模型。本文将决策式句法分析同产生式、判别式句法分析这些复杂模型做了比较,试验数据采用宾州中文树库...
- 段湘煜赵军徐波
- 文献传递