国家自然科学基金(60673037)
- 作品数:4 被引量:41H指数:2
- 相关作者:刘秉权王晓龙徐志明刘桃刘文涵更多>>
- 相关机构:哈尔滨工业大学沈阳建筑大学黑龙江工程学院更多>>
- 发文基金:国家自然科学基金黑龙江省自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 双阈值的特定英语音频句子边界检测被引量:2
- 2010年
- 为了提高英语音频句子切分的效果,提出了基于双阈值的句子边界检测方法.该方法针对VOA、BBC等特别适合英语学习者的音频所具有的波形规范、环境噪声小、速率通常比较稳定等特点,利用静音能量阈值和静音时延阈值来检测音频句子的边界,并辅以对照文本信息进行校正.针对VOA慢速英语的实验结果表明:单纯使用双阈值方法,音频切分的召回率超过96%,精确率超过94%;利用对照文本校正后,可进一步提高精确率.
- 刘秉权徐帅李相前
- 关键词:双阈值
- Trie树和单字倒排相结合的汉英词典查找机制被引量:2
- 2008年
- 在对词典的查找算法作了回顾基础上,根据跨语言信息检索系统的要求,提出了一种词典查找的新机制,与其他查找算法的不同之处在于本方法支持模糊查找.查找机制结合Trie树和单字倒排的方法,既实现了查找的高效率又实现了模糊查找的算法,实验证明这种方法能够满足实际系统的需要.
- 朱文强刘秉权葛冬梅王喻红
- 关键词:跨语言信息检索TRIE树倒排索引
- 基于统计的中文领域术语自动抽取方法的比较研究
- 基于统计的领域术语抽取方法近年来得到了广泛的研究。然而领域术语抽取方法与领域相关,并且评价需要大量的人力资源,因此对这些方法进行比较存在着一定的困难。因此本文采用基于词典的客观评价方法与基于人工的主观评价方法,使用准确率...
- 宁海燕刘秉权张德园刘远超王晓龙
- 关键词:TFIDFSVM
- 文献传递
- 领域术语自动抽取及其在文本分类中的应用被引量:34
- 2007年
- 本文提出了一种基于信息熵的领域术语抽取方法,在给定领域分类语料的前提下,该方法既考虑了领域术语在不同领域类别间分布的不均匀性,又考虑了其在特定领域类别内分布的均匀性,并针对语料的不平衡性进行了正规化.人工评测显示该方法能更准确有效地抽取领域术语.本文还将该算法应用于文本分类,用于代替传统特征选择算法,实验表明,该算法能够显著提高文本分类的精度.
- 刘桃刘秉权徐志明王晓龙
- 关键词:信息熵正规化文本分类
- 基于日志挖掘的检索推荐系统被引量:3
- 2009年
- 目的为了有效地预测用户在信息检索过程中可能点击的检索结果,从而进行网页的智能推荐.方法采取网络日志挖掘的技术,通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相结合,以此作为网页推荐的依据.结果提出了一种检索推荐统计模型,并构建了相应的原型系统,实验表明该方法显著提高了推荐系统的准确率.结论这项技术有效地提高了推荐结果与用户信息需求的相关程度,使推荐系统的性能获得了较大地提高,可以很好的应用于信息检索的智能推荐服务领域.
- 朱鲲鹏刘文涵王晓龙刘远超
- 关键词:网页推荐信息检索日志挖掘
- 基于内容的服装图像检索技术研究
- 近年基于内容的图像检索技术是一个深受关注的研究热点,但是通用意义的基于内容的图像检索技术并未取得很好的效果。本文将基于内容的图像检索技术应用于电子购物领域,用于支持用户检索服装图像。提出基于分割算法的图像背景去除技术,用...
- 卢兴敬刘秉权张德园
- 关键词:颜色直方图
- 文献传递
- BBS短文本聚类技术研究
- 高校BBS论坛信息内容与学校日常工作、校园学生活动密切相关,其信息丰富且更新速度快。但是BBS上各版面的讨论内容并不严格与其版面名称相对应,因而会使信息显得杂乱。聚类技术可以有效地重新组织并利用BBS信息。BBS文本是短...
- 孙承杰朱文焕林磊刘远超
- 关键词:近邻传播算法
- 文献传递