国家自然科学基金(60872133) 作品数:10 被引量:38 H指数:4 相关作者: 吕学强 施水才 王涛 韩艳铧 王锴 更多>> 相关机构: 北京信息科技大学 北京拓尔思信息技术股份有限公司 更多>> 发文基金: 国家自然科学基金 北京市教委科技发展计划 北京市自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于均值漂移的自适应视频场景分割 场景分割是基于内容的视频索引和检索研究的重要内容。本文采用基于核密度估计的均值漂移算法求出每个子镜头对应颜色特征的核密度极大值,该算法时空复杂度低,而且场景的代表帧也可根据此结果计算得出。本文提出一种自适应方法实现场景的... 任绍美 都云程 王涛 吕学强关键词:核密度估计 均值漂移 自适应 文献传递 基于多尺度条件随机场的文本图像二值化 2009年 提出一种基于多尺度条件随机场(简称mCRF)的图像二值化算法。该算法将对图像的二值化看作一个标注过程,利用mCRF模型对图像中每个像素点进行标记,从而实现对整幅图像的二值化。mCRF模型属于判别式模型,可以容纳任意的非独立特征,从而充分利用图像本身信息。实验结果表明,本算法比常用的阈值法效果有很大提高。 刘坤 吕学强 王涛 施水才关键词:文本图像 二值化 特征函数 基于MapReduce的术语权重计算方法研究 被引量:1 2011年 术语识别在本体构建、词典构建等领域应用广泛,而术语权重计算是术语识别中的关键步骤。本文通过改进TF-IDF公式,将组成术语词条的长度作为权重因素之一,同时考虑术语在文档集中的领域相关性。整个过程基于MapReduce编程模型实现,在Hadoop云平台中以分布式方式计算候选领域术语的权重。实验结果表明,该方法不仅简化了术语权重计算的实施步骤,也提高了算法执行效率。 王锴 施水才 王涛 吕学强关键词:TF-IDF MAPREDUCE 分布式 基于多特征融合的图像检索研究 本文针对基于利用单一特征对图像检索的片面性,进行了基于综合颜色和纹理特征的图像检索。仅基于一种特征的方法只能表达图像的部分属性,对图像内容的描述比较片面。颜色特征充分利用了图像的色彩信息,侧重于图像整体信息的描述,纹理特... 邓金杰 肖诗斌 吕学强 程涛关键词:图像检索 纹理特征 文献传递 基于条件随机场的英文地理行政实体识别 被引量:5 2009年 采用基于条件随机场的方法,对ACE评测的英文语料中的地理行政类型实体(Geographical Political Enti-ties,GPE)及其子类型进行识别。提出一种从ACE语料中选取的特征集,并根据不同的特征组合对GPE识别的贡献与其它特征集进行比较,实验表明该特征集能取得较高的召回率和准确率。 宗萍 施水才 王涛 吕学强关键词:条件随机场 基于信息熵与词语活跃度的领域词抽取 被引量:1 2011年 提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。 王成 吕学强 王弘蔚 王涛关键词:信息熵 知识获取 自然语言处理 基于字同现频率的关键词自动抽取 被引量:4 2011年 为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。 都云程 周伟 韩艳铧 吕学强关键词:关键词自动抽取 基于条件随机场的领域术语识别研究 被引量:14 2013年 领域术语是各个领域的核心词汇,在研究了大量领域文献的基础上,提出了一种识别领域术语的方法。该方法以现有成熟工具为依托,使用条件随机场模型统计领域术语的词性组合概率。在选定特征集后,通过调整特征和窗口的组合,制定一个最优特征模板,同时通过10倍交叉验证法确定模型训练参数。实验结果表明,通过条件随机场模型分析领域术语的词性组合概率能够有效地识别领域术语。 施水才 王锴 韩艳铧 吕学强关键词:条件随机场 基于空间金字塔的镜头检测 被引量:3 2013年 提出一种HSV颜色直方图与像素的位置空间金字塔结合的方法,该方法既考虑像素的信息,又考虑了像素的位置信息,来进行视频镜头分割。将图像进行一次亚采样,对得到的第一层亚采样图像进行均匀的四分割;对得到的四块小区域分别计算其颜色直方图,获得四个特征向量;将第一层亚采样的图像再进行一次亚采样,得到第二层亚采样图像,并计算其颜色特征向量;将五个特征向量级联,作为图像帧的特征,并计算相邻两个帧的相似度。该算法不仅考虑了像素信息,还考虑了像素位置信息,而且考虑的是全局位置信息和局部位置信息。实验结果显示,该方法较好地权衡了查全率和查准率。 都云程 任绍美 王涛 吕学强关键词:分块 直方图 基于改进的潜在语义分析的文本聚类 被引量:5 2012年 文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。 宋涛 施水才 房祥 吕学强关键词:潜在语义分析 奇异值分解 K-MEANS 文本聚类