殷波
- 作品数:6 被引量:6H指数:1
- 供职机构:桂林电子科技大学计算机科学与工程学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Analysis Services的OLAP安全性实现被引量:4
- 2007年
- 在线分析处理技术(OLAP)是数据仓库的重要应用之一,而安全性是许多OLAP产品的主要弱点,通过对OLAP的安全性分析,建立了OLAP的安全模型,快速、有效、安全地从数据仓库中提取有价值的信息,并以安装在Windows 2000的SQL SERVER为例,研究如何实现OLAP的安全性。
- 刘新平蒋华张敏殷波
- 关键词:联机分析处理OLAP安全性SQLSERVER
- 一种基于重复串的STC改进算法被引量:1
- 2009年
- 目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判。本文提出了一种改进的算法,核心思想是对字符重复串进行抽取,使用重复串作为短语标引生成后缀树,并映射生成倒排索引进行STC算法去重。实验证实了改进算法有着良好的准确率和召回率,并有着优良的时间和空间特性。
- 殷波蒋华
- 关键词:网页去重
- 两种重复提取算法的研究比较被引量:1
- 2009年
- 在利用计算机处理文本信息时,为了能发现大文本信息中的重复词句,本文介绍两种用来发现重复词句的算法——基于后缀树的方法和基于倒排索引的方法。第一种ST算法使用树型数据结构,每个节点表示一个字并且根节点为空。第二种算法应用倒排索引,以及哈希表实现方法(HT)。对同一样本运行仿真后,在时间和空间复杂度上对实验结果进行比较。得出结论,尽管ST算法在考虑到时间成本时要更优,但在空间复杂度方面倒排索引方法更胜一筹。
- 殷波蒋华刘新平
- 关键词:后缀树
- 关于重复词句提取的两种算法分析——基于Suffix Tree和重复序列两种算法的实验结果比较
- 2009年
- 文章介绍了两种用来发现重复词句的算法——基于后缀树的方法和基于倒排索引的方法。
- 殷波蒋华刘新平
- 关键词:后缀树
- 基于重复串的STC网页去重算法研究
- 随着网络信息呈指数级的不断膨胀,如何从这个信息的海洋快速获得真正有价值的信息变得至关重要。搜索引擎应运而生,提供了在互联网上搜索信息的功能。然而在搜索引擎返回的检索结果中,存在大量的重复网页,其中大部分网页主要来自网站之...
- 殷波
- 关键词:网页去重搜索引擎数据挖掘
- 文献传递
- 关于重复词提取的两种算法分析
- 2009年
- 针对重复网页的去重问题,对两种重复词句提取算法进行了系统分析比较。STC算法在时间成本上具有优秀性能,重复序列的倒排索引方法在空间复杂度方面更胜一筹。结合STC算法对重复序列方法进行了改进,而面向主题转载的重复网页,先抽取重复串,然后将重复串作索引进行STC算法的重复抽取。实验结果表明,改进算法在保持了原有空间特性的基础上极大地提高了时间效率。
- 蒋华殷波
- 关键词:后缀树