谌超 作品数:4 被引量:17 H指数:2 供职机构: 桂林电子科技大学计算机科学与工程学院 更多>> 发文基金: 国家自然科学基金 广西壮族自治区自然科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于Hadoop的Nutch网页排序算法研究与实现 被引量:4 2013年 为了满足搜索引擎系统日益增长的高质量检索需求,针对Nutch搜索引擎框架没有实现Google的PageR-ank网页排序算法,分析了PageRank算法,并通过实验验证了PageRank算法的有效性,成功搭建Hadoop分布式集群,在Nutch框架中基于MapReduce分布式编程模式编码实现PageRank算法。实验结果表明,在Nutch搜索引擎系统中实现了PageRank算法后,系统的检索具有更高的准确率,能够更好地为用户提供检索服务。 陶林 谌超 强保华 王勇关键词:HADOOP集群 MAPREDUCE NUTCH 网页排序算法 PAGERANK 基于DOM的Deep Web查询接口属性抽取方法 2012年 属性抽取主要基于单元素属性抽取,而多元素属性抽取的研究较少。针对多元素组成属性情况进行研究,提出一种基于查询接口DOM结构的属性抽取方法,该方法将查询接口解析成DOM,基于DOM节点提取查询接口上对应的表单元素,对从查询接口上提取获得的元素集合进行二次聚类,挖掘元素之间的组合关系,最终将元素组合形成属性。这种方法能很好地抽取接口上的单元素属性和多元素属性,实验结果表明了方法的有效性。 石龙 强保华 何倩 吴春明 谌超关键词:属性抽取 DEEP 查询接口 基于查询接口文本VSM的Deep Web数据源分类 被引量:2 2013年 随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接口分类实现。为此,提出一种基于查询接口文本VSM(Vector Space Model)的分类方法。首先,使用查询接口文本信息构建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方法具有良好的分类性能。 石龙 强保华 谌超 吴春明关键词:DEEP WEB 向量空间模型 查询接口 基于Hadoop MapReduce的大规模数据索引构建与集群性能分析 被引量:11 2012年 为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引。采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能。实验结果表明:网络带宽越大,集群处理效率越高;集群节点数越多,处理大数据的能力越强。可见,网络通信带宽对Hadoop集群性能有一定影响,高速集群链路有利于发挥集群的性能。 谌超 强保华 石龙关键词:MAPREDUCE 倒排索引 HADOOP集群