郝璞
- 作品数:6 被引量:29H指数:2
- 供职机构:河北大学更多>>
- 发文基金:河北省自然科学基金国家自然科学基金河北省高等学校科学技术研究指导项目更多>>
- 相关领域:自动化与计算机技术更多>>
- MapReduce并行化压缩近邻算法被引量:1
- 2017年
- 压缩近邻(CNN:Condensed Nearest Neighbors)是Hart针对K-近邻(K-NN:K-Nearest Neighbors)提出的样例选择算法,目的是为了降低K-NN算法的内存需求和计算负担.但在最坏情况下,CNN算法的计算时间复杂度为O(n3),n为训练集中包含的样例数.当CNN算法应用于大数据环境时,高计算时间复杂度会成为其应用的瓶颈.针对这一问题,本文提出了基于MapReduce并行化压缩近邻算法.在Hadoop环境下,编程实现了并行化的CNN,并与原始的CNN算法在6个数据集上进行了实验比较.实验结果显示,本文提出的算法是行之有效的,能解决上述问题.
- 翟俊海郝璞王婷婷张明阳
- 关键词:K-近邻MAPREDUCE
- 基于Spark的压缩近邻算法被引量:2
- 2018年
- K-近邻(K-Nearest Neighbors,K-NN)是一种懒惰学习算法,用K-NN对数据分类时,不需要训练分类模型。K-NN算法的优点是思想简单、易于实现;缺点是计算量大,原因是在对测试样例进行分类时,其需要计算测试样例与训练集中每一个训练样例之间的距离。压缩近邻算法(Condensed Nearest Neighbors,CNN)可以克服K-NN算法的不足。但是,在面对大数据集时,由于自身的迭代计算特性,CNN的运算效率会变得非常低。针对这一问题,提出一种名为Spark CNN的压缩近邻算法。在大数据环境下,与基于MapReduce的CNN算法相比,Spark CNN的效率大幅提高,在5个大数据集上的实验证明了这一结论。
- 张素芳翟俊海王婷婷郝璞王聪赵春玲
- 关键词:大数据迭代计算
- 基于MapReduce和卷积神经网络的图像大数据分类研究
- 随着科学技术的进步与发展,每天产生数以万计的数据,如何从这些海量的数据中挖掘或发现有价值的知识显得尤为重要。深度学习是目前机器学习领域最热门的研究方向,轰动全球的A1phaGo就是用深度学习算法训练的。卷积神经网络是用深...
- 郝璞
- 关键词:卷积神经网络开源框架模糊积分
- 卷积神经网络及其研究进展被引量:18
- 2017年
- 深度学习是目前机器学习领域最热门的研究方向,轰动全球的AlphaGo就是用深度学习算法训练的.卷积神经网络是用深度学习算法训练的一种模型,它在计算机视觉领域应用广泛,而且获得了巨大的成功.本文的主要目的有2个:一是帮助读者深入理解卷积神经网络,包括网络结构、核心概念、操作和训练;二是对卷积神经网络的近期研究进展进行综述,重点综述了激活函数、池化、训练及应用4个方面的研究进展.另外,还对其面临的挑战和热点研究方向进行了讨论.本文将为从事相关研究的人员提供很好的帮助.
- 翟俊海张素芳郝璞
- 关键词:卷积神经网络计算机视觉
- 基于HBase和SimHash的大数据K-近邻算法被引量:1
- 2018年
- 针对大数据K-近邻(K-nearest neighbors,K-NN)计算复杂度高的问题,提出一种基于HBase和Sim Hash的大数据K-近邻分类算法。利用Sim Hash算法将大数据集从原空间映射到Hamming空间,得到哈希签名值集合;将样例的行键与值的二元对存储到HBase数据库中,行健(rowkey)为样例的哈希签名值,值(value)为样例的类别;对于测试样例,以其哈希签名值作为健rowkey,从HBase数据库中获取所有样例的value,通过对这些values进行多数投票,即可以得到测试样例的类别。与基于MapReduce的K-NN和基于Spark的K-NN在运行时间和测试精度两方面进行试验比较。试验结果显示,在保持分类能力的前提下,提出的算法的运行时间远远低于其他两种方法。
- 王婷婷翟俊海张明阳郝璞
- 关键词:大数据K-近邻HBASE
- 基于哈希技术和MapReduce的大数据集K-近邻算法被引量:7
- 2017年
- K-近邻是一种著名的分类算法。由于简单且易于实现,因此其被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,K-近邻算法变得非常低效,甚至不可行。针对这一问题,提出了一种基于哈希技术和MapReduce的大数据集K-近邻分类算法。为了验证算法的有效性,在4个大数据集上进行了实验,结果显示,在保持分类能力的前提下,所提算法可以大幅度地提高K-近邻算法的效率。
- 翟俊海张明阳王婷婷郝璞
- 关键词:K-近邻哈希技术大数据集