张明阳
- 作品数:7 被引量:6H指数:1
- 供职机构:河北大学更多>>
- 发文基金:河北省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术经济管理更多>>
- 基于MapReduce和上采样的两类非平衡大数据集成分类被引量:3
- 2018年
- 提出了一种基于MapReduce和上采样的两类非平衡大数据分类方法,该方法分为5步:(1)对于每一个正类样例,用MapReduce寻找其异类最近临;(2)在两个样例点之间的直线上生成若干个正类样例;(3)以新的正类样例子集的大小为基准,将负类样例随机划分为若干子集;(4)用负类样例子集和正类样例子集构造若干个平衡数据子集;(5)用平衡数据子集训练若干个分类器,并对训练好的分类器进行集成。在5个两类非平衡大数据集上与3种相关方法进行了实验比较,实验结果表明本文提出的优于这3种方法。
- 翟俊海张明阳王陈希刘晓萌王耀达
- 关键词:大数据最近邻
- 对地方政府自行发债的认识和思考被引量:1
- 2012年
- 2011年我国允许上海、浙江、广东、深圳地方政府自行发行债券。虽然发行地方政府债券有很多好处,但其潜在的风险必须引起足够的重视。对我国地方政府自行发债与传统举债模式进行了比较分析,重点剖析地方政府债券存在的风险,并据此提出对我国地方债监管与风险控制的建议。
- 闫屹张明阳
- 关键词:地方政府债务自行发债
- 由希腊债务危机看我国地方政府债务问题
- 希腊债务危机自爆发至今已经持续三年多,期间欧盟、国际货币基金组织以及欧盟各成员国虽采取多种措施进行控制治理,但所见成效不大,反而大有愈演愈烈之势,引发全球金融市场的动荡和不安。希腊主权债务与我国地方政府债务虽然一为国家债...
- 张明阳
- 关键词:希腊债务危机地方政府清偿能力
- MapReduce并行化压缩近邻算法被引量:1
- 2017年
- 压缩近邻(CNN:Condensed Nearest Neighbors)是Hart针对K-近邻(K-NN:K-Nearest Neighbors)提出的样例选择算法,目的是为了降低K-NN算法的内存需求和计算负担.但在最坏情况下,CNN算法的计算时间复杂度为O(n3),n为训练集中包含的样例数.当CNN算法应用于大数据环境时,高计算时间复杂度会成为其应用的瓶颈.针对这一问题,本文提出了基于MapReduce并行化压缩近邻算法.在Hadoop环境下,编程实现了并行化的CNN,并与原始的CNN算法在6个数据集上进行了实验比较.实验结果显示,本文提出的算法是行之有效的,能解决上述问题.
- 翟俊海郝璞王婷婷张明阳
- 关键词:K-近邻MAPREDUCE
- 基于YARN和哈希技术的大数据K近邻研究
- 大数据是近几年机器学习领域最热门的研究方向之一,大数据给传统的机器学习带来了巨大挑战。K-近邻是一种著名的分类算法。由于它简单且易于实现,所以被广泛应用于许多领域,如人脸识别、基因分类、决策支持等。然而,在大数据环境中,...
- 张明阳
- 关键词:哈希技术
- 文献传递
- 秦皇岛数据产业发展影响因素研究
- 近年来随着互联网等信息技术的飞速发展,整个社会逐渐进入了一个崭新的生产生活方式,以数据收集与加工为基础的数据产业也逐渐进入了人们的视野,数据产业作为国家重点关注的新兴产业,正处于一个飞速发展的阶段。秦皇岛市在全国的范围内...
- 张明阳
- 关键词:扎根理论
- 基于HBase和SimHash的大数据K-近邻算法被引量:1
- 2018年
- 针对大数据K-近邻(K-nearest neighbors,K-NN)计算复杂度高的问题,提出一种基于HBase和Sim Hash的大数据K-近邻分类算法。利用Sim Hash算法将大数据集从原空间映射到Hamming空间,得到哈希签名值集合;将样例的行键与值的二元对存储到HBase数据库中,行健(rowkey)为样例的哈希签名值,值(value)为样例的类别;对于测试样例,以其哈希签名值作为健rowkey,从HBase数据库中获取所有样例的value,通过对这些values进行多数投票,即可以得到测试样例的类别。与基于MapReduce的K-NN和基于Spark的K-NN在运行时间和测试精度两方面进行试验比较。试验结果显示,在保持分类能力的前提下,提出的算法的运行时间远远低于其他两种方法。
- 王婷婷翟俊海张明阳郝璞
- 关键词:大数据K-近邻HBASE