广东省自然科学基金(S2013020012865)
- 作品数:12 被引量:48H指数:3
- 相关作者:邓玉辉黄书强龙舜印鉴单志广更多>>
- 相关机构:暨南大学中国科学院华南理工大学更多>>
- 发文基金:广东省自然科学基金国家自然科学基金广东省科技计划工业攻关项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 大数据环境下高维数据的快速重复检测方法被引量:12
- 2016年
- 大数据时代多源、异构、海量的数据正逐渐成为各种应用的主流.多源异构不可避免地会使数据出现重复,同时庞大的数据量对重复检测的效率提出了极高的要求,传统技术在大数据环境下并不能很好地对高维数据进行重复检测,就此问题展开研究,分析了传统SNM类方法的不足,将重复问题概化为一类特殊的聚类问题,利用R-树建立了高效的索引,利用聚类簇的特性减少了在R-树叶子中比较的次数,利用重复检测的Apriori性质实现了对高维数据集并行处理.实验结果表明,提出的算法能有效地提高高维数据的重复检测效率.
- 朱蔚恒印鉴邓玉辉龙舜邱诗定
- 关键词:大数据高维数据数据挖掘数据预处理
- 基于拥塞控制的无线网络最大权调度算法被引量:3
- 2016年
- 无线网络中包调度和拥塞控制方案通常是独立设计的,导致网络资源无法高效利用。针对该问题,基于拥塞控制提出一种新的最大权调度算法。根据最大权调度算法计算节点中所有流的权值,选择最大权值的流进行调度,根据网络的拥塞情况,调节节点中流的发送速率。仿真结果表明,该算法能够提高网络吞吐量,达到更好的公平性并减少丢包率。
- 陈持鑫周继鹏
- 关键词:无线网络拥塞控制吞吐量丢包率
- 基于Cayley图的六度环绕网络研究被引量:3
- 2014年
- 六度网络是一类平面图网络结构,将平面以等边三角形的形式进行分割,包括六度网孔网络和六度环绕网络.六度网孔网络不是规则网络,其边缘节点与内部节点的度不相等.通过对六度网孔网络的边缘节点建立环绕边就形成了规则的六度环绕网络,每个节点的度为6.但是由于环绕边的存在,使得六度环绕网络的通信算法实现复杂,网络直径也非常难于计算.六度环绕网络被证实是一种Cayley图模型,具有良好的对称性.但是基于Cayley图的六度环绕网络的最优路由算法、广播算法还没有得到,该网络模型的具体直径值也是未解问题.针对基于Cayley图的六度环绕网络模型,文中给出了一种简单的最优路由算法和一种基于陪集图理论的广播算法,并给出该网络模型的网络直径确切值.
- 张震肖文俊黄书强邓玉辉
- 关键词:CAYLEY图最优路由算法广播算法
- 一种基于起源信息的元数据预取策略
- 2016年
- 在分布式文件系统中,对元数据的预取能够减少元数据服务器的请求响应延迟时间。现有的元数据预取策略大多基于元数据的历史请求序列,并未考虑文件的起源信息。为此,提出一种基于起源信息窗口的元数据预取策略,通过分析进程行为与元数据请求的关联性,提取起源信息窗口,统计元数据文件之间的关联度,生成关联规则哈希表,进行更激进的元数据预取。实验结果表明,与传统的最近最少使用算法和基于权重有向图的元数据预取算法相比,该策略的Cache命中率分别提高49%和7%。与Nexus算法相比,能有效减少内存开销,提升关联规则的查询效率。
- 吴国锦胡程
- 关键词:元数据分布式存储
- 去重环境下基于元数据分类的贪婪预取型数据恢复被引量:3
- 2017年
- 数据备份的目的就是为了恢复.由于逻辑连续的数据被物理分散在不同的磁盘位置,传统的去重方法产生的碎片严重影响了系统的恢复性能.之前存在的一些优化方法都是尝试在备份时利用重写算法来改进后期的恢复性能,然而重写算法自身存在的弊端就是必须以牺牲去重率的代价来获得更好的数据恢复性能,最终导致浪费磁盘空间的结果.并且传统的方法在备份完成后只会生成一份备份元数据以便后期恢复,导致系统在恢复过程中频繁地低效率访问磁盘上的元数据.本文提出将备份元数据分类组织成文件元数据和块元数据,在不牺牲系统去重率和充分利用硬件资源的前提下,通过对元数据更加激进式的预取来有效提高恢复性能和吞吐量.关于本文系统的恢复性能的实验评估是基于真实的数据集,实验表明:相比基于历史感知和基于内容的重写算法所获得的恢复性能,基于元数据分类的数据恢复分别在平均节约了1.91%和4.36%的去重率的情况下,获得了27.2%和29.3%的恢复性能提升.
- 杨儒邓玉辉魏文国
- 关键词:重复数据删除重写
- 基于社交网络中双重好友及用户偏好的协同过滤推荐
- 2016年
- 针对目前基于社交网络的协同过滤推荐算法只融入直接好友信息且不能有效防御概貌注入攻击等问题,提出一种融合双重好友及用户偏好的协同过滤推荐算法,通过设置合适的熟悉度阈值在社交网络的直接好友、间接好友中选取可信好友用户集作为目标用户K近邻候选集,在共同评分项目数的基础上,采用用户偏好相似度与评分相似度的加权相似度作为寻找近邻用户的标准,完成目标用户项目评分预测。在数据集Flixster上的实验结果表明,融合双重好友关系及用户偏好的推荐算法不仅具有较好的推荐准确率,还具有较强的抗概貌注入攻击能力。
- 胡致杰印鉴
- 关键词:协同过滤社交网络用户偏好
- 可时间局部性感知的块I/O关联挖掘算法被引量:2
- 2015年
- 块I/O之间的频繁关联性是存储系统中普遍存在的现象.这种数据块之间的频繁关联性,在改善存储系统的数据布局、优化访问数据的预取策略等方面具有重要意义.传统的频繁关联序列挖掘算法没有考虑数据的时间局部性,不能够有效地挖掘出块I/O之间的频繁关联性.本文提出了一种关联强化窗口下的可时间局部感知的apriori改进算法来挖掘块I/O之间的频繁关联序列.此外,本文还对支持度达不到阈值却又不容忽视的次频繁关联序列进行了挖掘,与频繁序列形成优势互补.实验中利用了三个真实的Trace对该算法进行评估.实验结果表明改进后的apriori算法更适合于挖掘块I/O数据流的频繁和次频繁关联序列.而且,该算法弥补了传统的频繁关联序列挖掘算法对具有时间敏感性的类流数据进行关联挖掘的缺陷.另外,相比较于apriori算法,该算法的时间效率更高.
- 黄立锋邓玉辉
- 一种网络编码分布式存储系统中的数据更新策略被引量:4
- 2017年
- 网络编码作为一种具有高可靠性和低冗余等优点的存储方案而被引入到分布式存储系统中,但是其数据更新过程的开销却很大.一些更新方案为了减少I/O开销而引入Log-based存储机制,而没有考虑优化网络带宽使用量.本文中,通过分析多个数据集,发现了大部分更新数据块存在着多次更新的情况,针对这一现象,我们提出一种更新方案CUM,利用网络编码的线性特性和更新节点的缓存区域,将更新块和校验块的信息缓存起来,当数据块多次更新时则可以直接在缓存中读取信息来计算新的校验块,从而减少了到存储节点上读取数据的带宽使用量.本文在NCFS的基础上建立缓存更新模型,并在真实的数据集上对CUM进行测试.实验结果显示CUM相比当前广泛使用的Differential Update Model(DUM)在更新性能上有很大改进,带宽使用量减少最多达总量的30%,更新时间最多减少24.57%,更新速度最多提高1.326倍.
- 刘冰星邓玉辉
- 关键词:网络编码分布式存储系统缓存数据更新
- 内存过载下基于重删的内存优化策略
- 2017年
- 内存空间紧张下频繁的外存交换严重影响程序的运行性能,在内存过载时提高内存利用率和减少外存交换问题上,现有的研究主要集中在内存压缩和去重两个方面,压缩只能删除页内重复数据,不能做到页与页之间的相同数据删除;将去重技术与系统虚拟内存结合,删除换出页中的重复页,仍不能有效避免外存交换区访问.提出一种内存过载下基于重删的内存优化策略.利用页框回收算法选出适合去重的内存页,过滤其中全零页以减少存储和去重计算开销,删除重复页以提高内存利用率,并通过存储唯一数据页于内存去重区,有效降低外存交换操作,同时提供可配置的去重内存空间占用上限,避免过度去重引入的颠簸问题.在IO密集型、计算密集型、及常规应用场景下的实验测试表明,该策略能有效删除重复内存页,可以极大程度地减少外存交换操作,同时提高程序运行性能最高可达54.013%.
- 刘瑞锴邓玉辉
- 关键词:重复数据删除哈希表
- 智慧城市中无线网络节点部署优化方案研究被引量:19
- 2014年
- 智慧城市无线网络基础设施中,网络节点部署直接影响到网络服务质量.该问题可归结为在给定的几何平面上部署合适的普通AP节点作为无线终端的访问节点,部署特殊节点作为网关以汇聚普通节点的流量到有线网络中.以无线Mesh网络为例,提出根据区域人流量的统计来确定AP节点的部署位置和数量,将网关节点部署问题抽象为几何K-中心问题.以节点和网关之间路径长度最小为优化目标,提出自适应的粒子群算法来求解网关节点部署位置.在自适应粒子群算法中引入随机调整惯性权重、自适应改变学习因子和邻域搜索等改进策略,并设计一种新的适值函数计算方法,使得算法更容易获得最优解.仿真结果表明,相对于GA算法和K-means算法,改进粒子群算法求解效果稳定,鲁棒性强,可获得更小的覆盖半径,从而提高网络的服务质量.
- 黄书强王高才单志广邓玉辉李阳陈庆麟
- 关键词:智慧城市无线MESH网络网关部署自适应粒子群算法