国家自然科学基金(60831160525) 作品数:12 被引量:140 H指数:7 相关作者: 李建中 高宏 杨东华 韩希先 潘立强 更多>> 相关机构: 哈尔滨工业大学 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 教育部“新世纪优秀人才支持计划” 更多>> 相关领域: 自动化与计算机技术 更多>>
Ed-Sjoin:一种优化的字符串相似连接算法 相似连接(similarity join)在数据清洗、生物信息、模式识别等应用领域中有着广泛应用,其中基于编辑距离的字符串相似连接是一种重要的相似连接.尽管当前有一些基于编辑距离的字符串连接算法提出,然而,当前的算法存在... 李璐 王宏志 李建中 高宏关键词:前缀 文献传递 TKEP:海量数据上一种有效的Top-K查询处理算法 在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的... 韩希先 杨东华 李建中关键词:海量数据 TOP-K 文献传递 传感器网络中一种基于时-空相关性的缺失值估计算法 被引量:44 2010年 在无线传感器网络中,感知数据的缺失问题不可避免,并且给无线传感器网络的各种应用带来了巨大困难.解决该问题的最好办法是对缺失数据进行准确估计.文中首先提出了一种基于感知数据时间相关性的缺失值估计算法,该算法采用线性插值模型,能够对较短时间内平稳变化的感知数据的缺失值进行较好估计;其次,文中提出了一种基于感知数据空间相关性的缺失值估计算法,该算法采用多元回归模型,同时考察多个邻居节点并联合地用其感知数据来共同估计缺失值.该算法不仅能够对非平稳变化的感知数据的缺失值取得较好估计效果,而且在给出缺失数据估计值的同时,还能够对用户给定的置信度给出缺失值的置信区间;基于上述两种算法,文中最后给出了一种自适应的基于感知数据时-空相关性的缺失值估计算法.该算法无论对于平稳变化还是非平稳变化的感知数据的缺失值均能取得较好的估计效果.作者在真实的数据集合上对文中提出的算法进行了测试,实验结果证明文中提出的基于感知数据时-空相关性的缺失值估计算法能够有效估计无线传感器网络中的缺失数据,具有可靠、稳定的估计性能. 潘立强 李建中 骆吉洲关键词:传感器网络 缺失值 海量数据上的近似连接聚集操作 被引量:3 2010年 连接聚集操作是一种常用并且非常耗时的数据库操作.相对于准确查询,满足用户给定置信区间的近似结果由于其快得多的响应时间,更受用户的欢迎.作者分析发现现有的工作无法以既高效又满足给定的任意置信区间方式来处理近似连接聚集,因此提出了一种新的算法——(p,ε)-近似连接聚集查询(pε-AJA)来有效地返回满足任意置信区间的近似连接聚集结果.文章提出且预计算两个数据结构:连接随机样本(JRS)和连接位置索引对表(JPIPT).利用JRS,pε-AJA向用户返回近似结果的快速响应.如果利用JRS得到的近似结果没有满足给定的置信区间,pε-AJA利用JPIPT获得更多的随机连接元组.文中提出一种采样算法来获得JPIPT给定数量的样本,并且利用获得的JPIPT样本,该文提出的算法可通过对连接表的一遍顺序扫描获得连接元组.该文还提供了JPIPT和JRS有效的构建和维护算法.实验结果表明:pε-AJA可以获得相对于准确查询1~5个数量级的加速,并且可以有效地完成JPIPT和JRS的构建和维护操作. 韩希先 杨东华 李建中关键词:海量数据 TKEP:海量数据上一种有效的Top-K查询处理算法 被引量:18 2010年 在许多应用领域中,top-k查询是一种十分重要的操作,它根据给定的评分函数在潜在的巨大的数据空间中返回k个最重要的对象.不同于传统的TA算法,NRA算法只需要顺序读就可以处理top-k查询,从而适合于随机读受限或不可能的场合.文中详细地分析了NRA算法的执行行为,确定了增长阶段和收缩阶段中每个文件需要扫描的元组个数.文中发现在海量数据环境中,NRA在增长阶段需要维护大量的候选元组,严重影响了算法的执行效率.所以,文中提出一种新的海量数据上的top-k查询算法TKEP,该算法在查询的增长阶段就执行早剪切,从而大大减少增长阶段需要维护的候选元组.文中给出了早剪切操作的数学分析,确定了早剪切操作的理论和实际剪切效果.据作者所知,该文是第一篇提出在top-k查询的增长阶段执行早剪切的文章.实验结果表明,和传统的NRA相比,TKEP在增长阶段维护的元组数量减少3个数量级,需要的内存量减少1个数量级,TKEP算法获得1个数量级的加速比. 韩希先 杨东华 李建中关键词:海量数据 TOP-K DBCC-Join:一种新的高速缓存敏感的磁盘连接算法 随着CPU和内存的性能差距越来越大,系统设计者在CPU寄存器和内存之间插入高速缓存来弥补这个差距.高速缓存的数据存取速度远高于内存,所以数据库操作要获得更好的性能就必须考虑充分利用高速缓存.基于磁盘的连接操作是一种常用并... 韩希先 杨东华 李建中文献传递 一种基站可移动传感器网络再编程协议 被引量:3 2013年 本文针对基站可移动传感器网络实现了一再编程协议MovPro.该协议可以将新的二进制程序通过多跳的形式下发到网络内的节点上并使之运行.该协议的大致过程描述为,当基站在网络内移动时,基站将数据发送给它移动轨迹上的节点.节点收到部分二进制代码后通过窗口交换的形式将二进制代码传播到整个网络.MovPro是第一个在基站可移动传感器网络的真实系统.本文通过多种方式减少通信开销,并通过二级存储的方式减少外部flash的写次数.实验表明MovPro适用于基站可移动传感器网络. 方效林 高宏 李建中关键词:无线传感器网络 不确定图数据库中高效查询处理 被引量:26 2009年 近年来,在多种领域中产生的大量数据都可以自然地建模为图结构,比如蛋白质交互网络、社会网络等.测量手段的不准确性以及数据本身的性质导致不确定性在很多图数据中普遍存在.文中研究不确定图数据库中的高效查询处理方法.首先给出一种数据模型来表示图的不确定性.鉴于对用户提交的查询图通常会产生大量匹配结果,高效得到概率最大的k个匹配常常更具有现实意义.因此文中形式化提出概率top-k子图匹配查询的问题.为了解决提出的查询问题,以附带概率信息的邻居子图为基础,设计了一种有效的索引结构.另外,提出一种高效的基于索引的查询处理方法.该查询处理方法的核心是一个基于搜索树的匹配算法,其中运用了一种概率剪枝技术来提高性能.实验结果表明,所提出方法具有良好的效率和可扩展性. 张硕 高宏 李建中 邹兆年关键词:不确定性 查询处理 基于2-hop优化的子图模式匹配算法 被引量:1 2010年 讨论大图上有效可达标记2-hop编码,及其构造的图结构信息数据结构在判定两点之间可达性的高效性,基于这些高效结构,提出一种基于栈的DAG全局图模式匹配算法,该算法结合了栈在匹配过程中线性空间开销的优势。实验结果表明,相对于目前主流的图模式匹配算法,该算法具有中间结果小,时间高效的优势。 张航 王宏志 李建中 高宏无线传感器网络中能量高效的Top-k监测算法 被引量:7 2014年 传感器节点由于电源能量耗尽的原因经常失效或废弃,因此研究无线传感网的高能效查询处理算法具有重要意义.Top-k监测返回k个最大(或最小)的感知值及相应的位置信息,可以帮助用户检测异常事件并定位发生异常事件的位置,对于用户具有重要的实际意义.已有的Top-k查询处理算法致力于返回精确或近似的查询结果,通信能量开销较高.以最小化网内通信开销的期望为优化目标,提出了基于过滤器的Top-k监测算法.首先,提出了过滤器的健壮性并给出了通信开销模型;其次,根据期望的均值内涵和感知数据的时空相关性,给出了过滤器失败概率的计算公式;最后,以最小化通信开销的期望为优化目标,证明了健壮的过滤器的最优阈值,并提出了基于过滤器的Top-k监测算法(filter based Top-k monitoring algorithm,FTM).理论分析和实验结果验证了该算法的正确性以及低能耗性. 毕冉 李建中关键词:无线传感器网络 滤波器 阈值