国家教育部博士点基金(20102302120054) 作品数:14 被引量:122 H指数:6 相关作者: 王宏志 高宏 李建中 黎玲利 张岩 更多>> 相关机构: 哈尔滨工业大学 爱丁堡大学 更多>> 发文基金: 国家教育部博士点基金 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
XML数据流上Top-K关键字查询处理 被引量:8 2012年 利用关键字可以在模式未知的情况下对XML数据进行查询.在当前的XML数据流上的关键字查询处理中,打分函数往往不能都满足各种用户不同的需求.提出了一种基于skyline的XML数据流上的Top-K关键字查询.对于这种查询,不需要考虑影响结果与查询相关性的复杂因素,只需利用skyline挑选与查询最相关的结果.提出了两种XML数据流上的有效的基于skyline的Top-K关键查询处理算法,包括对单查询和多查询的处理算法.通过扩展实验对两种算法的有效性和可扩展性进行了验证.经过实验验证,所提出的查询处理算法的效率几乎不受关键字个数、查询结果数量、查询数量等参数的影响,运行时间和文档大小大致呈线性关系. 黎玲利 王宏志 高宏 李建中关键词:数据流 关键字查询 TOP-K SKYLINE 基于Map-Reduce的大数据缺失值填充算法 被引量:18 2013年 缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度. 金连 王宏志 黄沈滨 高宏关键词:缺失值填充 MAP-REDUCE PEIF:基于并行机群的大数据实体识别算法 被引量:4 2013年 数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清理;另一个是同一个名字可能代表着不同的物体即为重名现象,这会给清洗工作带来阻碍需要识别并避免.而现有的算法大多只是解决了第1个问题,只有在EIF系统中同时解决两个问题.可是EIF系统又不适宜解决数据量较大的问题且其中的解决同一物体不同名字问题的算法有待提高.因此利用并行处理平台Hyracks设计并行算法,提出了PEIF:基于并行机群的大数据实体识别算法.此算法借助n-Gram算法辅助解决同一物体有不同名字的问题,在较短的时间内高效地对大数据进行实体识别.理论分析和实验结果表明提出的算法可以快速有效地对大数据进行实体识别. 李明达 王宏志 张佳程 李建中 高宏关键词:大数据 基于知识库的互联网商品信息分类与推荐系统 基于知识理解的数据挖掘技术在电子商务中可以应用到商品分类和推荐方面.为了弥补传统的基于关键词分类的不足,帮助消费者有效、准确、快速地查询所需信息,系统通过使用Probase概念、实体、属性知识分层模型,把检索出来的具有相... 周小田 王宏志 郭翔宇 胡筱 董志鑫 李建中 高宏关键词:知识库 文献传递 基于实体描述属性技术的XML重复对象检测方法 被引量:6 2011年 由于XML文档越来越广泛地被用于信息交换与集成,其数据质量问题引起了人们的关注.解决由数据质量引发的问题,实体识别技术非常关键.当实体识别被应用于XML数据中时,最为关键的操作是实体数据对象的匹配.为了克服现有方法的不足,在海量XML数据上进行高效的重复对象检测,文中提出一种基于实体描述属性技术的高效XML重复数据对象检测方法.它将所有标签属性与结点统称为属性,用实体来描述属性,通过属性的属性结点表的构建,快速地找到在某个属性上相同的所有实体对象,然后比较它们是否重复.此方法的优势体现在无需比较所有实体对象,只需要比较在属性结点表中同一位置的结点,大大节省了时间.此外,我们提出的Max-Merge算法,在兼顾相似对象传递性与独立性的基础之上,将所有相似对象进行聚类,大大提高了算法的精确率与召回率. 李亚坤 王宏志 高宏 李建中关键词:XML 数据集成 数据质量 基于众包的电子商务数据实体分类系统 被引量:5 2013年 电子商务发展迅速,商品数据不断增大,用户在搜索商品时总是需要浏览许多自己不需要的商品.因此找出其中描述相同的商品,对电子商务信息进行分类,能够有效提高用户的购买效率.由于各大电子商务网站人工输入的商品信息存在信息错误以及主观因素造成描述差异,现有的实体识别算法很难在电子商务数据上得到理想的结果,为商品数据的分类造成极大的困难.基于此,设计了一个基于众包的电子商务数据实体分类系统,结合Amazon Mechanical Turk(AMT)这个新兴的众包平台,实现机器实体识别算法与人工标注相结合的实体分类平台,在提高了数据分类的准确性的同时尽可能的降低实现商品数据分类的成本. 叶晨 王宏志 周小田 李建中 高宏关键词:众包 AMAZON MECHANICAL TURK 不一致数据上查询结果的一致性估计 被引量:2 2015年 主键约束是描述关系数据一致性的常用方法,基于主键约束的数据一致性修复返回一个极大子集,子集中不同数据的主键不同.对于合取查询Q,一致性合取查询返回一个答案集合,答案集合是Q在数据集合I的每一个修复下查询结果的交集.文中将Q在I中的查询结果满足一致性的个数占总的结果个数的比例定义为查询结果的一致性程度.若Q不可一阶表达且不能在多项式时间内得到其一致性解,则当Q答案个数超过30时,使用抽样的方法给答案集合一致性程度的一个(ε,δ)-估计.由于布尔合取查询的一致性判定问题是coNP-完全问题,因此在估计过程中,使用攻击图,通过攻击图对布尔查询q进行改写近似判断q近似一致性回答.实验表明了估计算法和近似判定算法具有较高的效率和准确率. 刘雪莉 李建中基于压缩直方图的劣质数据库上相似连接结果大小估计 被引量:2 2012年 现代数据管理系统普遍存在劣质数据,影响了数据质量,给数据管理带来了新的挑战.已经有不少管理劣质数据的数据模型,实体关系数据模型就是其中一种,该模型允许劣质数据的存在,并给出衡量数据质量的方法,并且可根据对结果质量的需求给出查询结果.鉴于该模型的特点,传统的估计查询代价的优化方法很难再适用,需要新的代价估计技术.本文提出了一种新的估计连接结果大小的方法.使用加权的最小哈希函数获得某一属性的最小哈希签名,这使得属性具有相同维数,便于利用直方图进行快速估计;然后建立其直方图,最后使用改进的离散余弦变换压缩直方图信息,使用压缩信息直接进行代价估计,这使得即使对于高维数据也能保证低错误率和低存储代价.此外,此方法可以很好的支持动态数据更新,消除周期性重建直方图的时间开销. 张岩 杨忠胜 王宏志 高宏 李建中基于Map-Reduce的大数据实体识别算法 被引量:9 2013年 实体识别是数据量质融合管理中的一项关键技术,对能否提高数据质量起着决定性作用.其目的在于识别出数据中表示同一对象的不同形式;以及同一形式所代表的不同对象.随着大数据研究技术的发展,大数据上的实体识别问题受到了广泛关注.因此,在大数据的信息集成背景下,给出了一个基于Map-Reduce框架的大数据实体识别算法(entity identification in big data based on Map-Reduce,EIBM).该算法首先通过属性值计算记录间的相似程度,而后基于图聚类的方法进行实体识别从而输出得到最终结果.最后,在Hadoop平台上对真实数据集和人造数据集进行了多组实验,实验结果验证了算法的并行程度和对于处理大数据的有效性与高效性. 霍然 王宏志 朱鎔 李建中 高宏关键词:大数据 HADOOP MAP-REDUCE 数据质量 社交网络中基于分类属性的好友推荐 被引量:4 2015年 社交网络经常通过掌握的用户信息来对其进行好友推荐。这种好友推荐带来了技术挑战,现有的好友推荐技术并不能有效解决该问题。为了应对这种技术挑战,拟提出基于分类属性的好友推荐算法。通过机器学习的手段,分析出不同类型的属性对用户行为的贡献度不同,将其进行分类处理。基于该分类,提出的算法可以在掌握用户基本资料以及近期行为的基础上,搜索出与之相关性更强的好友或能够引发其兴趣点的商品,用来快速、准确、全面地得到用户与其好友之间亲疏程度排序及分类的结果。实验结果证明了所提出方法的有效性及高效率。 过云燕 王宏志 张玮奇