刘显敏 作品数:18 被引量:295 H指数:5 供职机构: 哈尔滨工业大学 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 哈尔滨市科技攻关计划项目 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
高效的实体匹配结果消解算法 2013年 实体同一性检测问题,即实体识别问题,是数据质量领域一个比较热门的研究问题.利用运行在两个实体上的实体匹配算法求解实体识别问题是目前研究工作中最主要的一个思路.然而,实体匹配算法的输出结果中可能有"歧义",使得算法的输出很难直接转化为实体识别问题的结果.考虑如何利用额外的知识来消去这种"歧义",形式化定义了实体匹配结果消解问题.该问题被证明是NP-完全问题.一个基于线性规划的近似算法Round被给出,它的近似比是O(log n),针对特殊情况,一个随机近似算法KwikResolution被给出.考虑到两个算法各自的不足,4个直观的启发式算法被给出.实验结果验证了理论分析的结果,并且证明了给出的启发式算法是有效的. 刘显敏 李建中关键词:消解 启发式算法 微函数依赖及其推理 被引量:3 2016年 起初,作为一个数据库模式设计的工具,函数依赖理论得到了很多的关注,而在数据修复中,该理论并不是十分有效.近年来,针对不一致数据的检测和修复问题,更多的约束被提出来,包括条件函数依赖、修复规则以及编辑规则等.然而,这些方法都只关注了属性整体之间的依赖关系,而实际应用中的数据通常有属性部分之间的依赖关系.例如,某单位员工的工号前两位决定了其所属的部门,而此类依赖信息就被已有方法忽略.该文首先提出了一类更一般化的约束——微函数依赖,微函数依赖引入提取函数,用来表示属性的部分信息.利用提取函数之间的依赖关系,能够检测出更多的不一致数据.理论方面,该文首先研究了微函数依赖的可满足性问题和蕴含问题,然后提供了一个正确且完备的推理系统.最后,通过实验证实了微函数依赖能够在可接受的时间开销内检测出更多的错误数据. 孙纪舟 李建中 高宏 刘显敏基于键规则的XML实体抽取方法 L上实体抽取问题的任务是要从XML数据中抽取出描述现实世界某个物理实体的数据实体.利用XML查询提供实体的表示方法,基于键规则中有关实体的语义信息,给出了求解XML上实体抽取问题的基于键规则的实体抽取(key-hased... 刘显敏 李建中关键词:数据查询 实体识别问题的相关研究 被引量:7 2013年 随着信息技术的发展,信息时代已经全面到来了。在信息"量"爆炸性增长的同时,近年来,"质"的问题也已经引起了产业界和研究人员的关注。"劣质"数据极大地降低了信息的可用性,提供给用户不精确的、缺失的、冗余的、陈旧的甚至是错误的信息,无法给用户带来正确的知识,并可能误导用户做出错误的决策,从而给用户造成损失。数据质量有六个主要维度:精确性、完整性、时效性、一致性、相关性和实体同一性。综述了数据质量中实体同一性方面的相关工作,并针对特定的技术展开讨论。 刘显敏 李建中关键词:数据质量 脏数据 TMS:一种新的海量数据多维选择Top-k查询算法 被引量:4 2017年 在许多应用中,Top-k是一种十分重要的查询类型,它在潜在的巨大数据空间中返回用户感兴趣的少量数据.Top-k查询通常具有指定的多维选择条件.分析发现:现有算法无法有效处理海量数据的多维选择Top-k查询.提出了一个基于有序列表的TMS(top-k with multi-dimensional selection)算法,有效计算海量数据上的具有多维选择的Top-k结果.TMS算法利用层次化结构的选择属性网格对原数据表执行水平划分,每一个分片的元组以面向列的模式存储,并且度量属性的列表根据其属性值降序排列.给定多维选择条件,TMS算法利用选择属性网格确定相关网格单元,有效减少需要读取的元组数量,提出双排序方法执行多维选择的渐进评价,并提出有效剪切操作来剪切不满足多维选择条件和分数要求的候选元组.实验结果表明:TMS算法性能优于现有算法. 韩希先 刘显敏 李建中 高宏基于键规则的XML实体抽取方法 被引量:11 2014年 XML上实体抽取问题的任务是要从XML数据中抽取出描述现实世界某个物理实体的数据实体.利用XML查询提供实体的表示方法,基于键规则中有关实体的语义信息,给出了求解XML上实体抽取问题的基于键规则的实体抽取(key-based entity extraction,KEE)方法.KEE方法利用查询松弛技术,自动地生成抽取实体的候选查询集合,基于相似性测度,从候选查询中选取适用于抽取实体的查询集合.作为KEE方法的一个具体实现,SharingEE算法利用标准化的查询松弛技术,减少了候选查询中的冗余,利用基于自动机的查询处理技术,在多个候选查询之间共享中间结果,从而减少计算开销.在真实和模拟数据上运行的实验验证了算法的效率和有效性.实验结果表明,KEE方法可以很好地解决实体抽取问题,并可以扩展到大规模数据上. 刘显敏 李建中关键词:XML数据 一种扩展条件函数依赖的发现算法 被引量:5 2015年 扩展条件函数依赖(extended conditional functional dependency,eCFD)是一种描述数据一致性的语义规则,是条件函数依赖(conditional functional dependency,CFD)的扩展.相比于CFD,eCFD能够描述更多的模式从而表达更丰富的语义信息.然而,关注eCFD的研究工作并不多.从给定数据中发现eCFD规则是一个重要问题,据笔者所知,目前还没有这方面的工作.该问题的难点在于,给定数据中所有合法的eCFD规则之间存在不一致的情况,且包含大量冗余,而CFD和传统的函数依赖规则并没有这样的问题.为避免不一致,同时尽可能地消除冗余,定义了"强合法eCFD"和"近似无冗余eCFD".基于这些概念给出了eCFD发现问题的形式化定义,并给出了MeCFD算法.利用划分属性的方法,MeCFD首先生成所有的基本eCFD,然后,通过合并基本eCFD来构造"组合eCFD".使用先深序来搜索候选空间,使得MeCFD仅用常数的存储空间来维护数据划分,节省了大量的空间开销,有效的剪枝策略被用来改进MeCFD的性能.真实数据集上的实验结果显示出MeCFD良好的可扩展性以及剪枝策略和优化方法的有效性. 刘显敏 李建中关键词:搜索算法 剪枝策略 冗余 高效的实体匹配结果消解算法 同一性检测问题,即实体识别问题,是数据质量领域一个比较热门的研究问题,可利用运行在两个实体上的实体匹配算法求解实体识别问题.针对实体匹配算法的输出结果中可能有“歧义”的现象,利用额外的知识来消去,形式化定义了实体匹配结果... 刘显敏 李建中关键词:数据库 信息提取 消解算法 面向拔尖人才培养的课程思政建设——以大数据计算基础课程为例 被引量:3 2022年 为了完成道德建设和人才培养的根本任务,需要将价值塑造、知识传授和能力培养三者结合起来。自从我国提出建设科技强国以来,我国自主研发的技术在很多领域逐渐走在世界前列,但在一些重点领域和关键技术上还存在短板,甚至存在“卡脖子”现象。英才学院拔尖学生培养目标就是要为国家培养出解决重点难点“卡脖子”问题的领军人才,教师在课程和日常教育中,要把马克思主义立场、观点和方法的培养与科学精神的培养结合起来,对学生起到潜移默化的作用,提高他们正确认识问题、分析问题和解决问题的能力。该文在分析大数据计算基础这门课程的内容和目标的基础上,从教学内容、教学方法、教学考核等方面阐述该课程开展课程思政的实施重点和实施方法,教学方法和教学价值,更好地加强学生思政教育。 王宏志 史宁 刘显敏 付立君 刘畅关键词:拔尖人才 大数据 SAJ:以最小化空间代价为目标的F&B索引构建算法 被引量:1 2006年 F&B索引及其相关技术是XML结构化索引研究方面的热点问题.利用树模型XML文档特有的结构性质,以最小化空间代价为目标,提出了一种新的F&B索引创建算法.该算法以后根顺序遍历XML文档,通过合并节点构建F&B索引,避免了将整个文档读入内存,极大地减少了构建索引需要的空间.理论分析和实验结果表明,该算法在创建索引过程中拥有很好的时空性能,有利于F&B索引的广泛应用. 刘显敏 李建中 王宏志 刘雨洋 骆吉洲关键词:XML