寇月 作品数:71 被引量:522 H指数:10 供职机构: 东北大学信息科学与工程学院 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 文化科学 经济管理 理学 更多>>
基于随机游走路径的分布式SimRank算法 被引量:2 2014年 SimRank算法是一种常用的相似性度量模型,它基于图的拓扑结构信息来衡量任意两个对象之间的相似程度。随着数据规模的不断增大,集中式SimRank算法已不适用,而已有的分布式Sim Rank算法在运行效率和扩展性等方面存在缺陷。针对上述问题,提出了一种两阶段的基于随机游走路径的分布式Sim Rank算法。第一阶段基于BSP(bulk synchronous parallel)模型建立随机游走路径索引信息,支持新路径的动态添加,并通过阈值过滤尽可能减少生成路径的数量;第二阶段利用第一阶段生成的索引信息,提出了基于MapReduce的分布式SimRank算法。最后,通过实验验证了算法的可行性和有效性。 刘恒 寇月 申德荣 王泰明 于戈关键词:BSP模型 MAPREDUCE 面向Web数据集成的真值发现算法 被引量:8 2016年 在Web数据集成中,常出现多个数据源对同一实体对象的描述存在冲突.解决冲突,发现真值有助于提高数据集成质量或构建高质量的知识库等.已有的解决单真值数据冲突的方法存在数据源评价指标不充分,无法区分数据源的数据缺失和假真,以及无法处理数据源间传递复制、共同复制等高阶复制的局限性.因此,本文采用召回率和假真率度量数据源质量,提出能处理数据源间复杂数据复制的真值发现算法.三个真实数据集和人工数据集上的实验结果表明,本文算法能有效降低错误数据复制带来的真值计算偏差,提高真值发现的准确率. 余东 申德荣 寇月 聂铁铮 于戈关键词:数据复制 数据冲突 数据集成 数据空间中数据组织模型以及关联关系发现模型的研究 数据资源之间关联关系的发现问题是数据空间的一个重要研究方向,它是解决数据空间中其他问题如构建索引、提供浏览、查询、Lineage等服务的基础.然而目前针对数据空间的研究大都是在假设已经得到数据资源之间关联关系的基础之上进... 董彦磊 申德荣 寇月 聂铁铮关键词:数据空间 数据资源 语义查询 频繁项集 文献传递 一种面向关系数据库的语义关键字查询策略 在传统的关系数据库上进行关键字查询已经成为近来数据库领域的研究热点.面向关系数据库的关键字查询允许用户在不知道数据库模式、不使用复杂的查询语句的情况下查找出相关信息.然而这种方法可能会产生大量的查询结果,且这些结果与用户... 张瑶 申德荣 寇月 聂铁铮 于戈关键词:关系数据库 TOP-K 文献传递 异构网络中关联实体识别模型及增量式验证算法研究 被引量:6 2013年 利用关联实体识别技术可以对异构网络中主题相关的实体进行检测并整合,更好地帮助用户理解搜索目标.然而,目前关联实体识别技术考虑的因素较为单一、对识别结果缺乏验证而影响识别准确性.文中提出了一种两阶段的关联实体识别模型,充分考虑了实体的模式特征与属性特征.此外,提出了一种增量式验证算法,基于迭代对识别结果进行增量式的验证并修正,以保证结果的准确性.通过实验验证了文中所提出的关键技术的可行性和有效性. 寇月 申德荣 刘恒 王泰明 聂铁铮 于戈关键词:异构网络 迭代 一种应用于Deep Web结果页面中分页标签的识别方法 被引量:1 2010年 针对识别分页标签的必要性,提出二种Deep Web结果页面中分页标签识别模型GL(Global Base on Link)和CSL(Commix Baseon Structure and Link).GL是将一个页面的所有超链接Link都抽取出来,然后根据链接探测得到响应页面,分析响应页面的特征来判断是不是分页标签;CSL则是根据分页页面的布局特点,首先缩小分页标签的范围,然后在这个小范围内抽取超链接,最后通过探测方法来确定分页标签的位置,从而抽取出分页标签.通过实验对比,CSL在查全率上略低于GL模型,但是查准率高于GL模型,并且在探测次数上比GL模型降低了一个数量级,所以CSL是一种高效的分页标签抽取模型. 孙高尚 申德荣 于戈 聂铁铮 寇月共享的MapReduce环境下批量作业的调度算法研究 被引量:2 2013年 MapReduce作为当前最热门的并行数据处理系统之一,已经被广泛应用在生产、研究等多个领域中.任务调度策略作为MapReduce的核心技术之一,直接关系到系统的性能.但是,在多用户(部门)共享的MapReduce环境下处理批量作业时,已有的调度算法不能够保证系统良好的吞吐能力.针对此问题,一种在共享的MapReduce环境下的吞吐量驱动的任务调度算法(简称TD调度算法)被提出.首先结合共享的MapReduce环境下批量作业调度的特点,给出了调度框架,并根据处理过程中作业的参数变化,将作业归为4种状态并给出状态间的转换规则,避免了系统中资源浪费并保证了资源分配的公平性;其次,总结了在处理批量作业时提高吞吐量的主要手段,进而提出了TD调度算法,有效地降低了网络开销并显著的提高了系统的吞吐能力.最后通过大量的实验对TD调度算法的性能进行了验证.实验结果表明,TD调度算法能够有效地提高在共享的MapReduce环境下处理批量作业时系统的吞吐能力,符合实际应用的需求. 王习特 申德荣 聂铁铮 寇月 于戈关键词:共享环境 MAPREDUCE 任务调度 吞吐量 一种应用于Deep Web环境下的重复记录识别模型 随着Web数据库数量和其蕴含数据量飞速的增长,对Deep Web数据的集成越来越成为研究领域关注的问题.然而由于Web上的信息以半结构化及无结构化的数据信息居多,导致了抽取的结果中包含诸多的不确定性.如有噪音数据、重复字... 朱命冬 申德荣 寇月 聂铁铮 于戈文献传递 数据空间中一种灵活的集合式实体识别框架 被引量:1 2015年 数据空间是一个异构、动态的环境,具有随时间演化的特性.针对数据空间中随时间演化的、彼此间具有相互关联关系的大量异构实体,提出一个灵活的、基于演化的集合式实体识别框架TE-CER.TE-CER在实体识别过程中考虑时间信息和演化的影响,提出基于时间的blocking算法T-blocking和基于时间演化的聚类算法TE-Clustering.TE-Clustering聚类算法考虑了演化对实体相似度的影响,在相似度度量中引入属性演化系数和关联关系演化系数;在聚类过程中引入簇的时间约束.并且TE-CER提出基于识别顺序依赖图来确定集合式实体识别的识别顺序的策略,这样一种实体的识别结果可以用来后续另一种相关联实体的识别证据,以提高识别的准确率.在真实数据集上的大量实验结果表明所提出方法的有效性. 杨丹 申德荣 聂铁铮 于戈 寇月关键词:数据空间 支持Deep Web数据库集成的图书搜索系统 被引量:1 2011年 图书搜索系统以DeepWeb数据库的信息集成为背景,旨在为用户提供一个统一的查询接口,用户通过向统一接口提交查询,可获得各个图书网站集成的查询结果.主要介绍了系统框架、关键技术和主要演示过程. 单菁 王习特 刘桐 李延龙 李英军 聂铁铮 寇月 申德荣 于戈关键词:数据抽取 数据集成