公共文化服务平台

基于分段向量模型的Web医疗咨询数据检索被引量：1: 2015年; Web上存在大量极具价值的医疗咨询数据。本文提出了一种基于分段向量模型的Web医疗咨询数据检索方法。根据Web医疗咨询数据的结构特点构造分段向量模型,然后将咨询数据按此模型表示。对两分段向量,用不同方式计算各分段的相似度,最终通过计算分段相似度加权和的方法产生更加准确的检索结果。在真实Web医疗咨询数据集上的实验结果验证了本文所提方法在提升检索结果准确率方面的有效性。; 郭成伟丁祥武; 关键词：信息检索 TFIDF算法

基于微博文本和元数据的话题检测: 2016年; 在微博热点话题发现中,微博文本短、词量少、时效性高,传统的话题检测方法不再适用。针对这些新的特点,提出一种基于微博文本和元数据的话题发现方法。首先利用微博发布时间、用户信息、微博转发评论等元数据构造描述微博词汇能量的复合权值,进而提取出话题的主题词汇,然后基于上下文关系构造主题词汇簇,最后对微博文本进行二次聚类,从而得到微博中的隐含话题以及相关微博文本。在真实微博数据上的实验表明,该方法能有效发现热门话题,提高话题检测的准确率和查全率。; 孙莉张振李继云王梅; 关键词：元数据聚类

异构计算平台上列存储系统的并行连接优化策略被引量：4: 2017年; GPU以及集成式的CPU-GPU架构凭借其强大的并行处理能力和可编程流水线方式,已经成为数据库领域的研究热点。为充分利用异构平台的并行计算能力,提升列存储系统的查询性能,在研究异构平台结构特性的基础上,首先提出了GPU多线程平台上进行连接的数据划分策略——ICMD(Improved CMD),利用GPU流处理器并行处理各个子空间上的连接,然后利用任务评估分配模型实现查询负载的动态分配,使得查询操作能在多核CPU、GPU上高效并行执行。同时利用片上全局同步机制、局部内存重用技术优化ICMD连接算法。最后采用SSB基准测试集测试,结果表明:Intel~?HD Graphics 4600平台上并行连接查询相比于CPU版本获得了35%的性能提升,较GPU查询引擎的Ocelot性能上提升了18%。; 丁祥武陈金鑫王梅; 关键词：流处理器

基于Hive的计算结果特征提取与重用策略被引量：4: 2015年; 现有MapReduce工作流中作业之间需将计算结果物化到HDFS(Hadoop distributed file system),大量磁盘I/O导致其效率较低.基于现有代表性工作Hive,提取并保存MapReduce工作流产生计算结果的数据特征,提出一种计算结果匹配和重用策略.首先,根据查询条件定义连接图与连接体等结构,用于可复用计算结果的匹配.基于该结构,根据HiveQL(Hive query language)解析出的抽象语法树,提出生成查询语句连接体算法,并遍历候选连接体列表,给出最佳重用方案生成方法,包括单连接体重用和多连接体重用策略.进一步,为了增加计算结果的重用概率,提出多键选择、推迟算数运算和语义理解3种方法.最后,使用数据仓库基准测试数据集TPC-H和SSB进行实验,验证了所提出的重用计算结果以提高数据处理速度的有效性.; 谢恒王梅乐嘉锦孙莉; 关键词：MAPREDUCE 连接体数据管理

列存储系统面向列的连接顺序优化研究被引量：1: 2013年; 连接操作是影响列存储数据查询效率的重要操作之一.对于列存储系统中的连接操作优化,以往的研究工作大多专注于对数据组织结构的优化以及辅助物理结构的建立上,极少涉及逻辑层特别是早期的连接策略优化.为此,根据列存储数据的特点和分析型查询需求的特征,提出了一种新的列存储连接优化方法.该方法采用提早优化的策略,使用"事实表下推"的优化规则,并在多事实表查询条件下引入浓密树进行连接顺序决策,以较小的时空复杂度获得"最优"的连接执行顺序.使用代价估计模型对提出的连接策略优化方法进行了理论验证.同时,在大规模数据仓库基准数据集SSB上通过实验验证了提早优化机制及下推规则的有效性.; 王梅陆戌辰乐嘉锦; 关键词：数据库查询优化

基于MapReduce的并行k-modes算法: 2015年; k-modes是一种代表性的分类数据的聚类算法。首先对k-modes聚类算法的实现过程进行了改进:通过在分配数据对象到簇时更新这个簇中各个属性项的次数,使得在遍历一次全部数据对象就能计算出新的簇中心。为了使k-modes能够处理大规模分类数据,在Hadoop平台上用MapReduce并行计算模型实现了k-modes算法。实验表明:在处理大量数据时,并行k-modes比串行k-modes极大地缩短了聚类时间,取得了较好的加速比。; 郭涛丁祥武; 关键词：分类数据并行聚类 MAPREDUCE

Conger数据流管理系统:当CQL遇见奥罗拉: 随着新型网络应用的不断出现,流形态数据已经成为数据管理领域研究的新热点.与传统数据相比,数据流具有时变、高到达速率和大数据量等特点.在CPU和存储资源有限的约束条件下,需要对数据流管理系统的体系结构进行全新的设计和实现....; 金杰王洪亚曹娇王梅; 关键词：数据流数据流管理系统

MR-CLOPE: A Map Reduce based transactional clustering algorithm for DNS query log analysis被引量：2: 2015年; DNS(domain name system) query log analysis has been a popular research topic in recent years. CLOPE, the represented transactional clustering algorithm, could be readily used for DNS query log mining. However, the algorithm is inefficient when processing large scale data. The MR-CLOPE algorithm is proposed, which is an extension and improvement on CLOPE based on Map Reduce. Different from the previous parallel clustering method, a two-stage Map Reduce implementation framework is proposed. Each of the stage is implemented by one kind Map Reduce task. In the first stage, the DNS query logs are divided into multiple splits and the CLOPE algorithm is executed on each split. The second stage usually tends to iterate many times to merge the small clusters into bigger satisfactory ones. In these two stages, a novel partition process is designed to randomly spread out original sub clusters, which will be moved and merged in the map phrase of the second phase according to the defined merge criteria. In such way, the advantage of the original CLOPE algorithm is kept and its disadvantages are dealt with in the proposed framework to achieve more excellent clustering performance. The experiment results show that MR-CLOPE is not only faster but also has better clustering quality on DNS query logs compared with CLOPE.; 李晔锋乐嘉锦王梅张滨刘良旭

基于列存储的大数据分析系统物化策略研究被引量：7: 2015年; 大数据具有规模大、深度大、宽度大、处理时间短、硬件系统普通化和软件系统开源化特点.针对当前传统数据库在对大数据进行分析时系统性能严重下降、计算效率提升有限的问题,提出一种基于列存储的大数据分析系统物化策略(materialization strategies in MapReduce based on column-store,MSMC).首先,通过引入MapReduce物化代价估计模型,深入分析影响物化效率的各个因素.在此基础上设计了MapReduce分布式环境下的列存储文件格式(MapReduce column-store file,MCF),并在数据加载过程中采用协同定位策略实现对物化数据的存储优化.其次,分别针对不同的物化时机,构建了MapReduce早期物化策略(MapReduce early materialization strategy,MEMS)、MapReduce延迟物化策略(MapReduce late materialization strategy,MLMS)和MapReduce混合物化策略(MapReduce early-late materialization strategy,MELMS).利用自适应物化调整策略对其做了进一步优化.实验结果在证明算法有效的同时,也显示出算法在存储空间和负载能力上都有很好的表现.; 张滨乐嘉锦孙莉夏小玲王梅李晔锋; 关键词：大数据 MAPREDUCE

一种大规模分类数据聚类算法及其并行实现被引量：21: 2016年; CLOPE算法在大规模、稀疏、高维的分类数据集的聚类上取得了很好的聚类效果.然而该算法受输入数据的顺序影响,难以获得稳定且全局最优的聚类结果.因此提出一种基于等分划分再排列思想的p-CLOPE算法对这一缺陷进行改进.在p-CLOPE算法的每一轮迭代过程中,对输入数据集等分为p部分再排列生成不同顺序的p!份数据集,对这些数据集分别聚类并选取最优的聚类结果作为下一轮迭代的输入.为了降低上述过程的时间复杂度,提出了一种中间结果复用策略,较大程度地提高了聚类速度.最后,在Hadoop平台上实现了一个包含p-CLOPE相关算法的开源聚类工具.实验表明:p-CLOPE算法比CLOPE算法取得了更优的聚类结果.对蘑菇数据集,当CLOPE算法取得最优聚类结果时,p-CLOPE比CLOPE取得了高35.7%的收益值;在处理大量数据时,并行p-CLOPE比串行p-CLOPE极大地缩短了聚类时间,并在计算资源充足时,取得了接近p!倍的加速比.; 丁祥武郭涛王梅金冉; 关键词：分类数据并行聚类 MAPREDUCE

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(61103046)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(61103046)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈