王洪亚
- 作品数:26 被引量:34H指数:4
- 供职机构:东华大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金上海市自然科学基金上海市科委科技攻关项目更多>>
- 相关领域:自动化与计算机技术电子电信文化科学更多>>
- Top-k相似连接算法性能优化被引量:4
- 2016年
- 相似连接算法在数据清理、数据集成和重复网页检测等领域有着广泛的应用.现有相似连接算法有两种类型:基于相似度阈值的相似连接和Top-k相似连接.Top-k连接算法非常适合于相似度阈值未知的应用场景,目前最为有效的Top-k相似连接算法是Xiao等人提出的Topk-join.为了解决Topk-join中存在的性能问题,提出了一种Top-k相似连接算法Opt-join,该算法将Token批处理技术集成在现有的事件驱动框架中,以降低前缀事件的处理代价;通过置换哈希查找与过滤操作的执行位置来降低哈希查找代价,并理论证明了该置换的正确性.实验结果表明:与Topk-join算法相比,Opt-join取得了1.28倍~3.09倍的性能提升.实验数据还显示:随着数据长度的增加或k值的增长,Opt-join的性能优势有不断增加的趋势.
- 王洪亚杨利宏刘晓强
- On-Demand数据广播环境下实时有序查询处理
- 2010年
- 在On-Demand数据广播环境下,广播服务器基于用户发送的数据请求等信息进行调度决策来满足用户的数据访问需求。在很多实际应用中,用户的数据请求需要在一定时间段内得到满足,即数据请求是有截止期的。现有研究只考虑了具有截止期约束的单个数据请求的调度问题,而实时查询处理即用户以查询为单位依次发送多个数据请求的研究尚未得到足够的关注。本文重点研究了On-Demand数据广播环境下如何有效地处理实时有序查询这一问题。基于对该问题的分析,定义了一类新的调度问题ROBS并证明了ROBS的Off-Line版本是NP-Hard的;提出了一种新的考虑查询语义的On-Line调度算法OL-ROBS,该算法通过综合考虑数据请求个数、查询截止期和查询剩余数据请求个数来确定待广播数据项的优先级;为提高OL-ROBS的执行效率,设计了一种裁减算法,用以减少调度决策的搜索空间。模拟实验将OL-ROBS与目前最为有效的实时数据请求调度算法Sinθ-进行了比较,结果显示OL-ROBS具有更低的错过截止期比率。
- 王洪亚刘晓强何浩源宋晖肖迎元乐嘉锦
- 关键词:数据广播调度算法
- 大学计算机基础类数据科学课程的探索与实践被引量:4
- 2019年
- 针对大学本科生具备的知识背景,抽取数据科学工作的思想和方法,结合大数据、人工智能应用等前沿技术,提出计算机基础教学体系中数据科学课程的知识结构框架,探讨适应性的教学内容、教学方法和实验体系,最后说明教学实践效果.
- 宋晖刘晓强杜明王洪亚
- 关键词:计算机基础教学教学内容人工智能
- 一种支持多核平台下数据流处理的线程管理系统
- 本发明涉及一种支持多核平台下数据流处理的线程管理系统,其特征在于,包括线程池管理器、请求队列、事件队列及包含有多个线程的线程池。本发明的有益效果是:本发明解决了多核平台复杂查询中数据流处理的性能问题。本发明能够在不改变原...
- 王洪亚刘杰陆可镜常姗
- 数据广播环境下实时查询处理被引量:1
- 2008年
- 现有的实时数据广播研究中,只考虑了具有截止期约束的单个数据请求的调度问题,而支持实时查询处理的数据广播技术尚未得到足够的关注。该文研究在on-demand数据广播环境下,如何有效地处理实时查询问题,提出一种新的数据调度算法(QSA)。通过仿真实验与目前最为有效的数据请求调度算法SIN进行了比较,结果显示QSA具有更低的错过截止期比率,在最好的情况下,QSA比SIN降低了17.45%。
- 何浩源王洪亚刘晓强丛静乐嘉锦
- 关键词:数据广播调度算法
- 一种基于确定度的交互式迭代数据清洗方法
- 2023年
- 自动化的数据清洗技术可以极大地提升数据清洗的效率,但会导致一定的错误率和不可靠的结果,通过引入人的参与,对建议修改值进行检查可避免错误的修改,同时对最终结果的可靠性有直观的评估。基于上述考虑,本文提出了一种基于确定度的交互式迭代清洗方法,该方法利用主动学习技术,将基于统计方法的数据清洗技术和人的参与相结合,在迭代过程中不断提升清洗模型的清洗能力和数据质量,同时最小化人的参与度。具体地,此方法包含一个基于确定度的自动清洗模型,对数据是否需要修改的必要性进行度量,可有效减少错误的修复;此外,本文还定义了确定度增益,表示数据是保留、还是修改的分歧程度,将分歧最大的建议修改值交与人查看,以减小人的参与度。最终,本文在多个实验数据上验证了方法的有效性。
- 孙辞海王洪亚郭开彦程炜东
- 关键词:数据清洗
- 多核平台下Esper数据流管理系统性能分析研究被引量:2
- 2016年
- Esper事件处理系统可用于复杂事件处理与数据分析,适用于处理大量历史的或实时的消息和事件流。分析多核计算平台下基于Esper引擎所构建的数据流处理系统,介绍基于Esper引擎实验平台的设计与实现,给出完整的查询语句和测试用例,并使用该实验平台对多核平台下Esper引擎的性能进行测试,通过实时监控和离线数据分析给出系统的各项性能指标。实验结果表明,Esper数据流系统对多核平台并不能够提供良好的支持。
- 王洪亚张华庆刘晓强
- 关键词:复杂事件处理多核平台数据流管理系统
- Conger数据流管理系统:当CQL遇见奥罗拉
- 随着新型网络应用的不断出现,流形态数据已经成为数据管理领域研究的新热点.与传统数据相比,数据流具有时变、高到达速率和大数据量等特点.在CPU和存储资源有限的约束条件下,需要对数据流管理系统的体系结构进行全新的设计和实现....
- 金杰王洪亚曹娇王梅
- 关键词:数据流数据流管理系统
- 文献传递
- 基于MapReduce的Skyline查询处理算法
- 2016年
- Skyline查询是一个典型的多目标优化查询,在多目标优化、数据挖掘等领域有着广泛的应用。现有的Skyline查询处理算法大都假定数据集存放在单一数据库服务器中,查询处理算法通常也被设计成针对单一服务器的串行算法。随着数据量的急剧增长,特别是在大数据背景下,传统的基于单机的串行Skyline算法已经远远不能满足用户的需求。基于流行的分布式并行编程框架MapReduce,研究了适用于大数据集的并行Skyline查询算法。针对影响MapReduce计算的因素,对现有基于角度的划分策略进行了改进,提出了Balanced Angular划分策略;同时,为了减少Reduce过程的计算量,提出了在Map端预先进行数据过滤的策略。实验结果显示所提出的Skyline查询算法能显著提升系统性能。
- 崔文相肖迎元郝刚王洪亚邓华锋
- 关键词:MAPREDUCESKYLINE数据划分
- 基于迭代主成分分析的哈希算法研究与实现
- 2018年
- 为了提高高维空间近邻搜索算法的查询性能,本文结合DSH算法和迭代PCA方法的优点提出迭代PCA哈希算法。该算法查询效果良好,充分利用数据集的分布信息、有严格的理论保证。该算法在达到相同精度的条件下较LSH算法和DSH算法查询花费时间少。该算法提供了一种解决近邻搜索问题有效方法。
- 李志韩王洪亚
- 关键词:查询性能哈希算法