张东站 作品数:71 被引量:230 H指数:7 供职机构: 厦门大学信息科学与技术学院 更多>> 发文基金: 国家自然科学基金 福建省自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 环境科学与工程 矿业工程 理学 更多>>
一种基于划分和密度的快速聚类算法 聚类是数据挖掘的重要组成部分;基于划分的聚类算法有近线性时间复杂度的优点,基于密度的聚类算法能发现任意形状的聚类.提出基于划分和密度的聚类算法CUPD(clustering using partition and den... 赖桃桃 冯少荣 张东站关键词:快速聚类算法 数据挖掘 文献传递 基于网络共识的股票价格行为数据挖掘(英文) 2010年 股票价格行为数据挖掘激发了计算机科学、机器学习及其他领域研究的广泛关注。然而,由于股票价格本身的不确定性和股市的复杂性,急需从不同角度将各方面知识综合利用。本文提出了股票价格充分融合网络共识的策略,构建了基于网络共识的股票价格行为数据挖掘平台。从交易系统实时采集股票交易价格数据,同时从网络智能获取当前的讨论热点线索一并存储到平台数据库。围绕融合两方面数据进行股票价格行为数据挖掘,完成了体系架构、数据结构和分析支持组件的设计,实现了股票价格行为数据挖掘原型系统。 赖兴瑞 张东站 段江娇关键词:数据挖掘 股票价格 基于关系数据库的top-k聚合关键词查询 被引量:3 2014年 基于关系数据库的关键词查询,使得用户在不需要掌握结构化查询语言和数据库模式的情况下,可以方便地进行关系数据库查询.给定一个关键词查询,已有的方法通过数据库中的主外键关联,查询得到包含关键词的元组集合.但是,在很多实际应用中,元组集合的聚合结果对用户更有价值;研究了基于关系数据库的top-k聚合关键词查询,提出了基于递归的聚合单元枚举算法——基于递归的完全搜索(recursion-based full search,RFS).为了获得更好的查询性能,设计了新的排序方法、二维索引和快速搜索算法——基于输出的快速搜索(output-based quick search,OQS),从而可以高效地枚举top-k个聚合单元;在不同的数据集上进行了大量的实验,实验结果表明OQS算法具有良好的查询性能. 张东站 苏志锋 林子雨 薛永生关键词:关系数据库 排序 OA系统的数据分布策略与透明复制技术 2004年 信息技术的进步推动了OA系统特别是远程OA系统的应用,网络流量的限制使Internet日益变成了OA系统的瓶颈。针对Internet瓶颈问题提出了OA系统的数据分布策略,对数据复制操作进行了研究,分析了数据复制的原理及冲突解决策略,最后设计了一种基于Agent的透明复制模型并进行了实际应用。 张东站 段永生 宋瀚涛关键词:OA系统 数据分布 数据复制 AGENT 一种基于划分和密度的快速聚类算法 聚类是数据挖掘的重要组成部分;基于划分的聚类算法有近线性时间复杂度的优点,基于密度的聚类算法能发现任意形状的聚类。提出基于划分和密度的聚类算法CUPD(clustering using partition and den... 赖桃桃 冯少荣 张东站关键词:聚类算法 文献传递 基于充分挖掘增量事务的关联规则更新算法 被引量:4 2007年 目前已提出了许多快速的关联规则增量更新挖掘算法,但是它们在处理对新增事务敏感的问题时,往往会丢失一些重要规则。为此,文章提出了一种新的挖掘增量更新后的数据库中频繁项集的算法EUFIA(Entirety Update Frequent Itemsets Algorithm),该算法先对新增事务数据分区,然后快速扫描各分区,能全面有效地挖掘出其中的频繁项集,且不丢失重要规则。同时,最多只扫描1次原数据库也能获得更新后事务数据库的全局频繁项集。研究表明,该算法具有很好的可测量性。 蔡进 薛永生 林丽 张东站关键词:关联规则 增量式更新 IDD:DDE编码改进方法 编码技术是XML查询处理的基础,为适应XML更新需要,近年来提出很多动态编码方法,大致可分为基于位串的编码和基于向量的编码.当XML更新时,动态编码方法应该产生最短位长新编码分配给插入节点。位串编码具有这个性质,而对于向... 庄灿伟 冯少荣 林子雨 张东站文献传递 MESHJOIN*:实时数据仓库环境下的数据流更新算法 被引量:5 2010年 提出了一种新的实时数据仓库环境下的数据流更新算法——MESHJOIN*算法。算法的特性有:(1)关系R采用了分块和散列的组织形式,尽可能避免对当前连接无效元组的读取,减少连接操作所涉及元组的数量,从而提高连接算法的效率;(2)采用了多线程并发连接技术,并根据工程学原理,实现了连接操作和关系R读取操作的最佳调度,保证了连接算法效率的最大化;(3)根据当前系统的服务率和数据流元组的到达率之间的关系,合理调度实时元组和准实时元组的执行,保证了系统对实时元组的处理要求。实验结果表明,MESHJOIN*算法可以取得比MESHJOIN算法更好的性能。 林子雨 林琛 冯少荣 张东站关键词:数据仓库 基于ESAX表示的时间序列相似性度量 时间序列的近似表示和相似性度量是时间序列挖掘的研究基础,对提高挖掘任务的效率和准确性至关重要。基于时间序列的ESAX(Extended Symbolic Aggregate Approximation)近似表示,在符号化... 兰妥 江弋 张东站关键词:时间序列 符号化 文献传递 基于特征相关的改进加权朴素贝叶斯分类算法 被引量:30 2012年 朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的.为了在一定程度上放松这一假设,提出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词频-反文档频率(TF-IDF)权重计算基础上,考虑到特征项在类内和类间的分布情况,另外还结合特征项间的相关度,调整权重计算值,加大最能代表所属类的特征项的权重,将它称之为TF-IDF-FC权重计算.与基于传统TF-IDF权重的加权朴素贝叶斯分类算法和其他常用加权朴素贝叶斯分类算法比较,如基于属性加权的朴素贝叶斯分类算法,这种算法的分类效果均有一定的提高. 饶丽丽 刘雄辉 张东站