国家高技术研究发展计划(2006AA12Z217) 作品数:11 被引量:28 H指数:3 相关作者: 谢昆青 雷小锋 宋国杰 杨冬青 林子雨 更多>> 相关机构: 北京大学 中国矿业大学 中国人民解放军 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 中国矿业大学科技基金 更多>> 相关领域: 自动化与计算机技术 交通运输工程 更多>>
实时主动数据仓库中的变化数据捕捉研究综述 实时主动数据仓库是数据仓库的最新发展阶段和未来发展趋势,它为企业提供了对战略决策和战术决策的双重支持.实时主动数据仓库中包含两类数据,即实时数据和非实时数据,相应地,需要两种不同类型的变化数据捕捉方法,即支持实时变化数据... 林子雨 杨冬青 宋国杰 王腾蛟文献传递 基于旋转投影统计特征的手写数字识别方法 被引量:2 2011年 通过抽取数字的轮廓和骨架来提取几何特征,可以有效地反映手写数字的细节,但手写数字的不规范性导致其识别率并不高。运用统计分析理论可以克服这一缺点。首先提出了基于投影间隔比率和间隔变化的特征提取方法,通过数字投影计算间隔的像素数比率和变化趋势,并将其归一化作为特征向量。进一步通过旋转投影基准线,增加特征向量之间的正交性以减少信息冗余,基于这一思路提出旋转投影的识别方法。理论分析和实验证明了旋转投影可以在相同特征数量的情况下达到更高的识别率,并给出了推荐参数。此外,通过旋转投影,直接解决了倾斜数字的识别问题。 庄伟 雷小锋 宋丰泰 戴斌 谢昆青关键词:统计分析 朴素贝叶斯 手写数字识别 数据流中时序模式支持度序列相关性分析 2007年 研究了数据流环境中时序模式支持序列的相关性分析问题.主要贡献包括:1)提出了基于多维球面和锥体划分思想基础上的时序模式支持度序列的相关性分析模型;2)提出了利用线性聚类的方法把多维球面划分为若干锥体的算法.实验表明,提出的解决方法可以高效地完成在数据流环境中对时序模式支持序列进行相关性分析的目的. 宋国杰 杨冬青 谢昆青关键词:数据流 OPHCLUS:基于序关系保持的层次聚类算法 被引量:1 2010年 引入序关系保持的思想,即层次聚类的簇间距离度量应该能够最大限度地维护样本点间的原始距离排序关系。定义了样本点对序关系的概念和序关系损失度量,证明了序关系损失度量可用做聚类的目标准则函数和聚类结果质量的评价标准。利用序关系损失的概念扩展出两种簇间距离度量,实现了基于序关系保持的层次聚类算法(order-preserving based hierarchical clustering algorithm,OPHCLUS)。实验仿真证明了OPHCLUS对聚类质量提升的有效性。 雷小锋 庄伟 程宇 丁世飞 谢昆青关键词:层次聚类算法 实时主动数据仓库的概念、问题及应用 近年来,数据仓库技术在学术界和工业界都得到了广泛的关注.实时主动数据仓库(real timeactive data warehouse,RTADW)是数据仓库技术发展的一个新的阶段,具有十分广阔的应用前景.介绍了实时主动... 宋国杰 杨冬青 林子雨 唐世渭 王腾蛟 谢昆青关键词:实时数据集成 文献传递 面向结构稳定性的分裂-合并聚类算法 被引量:4 2010年 聚类是在假设数据具有某种群聚结构的前提下根据观察到的无标记样本发现数据的最优划分。现有的聚类算法通常简单地导出假设结构和给定先验下最优或较优的聚类结果,体现为算法对样本分布拟合度的迭代最优化,即算法有效性。实际上,聚类的有效性取决于结构有效性、算法有效性和先验有效性3个方面的因素。基于这种考虑,提出了一种变体混合模型的聚类结构假设,以及判定聚类结构的稳定性的度量和方法,在算法有效的前提下通过单簇的分裂与合并来改进聚类结构的稳定性,并得到最终聚类结果,设计并实现了SMClus聚类算法,通过对模拟数据和真实数据的聚类实验,例证了方法的有效性。 雷小锋 何涛 李奎儒 谢昆青 丁世飞关键词:聚类算法 分裂-合并 SROC:一种面向结构鲁棒性的迭代聚类方法 聚类结果的有效性由结构有效性、算法有效性和先验知识有效性3个方面的因素决定.忽略先验知识和假设结构的有效性孤立地提升聚类算法的有效性很可能产生无效的聚类结果.现有聚类方法通常只是简单地导出假设结构下最优的聚类结果,并交付... 雷小锋 夏征义 谢昆青关键词:结构鲁棒性 聚类 迭代优化 文献传递 基于多级目标规划的高速公路二义性路径识别 被引量:6 2009年 高速公路二义性路径的准确识别是保证联网收费公平分配的关键技术。从路网流量的客观约束条件和用户主观行为描述两个角度出发,提出基于车辆检测器客观监测数据的多级目标规划识别方法,并融合已有的描述用户主观行为的概率识别方法,建立了多级目标规划模型,同时发挥了两种方法各自的优势,提高了识别准确度。采用SUMO交通仿真软件对其进行模拟评价,结果表明:在至少50%车检器能够正常工作的情况下,流量约束识别方法的识别准确度较已有概率方法提高约13%,多级目标规划模型的识别准确度较流量约束识别方法再提高约10%. 吴天舒 谢昆青 宋国杰 高小平一种基于元启发式策略的迭代自学习K-Means算法 被引量:3 2009年 类内误差平方和最小化的聚类准则求解是NP难问题,K-Means采用的迭代重定位方法本质上是一种局部搜索的爬山算法,因此聚类结果对初始代表点的选择非常敏感,只能保证局部最优。为此,引入元启发式策略,通过建立评估函数对K-Means初始代表点和目标函数之间的依赖关系进行近似,然后利用近似评估函数指导新的初始代表点的选择,构成一种迭代自学习框架下的K-Means算法。实验表明算法可以很好地克服K-Means对初始代表点的依赖性,获得较高质量的聚类结果。 雷小锋 杨阳 张克 谢昆青 夏征义实时主动数据仓库中面向需求的实时数据集成方法研究 实时数据集成是实时主动数据仓库研究领域的一个重要问题.现有的研究成果都是从技术角度出发,而并没有考虑具体的商务应用需求.而在大型商务应用中,即使采用过滤规则只捕捉感兴趣的变化数据,也会产生大量的数据集成工作,从而导致不必... 林子雨 杨冬青 宋国杰 王腾蛟关键词:实时数据集成 ETL 文献传递