苏毅娟 作品数:29 被引量:101 H指数:6 供职机构: 广西师范学院计算机与信息工程学院 更多>> 发文基金: 广西壮族自治区自然科学基金 国家重点基础研究发展计划 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 经济管理 天文地球 更多>>
基于稀疏学习的自适应近邻分类算法 被引量:1 2015年 为解决k-NN算法中固定k的选定问题,引入稀疏学习和重构技术用于最近邻分类,通过数据驱动(data-driven)获得k值,不需人为设定。由于样本之间存在相关性,用训练样本重构所有测试样本,生成重构系数矩阵,用l1-范数稀疏重构系数矩阵,使每个测试样本用它邻域内最近的k(不定值)个训练样本来重构,解决k-NN算法对每个待分类样本都用同一个k值进行分类造成的分类不准确问题。UCI数据集上的实验结果表明,在分类时,改良k-NN算法比经典k-NN算法效果要好。 程德波 苏毅娟 宗鸣 朱永华关键词:数据驱动 基于属性自表达的低秩超图属性选择算法 2017年 针对高维数据具有低秩形式和属性冗余等特点,提出一种基于属性自表达的无监督超图属性选择算法。该算法首先利用属性自表达特点用其他属性稀疏地表达每个属性,此自表达形式使用低秩假设寻找高维数据的低秩表示,然后建立超图正则化因子保持高维数据的局部结构,最后利用稀疏正则化因子进行属性选择。属性自表达特性确定属性的重要性,低秩表示相当于考虑数据的全局信息进行子空间学习,超图正则化因子考虑数据的局部结构对数据进行子空间学习。该算法实际上考虑数据全局和局部信息进行子空间学习,更是一种嵌入了子空间学习的属性选择算法。实验结果表明,该算法相比其他对比算法,能更有效地选取属性,并能取得很好的分类效果。 苏毅娟 雷聪 胡荣耀 何威 朱永华关键词:子空间学习 超图 关联规则的不确定性度量研究 被引量:3 2003年 自动地从数据库中挖掘关联规则是非常重要且十分有用的 ,这是因为已开发和研制的数据广泛地遍布于整个世界 .关联规则的不确定性由两个因子 :支持度和可信度来度量 .该文研究和给出已有的度量的性质 ,为进一步开发数据挖掘软件提供参考 . 钟智 苏毅娟关键词:关联规则 高职教育系统管理的自组织性选析 2009年 自组织理论是20世纪60年代末期在耗散结构理论和协同论及超循环理论的基础上建立并发展起来的一种系统理论,它所描述的是系统进化的过程。主要研究自组织系统形成和发展的机制问题,为人们理解和把握复杂的自然与社会现象提供了有效的方法论支持。自组织指的是不需要外部指令,而在一定条件下自行产生特定有序结构的过程。自组织过程并不是一个渐进的、平稳的过程,而是一个在内部酝酿的、突然的、飞跃的过程。开始的时候, 邓重一 苏毅娟关键词:高职教育 自组织理论 方法论 基于灰色关联分析的缺失值重复填补方法 被引量:5 2009年 缺失填补是机器学习与数据挖掘领域中极富有挑战性的工作。数据源中的缺失值会对学习算法的性能与学习的质量产生较大的负面影响。目前存在的缺失值填补方法还不能满足用户的需要。提出了一种基于灰色系统理论的缺失值填补方法,该方法采用了基于实例学习的非参拟合和灰色理论技术,对缺失数据进行重复填补,直至填补结果收敛或者满足用户的需要。实验结果表明,该方法在填补效果与效率方面都比现有的KNN填补法和普通的均值替代法要好。 苏毅娟关键词:缺失值 灰色关联分析 一种基于误差传播的过程数据流压缩新方法 2008年 过程数据压缩研究是流数据管理中的一个重要课题,现有的流数据压缩方法都强调其动态性、持续性与海量性,没有考虑到过程数据的具体特性.为了有效利用过程数据采样的局部特性,在对过程数据进行采样时,只要采样区间不大,则相邻样本数据值之差比较少,该文提出了一种基于误差传播的压缩方法.实验表明,该方法具有高效率与低误差等优点. 黄发良 苏毅娟 郑小健关键词:数据压缩 过程数据 流数据挖掘 数据库中的因果规则挖掘 2002年 传统的因果规则挖掘算法仅能在简单变量间挖掘因果规则 ,本文给出了一个能够在多值变量X与Y间挖掘形如X →Y的因果规则 ,且有一条件概率矩阵MY|X . 钟智 苏毅娟 张师超关键词:数据挖掘 数据划分 基于自表征和群组效应的子空间聚类算法 2017年 为解决目前聚类算法对噪声敏感和缺乏考虑样本间相关性等问题,提出一种充分考虑样本间相关性,使构造的关联矩阵保持子空间结构的子空间聚类算法。利用2,1-norm对每个样本进行自表征;群组效应确保相近样本的自表征系数亦相近,生成块对角化的样本自表征系数矩阵;根据自表征矩阵得到关联矩阵,在谱聚类模型下实现数据聚类。在Hopkins155等数据集上的实验结果表明,在聚类错误率评判标准下,该算法优于现有经典子空间聚类算法SRC、SSC等。 苏毅娟 李永钢 杨利锋 孙可 罗?关键词:子空间聚类 谱聚类 关联矩阵 数据挖掘中基于核的多重填补的一种新算法 被引量:1 2008年 在数据挖掘预处理中,数据缺失是最为常见的数据预处理问题之一。通常对所要挖掘的数据分布形式没有任何先验知识。在这种情况下,非参回归分析方法可以为数据缺失的处理提供一种效果很好的解决途径。据此,在缺失机制是随机缺失(Missing at Random,MAR)和完全随机缺失(Missing Completely at Random,MCAR)的条件下,提出了一种处理数据缺失的新方法,即基于核函数的非参多重填补算法。模拟实验结果表明,算法的置信区间的覆盖率,区间长度,以及相对效率都比常用的NORM算法要好。 苏毅娟关键词:缺失数据 核函数 多数据库中例外模式和高选票模式的挖掘 2006年 文章在分析前人算法不足的基础上,提出了一种改进的挖掘多数据库中例外模式和高选票模式的算法,算法分析结果表明改进的算法能更加准确有效地在多数据库中挖掘出潜在的例外模式和高选票模式. 苏毅娟 曾德胜 王日凤关键词:多数据库 数据挖掘