北京大学信息科学技术学院智能科学系
- 作品数:74 被引量:461H指数:11
- 相关作者:谢昆青李仁举谭少华刘重晋付翔更多>>
- 相关机构:中国矿业大学计算机科学与技术学院北京科技大学计算机与通信工程学院北方工业大学图像处理与模式识别研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学医药卫生电子电信更多>>
- 一种基于K-Means局部最优性的高效聚类算法被引量:123
- 2008年
- K-Means聚类算法只能保证收敛到局部最优,从而导致聚类结果对初始代表点的选择非常敏感.许多研究工作都着力于降低这种敏感性.然而,K-Means的局部最优和结果敏感性却构成了K-MeanSCAN聚类算法的基础.K-MeanSCAN算法对数据集进行多次采样和K-Means预聚类以产生多组不同的聚类结果,来自不同聚类结果的子簇之间必然会存在交集.算法的核心思想是,利用这些交集构造出关于子簇的加权连通图,并根据连通性合并子簇.理论和实验证明,K-MeanScan算法可以在很大程度上提高聚类结果的质量和算法的效率.
- 雷小锋谢昆青林帆夏征义
- 关键词:基于密度K-MEANS
- 面向智能科学的机器感知实验课程建设被引量:2
- 2013年
- 介绍北京大学智能科学系面向智能科学的机器感知实验课程建设,提出实验课程应跟随技术发展,具有实用性和自主创新性等观点。
- 曲天书高源邓志鸿谢昆青
- 关键词:移动终端嵌入式系统
- 基于旋转投影统计特征的手写数字识别方法被引量:2
- 2011年
- 通过抽取数字的轮廓和骨架来提取几何特征,可以有效地反映手写数字的细节,但手写数字的不规范性导致其识别率并不高。运用统计分析理论可以克服这一缺点。首先提出了基于投影间隔比率和间隔变化的特征提取方法,通过数字投影计算间隔的像素数比率和变化趋势,并将其归一化作为特征向量。进一步通过旋转投影基准线,增加特征向量之间的正交性以减少信息冗余,基于这一思路提出旋转投影的识别方法。理论分析和实验证明了旋转投影可以在相同特征数量的情况下达到更高的识别率,并给出了推荐参数。此外,通过旋转投影,直接解决了倾斜数字的识别问题。
- 庄伟雷小锋宋丰泰戴斌谢昆青
- 关键词:统计分析朴素贝叶斯手写数字识别
- 一种基于人工免疫和代码相关性的计算机病毒特征提取方法被引量:26
- 2011年
- 现有的计算机病毒检测方法利用病毒特征码来检测病毒,已经不能适应病毒技术的发展,特别是其无法检测出病毒的新变种与未知病毒.受自然免疫系统的启发,该文提出了一种基于人工免疫的利用计算机病毒代码相关性的计算机病毒特征提取方法.这种特征提取方法在底层提取出与病毒相关的字节模式,在相对更高的层面上记录这些字节模式之间的共同作用信息,之后利用阴性选择算法提取出计算机病毒检测基因库,实现了对训练集上合法程序的完美记忆,从而保证了该文方法的误判率处于极低的水平.计算机病毒检测基因库在个体层上存储病毒样本,一个样本中储存了若干个不定长的基因,充分利用了同一个样本的不同基因代码之间的相关性.为了尽可能少地丢失有效信息,这种方法在基因层上对基因进行匹配,在个体层上对可疑程序进行分析,最终由整个计算机病毒检测基因库做出分类决策.实验表明:此方法对未知病毒的平均识别率达到94%,同时对合法程序的误判率保持在2%之内,具有较强的泛化能力,能够有效识别病毒伪装,检测出已知病毒的新变种,对未知病毒也具有较强的识别能力.
- 王维张鹏涛谭营何新贵
- 关键词:病毒检测人工免疫特征提取
- 一种MVC架构中的数据组织方法
- 1引言MVC(Model-View-Controller)是在交互式应用程序中广泛使用的一种体系结构,它将应用程序的输入、处理和输出过程分成三个层次:模型层、视图层和控制层。模型层中封装了程序的业务逻辑(称为业务模型)和...
- 潘志勇李红燕
- 关键词:MVC
- 文献传递
- 分组随机化隐私保护频繁模式挖掘被引量:2
- 2021年
- 已有的隐私保护频繁模式挖掘随机化方法不考虑隐私保护需求差异性,对所有个体运用统一的随机化参数,实施同等的保护,无法满足个体对隐私的偏好.提出基于分组随机化的隐私保护频繁模式挖掘方法(grouping-based randomization for privacy preserving frequent pattern mining,简称GR-PPFM).该方法根据不同个体的隐私保护要求进行分组,为每一组数据设置不同的隐私保护级别和与之相适应的随机化参数.在合成数据和真实数据中的实验结果表明:相对于统一单参数随机化mask,分组多参数随机化GR-PPFM不仅能够满足不同群体多样化的隐私保护需求,还能在整体隐私保护度相同情况下提高挖掘结果的准确性.
- 郭宇红童云海苏燕青
- 关键词:随机化个性化隐私保护频繁模式挖掘
- 基于查询采样的高维数据混合索引被引量:1
- 2008年
- 为了改进高维数据库查询的效率,通常需要根据数据分布来选择合适的索引策略.然而,经典的分布模型难以解决实际应用中图像、视频等高维数据复杂的分布估计问题.提出一种基于查询采样进行数据分布估计的方法,并在此基础上提出了一种支持最近邻查询的混合索引,即针对多媒体数据分布的不均匀性,自适应地对不同分布的数据使用不同的索引结构,建立统一的索引结构.为了实现混合索引,采用构造性方法:首先通过聚类分解分割数据并建立树状索引;然后使用查询采样算法,对数据实际分布进行估计;最后根据数据分布的特性,把稀疏数据从树状索引中剪裁出来,进行基于顺序扫描策略的索引,而分布比较密集的数据仍然保留在树状索引中.在4个真实的图像数据集上进行了充分的实验,结果显示,该索引方法明显优于iDistance,M-Tree等度量空间索引,在维数达到336时,查询效率仍高于顺序扫描.实验结果显示,该查询采样算法在采样数据量仅为N^(1/2)(N为数据量)的情况下即可获得满足索引需要的分布估计结果.
- 张军旗周向东施伯乐
- 关键词:最近邻查询采样高维索引
- 复杂票据背景下的印鉴自动定位与提取
- 本文从复杂票据背景下印鉴图像与背景图像颜色差异的分析入手,结合印鉴外形的几何规则性以及整体的连续性,提出了一种复杂票据背景下的印鉴自动定位与提取的方法。本方法跳出了传统的先将RGB图像灰度化,再通过计算最优阈值来将图像二...
- 刘凡陆叶刘宏
- 关键词:印鉴图像图像识别最优阈值
- 文献传递
- 一种基于稀疏规则库的定性插值推理方法
- 2011年
- 提出一种基于三元组定性分析理论的插值推理方法,提供了该方法的具体算法,并将此方法应用到有限推理问题的一个典型实例中,验证了该方法在解决有限推理问题上的有效性和准确性。
- 祝建军谭少华
- 关键词:模糊集
- 基于方差及方差梯度的指纹图像自适应分割算法被引量:24
- 2008年
- 指纹图像分割指从图像背景中分离出有用的指纹区域的过程.利用图像方差及其梯度的性质提出一种自适应指纹分割算法.首先将待分割的图像分为3×3的块,计算块方差及其梯度,并以两者的乘积作为块特征;然后使用一种自适应的方法设定阈值完成分割;最后利用形态学方法进行后处理得到最终结果.在FVC2002和FVC2004数据库上的实验结果表明,该分割算法快速有效,且有较强的鲁棒性.
- 樊冬进孙冰封举富
- 关键词:图像处理指纹图像分割指纹预处理