张长利
- 作品数:9 被引量:34H指数:3
- 供职机构:吉林大学更多>>
- 发文基金:国家自然科学基金吉林省科技发展计划基金更多>>
- 相关领域:自动化与计算机技术自然科学总论更多>>
- 基于FP-Growth算法的DDoS检测
- 2006年
- 通过分析分布式拒绝服务(DDoS)攻击的特征,提出了基于数据挖掘技术的网络入侵检测方法来检测DDoS攻击,针对数据挖掘中FP-growth算法不产生候选集的优势,对进行处理及分组后的网络数据进行频繁特征提取,根据DDoS攻击会使网络的流量数据发生变化的特点,来检测是否发生攻击事件.实验结果表明,当发生DDoS攻击后网络数据确实发生了巨大的变化, 通过对网络数据的特征提取,完全可以检测出DDoS攻击的发生.
- 彭涛赫枫龄左万利张长利
- 关键词:DDOS数据挖掘FP-GROWTH
- 基于无监督聚类的PU文本分类方法
- 以正例(P)和未标识实例集(U)训练分类器的文本分类算法(PU文本分类)是解决某些机器学习中训练样本获取代价过大、尤其是反例样本较难获取的实际问题.而传统的分类算法大都需要正例和反例数据集才能取得良好的效果,因此要使用传...
- 张长利左万利彭涛赫枫龄彭钊邵慧勇
- 关键词:层次聚类PU支持向量机文本分类
- 文献传递
- 基于无监督聚类的PU文本分类方法
- 以正例(P)和未标识实例集(U)训练分类器的文本分类算法(PU文本分类)是解决某些机器学习中训练样本获取代价过大、尤其是反例样本较难获取的实际问题。而传统的分类算法大都需要正例和反例数据集才能取得良好的效果,因此要使用传...
- 张长利左万利彭涛赫枫龄彭钊邵慧勇
- 关键词:无监督聚类PU支持向量机文本分类
- 文献传递
- 网页相似性算法的研究与实现
- 在WWW 上有非常多的相似web 页面和文档,怎样快速准确地发现这些内容上相似的网页和文档已经成为提高搜索引擎服务质量和增量式主题爬行的关键技术之一。同时相似性检测还用于剽窃检测和复制检测;本文主旨在于主题爬行中的相似性...
- 张长利
- 关键词:指纹主题爬行
- 文献传递
- 一种增量倒排索引结构的设计与实现被引量:6
- 2007年
- 针对主题爬行器获取网页更新速度快的特点,提出一种用于网络搜索引擎的增量索引结构.在建立倒排索引时,每个词项的记录表以链接块的形式存放于倒排索引文件中,每次新分配的块大小递增.该索引结构解决了倒排索引连续存储所带来的难以更新问题.实验结果表明,与支持实时更新的传统链表式存储方式相比,这种索引结构能提供更高效的检索,采用以空间换时间的方法有效地提高了索引的更新效率.
- 王冬左万利赫枫龄彭涛张长利
- 基于粒子群优化算法的网页分类技术被引量:2
- 2006年
- 粒子群优化算法由于其高效、容易理解、易于实现,在很多领域得到了应用.网页分类是网络信息检索研究的关键技术之一,在对网页的表示时,将Web页面分解为不同的部分,之后迭代使用SVM算法构造分类器.由于PSO算法是一种基于迭代的优化工具,对训练过程中迭代产生的网页分类器进行优化组合,产生最终分类器,同时也增强了分类器的自适应性.实验结果表明,通过对迭代产生的分类器进行优化组合,以及对网页结构的划分,寻找并利用网页集中蕴藏的规律综合计算特征权值,大大提高了网页分类的正确率和F-measure值,所以这种方法是有效的、稳健的和实用的.
- 彭涛左万利赫枫龄张长利
- 关键词:网页分类粒子群优化算法支持向量机
- 基于SVM主动学习技术的PU文本分类
- 例和未标识实例集训练分类器的分类方法(PU文本分类)关键在于从未标识实例(U)集中提取尽可能多的可靠反例,然后在正例与可靠反例的基础上使用机器学习的方法构造有效分类器,而已有的方法可靠反例的数量少或不可靠,同样构造的分类...
- 张长利左万利彭涛赫枫龄
- 关键词:支持向量机
- 面向特定领域的互联网舆情分析技术研究
- 随着互联网技术的飞速发展,网络上的信息呈指数级增长,同时web2.0的交互性技术使人们能够在互联网上进行交流和发表各种意见评论信息,因此互联网上存在各种各样的舆情信息,在信息海洋中,信息处于淹没状态,给人们查找所需信息带...
- 张长利
- 关键词:主题爬行情感分类
- 文献传递
- 一种基于后缀数组的无词典分词方法被引量:19
- 2004年
- 提出一种基于后缀数组的无词典分词算法.该算法通过后缀数组和利用散列表获得汉字的结合模式,通过置信度筛选词.实验表明,在无需词典和语料库的前提下,该算法能够快速准确地抽取文档中的中、高频词.适用于对词条频度敏感、对计算速度要求高的中文信息处理.
- 张长利赫枫龄左万利
- 关键词:无词典分词数组文档散列表中文信息处理