吕培培
- 作品数:4 被引量:4H指数:1
- 供职机构:东南大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Logistic回归和XGBoost的钓鱼网站检测方法被引量:4
- 2019年
- 为兼顾钓鱼网站检测的速度和准确率,提出一种基于Logistic回归和XGBoost的钓鱼网站检测方法.根据网页的URL提取HTML特征、URL特征和基于TF-IDF的文本向量特征,结合Logistic回归将高维和稀疏的文本特征转换为概率特征.基于以上融合特征,构建了XGBoost分类模型,给出了方法的时间复杂度分析,采集了真实数据作为实验数据集.实验结果表明,Logistic回归方法降低了融合特征的维度,检测速度优于直接融合方法;融合特征方法比单方面特征方法含有更多有效的信息,可供分类器进行学习,检测精度高于单方面特征方法,精确度达到96.67%,召回率为96.6%.
- 杨鹏杨鹏赵广振吕培培
- 关键词:钓鱼网站LOGISTIC回归
- 一种基于欧氏距离改进的kNN近邻查找方法
- 本发明公开了一种基于欧氏距离改进的kNN近邻查找方法。本发明利用欧式空间的特性,通过加减运算替换传统kNN方法中较为复杂的乘方运算,减少计算开销,在不降低查询准确率的条件下,实现对待分类样本的k近邻查找。本发明可有效减少...
- 杨鹏吕培培顾梁董永强
- 文献传递
- 一种基于Apriori的分布式快速频繁项集挖掘方法
- 本发明公开了一种基于Apriori的分布式快速频繁项集挖掘方法,通过在记录项集同时记录其所在的对应事物集合,从而在频繁项集挖掘的剪枝部分,利用简单的事物个数统计,实现项集频率的统计,以此达到剪枝的目的。本发明的优势在于克...
- 杨鹏吕培培顾梁董永强
- 文献传递
- 播存网络中的内容广播补包机制
- 2018年
- 为解决环境因素导致的播存网络中内容广播丢包错包问题,提高内容分发性能,提出了一种面向播存网络的补包机制.首先利用32位循环冗余检验方法对数据包进行检错;然后从检测到的出错内容中提取相关参数,并通过服从指数分布的补包概率模型计算补包概率,以此概率值为依据对出错内容进行筛选和优先级评估;最后利用优先级队列对出错数据包进行有序补包.分析了补包的场景、约束条件和要求,并对补包流程、算法和概率模型进行了详细叙述.实验结果表明,该补包机制能在保证数据包正确补回的基础上,充分兼顾播存网络的个性化特色和资源利用率,并能通过灵活地改变补包阈值来增强播存网络的内容广播分发性能.
- 杨鹏杨鹏吕培培