吴麒 作品数:7 被引量:15 H指数:2 供职机构: 四川大学计算机学院 更多>> 发文基金: 国家重点基础研究发展计划 国家科技支撑计划 电子信息产业发展基金 更多>> 相关领域: 自动化与计算机技术 更多>>
eDonkey的网络爬行技术及特性分析 被引量:1 2009年 设计了一种eDonkey网络爬行系统。该系统能避免被中心服务器的自动保护机制添加进黑名单,且能突破返回结果数量限制。通过对爬行获取的数据进行统计分析,得出了eDonkey网络中服务器分布和文件分布的一些特性。 吴麒 刘毅 陈兴蜀 王文贤 郑炳伦关键词:黑名单 网络特性 基于权值优化的网页正文内容提取算法 被引量:8 2011年 目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化和确定,使其性能得到进一步的提升;最后通过实验对该方法进行验证.结果表明,与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文内容提取的召回率提升至95.8%. 吴麒 陈兴蜀 谭骏关键词:权值优化 统计特征 准确率 召回率 基于信息量衰减幅度的网页正文提取 被引量:1 2012年 网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅度确定主题区域子树,对该子树进行裁剪之后提取出正文信息。在获取主题区域子树后,对整个网页范围内的正文提取将被限制在网页正文所在的区域,这样就大幅度降低了网页噪音的干扰,从而能更加精确地提取出网页正文信息。实验结果表明,该方法的抽取准确率可以达到95%以上,具有较好的应用价值。 陈阳 陈兴蜀 吴麒关键词:网页正文提取 信息抽取 网页噪音 基于ODP的上下文主题描述方法 被引量:2 2012年 针对以往主题描述方法未充分考虑主题上下文的问题,提出了基于ODP(开放式分类目录)的上下文主题描述方法.使用新的特征选择算法对主题特征进行了确定,并使用分类主题树的上下文对主题描述方法进行优化以提高主题爬行的性能.实验表明,该特征选择算法能够有效地提取出主题特征,并在保证正确率的基础上尽量减少特征维数以提高计算效率.同时,该主题描述算法充分考虑了主题上下文关系,且无论是在准确性还是在信息量总和上都有良好的性能. 吴麒 陈兴蜀 朱锴 王春晖关键词:主题爬行 主题描述 基于特征选择优化的主题描述算法 2012年 针对当前主题描述不精确以及适应性低的问题,提出了一种基于特征选择优化的主题描述算法——TDFSO(Topic Description based on Feature Selection Optimization)。此算法改进了主题关键词在文本中权重的计算方法,能提取出具有较强文本描述和类别区分能力的关键词。 王春晖 吴麒 朱锴关键词:主题描述 主题爬虫 文本分类 关键词提取 基于Kademlia协议的DHT网络的测量研究 被引量:1 2011年 针对目前缺乏对KAD网络节点特性研究的问题,对KAD网络的全域节点和局部域节点进行了测量和分析。首先,提出了新型分布式KAD爬行系统的架构,并利用该系统快速而完整地获取了KAD网络全域和特性域的节点信息。然后,对网络中的节点地理分布、节点ID前缀分布、存储节点前缀分布、存贮节点稳定性进行了研究和分析。最后,在分析的基础上,发现了KAD网络节点ID分布均匀、较不流行关键字的存贮节点与目标关键字的距离更近、网络中存贮节点比较稳定等特性。测量结果表明KAD网络的搜索机制是稳定而有效的。 吴麒 冯伟森关键词:KAD 爬虫 BitTorrent网络主动测量技术与特性分析 被引量:3 2010年 对BitTorrent进行了系统的研究,详细阐述了一种用于测量BitTorrent网络拓扑的爬虫设计与实现,并通过主动测量所获取的信息分析研究了BitTorrent的网络节点分布情况、在线节点周期特性、扩散跟踪、做种节点变化趋势,研究结果为BitTorrent网络的监管提供了良好的依据。 杨明亮 陈兴蜀 王文贤 吴麒 董正锋关键词:对等网络技术 BITTORRENT 爬虫