您的位置: 专家智库 > >

吴麒

作品数:7 被引量:15H指数:2
供职机构:四川大学计算机学院更多>>
发文基金:国家重点基础研究发展计划国家科技支撑计划电子信息产业发展基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 7篇中文期刊文章

领域

  • 7篇自动化与计算...

主题

  • 3篇爬虫
  • 3篇网络
  • 2篇特性分析
  • 2篇主题描述
  • 2篇网页
  • 2篇网页正文
  • 1篇对等网
  • 1篇对等网络
  • 1篇对等网络技术
  • 1篇信息抽取
  • 1篇召回率
  • 1篇正文提取
  • 1篇统计特征
  • 1篇权值
  • 1篇权值优化
  • 1篇主题
  • 1篇主题爬虫
  • 1篇主题爬行
  • 1篇准确率
  • 1篇子树

机构

  • 7篇四川大学
  • 2篇中国电子科技...
  • 1篇解放军信息工...

作者

  • 7篇吴麒
  • 5篇陈兴蜀
  • 2篇王春晖
  • 2篇朱锴
  • 2篇王文贤
  • 1篇郑炳伦
  • 1篇冯伟森
  • 1篇陈阳
  • 1篇刘毅
  • 1篇杨明亮
  • 1篇董正锋
  • 1篇谭骏

传媒

  • 2篇计算机应用研...
  • 1篇计算机光盘软...
  • 1篇电子学报
  • 1篇华南理工大学...
  • 1篇四川大学学报...
  • 1篇计算机工程与...

年份

  • 3篇2012
  • 2篇2011
  • 1篇2010
  • 1篇2009
7 条 记 录,以下是 1-7
排序方式:
eDonkey的网络爬行技术及特性分析被引量:1
2009年
设计了一种eDonkey网络爬行系统。该系统能避免被中心服务器的自动保护机制添加进黑名单,且能突破返回结果数量限制。通过对爬行获取的数据进行统计分析,得出了eDonkey网络中服务器分布和文件分布的一些特性。
吴麒刘毅陈兴蜀王文贤郑炳伦
关键词:黑名单网络特性
基于权值优化的网页正文内容提取算法被引量:8
2011年
目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化和确定,使其性能得到进一步的提升;最后通过实验对该方法进行验证.结果表明,与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文内容提取的召回率提升至95.8%.
吴麒陈兴蜀谭骏
关键词:权值优化统计特征准确率召回率
基于信息量衰减幅度的网页正文提取被引量:1
2012年
网页中的正文信息往往被相关链接、导航条、广告、版权说明等信息包围,为了更加精确地提取出网页正文信息,提出了一种基于信息量变化幅度的网页正文提取方法。该方法将网页中的HTML标签表示成一棵树,通过计算子树间正文信息量的衰减幅度确定主题区域子树,对该子树进行裁剪之后提取出正文信息。在获取主题区域子树后,对整个网页范围内的正文提取将被限制在网页正文所在的区域,这样就大幅度降低了网页噪音的干扰,从而能更加精确地提取出网页正文信息。实验结果表明,该方法的抽取准确率可以达到95%以上,具有较好的应用价值。
陈阳陈兴蜀吴麒
关键词:网页正文提取信息抽取网页噪音
基于ODP的上下文主题描述方法被引量:2
2012年
针对以往主题描述方法未充分考虑主题上下文的问题,提出了基于ODP(开放式分类目录)的上下文主题描述方法.使用新的特征选择算法对主题特征进行了确定,并使用分类主题树的上下文对主题描述方法进行优化以提高主题爬行的性能.实验表明,该特征选择算法能够有效地提取出主题特征,并在保证正确率的基础上尽量减少特征维数以提高计算效率.同时,该主题描述算法充分考虑了主题上下文关系,且无论是在准确性还是在信息量总和上都有良好的性能.
吴麒陈兴蜀朱锴王春晖
关键词:主题爬行主题描述
基于特征选择优化的主题描述算法
2012年
针对当前主题描述不精确以及适应性低的问题,提出了一种基于特征选择优化的主题描述算法——TDFSO(Topic Description based on Feature Selection Optimization)。此算法改进了主题关键词在文本中权重的计算方法,能提取出具有较强文本描述和类别区分能力的关键词。
王春晖吴麒朱锴
关键词:主题描述主题爬虫文本分类关键词提取
基于Kademlia协议的DHT网络的测量研究被引量:1
2011年
针对目前缺乏对KAD网络节点特性研究的问题,对KAD网络的全域节点和局部域节点进行了测量和分析。首先,提出了新型分布式KAD爬行系统的架构,并利用该系统快速而完整地获取了KAD网络全域和特性域的节点信息。然后,对网络中的节点地理分布、节点ID前缀分布、存储节点前缀分布、存贮节点稳定性进行了研究和分析。最后,在分析的基础上,发现了KAD网络节点ID分布均匀、较不流行关键字的存贮节点与目标关键字的距离更近、网络中存贮节点比较稳定等特性。测量结果表明KAD网络的搜索机制是稳定而有效的。
吴麒冯伟森
关键词:KAD爬虫
BitTorrent网络主动测量技术与特性分析被引量:3
2010年
对BitTorrent进行了系统的研究,详细阐述了一种用于测量BitTorrent网络拓扑的爬虫设计与实现,并通过主动测量所获取的信息分析研究了BitTorrent的网络节点分布情况、在线节点周期特性、扩散跟踪、做种节点变化趋势,研究结果为BitTorrent网络的监管提供了良好的依据。
杨明亮陈兴蜀王文贤吴麒董正锋
关键词:对等网络技术BITTORRENT爬虫
共1页<1>
聚类工具0