夏亮
- 作品数:3 被引量:18H指数:2
- 供职机构:北京化工大学更多>>
- 相关领域:自动化与计算机技术更多>>
- 主题搜索引擎网络爬虫搜索策略的研究与实现被引量:14
- 2010年
- 根据网络页面结构的特点,提出通过页面之间的主题传递来预测页面主题相关性的方法,解决了主题爬虫通道堵塞,抓取遗漏的问题。首先根据锚文本传递一个相关性信息值,如果锚文本给出的信息是相关,相关阈值就直接传递;如果是不相关,就乘以遗传基因比例之后传递。传递的过程中如果遇到相关的网页就恢复链接的相关性信息值到初始值。最后根据实验结果验证了算法的查全率与查准率,查全率有显著的提高。
- 刘淑梅夏亮许南山
- 关键词:网络爬虫搜索引擎主题相关抓取
- 主题搜索引擎网络爬虫搜索策略的研究与实现
- 主题网络爬虫是主题搜索引擎后端获取数据的自动化代码程序,主题搜索引擎前端查询到的数据事先由主题网络爬虫在互联网上抓取,存储在本地。然后对网页进行数据抽取,建立索引。所以主题爬虫对于一个主题搜索引擎来说,起着支撑的作用。本...
- 夏亮
- 关键词:网络爬虫搜索引擎数据库集群数据抽取
- 文献传递
- Postgresql数据库集群在主题网络爬虫的应用被引量:1
- 2010年
- 根据网络信息量大的特点,以及主题网络爬虫效率上的要求,将postgresql数据库集群技术运用在主题网络爬虫当中,解决了爬虫对大信息量的存储,并采用缓存技术解决了集群技术在爬虫应用中的效率瓶颈。
- 刘淑梅夏亮许南山
- 关键词:网络爬虫搜索引擎主题相关