蔡欣宝
- 作品数:8 被引量:16H指数:2
- 供职机构:苏州大学计算机科学与技术学院智能化信息处理技术研究所更多>>
- 发文基金:国家自然科学基金江苏省现代企业信息化应用支撑软件工程技术研发中心开放基金江苏省重大科技支撑与自主创新项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种Deep Web聚焦爬虫爬行策略
- 实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径,Deep Web爬虫是Deep Web数据源集成的关键组成部分,提出一种针对结构化Deep Web的聚焦爬虫爬行策略,通过对查询接口的...
- 蔡欣宝陈洪平赵朋朋崔志明
- 关键词:WEB数据源聚焦爬虫决策树分类器主题相关性
- 文献传递
- 基于Choquet积分的深层网数据源选择被引量:1
- 2011年
- 提出一种基于Choquet模糊积分的深层网数据源选择方法。通过在1组关键字上的查询结果评价深层网数据源的质量,评价时不仅考虑到关键字间的权重,同时还考虑多个关键字之间存在的交互作用。实验结果表明,该方法有效,且对深层网数据源的评价更接近真实。
- 郭若飞蔡欣宝赵朋朋崔志明
- 关键词:数据源选择CHOQUET模糊积分
- 结构化Web数据的自动去重方法
- 2010年
- 针对载有结构化数据的网页特点,提出了一种新的有效字段发现策略,据此设计了一个基于学习的自动去重方法。对样本网页集进行聚类分析并生成每类网页的包装器,识别出包装器中的有效数据字段;对有效数据字段进行映射,通过计算有效数据字段内容的相似度来判断网页是否重复。实验证明该方法对结构化Web数据的去重有很好的召回率和准确率。
- 贺晟程家兴王为为蔡欣宝
- 关键词:去重文档对象模型聚类结构化数据
- 基于模拟退火算法的主题爬虫被引量:8
- 2009年
- 主题爬虫是主题搜索引擎的基础与核心,主题爬行策略的好坏直接影响搜索结果。为了搜索到更多相关的网页,通过利用模拟退火机制选择下一步要访问的链接,使那些蕴含"综合价值"高的链接在搜索初期有机会被选中,同时利用"隧道技术"扩大相关网页的搜索范围。计算链接价值时,综合考虑了链接所在页面内容的价值和链接提示文字的价值,根据它们对链接价值的影响程度不同,分别赋予它们不同的权值。实验证明,该方法对提高网页覆盖率和准确率都有很好的效果。
- 贺晟程家兴蔡欣宝
- 关键词:模拟退火算法隧道技术召回率
- 一种Deep Web聚焦爬虫爬行策略被引量:2
- 2009年
- 实现大规模Deep Web数据源集成是方便用户使用Deep Web信息的一种有效途径.Deep Web爬虫是Deep Web数据源集成的关键组成部分.提出一种针对结构化Deep Web的聚焦爬虫爬行策略.通过对查询接口的特征分析来判断Deep Web数据源的主题相关性.同时,在评价链接重要性时,综合考虑了页面内容的主题相关性和链接的相关信息.实验证明该方法是有效的.
- 蔡欣宝陈洪平赵朋朋崔志明
- 关键词:WEB数据源聚焦爬虫决策树分类器
- Web论坛数据源增量爬虫的研究被引量:5
- 2010年
- 针对Web论坛站点结构复杂、内容更新快等特点,提出一种针对论坛的增量信息采集算法,使用站点地图重建技术及网页更新频繁度估计方法,根据站点地图选择有效的链接,按照网页更新频度确定网页的采集频度。实验结果表明,该方法是有效的。
- 蔡欣宝郭若飞赵朋朋崔志明
- 关键词:WEB论坛站点地图
- 面向Deep Web的Ajax查询接口技术研究
- 2010年
- Deep Web网站采用Ajax技术后使得获取其数据信息更加困难。查询接口处理是获取Deep Web数据的关键步骤,针对采用Ajax技术的Deep Web查询接口,建立Ajax分析处理模型,解决传统爬虫无法完成表单提交的困难,从而获取到更多的Deep Web数据。实验结果证实,该方法是有效的。
- 郭若飞蔡欣宝赵朋朋崔志明
- 关键词:爬虫AJAX查询接口DEEPWEB爬虫
- Deep Web数据获取方法研究
- 随着互联网的飞速发展,Web中的信息规模日益扩大,为人们提供了各种各样可利用的信息。其中大量的信息是存储在Web数据库当中,只能通过网页中的查询接口才能访问。改变了通过链接来访问网页的方式,使得传统的搜索引擎无法获取,因...
- 蔡欣宝
- 文献传递