陈一峰
- 作品数:4 被引量:26H指数:2
- 供职机构:上海大学通信与信息工程学院更多>>
- 发文基金:上海市教育委员会重点学科基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 搜索引擎个性化关键技术研究
- 陈一峰
- 关键词:个性化搜索用户兴趣模型主题爬虫网页排序
- 一种有效的房地产用户税务信息采集和管理方法
- 本发明涉及一种有效的房地产用户税务信息采集和管理方法。该方法是:首先建立一个税务信息采集平台,企业通过税务信息采集平台输入纳税人基本信息、项目信息和财务报表信息,所述项目信息为房源信息、销售操作和财务管理,随之进行导出申...
- 余小清杨晓东万旺根陈一峰黄炳
- 文献传递
- 基于本体的用户兴趣模型构建研究被引量:21
- 2010年
- 针对用户兴趣模型中本体构建和模型更新的难点和不足,提出一种基于本体论的用户兴趣模型构建方法,该方法通过领域本体、用户个性本体、校正本体和本体更新实现模型的构建。对于领域本体的构建,摒弃了训练、学习和聚类的方法,直接从开放目录专案获取类目。对于用户兴趣的更新,采用按照校正本体增加、淘汰和传递原理调整相结合的方式。实验结果表明,该模型较易生成,用户兴趣的准确度和更新的及时性都有所提高。
- 陈一峰赵恒凯余小清万旺根
- 关键词:本体
- 基于遗传算法的主题爬虫策略改进被引量:5
- 2010年
- 针对主题爬虫存在"主题漂移"的问题,为了快速抓取网页,提出了一种基于遗传算法的主题爬行改进策略。在现有遗传算法爬行策略的基础上新引入了PageRank算法,调整了以往网页主题相关度计算方式,以计算得到的网页PageRank和相关度值为依据来选择爬行中的遗传因子,并重新设置了适应度函数,在保证优越遗传因子(与主题相关且重要网页)被优先遗传的同时,减少了遗传因子在传递过程中的"主题漂移",从而使爬行到网页的重要性和主题相关性均有所提高。与以往基于遗传算法的策略相比较,在不影响查全率的情况下,与主题相关且重要的网页数可提升5%以上。
- 陈一峰赵恒凯余小清万旺根
- 关键词:主题爬虫遗传算法网页信息