郑长松
- 作品数:2 被引量:13H指数:2
- 供职机构:电子科技大学更多>>
- 发文基金:国家242信息安全计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- Web信息智能抽取技术的研究与实现
- 随着我国经济的迅速发展,国家信息基础设施建设强度加大加强和人民生活质量的提高,网络已经深入人们生活的方方面面,成为工作或生活中不可缺少的一部分,怎样快速有效的获取Web上的信息,已经成为了一个重要的研究课题。但是网络上的...
- 郑长松
- 关键词:信息抽取
- 文献传递
- 基于模板的Web信息自动提取方法被引量:11
- 2009年
- 为了解决传统Web信息提取过程中准确率和效率相矛盾的问题,提出了一种基于模板与机器自动识别相结合的Web信息自动提取方法。该方法先利用一组启发式规则自动识别HTML文本中不同属性信息之间的分隔符,再把它们配置到模板中,然后根据模板分析相同类型的网页,最后以话题线索的方式存储。实验结果表明,与传统的Web信息提取方法相比,本方法能够处理多种结构类型的网页,同时能够在很大程度上提高准确率、召回率和效率;并且可以在不需要修改算法的情况下根据用户需求动态提取相关信息,满足各方面研究的需要。
- 郑长松傅彦佘莉
- 关键词:信息提取模板化自动识别