崔慧超
- 作品数:3 被引量:1H指数:1
- 供职机构:西南交通大学信息科学与技术学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 应用聚类技术分类提取Web页面
- 2010年
- 针对Web中数据密集型的动态页面,文本数据少,网页结构化程度高的特点,介绍了一种基于HTML结构的web信息提取方法。该方法先将去噪处理后的Web页面进行解析,然后根据树编辑距离计算页面之间的相似度,对页面进行聚类,再对每一类簇生成相应的提取规则,对Web页面进行数据提取。
- 崔慧超刘莉
- 关键词:WEB信息提取聚类
- Web资源质量元数据度量方法研究
- 2009年
- 该文针对web信息资源描述现状,将web资源/4-8息质量评测模型WebQM理解为web资源质量元数据模型。按照都柏林核心元数据集DC规范,使用DC元数据对网络资源进行描述,将质量元模型中质量评价准则映射为相对应的质量元数据。并讨论了如何使用质量元数据对质量准则进行度量。
- 刘莉张平崔慧超
- Web资源质量信息提取与管理技术的研究与实现
- 随着Web成为世界上最大、类型最齐全的海量信息库,以企业运营分析决策为主的商务智能发展到了一个新的层次。Web作为商务智能系统至关重要的数据来源,但是Web数据在质量上还存在着诸多问题,如何从互联网中快速高效的获得高质量...
- 崔慧超
- 关键词:DOM
- 文献传递