常智荣
- 作品数:3 被引量:4H指数:1
- 供职机构:北京邮电大学更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于Web日志的数据挖掘技术的研究
- Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。文中对数据预处理几种典型算法进行研究,并针对各个环节中的一些特殊处理提出了改进方法。最后,以对搜索引擎信息采...
- 常智荣马自卫邓芳
- 关键词:数据挖掘WEB日志挖掘数据预处理技术应用
- 文献传递
- 基于Nutch的专题网页资源采集服务系统的设计与实现被引量:3
- 2010年
- 在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专题性和系统的可管理性以及易用性。重点对文本解析过滤、Plugin插件开发以及搜索结果的层次化自动聚类等相关技术进行深入研究。通过基于Webservice的服务接口,实现其在数字图书馆资源层的集成应用。
- 常智荣马自卫李高虎
- 关键词:NUTCHWEBSERVICE
- 搜索引擎Nutch在数字图书馆中集成应用的研究与实现
- 计算机技术与通信网络技术高速发展,网页资源日益成为一种重要的学术资源形式,在数字图书馆的资源建设中受到重视。然而网络信息有着数据量大,更新速度快、分布灵活分散,无序化等特点。因此,如何实现对特定领域、学科的实时监测和有效...
- 常智荣
- 关键词:NUTCH信息采集数字图书馆
- 文献传递