胡少荣
- 作品数:2 被引量:5H指数:1
- 供职机构:北京交通大学更多>>
- 发文基金:通信与信息系统北京市重点实验室资助项目铁道部科技研究开发计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种舆情信息预处理平台的研究与实现
- 随着网络信息化的不断发展,舆论的传播方式和传播速度都发生了巨大的变化,互联网已成为我国的主要舆论聚集地,并且无时不刻的影响着人们的生活。因此通过网络分析研究舆情信息可以了解大众心态和民意,对经济、社会、政治的发展都具有重...
- 胡少荣
- 关键词:舆情网页信息抽取中文分词文档对象
- 文献传递
- 网页信息自动抽取技术的研究被引量:5
- 2010年
- 在网络舆情分析中,经常要从大量的网页信息中抽取出有用的数据。但一般的网页信息抽取技术都是基于对HTML文档的分析。本文提出网页信息自动抽取的方法,可以滤除网页噪声,快速准确地获取所需要的网页信息。该方法首先将HTML转换为结构化的XML文档,然后结合DOM4J和XPath语言建立网页解析模板库,最后根据模板的抽取规则对网页信息进行抽取。实验证明,该方法具有较高的回召率和查准率。
- 胡少荣孟嗣仪刘云张彦超丁飞
- 关键词:自动抽取网页信息XPATH网络舆情