王晖昱
- 作品数:2 被引量:22H指数:2
- 供职机构:澳大利亚卧龙岗大学更多>>
- 发文基金:天津市高等学校科技发展基金计划项目吉林省科技发展计划基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于质心向量的增量式主题爬行被引量:5
- 2009年
- 研究如何在一个网页内部进行有选择的爬行.使用TFIDF-2模型以及Max,Ave,Sum三个启发式规则分别计算文档特征权重和质心特征权重,在此基础上构建与根集文档相对应的质心向量,利用它作为前端分类器指导主题爬行.使用前后端分类器分别给Frontier中的各个锚文本打分,将它们的打分求和,从中选择打分最高的链接,下载其对应的网页.实验结果表明,在质心向量的指导下,爬行程序借助于锚文本便可以准确地预测链接所指向网页的相关性;另外,双分类器框架还使得爬行策略具有增量爬行的能力.
- 王辉左万利王晖昱宁爱军孙志伟满春雷
- 关键词:主题爬行锚文本
- 观点挖掘综述被引量:17
- 2009年
- 互联网包含着大量的非结构化文本信息,分析这些文本信息是非常重要的。观点挖掘是当前科研人员研究的一个热点,因为需要进行自然语言处理,观点挖掘非常具有挑战性,然而它有广阔的应用前景。比如各公司总是希望能够及时获取公众或者消费者对于它们产品和服务的评价,以便进一步改进这些产品和服务。为此,对观点挖掘的各方面进行了较详细的描述。其内容主要包括评价文本的挖掘、观点搜索以及观点作弊。
- 王辉王晖昱左万利
- 关键词:情感分类观点搜索