中央高校基本科研业务费专项资金(JB-ZR1217)
- 作品数:2 被引量:9H指数:1
- 相关作者:陈叶旺陈锻生王华珍李海波钟必能更多>>
- 相关机构:华侨大学更多>>
- 发文基金:中央高校基本科研业务费专项资金福建省自然科学基金厦门市科技计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于百度百科与文本分类的网络文本语义主题抽取方法被引量:9
- 2012年
- 网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文本映射到侯选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题.最后提出根据语义离散度确定最终语义主题.在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能.
- 陈叶旺王华珍李海波钟必能陈锻生
- 关键词:百度百科主题抽取
- 一种基于百度百科的中文网络文本关键词抽取方法
- 2014年
- 网络上存在海量的中文文本资源,其中有许多具有稀疏性与不规范性,这令以统计词组方式来抽取文本关键词的方法表现不佳.基于百度百科本文提出一种中文网络文本关键词抽取方法,通过百科知识关系将文本从外延词条集合映射到能体现其内涵的语义主题空间中,再利用主题间的关系进行权值调整,最后通过Nave Bayes法回溯并找到原文的关键词.该方法有效地避开穷举词条的统计方式,能在很大程度上解决现有文本挖掘方法无法抽取网络词汇和新生词汇这一难题.在两个数据集上的实验表明,该方法在规范的文本和不规范文本上都有着较好且稳定的表现.
- 陈叶旺
- 关键词:网络文本百度百科