曹攀
- 作品数:2 被引量:12H指数:1
- 供职机构:南京邮电大学计算机学院更多>>
- 发文基金:国家自然科学基金江苏省“333高层次人才培养工程”基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种大规模Web文本的分类方法
- 2016年
- 文中针对大规模Web文本信息的结构与内容特征提出一种高效的Web文本分类方法。该方法主要包含3个模块:(1)针对Web长文本提出一种基于复杂网络的特征选择方法,网络中的节点对应于文本中的词条,通过节点的度与聚集系数来衡量对应词条的重要性从而选择特征词;(2)对于Web长文本,提出基于k NN的SVM决策树分类方法,将支持向量机与k最近邻相结合,并构建决策树实现层次化分类;(3)对于短文本,通过构建长文本各类别的主题词集合来引导短文本的分类,将短文本的归类问题转化为基于主题的检索问题。实验结果表明该方法在处理大规模Web文本时表现出了较好的性能。
- 王海艳曹攀
- 关键词:WEB文本文本分类
- 基于节点属性与正文内容的海量Web信息抽取方法被引量:12
- 2016年
- 为解决大数据场景下从海量Web页面中抽取有价值的信息,提出了一种基于节点属性与正文内容的海量Web信息抽取方法。将Web页面转化为DOM树表示,并提出剪枝与融合算法,对DOM树进行简化;定义DOM树节点的密度和视觉属性,根据属性值对Web页面内容进行预处理;引入MapReduce计算框架,实现海量Web信息的并行化抽取。仿真实验结果表明,提出的海量Web信息抽取方法不仅具有更好的性能,还具备较好的系统可扩展性。
- 王海艳曹攀
- 关键词:WEB信息抽取MAPREDUCEDOM树