您的位置: 专家智库 > >

杨阳

作品数:2 被引量:7H指数:1
供职机构:上海应用技术学院计算机科学与信息工程学院更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 1篇登录
  • 1篇行号
  • 1篇引擎
  • 1篇正文
  • 1篇正文提取
  • 1篇搜索
  • 1篇搜索引擎
  • 1篇索引
  • 1篇中文
  • 1篇中文分词
  • 1篇最优阈值
  • 1篇阈值
  • 1篇网络新词
  • 1篇未登录词
  • 1篇文本
  • 1篇新词
  • 1篇基于统计
  • 1篇分词

机构

  • 2篇上海应用技术...

作者

  • 2篇魏晓
  • 2篇杨阳

传媒

  • 2篇计算机应用与...

年份

  • 2篇2015
2 条 记 录,以下是 1-2
排序方式:
基于Web知识的中文分词结果优化被引量:6
2015年
随着人们在互联网上的活动越来越频繁,网络新词不断涌现。现有的中文分词系统对新词的识别效率并不高。对新词的识别效率直接影响分词的精度,也对互联网应用系统的服务质量产生影响。在分词系统分词结果的基础上,提出利用搜索引擎和百度百科等Web知识,结合统计和匹配实现新词识别的方法,进一步实现对系统原始分词结果的优化。实验数据表明,该方法能够有效识别网络新词并实现分词结果的优化。
杨阳魏晓秦成磊
关键词:中文分词未登录词网络新词搜索引擎
一种基于统计的复杂页面正文提取方法被引量:1
2015年
随着信息技术的发展,web页面复杂多样的特点愈来愈明显,传统页面正文提取方法的效率和精确度较低。针对这种情况,提出一种基于统计的正文提取算法。该算法依据Html标签特征提取经过过滤的每对“〉”和“〈”之间的文本信息,对其长度进行统计并按照匹配顺序进行排序。根据文本长度最优阈值,划定文本行号区间,最后利用公共子序列进行优化并完成正文提取。实验结果表明,该方法能够精确高效地提取复杂页面的正文信息且具有较好的通用性。
秦成磊魏晓杨阳
关键词:正文提取
共1页<1>
聚类工具0