您的位置: 专家智库 > >

颜振祥

作品数:5 被引量:8H指数:2
供职机构:苏州大学计算机科学与技术学院更多>>
发文基金:国家自然科学基金江苏省现代企业信息化应用支撑软件工程技术研发中心开放基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇期刊文章
  • 1篇学位论文
  • 1篇会议论文

领域

  • 5篇自动化与计算...

主题

  • 3篇语料
  • 3篇平行语料
  • 3篇网页
  • 2篇引擎
  • 2篇搜索
  • 2篇搜索引擎
  • 2篇索引
  • 2篇网页识别
  • 2篇WEB挖掘
  • 1篇登录
  • 1篇短语
  • 1篇语料库
  • 1篇双语
  • 1篇平行语料库
  • 1篇去重
  • 1篇资源挖掘
  • 1篇网络
  • 1篇网络挖掘
  • 1篇网页去重
  • 1篇未登录词

机构

  • 5篇苏州大学
  • 2篇江苏省现代企...

作者

  • 5篇颜振祥
  • 4篇姚建民
  • 2篇洪宇
  • 2篇梁颖红
  • 2篇朱巧明
  • 2篇冯艳卉
  • 1篇葛运东
  • 1篇孙萌
  • 1篇张永刚

传媒

  • 2篇江南大学学报...
  • 1篇中文信息学报

年份

  • 1篇2011
  • 4篇2010
5 条 记 录,以下是 1-5
排序方式:
基于搜索引擎的双语混合网页识别新方法
本文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质最双语混合网...
冯艳卉洪宇颜振祥姚建民朱巧明
关键词:WEB挖掘平行语料
文献传递
基于搜索引擎的双语混合网页识别新方法被引量:3
2011年
该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。
冯艳卉洪宇颜振祥姚建民朱巧明
关键词:WEB挖掘平行语料
基于统计的中文关键短语自动抽取被引量:5
2010年
用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为N元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure 25%;TOP10精确率17.10%,召回率44.50%,F-measure 30.80%。
张永刚梁颖红颜振祥姚建民
关键词:文本特征互信息
互联网双语资源挖掘关键技术研究
机器翻译、跨语言信息检索等自然语言处理应用对大规模的双语资源都有大量的需求。虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。本文...
颜振祥
关键词:网页去重
文献传递
基于平行语料库和网络的未登录词译文挖掘
2010年
分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度-距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。
孙萌梁颖红葛运东颜振祥姚建民
关键词:网络挖掘
共1页<1>
聚类工具0