颜振祥
- 作品数:5 被引量:8H指数:2
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金江苏省现代企业信息化应用支撑软件工程技术研发中心开放基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于搜索引擎的双语混合网页识别新方法
- 本文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质最双语混合网...
- 冯艳卉洪宇颜振祥姚建民朱巧明
- 关键词:WEB挖掘平行语料
- 文献传递
- 基于搜索引擎的双语混合网页识别新方法被引量:3
- 2011年
- 该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。
- 冯艳卉洪宇颜振祥姚建民朱巧明
- 关键词:WEB挖掘平行语料
- 基于统计的中文关键短语自动抽取被引量:5
- 2010年
- 用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为N元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure 25%;TOP10精确率17.10%,召回率44.50%,F-measure 30.80%。
- 张永刚梁颖红颜振祥姚建民
- 关键词:文本特征互信息
- 互联网双语资源挖掘关键技术研究
- 机器翻译、跨语言信息检索等自然语言处理应用对大规模的双语资源都有大量的需求。虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。本文...
- 颜振祥
- 关键词:网页去重
- 文献传递
- 基于平行语料库和网络的未登录词译文挖掘
- 2010年
- 分别通过搜索引擎和本地的双语语料库挖掘OOV译文。首先,提出一种利用词汇重叠特征、词对齐特征和位置特征建立最大熵分类器的方法,借以自动从网页信息中抽取和构建双语平行语料库。其次,提出一种结合互信息的频率变化方法生成多词单元,并采用频度-距离模型和音译模型进行正确译文的选择。对这两种挖掘方法的性能进行对比,实验表明基于网络的Top10的包含率达到94.6%,而基于平行语料库的Top10的包含率为37.5%。
- 孙萌梁颖红葛运东颜振祥姚建民
- 关键词:网络挖掘