国家自然科学基金(60970057)
- 作品数:6 被引量:21H指数:3
- 相关作者:姚建民洪宇朱巧明梁颖红赵明明更多>>
- 相关机构:苏州大学江苏省现代企业信息化应用支撑软件工程技术研究开发中心苏州市科学技术局更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于搜索引擎的双语混合网页识别新方法
- 本文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质最双语混合网...
- 冯艳卉洪宇颜振祥姚建民朱巧明
- 关键词:WEB挖掘平行语料
- 文献传递
- 基于模板转换的平行语料自动获取
- 双语平行语料库是自然语言处理领域的重要资源。针对当前双语语料获取困难的现状,本文提出基于模板转换的方法对互联网上平行语料进行自动获取,采用基于转换模式数量和转换模式检索排序的方法进行双语平行文本验证。本系统可通过对互联网...
- 运海红韩咏何晓宁齐浩亮
- 关键词:平行语料跨语言信息检索向量空间模型
- 文献传递
- 基于特征贡献度的垃圾邮件过滤方法
- 根据邮件特征出现在垃圾邮件和非垃圾邮件中概率不同,提出了特征对邮件分类贡献度的概念,并给出了其计算公式。使用特征对分类的贡献度对基于逻辑回归的判别学习模型进行了改进,并在TREC测试集上进行了对比实验,在所选择的数据集上...
- 李军何晓宁齐浩亮
- 关键词:文本分类垃圾邮件过滤逻辑回归
- 基于文法特征的无监督能愿词挖掘方法研究
- 本文提出了一种基于文法的无监督方法,挖掘中文里的能愿词,这些能愿词可以成为识别人们意图和愿望的重要特征。例如"能够","必须","宁愿"等等。另外,本文还介绍了在大规模中文博客资源中自动提取并标注能愿词的方法。实验验证,...
- 洪宇张剑峰杨跃辉姚建民朱巧明
- 关键词:数据挖掘文法
- 文献传递
- 基于时序话题模型的新事件检测被引量:3
- 2011年
- 新事件检测(NewEventDetection,简称NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻。初步实验发现,构成事件的一项重要属性是事件发生的特定时间,因此时间是区分不同事件的重要标志。为此,提出时序话题模型(TemporalTopicModel,简称TTM)。TYM将话题和报道切分为若干对应不同时间表达式的事件。其中,时间表达式描述事件发生的特定时间。TTM基于时间表达式在话题中出现的频率和增长率,估量对应时间表达式的事件作为种子事件或相关新颖事件的概率。此外,时间表达式的频率与增长率也用于衡量事件在相关性匹配中权重。在此基础上,NED依赖时间特性快速遏制不同时间发生的事件匹配,并借助种子事件和新颖事件调整相关性判定的权重分配。
- 仓玉洪宇姚建民朱巧明
- 关键词:新事件检测
- 基于音节首字母匹配的音译单元对齐方法被引量:1
- 2009年
- 音译涉及的两种语言采用不同的字母表和发音系统时(英语和汉语,英语和日语,英语和阿拉伯语等),机器音译就更复杂且更具有挑战性。音译单元对齐结果的好坏严重影响机器音译的准确率,为此研究了英汉机器音译中音译单元的对齐,提出了基于音节首字母匹配的音译单元对齐方法,该方法在音译单元的对齐中有较好的表现。
- 赵明明梁颖红周美玲姚建民
- 关键词:VITERBI算法
- 基于模板转换的平行语料自动获取
- 双语平行语料库是自然语言处理领域的重要资源。针对当前双语语料获取困难的现状,本文提出基于模板转换的方法对互联网上平行语料进行自动获取,采用基于转换模式数量和转换模式检索排序的方法进行双语平行文本验证。本系统可通过对互联网...
- 运海红韩咏何晓宁齐浩亮
- 关键词:平行语料跨语言信息检索向量空间模型
- 文献传递
- 基于统计的中文关键短语自动抽取被引量:5
- 2010年
- 用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为N元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure 25%;TOP10精确率17.10%,召回率44.50%,F-measure 30.80%。
- 张永刚梁颖红颜振祥姚建民
- 关键词:文本特征互信息
- 基于特征贡献度的垃圾邮件过滤方法
- 根据邮件特征出现在垃圾邮件和非垃圾邮件中概率不同,提出了特征对邮件分类贡献度的概念,并给出了其计算公式。使用特征对分类的贡献度对基于逻辑回归的判别学习模型进行了改进,并在TREC测试集上进行了对比实验,在所选择的数据集上...
- 李军何晓宁齐浩亮
- 关键词:文本分类垃圾邮件过滤逻辑回归
- 文献传递
- 网页中商品“属性—值”关系的自动抽取方法研究被引量:7
- 2013年
- 商品属性及其对应值的自动挖掘,对于基于Web的商品市场需求分析、商品推荐、售后服务等诸多领域有重要的应用价值。该文提出一种基于网页标题的模板构建方法,从结构化网页中抽取完整的商品"属性—值"关系。该方法包含四个关键技术:1)利用商品网页标题构建领域相关的属性词包;2)基于预设分隔符细化文本节点;3)结合领域商品属性词包获取种子"属性—值"关系;4)结合网页布局信息和字符信息来筛选与构建模板。该文的实验基于相机和手机两个领域展开,获得94.68%的准确率和90.57%的召回率。
- 唐伟洪宇冯艳卉姚建民朱巧明
- 关键词:WEB数据挖掘