国家自然科学基金(60272084)
- 作品数:13 被引量:245H指数:5
- 相关作者:施水才吕学强李渝勤俞鸿魁赵捧未更多>>
- 相关机构:北京信息科技大学西安电子科技大学北京信息工程学院更多>>
- 发文基金:国家自然科学基金北京市教育委员会科技发展计划北京市教委资助项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 规则分类在文本自动分类中的应用
- 本文简单介绍了三种较实用的文本自动分类技术,分析了自动分类的优势与不足。针对不足,引入规则分类,将规则分类与自动分类进行有效的结合,设计了混合分类器系统,从而获得了比较理想的分类效果。
- 孙丽华王洪俊肖诗斌施水才
- 关键词:K近邻支持向量机贝叶斯
- 基于层叠隐马尔可夫模型的中文命名实体识别被引量:181
- 2006年
- 提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。
- 俞鸿魁张华平刘群吕学强施水才
- 关键词:命名实体识别角色标注ICTCLAS
- 基于贝叶斯方法的中文垃圾邮件过滤技术综述
- 本文首先介绍了朴素贝叶斯方法的基本原理,分析了决定基于贝叶斯的中文垃圾邮件过滤器的性能的几个因素,然后比较了几种基于该方法的过滤器,最后总结了制约中文垃圾邮件过滤技术发展的两个重要因素。
- 张志斌施水才吕学强
- 关键词:贝叶斯方法邮件过滤
- 文献传递
- 基于RSS的分布式新闻博客搜索引擎设计被引量:4
- 2007年
- 针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom filter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索引擎,从而达到对频繁更新站点的实时性搜索,同时减少存储成本。
- 刘峰施水才肖诗斌王弘蔚
- 关键词:RSSPASTRYBLOOM
- 基于元搜索的聚类挖掘引擎被引量:2
- 2007年
- 针对目前搜索引擎返回结果的海量性和无结构性,构建一个基于元搜索的聚类挖掘引擎,旨在利用元搜索引擎返回的结果,提高搜索结果聚类效率,快速有效地为用户提供一个搜索结果结构视图,从而进行进一步的知识发现。介绍了搜索引擎和挖掘引擎的主要功能及差别,应用向量空间模型对元搜索结果进行处理。介绍当前主要的聚类算法—K-means划分法和层次凝聚聚类法,并在此基础上提出基于元搜索结果将两种聚类算法相结合的聚类方法。
- 翁勍力施水才赵捧未
- 关键词:元搜索文本聚类
- 一种通用HTML网页主题信息提取方法被引量:17
- 2007年
- 采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。
- 许文都云程李渝勤施水才
- 关键词:DOM信息提取相关度
- 基于网页摘要分析的元搜索引擎研究被引量:1
- 2006年
- 针对目前搜索引擎返回结果的海量性,构建一个元搜索引擎,旨在高效利用多个成员搜索引擎返回的结果。介绍元搜索引擎的基本架构及当前结果融合的主要方法,应用统计学方法研究网页标题、网页摘要与网页文本之间的相关性关系,从而确定相关度权值进行结果相关性判断。实验证明,元搜索引擎搜索结果的平均准确率比各个成员引擎的搜索结果平均准确率都有较大提高。
- 翁勍力施水才赵捧未
- 关键词:元搜索相关度
- 跨语言相似文档检索被引量:5
- 2007年
- 检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度。在实验中,统计检索文档的译文排在检索结果前N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性。实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%。实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿。
- 王洪俊施水才俞士汶肖诗斌
- 关键词:计算机应用中文信息处理文档相似度
- 跨语言文档对齐
- 本文提出了一种新的双语文档对齐算法,该算法用TFIDF 方法进行文本特征采样和权重计算,使用统计翻译模型进行双语词汇对齐,用Dice 方法的改进算法计算双语文档的相似度。实验表明,该算法可以准确地发现一种语言书写的文档在...
- 王洪俊施水才俞士汶肖诗斌
- 关键词:文档相似度
- 文献传递
- 基于WordNet的语义分布词典建设被引量:3
- 2007年
- 提出一种基于WordNet自动构建语义分布词典的方法。在介绍WordNet系统和Semcor语料库的基础上,设计语义分布词典的结构。分析Sense.idx文件和Taglist文件内容,详细描述以它们为基础自动构建语义分布词典的过程。
- 张会平吕学强施水才李渝勤
- 关键词:语言资源WORDNET