王弘蔚
- 作品数:15 被引量:151H指数:4
- 供职机构:北京拓尔思信息技术股份有限公司更多>>
- 发文基金:国家自然科学基金北京市教委科技发展计划北京市属高等学校人才强教计划资助项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于RSS的分布式新闻博客搜索引擎设计被引量:4
- 2007年
- 针对传统搜索引擎对频繁更新的新闻和博客网站的搜索实时性较差的现状,提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom filter数据结构压缩索引文件,构建一个基于RSS的P2P分布式的新闻博客搜索引擎,从而达到对频繁更新站点的实时性搜索,同时减少存储成本。
- 刘峰施水才肖诗斌王弘蔚
- 关键词:RSSPASTRYBLOOM
- 一种基于Native XML的全文检索引擎
- 随着XML的日益流行,基于XML的全文检索应用需求也迅速扩大.在这些应用中native-XML数据库是发展方向.虽然商业化的native-XML数据库已经出现,但其全文检索的性能还不尽人意.本文将提出一种方法,在传统的倒...
- 王弘蔚肖诗斌
- 关键词:检索引擎
- 文献传递
- TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索
- 本文介绍了TRS文本检索系统的主要技术特点,分析了搜索引擎技术的优点和不足,提出了基于自然语言处理的文本检索技术,介绍了TRS自动分类、自动摘录和相似性检索技术.所有这些技术都经过大数据量和开放环境的实际检验,有许多成功...
- 施水才肖诗斌王弘蔚王洪俊苏东庄
- 文献传递
- 基于RSS的分布式新闻博客搜索引擎设计
- 随着网络信息发布速度的提高,搜索引擎要想得到完整及时的信息变得越来越难,尤其是针对频繁更新的新闻和博客网站。本文提出利用RSS提供的结构化数据,通过Pastry协议,实现索引的分布式存储和传输,同时使用Bloom fil...
- 刘峰施水才肖诗彬王弘蔚
- 关键词:分布式搜索引擎博客网站
- 文献传递
- MySql嵌入式存储引擎的研究和实现
- 数据库是数据存储和查询的重要的工具,本文介绍了一种在 mysql 数据库中嵌入自定义的存储引擎的方法。如何从查询效率,存储空间利用率,数据增加,删除,修改操作方便和高效等角度,来设计数据存储格式,来具体的编写自己的存储引...
- 马永成肖诗斌王弘蔚施水才
- 关键词:存储引擎数据格式
- 文献传递
- 基于加权距离的机械设计图像异步检索方法被引量:5
- 2013年
- 根据机械设计图像的形状特征,提出一种利用加权距离实现的多特征异步检索方法。首先利用机械设计图像的外接圆距离特征进行初步检索,再结合初步检索结果集的位置计算输入图像和初步检索结果集的加权Hu不变矩特征距离,并据此获得最终的检索结果。实验表明,与单一特征的检索方法相比,该方法在机械设计图像检索中有更高的查准率和查全率。
- 方乃伟吕学强张丹王弘蔚
- 关键词:HU不变矩加权距离
- 基于信息熵与词语活跃度的领域词抽取被引量:1
- 2011年
- 提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。
- 王成吕学强王弘蔚王涛
- 关键词:信息熵知识获取自然语言处理
- 基于关键名词短语聚类的中文搜索结果聚类被引量:1
- 2009年
- 目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,然后使用Chameleon算法将标签聚类,最后将搜索结果划分到最相关的聚类簇。实验证明,该方法把关键名词短语和相关搜索词作为聚类标签,有效地提高了标签的描述性,降低了聚类算法的时间复杂度。
- 麻雪云肖诗斌王弘蔚施水才
- 关键词:搜索结果聚类CHAMELEON算法
- 一种将启发式规则和HMM相结合的web信息抽取方法
- 目前web已经成为人们获取信息的主要来源,如何从web上抽取信息成为了信息抽取领域研究的热点。由于web文档是基于html语言的半结构化文档,不具备很强的统计学规律故而很难将传统的文本抽取领域中的HMM抽取模型应用在we...
- 伍丹都云程李渝勤王弘蔚
- 关键词:启发式规则WEB信息抽取文本抽取
- 文献传递
- 一种改进的基于《知网》的词语语义相似度计算被引量:128
- 2008年
- 中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。
- 江敏肖诗斌王弘蔚施水才
- 关键词:中文信息处理知网词语相似度