刘宜轩
- 作品数:6 被引量:6H指数:1
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划北京市科技计划项目更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 融合多粒度索引单位的中文信息检索研究
- 传统的英文信息检索中,通常以由空格分隔的英文单词为单位建立索引。由于中文词语间没有明显的分隔符,因此,索引单位的确定是中文信息检索中非常重要的一步。中文信息检索的性能因索引单元选择的不同而不同。一般而言,粒度大的索引单元...
- 刘宜轩
- 关键词:网络服务数据挖掘汉字处理中文信息检索
- 文档检索中句法信息的有效利用研究被引量:6
- 2008年
- 利用词项依存关系来改进词袋模型,一直是文本检索中一个热门话题。已有的定义词项依存的方法中,有两类主要的方法:一类是词汇层次的依存关系,利用统计近邻信息来定义词项依存关系,另一类是句法层次的依存关系,由句法结构来定义词项依存关系。虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著地提高检索性能,但这两类词项依存关系却缺乏系统的比较:在利用词项依存关系来改进文档和查询的表达上,如何有效地利用句法信息,哪些句法信息对文本检索比较有效,依然是个有待研究的问题。为此,在文档表达上,比较了利用近邻信息和句法信息定义的词项依存关系的性能;在查询表达上,对利用不同层次的句法信息所定义的词项依存关系的性能进行了比较。为了系统地比较这些词项依存关系对检索性能的影响,在语言模型基础上,以平滑为思路,提出了一个能方便融入这两类词项依存关系的检索模型。在TREC语料上的实验表明,对于文档表达来说,句法关系较统计近邻关系没有明显的差别。在查询表达上,基于名词/专有词短语的部分句法信息较其他的句法信息更加有效。
- 丁凡王斌白硕刘宜轩李亚楠
- 关键词:计算机应用中文信息处理信息检索句法分析
- 文本检索模型的鲁棒性研究
- 王斌丁凡郎皓张森许晟徐扬刘宜轩
- 该成果来自于国家自然科学基金课题《文本检索模型的鲁棒性研究》,起止时间分别是2007年1月至2009年12月。随着网络用户数目的增长和网络信息的增多,对网络信息内容的有效利用是一项迫切而又长期的需求,在这种需求驱动下,包...
- 关键词:
- 关键词:鲁棒性
- 文本检索中旬法信息的有效利用研究
- 虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著的提高检索性能,但不同的词项依存关系却缺乏系统的横向比较。为此,在文档表达上,本文比较了利用近邻信息和句法信息定义的词项依存关系的性能;在查询表达上,对利用不同...
- 丁凡王斌白硕刘宜轩李亚楠
- 关键词:文本检索句法分析
- 文献传递
- 文本检索的查询性能预测
- 2008年
- 在利用Baidu、Google等搜索引擎进行检索时,可以发现,对某些查询,搜索引擎能够准确快速地返回需要的答案,但对另一些查询,搜索引擎返回的结果却不尽如人意,需要反复修改所提交的查询.由此可以看出,查询本身的优劣和查询结果的好坏是直接相关的,如果能很好地预测查询性能,针对查询性能差的查询,有的放矢地改进检索系统,便能提高检索系统的性能了.那么,究竟什么是查询性能预测?影响查询性能的因素有哪些?怎样预测查询性能?查询性能预测的应用前景怎样?怎样评价预测查询性能方法的好坏?文章将一一回答这些问题.该文为2008年第七期本期话题<用户查询的理解>的文章之一.
- 郎皓王斌刘宜轩
- 关键词:信息检索查询文本检索数字图书馆
- 文本检索中句法信息的有效利用研究
- 虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著的提高检索性能, 但不同的词项依存关系却缺乏系统的横向比较。为此,在文档表达上,本文比较了利用近邻信息和句法信息定义的词项依存关系的性能:在查询表达上,对利用不...
- 丁凡王斌白硕刘宜轩李亚楠
- 关键词:文本检索句法分析
- 文献传递