孙常龙 作品数:6 被引量:5 H指数:2 供职机构: 苏州大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 文化科学 更多>>
基于维基百科的未登录词译文挖掘 被引量:2 2011年 未登录词(out of vocabulary,OOV)的查询翻译是影响跨语言信息检索(cross-language information retrieval,CLIR)性能的关键因素之一.它根据维基百科(Wikipedia)的数据结构和语言特性,将译文环境划分为目标存在环境和目标缺失环境.针对目标缺失环境下的译文挖掘难点,它采用频度变化信息和邻接信息实现候选单元抽取,并建立基于频度-距离模型、表层匹配模板和摘要得分模型的混合译文挖掘策略.实验将基于搜索引擎的未登录词挖掘技术作为baseline,并采用TOP1进行评测.实验验证基于维基百科的混合译文挖掘方法可达到0.6822的译文正确率,相对baseline取得6.98%的改进. 孙常龙 洪宇 葛运东 姚建民 朱巧明关键词:未登录词 维基百科 跨语言信息检索 基于Web的查询扩展 2011年 查询扩展是一种改善信息检索召回率的重要技术。该文根据维基百科和搜索引擎各自的优点来实现查询词的扩展,试图提高检索结果top N的准确率。由于维基百科篇章中存在着大量的超链接,这些超链接中包含着与主题紧密相关的词条,通过提取这些词条,来实现基于维基百科的扩展。实验基于搜索引擎伪相关反馈的查询扩展作为baseline,分别对单语扩展系统和中英文跨语言扩展系统进行检测。实验结果表明本文的方法相比baseline系统,单语系统中MAP值提高6.41%,跨语言系统中Top10-precision值提高10.90%。 裴飞 洪宇 孙常龙 姚建民 朱巧明关键词:查询扩展 维基百科 搜索引擎 跨语言信息检索 基于网络的英文缩略语全称挖掘 本文提出了一种新颖的缩略语全称挖掘方法,分别利用Google和Wikipedia挖掘英文缩略语全称,然后比较两者的正确率和召回率。具体而言,首先利用基于Google的方法挖掘英文缩略语的全称,然后与利用基于Wikiped... 杨华 孙常龙 赵明明 葛运东 姚建民关键词:网络挖掘 WIKIPEDIA 句法规则 文献传递 基于搜索引擎的专有名称译文挖掘研究 查询翻译是影响跨语言信息检索的关键因素之一,而查询中有很大比重是专有名称,因此专有名称译文的挖掘对改进查询系统性能具有重要意义。本文首先利用主题词译文查询扩展方法从搜索引擎获取有效双语摘要资源;其次,利用频度变化信息和邻... 葛运东 孙常龙 房璐 姚建民关键词:跨语言信息检索 查询翻译 查询扩展 文献传递 基于Web的未登录词翻译技术研究 未登录词/(Out of Vocabulary,简写为OOV/)的查询翻译是影响跨语言信息检索/(Cross-Language Information Retrieval,简写为CLIR/)性能的关键因素之一。它的翻译好... 孙常龙关键词:跨语言信息检索 查询翻译 未登录词 搜索引擎 维基百科 文献传递 基于网络的跨语言信息检索中OOV译文挖掘研究 被引量:2 2009年 查询翻译是影响跨语言信息检索(CLIR)性能的关键因素之一.查询中未登录词(OOV)译文的挖掘对改进CLIR性能具有重要意义.利用主题词译文查询扩展方法从搜索引擎自动获取有效双语摘要资源;采用频度变化信息和邻接信息从双语摘要资源中抽取多词候选单元,并与常见的基于统计的多词单元抽取方法进行了比较.实验中译文挖掘方法取得了TOP 1包含率62.02%,TOP 10包含率95.35%的效果. 葛运东 梁颖红 孙常龙 房璐 姚建民关键词:跨语言信息检索 查询翻译