孙达明 作品数:14 被引量:71 H指数:4 供职机构: 东北大学信息科学与工程学院 更多>> 发文基金: 国家自然科学基金 宁夏回族自治区自然科学基金 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种流行性与相似性结合查询推荐策略 被引量:3 2016年 基于日志的搜索引擎查询推荐方法大多从搜索行为流行性考虑进行查询推荐,这类推荐方法忽略了个体用户背景不同带来的搜索需求的差异,对于一些在搜索引擎日志中有较多记录的用户来讲,难以满足他们更高质量的搜索需求.然而,此类用户的搜索记录又不足以支持系统提供个性化的推荐服务.所以,针对在搜索引擎日志中有较多记录的用户,本文提出一种折衷的解决方案,即流行性与相似性结合的查询推荐策略,提供一种近似于个性化的推荐服务.本文采用社团发现的方法发现搜索日志中的密集行为,从而构建典型用户行为模型代表用户搜索背景,并引入模块度度量典型用户行为的强度,最后结合流行性、群体用户对推荐词的支持程度、用户对用户群体的归属程度以及典型用户行为的强度来产生推荐词集合.本文最后,在真实数据集的实验结果证明了本策略能够在控制推荐失败风险的同时提高用户对推荐结果的满意度. 孙达明 张斌 张书波 马安香关键词:计算机应用 搜索引擎 查询推荐 基于搜索日志与局部上下文的查询扩展方法 被引量:1 2015年 当搜索日志存在查询词稀疏性和时效性问题时,基于搜索日志的查询扩展方法无法保证查询扩展的质量,无法满足具有时效性查询请求的需求.提出了基于搜索日志与局部上下文的查询扩展方法,通过发掘搜索日志中用户查询词和相关文档的关联关系,抽取查询扩展词,并用局部上下文从相关文档集中提取出频率较大,同时具有时效性的查询扩展词.通过对查询扩展词的查询性能和时效性的计算,该方法为原始查询补充更高质量的查询扩展词.实验结果表明,该方法能够有效地提升准确率和召回率,使原始查询获得更好的查询性能. 张书波 马安香 张斌 孙达明关键词:信息检索 查询扩展 搜索日志 查询性能 面向多样化搜索背景的查询推荐策略 被引量:4 2014年 基于日志的搜索引擎查询推荐方法大多从流行性角度进行查询推荐,这种方式能够带来不错的推荐效果.然而,流行性行为代表群体用户共性的需求,所以这类推荐方法忽略了用户背景不同带来的搜索需求的差异,当小团体用户的搜索需求与流行性需求不一致时,往往造成小团体搜索需求无法被满足,进而导致针对此类用户的推荐失败.而且,在搜索引擎领域,用户信息难以获取,提供个性化推荐服务也比较困难.为了减少推荐失败的风险,提高查询推荐质量,提出一种折衷的解决方案,面向多样化搜索背景的查询推荐策略.在查询流图的基础上构造密集行为块,通过密集行为块表示用户特征,从而构建典型用户行为模型,并以典型用户行为区分用户背景.另外,还提出了面向多样化搜索背景的查询推荐方法,当搜索词面临多种用户背景时,推荐系统提供多样化的推荐词集合,最后,在真实数据集的实验结果证明了本策略能够在较小程度降低准确度的同时降低推荐失败的风险. 孙达明 张斌 张书波 马安香关键词:查询推荐 搜索引擎 基于扩展的带路径约束随机游走模型的扩展词排序方法 2017年 在同时从点击文档与历史查询条件等多个扩展词来源选取扩展词的过程中,扩展词来源对应的约束值可以影响该来源的扩展词被优先选择的程度.由于现有模型为不同查询条件的相同扩展词来源设置相同的约束值,因此导致所有查询条件优先选择的扩展词来源相同.然而观察日志可以发现,不同查询条件适合从不同扩展词来源选取扩展词.由此,提出一种扩展的带路径约束的随机游走模型.该模型首先对每个查询条件与不同来源扩展词的相关性进行统一尺度的估计,并根据估计结果对不同扩展词来源对应的约束值进行估计,从而使不同的查询条件能够优先选择不同来源的扩展词.一系列实验表明,本文方法构造的扩展查询条件具有更好的性能,更符合用户的查询目标. 张博 张斌 郭鹏伟 孙达明关键词:查询扩展 日志挖掘 随机游走 基于用户行为的数据关联关系获取方法 被引量:3 2013年 在对数据空间领域的研究中,对数据资源之间关联关系的研究逐渐成为一个研究热点.目前数据关系的研究主要集中在基于数据自身属性方面,基于此建立的数据关联关系没有考虑到用户对其产生的作用,所以在对数据管理、组织以及应用数据服务的过程中很难体现出用户的意愿.为此,提出一种基于用户行为的数据关联获取方法,通过对用户历史行为进行R/S分析,以判断用户行为是否为用户的有意识访问;并在此基础上对用户行为序列进行模式挖掘,得到用户行为模式,最终将行为模式包含的数据通过iTrail的形式建立数据关联关系.实验证明,采用本文方法可以取得较好的效果. 孙达明 张斌 张书波 马安香关键词:数据空间 用户行为 HURST指数 基于结果模式的Deep Web数据集成 被引量:1 2010年 Deep Web中蕴含了海量可供访问的信息,如何构建一个具有较好适用性和高效数据处理能力的Deep Web数据集成系统是有效利用Deep Web信息的关键.提出一种基于结果模式的DeepWeb数据集成机制,通过结果模式可以实现高效的数据抽取,并且在结果模式的基础上可以根据用户查询请求动态生成结果输出模式,为高效的查询结果处理奠定了良好基础;同时,针对Deep Web数据源特点,给出数据源间冲突的分类及解决策略,为解决数据源间的异构问题奠定了良好基础. 马安香 张斌 张引 高克宁 孙达明关键词:DEEP WEB数据集成 成果地质资料检索系统研究与实现 被引量:3 2016年 传统的成果地质资料查询服务系统是基于数据库查询设计的,以项目档案的标题和内容摘要为主进行查询,存在借阅者查找资料时间长,检索精度不高,甚至漏检部分资料的问题,为此,本文重新设计并实现了成果地质资料检索系统。通过对汇交的项目文档进行处理,建立索引,利用全文检索技术提升搜索结果的召回率;基于本体和搜索日志,使用查询扩展技术提升搜索结果的准确率。经资料馆应用证明,该系统节约了借阅者寻找资料的时间,提高了检索性能,增强了资料馆的服务能力。 张书波 张引 张斌 孙达明关键词:信息检索 查询扩展 地质资料 搜索日志 本体 基于Copulas框架的混合式查询扩展方法 被引量:4 2016年 基于语义资料和局部分析的混合式查询扩展可以同时提供具有语义相关性和时效性的扩展结果,但如何有效地混合不同相似度度量指标是尚未解决的问题。提出了一种基于Copulas框架的混合式查询扩展方法,在统一框架内实现了不同类型相似度度量指标的合并。该方法基于语义分析及词语共现分析方法,分别计算扩展词与用户查询词的语义及统计相似概率,进而在Copulas框架下融合扩展词集,选取最高质量的扩展词形成查询扩展。实验结果表明,该方法充分利用了语义及词语共现分析查询扩展方法的优点,有效地弥补了两者的不足,提高了搜索结果的查准率,具有更优的搜索性能。 张书波 张引 张斌 孙达明关键词:信息检索 查询扩展 语义分析 搜索性能 面向自主意识的标签个性化推荐方法研究 被引量:8 2012年 在标签系统中,用户使用资源以及标签的习惯受到自身自主意识的影响.当前的标签个性化推荐方法缺乏对此类自主意识信息的描述,限制了个性化推荐的效果.通过采用类似LDA的概率模型,建模了用户的资源使用以及标签使用两方面的自主意识信息,实现了面向用户自主意识的标签推荐.模型的参数使用基于吉布斯抽样的方法进行估计,为快速高效计算模型参数提供了可能.实验结果显示该方法可以提供更高质量的标签个性化推荐结果. 张引 张斌 高克宁 郭朋伟 孙达明关键词:WEB 标签推荐 LATENT DIRICHLET ALLOCATION 融合关系与内容分析的社会标签推荐 被引量:43 2012年 标签是Web 2.0时代信息分类与索引的重要方式.为解决标签系统所面临的不一致性、冗余性以及完备性等问题,标签推荐通过提供备选标签的方法来提高标签的质量.为了进一步提升标签推荐的质量,提出了一种基于标签系统中对象间关系与资源内容融合分析的标签推荐方法,给出了基于LDA(latent Dirichlet allocation)的融合表示对象间关系与资源内容的标签系统生成模型TSM/Forc,提出了一种基于概率的标签推荐方法,并给出了基于吉布斯(Gibbs)抽样的参数估计方法.实验结果表明,该方法可以提供比当前主流与最新方法更加准确的推荐结果. 张斌 张引 高克宁 郭朋伟 孙达明关键词:社会标签 标签推荐 DIRICHLET