李鹏
- 作品数:20 被引量:6H指数:2
- 供职机构:中国科学院信息工程研究所更多>>
- 发文基金:国家自然科学基金中国科学院战略性先导科技专项国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种提速的基于IPC编码的查询处理方法
- 本发明涉及一种提速的基于IPC编码的查询处理方法。该方法把IPC编码下的索引文件视为树形的跳表文件,实现快读略过子树的算法;在处理布尔的求交查询时,根据链表的单调性判断是否略过(skip)某些子树,略过(skip)操作可...
- 付玺王斌李鹏王卿李雄徐杰马宏远
- 文献传递
- 一种基于用户互动话题的微博推荐算法被引量:2
- 2016年
- 随着社交网络的发展,微博逐渐成为人们获取信息的重要来源。然而随着用户的增多,微博中的信息过载问题也越来越严重,如何快速准确地为用户推荐感兴趣的微博已经成为研究的热点。与传统的推荐技术不同,微博中的用户具有天然的社交关系,这为推荐算法提供了额外的用户信息,因此,融合了用户社交关系的社会化推荐方法日益受到重视。但是,现有的方法大多只利用了固定的用户社交关系或简单的互动行为,事实上,用户互动行为的出发点必然是用户与好友的共同兴趣,具有明显的话题相关性。该文从话题层面来分析用户的互动关系,提出了度量互动关系在话题上强弱度的方法,通过有效地融合互动关系的话题特征,最终提出了改进的微博推荐模型IBCF。实验结果表明,与现有的社会化推荐方法相比,该文提出的新方法在MAP和NDCG等指标上取得了更好的推荐效果,而且为推荐结果提供了更明确的可解释性。
- 鲁骁李鹏王斌李应博房婧
- 关键词:互动关系社会化推荐协同过滤
- 一种元搜索列表结果抽取方法及系统
- 本发明提供一种元搜索列表结果抽取方法,步骤包括:获取元搜索检索结果的网页源代码;对所述网页源代码基于XPATH解析,确定检索结果区域和扩展区域的XPATH路径,抽取列表项信息和扩展信息;如果基于XPATH解析失败,则对所...
- 齐保元周美林李鹏王斌
- 文献传递
- 基于PPPoE网络接入的高集成度网络采集系统及方法
- 本发明涉及一种基于PPPoE网络接入的高集成度网络采集系统及方法。该系统包括一采集服务器,采用支持PPPoE网络接入、支持多用户路由功能的Linux操作系统,并设有如下模块:采集模块,用于获取采集任务,发起HTTP请求,...
- 李鹏王斌郭莉
- 一种基于多级共现关系词图的可视化文本信息发现方法及系统
- 本发明提供一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:抽取文档的文本内容,对文本内容进行切分,得到文本片段;对文本片段进行切分,提取关键词,并标记词类别标签;根据关键词在文本片段中的共现关系构建多级共现...
- 李鹏王斌郭莉梅钰
- 文献传递
- 一种面向用户个人文件的聚类方法及系统
- 本发明提供一种面向用户个人文件的聚类方法,步骤包括:利用用户对相似文件的保存习惯对用户文件进行分组,得到多个文件组;对文件组内的文件进行聚类,得到一个或多个局部簇,每个局部簇内的文件内容相似;将每个局部簇视为一个文件,对...
- 李鹏王斌齐保元周美林郭莉梅钰
- 文献传递
- 一种基于搜索引擎的主题语料构建方法及系统
- 本发明涉及一种基于搜索引擎的主题语料构建方法及系统。该方法包括以下步骤:1)利用搜索引擎获取主题相关的种子网页;2)对种子网页进行扩展以发现列表页;3)对列表页进行判断,得到与主题真正相关的列表页;4)对与主题真正相关的...
- 李鹏王斌周美林齐保元梅钰
- 面向领域的高质量微博用户发现被引量:1
- 2018年
- 在微博系统中,寻找高质量微博用户进行关注是获取高质量信息的前提。该文研究高质量微博用户发现问题,即给定领域词查询,系统根据用户质量返回相关用户排序列表。将该问题分解成两个子问题:一是领域相关用户的检索问题,二是微博用户排序问题。针对用户检索问题,提出了基于用户标签的用户表示方法以及基于维基百科的查询—用户相似度匹配方法,该方法作为ESA(explicit semantic analysis)的一个扩展应用,结果具有良好的可解释性,实验表明基于维基百科的效果要优于基于其他资源的检索效果。针对用户排序问题,提出了基于图的迭代排序方法 UBRank,在计算用户质量时同时考虑用户发布消息的数量和消息的权威度,并且只选择含URL的消息来构建图,实验验证了该方法的高效性和优越性。
- 叶永君李鹏周美林万仪方王斌
- 关键词:用户行为模型
- 一种基于人工智能的多级文本多标签分类方法及系统
- 本发明涉及一种基于人工智能的多级文本多标签分类方法及系统。该方法包括:1)利用神经网络构建多级文本多标签分类模型,并根据该模型得到训练文本的文本类别预测结果;2)根据训练文本中已有的文本类别标注信息与步骤1)得到的训练文...
- 李鹏王斌郭莉梅钰
- 文献传递
- 微博检索的研究进展被引量:2
- 2015年
- 随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。该文首先以TREC Microblog数据为基础,从分析微博文档和微博查询两方面出发,得出微博检索与传统文本检索之间的两点不同:一是微博文档相较于网页具有很多独有的特征;二是微博查询属于时间敏感查询,即在排序时除了考虑文本的语义相似度,还需要考虑时间因素,将这类方法统称为时间感知的检索技术。这两点差异使得已有的信息检索技术不能满足微博搜索的需求。该文主要介绍了近年来这两方面的相关研究:首先描述了微博本身的多种特征以及基于这些特征提出的检索方法;然后以传统信息检索过程为主线,分别介绍了将时间信息用于文本表示、文档先验、查询扩展三方面的排序模型,最后总结了已有工作并且对未来研究内容进行了展望。
- 卫冰洁王斌张帅李鹏
- 关键词:时间信息文本表示查询扩展