您的位置: 专家智库 > >

薛剑

作品数:2 被引量:5H指数:2
供职机构:中国科学院沈阳计算技术研究所更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 1篇信息检索
  • 1篇信息损失
  • 1篇语义相似
  • 1篇损失函数
  • 1篇特征提取

机构

  • 2篇中国科学院
  • 2篇辽宁省电力有...
  • 2篇中国科学院大...

作者

  • 2篇孙咏
  • 2篇吕立
  • 2篇王丹妮
  • 2篇薛剑

传媒

  • 2篇小型微型计算...

年份

  • 1篇2017
  • 1篇2016
2 条 记 录,以下是 1-2
排序方式:
应用语义相似的海量网页文本去重策略研究被引量:2
2016年
互联网的高速发展使得信息的获取以及发布几乎变的无成本,因此不免会存在着大量的近似网页,这些网页之间仅仅只有少量的内容是不同的,但其要传递的信息主体却是一致的.而搜索引擎在从互联网上抓取数据时,必须能够准确的检测出近似网页并放弃抓取.主要针对中文网页,改进了提取中文文本内容特征及计算其权值的方法,同时结合词语之间的语义联系,提出利用特征之间的语义相似性生成网页指纹的方法.在大规模真实网页数据集上,利用分布式编程模型进行实验,近似网页检测的效果得到了明显的提升,更加适用于当今海量数据环境下.
薛剑吕立孙咏王丹妮
关键词:语义相似特征提取
应用位置信息损失的Listwise排序学习方法的研究被引量:3
2017年
排序学习是机器学习与信息检索相互结合的研究领域,它利用机器学习的方法自动调节参数、综合多种排序特征、同时可以避免过拟合,进而得到新的排序模型用于排序被检索的文档.在排序学习方法中,Listwise方法的排序效果相对较好,但是目前已有的属于此类学习算法也有很多缺点:由于是基于列表所有的置换进行训练,时间复杂度太高;其损失函数并未充分利用极其重要的排序位置信息.本文基于此提出了新的学习算法,引入了位置信息损失因子,构建了新的损失函数,同时使用了效率更高的训练方法.最后在LETOR 4.0数据集上的实验结果表明,新学习算法的排序性能得到了较为明显的提升.
薛剑吕立孙咏王丹妮
关键词:信息检索损失函数
共1页<1>
聚类工具0