胡嘉琪
- 作品数:2 被引量:0H指数:0
- 供职机构:西北工业大学计算机学院更多>>
- 发文基金:国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于图结构的Web实体排序方法
- 2014年
- 现阶段,用户常常希望利用搜索引擎获得期望的实体,然而传统搜索引擎只能返回包含关键字的多个文档,并不能直接返回用户想要的答案,且现有的实体排序技术主要采用权值叠加的方法,需要很多先验知识对权值进行训练。文中从搜索引擎返回的文档中提取多个候选实体,并提出一种基于图结构的算法PERA(Probabilistic Entity Ranking Algorithm),利用随机游走的思想,在不需要知道相关先验知识的情况下,将候选实体排序。经过实验验证,各个类型的正确实体均有着较高的排序分值。
- 徐曜赵政文陈群刘海龙杜晶胡嘉琪李战怀
- 关键词:WEB搜索引擎
- 基于Web的重复属性自动识别方法
- 2015年
- 在建立数据仓库的过程中,需要从多个数据源导入数据。这些数据存在大量相似重复记录,严重影响了数据利用率和决策质量。因此,相似重复记录的检测已经成为数据仓库等领域的热点研究问题,而重复属性的识别是完成相似重复记录检测的关键。提出一种高效的基于Web的重复属性自动识别算法,该算法使用搜索引擎返回的摘要和URL信息计算属性相似度,并使用查询探针提高查询准确度。实验结果表明该算法有较高的查全率。
- 胡嘉琪陈群刘海龙杜晶徐曜李战怀
- 关键词:WEB搜索