马少平
- 作品数:258 被引量:1,959H指数:26
- 供职机构:清华大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学语言文字电子电信更多>>
- 因特网上的写作风格鉴别
- 根据写作风格来鉴别作者这一问题在国外很早就已经开始研究了,并有很多成功应用.而针对中文的研究却非常少.首次提出了使用文章中虚词频率分布作为特征来研究这一问题,采用了两种不同的规格化方法来消除文章长度的差异,并采用了多种不...
- 金奕江孙晓明马少平
- 关键词:写作风格文本分类因特网
- 文献传递
- 相关反馈任务中一种基于文档相似度的检索结果重排序方法
- 研究界关于相关反馈问题的研究已经有近30年的历史,相关反馈也被证明可以在很大程度上稳定地提升检索系统的性能。由于目前相关反馈的应用,以及用户提供反馈信息的方式都发生了明显的变化,有关相关反馈的研究又一次引起了研究界的注意...
- 周博岑荣伟刘奕群张敏马少平
- 关键词:信息检索
- 文献传递
- 中西方媒体报道各国疫情的对比及情感分析方法研究被引量:6
- 2022年
- 媒体在信息化社会中扮演了重要角色,应秉承公平、公正、客观的原则.在2020年,媒体的报道引导着大众对新冠疫情的认知和对不同国家防控能力的认识.本文借助搜索引擎收集了26万余条中西方媒体对十个国家疫情情况的报道,分析结果显示,西方媒体在报道中国疫情时,消极文章比例明显偏高;报道美国疫情情况时,新闻特征与其他国家有明显差别.与此同时,较西方媒体,中方媒体在报道不同国家情况时,与实际疫情有更高的一致性,态度更客观.
- 陈雪松毛佳昕马为之刘奕群刘奕群马少平
- 关键词:情感分析信息传播媒体报道新闻特征
- 基于改进决策树算法的网络关键资源页面判定被引量:21
- 2005年
- 关键资源页面是网络信息环境中一种重要的高质量页面,是用户进行网络信息检索的主要目标.决策树算法是机器学习中应用最广的归纳推理算法之一,适用于关键资源页面的判定.然而由于Web数据均一采样的困难性,算法缺乏有足够代表性的反例进行训练.为了解决这个问题,提出一种利用训练样例的统计信息而非个体信息进行学习的改进决策树算法,并利用这种算法实现了独立用户查询的关键资源页面判定.在2003年文本信息检索会议(TextRetrievalConference,简称TREC)标准的评测条件下,基于此种改进决策树算法的大规模网络信息检索实验获得了超过基本算法40%的性能提高.这不仅提供了一种查找Web关键资源页面的有效方式,也给出了提高决策树算法性能的一个可行途径.
- 刘奕群张敏马少平
- 关键词:网络信息检索决策树
- 基于ARM的GPRS远程终端设计与实现被引量:27
- 2006年
- 简要介绍了GPRS技术的特点及其在工业远程监控系统中的优势,给出基于ARM7TDMI-S处理器的GPRS远程终端的设计方案和实现要点。在设计中充分考虑了软件结构的可扩展性,在软件实现上注意避免了同类产品中出现的缺点,该终端提供了灵活便捷的用户界面和多协议支持。
- 马少平骆志刚孙雷赵翔何万双
- 关键词:ARMGPRS无线数据传输远程监控
- 基于目的分析的作弊页面分类被引量:7
- 2009年
- 随着互联网的飞速发展,因网络作弊而产生的垃圾页面越来越多,严重影响了搜索引擎的检索效率和用户体验。反作弊已经成为搜索引擎所面临的最重要挑战之一。但目前的反作弊研究大都是基于页面内容或链接特征的,没有一个通用可行的识别方法。本文主要基于作弊目的的分析,给出作弊页面另一种体系的分类,为基于目的的作弊页面识别起到良好的导向作用。
- 余慧佳刘奕群张敏马少平茹立云
- 关键词:计算机应用中文信息处理
- 基于浏览器收藏夹的用户行为研究被引量:1
- 2011年
- 网络用户可以使用浏览器收藏夹收藏网页并快速访问其中内容。基于收藏夹的用户行为研究将对用户个性化、网页质量评估、大规模网页目录构建等方面的工作具有指导意义。该文使用近27万个用户的收藏夹数据,从组织结构、收藏内容和用户兴趣三个方面对用户收藏行为进行了研究。首先,我们提出收藏夹浏览点击模型,分析了收藏夹结构特征和使用效率;其次,通过与PageRank值比较,我们发现用户倾向于收藏质量高的网络资源;最后,我们结合ODP分析了收藏夹用户的兴趣分布特点。
- 方奇刘奕群张敏茹立云马少平
- 关键词:用户行为分析
- 异质搜索环境下的用户偏好性预测方法研究
- 2017年
- 提出了一系列基于搜索结果页面的特征用于学习分类器,自动预测用户的偏好性,并尝试将预测模型与用户实验结合起来。实验结果表明,尽管异质环境下搜索结果页面有着丰富的信息,但仅基于搜索结果页面的展现形式难以对用户的偏好性做出可靠的预测。
- 张帆罗成刘奕群张敏马少平
- 搜索引擎结果展示效果自动评价方法被引量:1
- 2019年
- 根据用户调查结果,提出包括视觉力、信息力、有效力这3个维度15个因素的搜索结果展示效果评估体系,并自动评估传统的文本结果展示效果。实验结果表明:该方法能够与人工测评和用户受控实验取得一致的评价效果,大大减少评价所需的人力资源,缩短评价反馈周期。
- 张辉马少平
- 关键词:搜索结果
- 中文古籍数字化体系与工具系统
- 中文古籍是一种非常宝贵的文化遗产和资源.古籍数字化的工作是一种保存和保护古籍的有效措施,也是整理、研究和有效地利用这些文化资源的重要手段,同时为脱机手写体汉字识别技术开拓了新的应用空间.本文把数字图书馆的思想引入中文古籍...
- 姜哲马少平金奕江张敏
- 关键词:中文古籍数字化数字图书馆汉字识别检索查询
- 文献传递