梁娟
- 作品数:8 被引量:13H指数:2
- 供职机构:邵阳学院信息工程系更多>>
- 发文基金:湖南省高校科技创新团队支持计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 新浪微博数据爬取研究被引量:9
- 2016年
- 新浪微博的快速发展促进了基于微博数据的研究发展,如何获取微博数据是开展相关研究的首要问题。文中就分析爬取新浪微博数据的方法,提出了一种基于Python的语言,直接设置已登录用户Cookie信息,模拟浏览器访问的新浪微博数据爬取方案,解决了不使用新浪微博开放平台API爬取微博数据的主要问题,所实现的爬虫程序编程简单、性能稳定,能有效获取微博数据。
- 陈智梁娟谢兵傅篱
- 关键词:PYTHON
- 一种基于XML的Web内容挖掘预处理方法
- 2011年
- Web数据挖掘技术是近年来数据挖掘领域的研究重点之一。由于Web文档具有半结构化的特点,在执行具体的挖掘操作之前,对Web文档进行预处理是必不可少的。文章针对Web内容挖掘的预处理过程,提出一种以XML作为中介语言进行数据预处理的方法。
- 梁娟陈智
- 关键词:WEB内容挖掘XML预处理WEB文档
- 基于GM(1,1)模型的元规则挖掘研究被引量:1
- 2012年
- 关联规则挖掘主要用于发现事务数据集中项与项之间的关系,由于事务数据通常具有时间特性,同一规则在不同的时间段,其支持度和置信度值也不尽相同。为关联规则建立元规则,对其支持度和置信度变化趋势进行分析和预测,有利于进一步指导挖掘和决策。本文通过一个例子,分析了使用GM(1,1)模型进行元规则挖掘的一般过程,评价了GM(1,1)模型在元规则挖掘中的优缺点。
- 陈智梁娟
- 关键词:关联规则元规则GM(1,1)模型
- 新浪微博用户网络分析及关键用户快速发现研究被引量:1
- 2017年
- 随着微博用户的不断增加,微博用户网络也在不断地变化和发展。该文首先讨论了微博用户网络的现状和微博用户网络分析的内容,然后基于实际的微博用户数据,研究微博用户网络节点的度分布。在此基础上,分析影响微博用户节点关键程度的因素,提出了一种结合用户活跃度、用户粉丝重要程度的微博关键用户发现算法。该算法充分考虑了微博高时效性的特点,能够从不断变化的微博用户网络中,快速发现关键用户。
- 陈智梁娟谢兵傅篱
- 基于Python的微博发表意向预测研究
- 2018年
- 微博的庞大数量以及微博文本的多样性,给微博舆情监控和预测带来较多困难,如果能够预先判断用户发表微博的意向,那么就可以进行更有针对性的引导和控制。文中根据微博用户数据的主要特征,使用Python的scikit-learn包中的主要回归预测模型,对用户发表微博的意向进行预测分析,评价不同回归预测模型预测微博发表意向的能力以及用户特征对微博发表意向的影响。通过实验研究发现,用户的微博发表意向更多取决于用户关注数,而梯度提升回归模型对此问题有更好的适应性。
- 陈智梁娟梁娟谢兵
- 关键词:PYTHON
- 基于C#的Word文档自动导出模块的设计与实现被引量:2
- 2013年
- 该文运用书签技术,在Microsoft.NET开发平台上利用C#语言实现Word文档的自动导出模块的设计。在试题库随机组卷抽卷系统中使用该模块,达到了比较满意的效果。
- 梁娟陈智
- 关键词:C#WORD文档书签