2025年1月27日
星期一
|
欢迎来到营口市图书馆•公共文化服务平台
登录
|
注册
|
进入后台
[
APP下载]
[
APP下载]
扫一扫,既下载
全民阅读
职业技能
专家智库
参考咨询
您的位置:
专家智库
>
>
山东省自然科学基金(ZR2011FM030)
作品数:
1
被引量:1
H指数:1
相关作者:
孟凡龙
陈宇
朱振方
刘培玉
更多>>
相关机构:
山东师范大学
山东省分布式计算机软件新技术重点实验室
山东交通学院
更多>>
发文基金:
山东省自然科学基金
国家自然科学基金
国家社会科学基金
更多>>
相关领域:
自动化与计算机技术
更多>>
相关作品
相关人物
相关机构
相关资助
相关领域
题名
作者
机构
关键词
文摘
任意字段
作者
题名
机构
关键词
文摘
任意字段
在结果中检索
文献类型
1篇
中文期刊文章
领域
1篇
自动化与计算...
主题
1篇
登陆
1篇
爬虫
1篇
去噪
1篇
网络
1篇
网络爬虫
1篇
网页
1篇
网页去噪
1篇
HASH
机构
1篇
山东交通学院
1篇
山东师范大学
1篇
山东省分布式...
作者
1篇
刘培玉
1篇
朱振方
1篇
陈宇
1篇
孟凡龙
传媒
1篇
山东师范大学...
年份
1篇
2015
共
1
条 记 录,以下是 1-1
全选
清除
导出
排序方式:
相关度排序
被引量排序
时效排序
基于 Regex 网页去噪 Hash 比对的网络爬虫无登陆微博采集技术
被引量:1
2015年
针对当前微博采集无精确去噪方法和微博无法无登陆采集现象,笔者提出了基于 Regex 网页去噪 Hash 对比的网络爬虫采集方案并利用插件采集实现了无登陆采集。该方法通过 Regex 构建 DFA 和 NFA 模型来去除网页噪声,通过 Hash 对比对确定采集页面,并通过插件权限提升实现无登陆技术。有效的避免了 Hash 值的变化与网页内容变化产生偏离的现象,解决了网络爬虫虚拟登录时多次对 URL 采集造成的身份认证问题。实验表明,该方法可以实时快速的获取微博信息,为舆情数据分析提供批量精准的数据。
陈宇
孟凡龙
刘培玉
朱振方
全选
清除
导出
共1页
<
1
>
聚类工具
0
执行
隐藏
清空
用户登录
用户反馈
标题:
*标题长度不超过50
邮箱:
*
反馈意见:
反馈意见字数长度不超过255
验证码:
看不清楚?点击换一张