2025年4月4日
星期五
|
欢迎来到营口市图书馆•公共文化服务平台
登录
|
注册
|
进入后台
[
APP下载]
[
APP下载]
扫一扫,既下载
全民阅读
职业技能
专家智库
搜索到
284
篇“
网页采集
“的相关文章
资源类型:
全部数字资源类型
期刊文章
政策法规
学位论文
专利
会议论文
标准
专著
科技成果
产品样本
科技报告
全部数字资源类型
全部数字资源类型
期刊文章
政策法规
学位论文
专利
会议论文
标准
专著
科技成果
产品样本
科技报告
排序方式:
相关度排序
被引量排序
时效性降序
时效性升序
相关度排序
相关度排序
被引量排序
时效性降序
时效性升序
自定义
网页
采集
方法、系统、设备以及存储介质
本发明公开一种自定义
网页
采集
方法、系统、设备以及存储介质,其中,方法包括:创建一个显示窗口,并基于获取到的网址信息在显示窗口实时同步
网页
状态;根据获取到的
采集
元素与规则信息,生成一套
采集
规则,并基于
采集
规则对显示窗口的网...
吴艳
刘百灵
何维华
基于机器学习的
网页
采集
页面的正文页
采集
方法
本发明涉及一种基于机器学习的
网页
采集
页面的正文页
采集
方法,包括:建立训练集,对训练集中所包括正文页数据,进行预处理和页面特征数据提取;基于提取的页面特征数据通过机器学习的方法训练分类器得到训练后的正文页判别模型;对通过爬...
邹吉明
林凡林
刘雨钦
梁延肇
胡博
基于机器学习的
网页
采集
页面的正文页
采集
方法
本发明涉及一种基于机器学习的
网页
采集
页面的正文页
采集
方法,包括:建立训练集,对训练集中所包括正文页数据,进行预处理和页面特征数据提取;基于提取的页面特征数据通过机器学习的方法训练分类器得到训练后的正文页判别模型;对通过爬...
邹吉明
林凡林
刘雨钦
梁延肇
胡博
一种爬虫
网页
采集
方法和装置
本公开提供一种爬虫
网页
采集
方法和装置,其中方法包括:对于正在
采集
的当前
网页
,获取所述
网页
中的目标文档对象模型DOM节点集合中各个DOM节点的节点特征;比较各个DOM节点的所述节点特征,得到特征相似的节点相似组;
采集
所述节...
徐晓孟
文献传递
一种基于脚本的
网页
采集
服务方法和系统
本发明涉及一种基于脚本的
网页
采集
服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中
采集
脚本的顺序,调度脚本队列中位于队首的
采集
脚本作为执行脚本;解释执行执行脚本,当执...
张凯
程学旗
俞晓明
刘悦
余智华
孙海洲
文献传递
一种基于Jxbrowser的
网页
采集
技术
本发明公开了一种基于Jxbrowser的
网页
采集
技术,步骤1:数据初始化;步骤2:保存路径;步骤3:代理ip地址和端口;步骤4:加载数据完成初始化;步骤5:资源定位;步骤6:获取内容;步骤7:完成
采集
。本发明可实现如下技...
徐利东
远贵良
文献传递
一种基于URL规则匹配的
网页
采集
任务自动化分拣方法
本发明公开一种基于URL规则匹配的
网页
采集
任务自动化分拣方法,涉及大数据技术领域,其包括:1)匹配规则配置:在
采集
任务中制定
网页
采集
任务url模式匹配正则规则,根据任务所属的阶段配置待下载、解析和内容提取正则规则;2)任...
王勇
文献传递
一种基于关键字的定向
网页
采集
方法
本发明涉及一种基于关键字的定向
网页
采集
方法,引入了文本加权算法为关键词设置权重,结合空间向量模型算法计算
网页
主题相关度,并且利用
网页
链接结构与主题相关度来评判
网页
的重要性。根据文本聚类算法将相关主题
网页
文档聚集在一起,利...
徐小龙
杨春春
文献传递
一种基于脚本的
网页
采集
服务方法和系统
本发明涉及一种基于脚本的
网页
采集
服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中
采集
脚本的顺序,调度脚本队列中位于队首的
采集
脚本作为执行脚本;解释执行执行脚本,当执...
张凯
程学旗
俞晓明
刘悦
余智华
孙海洲
文献传递
一种对参数形式为Request Payload的
网页
采集
方法
本发明公开一种对参数形式为Request Payload的
网页
采集
方法,涉及数据
采集
技术领域。针对某些网站的请求参数以Json格式数据提交时无法
采集
获得正确的
网页
源代码问题,采用方案为:对HTTP协议请求头部进行解析,判...
郭玉健
文献传递
加载更多 ∨
相关作者
程学旗
作品数:669
被引量:6,292
H指数:29
供职机构:中国科学院计算技术研究所
研究主题:文本 抽取 大数据 社交网络 抽取方法
张凯
作品数:615
被引量:1,702
H指数:23
供职机构:中国矿业大学
研究主题:PM 大气颗粒物 重金属 机械手 组件
俞晓明
作品数:69
被引量:56
H指数:5
供职机构:中国科学院计算技术研究所
研究主题:大规模网络 网页 信息来源 文本 信源
刘悦
作品数:211
被引量:502
H指数:12
供职机构:中国科学院计算技术研究所
研究主题:网页 抽取 文本 社交网络 大规模网络
余智华
作品数:74
被引量:400
H指数:13
供职机构:中国科学院计算技术研究所
研究主题:大规模网络 信息采集 信息来源 网页 网络数据
用户登录
用户反馈
标题:
*标题长度不超过50
邮箱:
*
反馈意见:
反馈意见字数长度不超过255
验证码:
看不清楚?点击换一张