搜索到284篇“ 网页采集“的相关文章
自定义网页采集方法、系统、设备以及存储介质
本发明公开一种自定义网页采集方法、系统、设备以及存储介质,其中,方法包括:创建一个显示窗口,并基于获取到的网址信息在显示窗口实时同步网页状态;根据获取到的采集元素与规则信息,生成一套采集规则,并基于采集规则对显示窗口的网...
吴艳 刘百灵 何维华
基于机器学习的网页采集页面的正文页采集方法
本发明涉及一种基于机器学习的网页采集页面的正文页采集方法,包括:建立训练集,对训练集中所包括正文页数据,进行预处理和页面特征数据提取;基于提取的页面特征数据通过机器学习的方法训练分类器得到训练后的正文页判别模型;对通过爬...
邹吉明林凡林刘雨钦梁延肇胡博
基于机器学习的网页采集页面的正文页采集方法
本发明涉及一种基于机器学习的网页采集页面的正文页采集方法,包括:建立训练集,对训练集中所包括正文页数据,进行预处理和页面特征数据提取;基于提取的页面特征数据通过机器学习的方法训练分类器得到训练后的正文页判别模型;对通过爬...
邹吉明林凡林刘雨钦梁延肇胡博
一种爬虫网页采集方法和装置
本公开提供一种爬虫网页采集方法和装置,其中方法包括:对于正在采集的当前网页,获取所述网页中的目标文档对象模型DOM节点集合中各个DOM节点的节点特征;比较各个DOM节点的所述节点特征,得到特征相似的节点相似组;采集所述节...
徐晓孟
文献传递
一种基于脚本的网页采集服务方法和系统
本发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执...
张凯程学旗俞晓明刘悦余智华孙海洲
文献传递
一种基于Jxbrowser的网页采集技术
本发明公开了一种基于Jxbrowser的网页采集技术,步骤1:数据初始化;步骤2:保存路径;步骤3:代理ip地址和端口;步骤4:加载数据完成初始化;步骤5:资源定位;步骤6:获取内容;步骤7:完成采集。本发明可实现如下技...
徐利东远贵良
文献传递
一种基于URL规则匹配的网页采集任务自动化分拣方法
本发明公开一种基于URL规则匹配的网页采集任务自动化分拣方法,涉及大数据技术领域,其包括:1)匹配规则配置:在采集任务中制定网页采集任务url模式匹配正则规则,根据任务所属的阶段配置待下载、解析和内容提取正则规则;2)任...
王勇
文献传递
一种基于关键字的定向网页采集方法
本发明涉及一种基于关键字的定向网页采集方法,引入了文本加权算法为关键词设置权重,结合空间向量模型算法计算网页主题相关度,并且利用网页链接结构与主题相关度来评判网页的重要性。根据文本聚类算法将相关主题网页文档聚集在一起,利...
徐小龙杨春春
文献传递
一种基于脚本的网页采集服务方法和系统
本发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执...
张凯程学旗俞晓明刘悦余智华孙海洲
文献传递
一种对参数形式为Request Payload的网页采集方法
本发明公开一种对参数形式为Request Payload的网页采集方法,涉及数据采集技术领域。针对某些网站的请求参数以Json格式数据提交时无法采集获得正确的网页源代码问题,采用方案为:对HTTP协议请求头部进行解析,判...
郭玉健
文献传递

相关作者

程学旗
作品数:669被引量:6,292H指数:29
供职机构:中国科学院计算技术研究所
研究主题:文本 抽取 大数据 社交网络 抽取方法
张凯
作品数:615被引量:1,702H指数:23
供职机构:中国矿业大学
研究主题:PM 大气颗粒物 重金属 机械手 组件
俞晓明
作品数:69被引量:56H指数:5
供职机构:中国科学院计算技术研究所
研究主题:大规模网络 网页 信息来源 文本 信源
刘悦
作品数:211被引量:502H指数:12
供职机构:中国科学院计算技术研究所
研究主题:网页 抽取 文本 社交网络 大规模网络
余智华
作品数:74被引量:400H指数:13
供职机构:中国科学院计算技术研究所
研究主题:大规模网络 信息采集 信息来源 网页 网络数据