您的当前位置:首页正文

一种基于分布式爬虫引擎的数据采集方法[发明专利]

2023-02-07 来源:独旅网
专利内容由知识产权出版社提供

专利名称:一种基于分布式爬虫引擎的数据采集方法专利类型:发明专利发明人:陈思恩

申请号:CN202011591563.4申请日:20201229公开号:CN112597373A公开日:20210402

摘要:本发明公开了一种基于分布式爬虫引擎的数据采集方法,其包括以下步骤:S1、获取用户的任务创建请求并创建对应的数据采集任务;S2、构建分布式爬虫系统,对数据采集任务进行调度并触发任务执行,通过分布式爬虫系统分解数据采集任务,并分配给多个爬虫线程;S3、启动爬虫线程,分布式爬虫系统从队列资源获取URL,根据数据采集任务指定的目标网站爬取URL对应的页面,下载并获取页面数据;S4、对获取的页面数据进行整理清洗,生成与数据采集任务匹配的格式化数据集,并通过持久化处理后存储入数据库;本发明通过分布式部署爬虫集群的爬虫引擎,爬取目标网站的定向数据,提高了爬取效率及数据的精确度。

申请人:科技谷(厦门)信息技术有限公司

地址:361000 福建省厦门市湖里区安岭二路88号A栋404室

国籍:CN

代理机构:厦门致群财富专利代理事务所(普通合伙)

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容