发布网友
共2个回答
热心网友
一分钟学会网络数据抓取:从爬虫入门到放弃,鬼知道你都在这期间经历了什么,老司机都忙着反爬虫,没空来跟你闲扯,等你学会新的爬虫程序了,不好意思,老司机们又给你添堵来了,给你添堵就是他们的工作,所以,还是别学了,趁早放弃,好吧,还没走,那就教你两招对付皮皮虾的攻略,不需要任何编程基础,是人就懂,还没走,好吧,你也就就这么点出息了,跟皮皮虾过招很光荣么,还没走,好吧,没救了,那咱们开始吧:你可以使用任何熟悉的编程语言来进行网络数据信息的抓取,但是当你所需要获取的数据有限时,这样做就显得没有什么必要了,此时,一分钟技巧刚刚好:只需利用google sheet就可以实现了:新建一个空白文档:前提是时用chrome,打开我们的案例目标网页:Games sales,单击右键选择inspect,之后使用组合键Command-Shift-C ,用来激活selector,如此一来,你的光标移到哪个元素上,对应的信息就会在Inspection panel内显示:既然零基础,给你讲完python, 讲完正则,讲完网页结构,估计黄花大闺女都嫁人了。介绍一招,20秒上手爬虫数据,用的工具,Excel不用VBA,甚至都不用公式,甚至不用打开网页,查看网络元素。Here we go。双击图标,打开Excel,累计鼠标点击次数:依次点击,数据-从网站,累计鼠标点击次数:4。在弹出的对话框中,输入目标网址,Games sales ,点击转到,go。
热心网友
问题来了,又不只是爬一个界面啊,视频和书里没讲怎么爬多个界面。这时候就需要学点专业的Python知识了。我就去找了廖雪峰的教程,看了我需要的那几块,分别是循环,函数,列表什么的。看完之后就知道怎么爬多个页面了。设计爬取多个页面。整个过程花了1到2天时间。然后就涉及到效率问题了,1秒1页简直太慢了,所以我就想到了多线程和多进程,去廖雪峰教程里学习多线程和多进程,当然这远远不够,还参照网上别的资料和帮助文档,搞出了多线程,但速率好像并没有提升,又去搞多进程,提升显著,1秒100页都不是问题。这段过程花了2到3天。