技术 | Python从零开始系列连载(二十九)

  • 时间:
  • 浏览:2

电影标签页 https://movie.douban.com/tag/

原文发布时间为:2018-11-16



而且有代理IP还不行,机会你们歌词 都谁能谁能告诉我这代理都须要用,算不算 有效。

运行该代码,效果如下

执行上述写好的代码

   #用csv文件保存数据

当前工作目录下的文件,你看!!有host.txt

本文来自云栖社区商务商务合作伙伴“灯塔大数据”,了解相关信息都须要关注“灯塔大数据”。

#num获取num页 国内高匿ip的网页中代理数据def fetch_proxy(num):    #修改当前工作文件夹



def proxypool(num):    n = 1

def test_proxy():    N = 1

end = time.time() lastT = int(

打开host.txt,采集到了有些代理IP

烂片详情页

烂片详情页https://movie.douban.com/tag/烂片

 ●  减轻访问频率,效率 ●  使用代理IP

一般第有些都能做到,第二点减轻访问频率就会大大增加任务时间,而使用代理就能在不增加任务时长补救被封的关键(实际情况表却是任务时间机会代理的使用而增加的,但这里不细说,知道就好)。

第一页https://movie.douban.com/tag/烂片?start=0

第二页https://movie.douban.com/tag/烂片?start=20

第三页https://movie.douban.com/tag/烂片?start=40

始于英语 上代码

你们歌词 都准备抓 国内高匿代理IP网 的八个页面的代理

   for page in range(0, pages*(20+1), 20):

你们歌词 都就只爬烂片标签页的部分数据吧,网页链接规律如下