Python如何爬取不确定页数的网页

本文详细分析了如何爬取不知道具体有多少页的网站,然后用scrapy框架实现了这个过程。

一、问题分析

我们通常遇到的网站页数展现形式有这么几种:

  • 第一种是直观地显示所有页数,显示在页面上。
  • 第二种是不直观显示网页总页数,需要抓包才可以看到,一般来说会有一个totalPage参数。
  • 第三种是不知道具体有多少页的网页。

对于,前两种形式的网页,爬取方法非常简单,使用 For 循环从首页爬到尾页就行了,第三种形式则不适用,因为不知道尾页的页数,所以循环到哪一页结束无法判断。

二、解决方案

这里有两种解决方式:

  • 第一种方式:使用 For 循环,尾页的页数设置一个较大的参数,足够循环爬完所有页面。
  • 第二种方法:使用 While 循环,可以结合 break 语句,也可以设起始循环判断条件为 True,从头开始循环爬取直到爬完最后一页,然后更改判断条件为 False 跳出循环,结束爬取。

三、实际案例——scrapy实现

1、For循环实现

Scrapy 中使用 For 循环递归爬取的思路非常简单,即先批量生成所有请求的 URL,包括最后无效的 URL,后续在 parse 方法中添加 if 判断过滤无效请求。

由于 Scrapy 依赖于Twisted框架,采用的是异步请求处理方式,可以边发送请求边解析内容,不会被阻塞,但是这种方法会发送很多无用请求。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
def start_requests(self):
url_lists = []
for i in range(0,500):
req = scrapy.Request(self.url.format(url_tags = self.tags[0],url_start = 20*i,url_genres = self.genres[0]))
url_lists.append(req)
return url_lists


def parse(self, response):
# 判断该页是否有内容,数值定为20是因为无内容时长度是11
if len(response.body) >= 20:
movie = IDItem()
dicts = json.loads(response.body)
data_list = dicts['data']
for data in data_list:
movie['ids'] = data['id']
#...
yield movie

2、While循环实现

While 循环的思路是先从头开始爬取,使用parse()方法进行解析,然后递增页数构造下一页的URL请求,再循环解析,直到爬取完最后一页。这样不会发送无用的请求。但是难以利用scrapy异步的优势。这里构造下一页请求时需要利用parse()方法中的参数,可以使用meta方法来传递参数。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
def start_requests(self):
url_lists = []
for i in range(len(self.genres)):
dict_meta = {'tag_meta':self.tags[0],'page':0,'genre_meta':self.genres[i]}
req = scrapy.Request(self.url.format(url_tags = self.tags[0],url_start = 20*0,url_genres = self.genres[i]),meta = dict_meta)
url_lists.append(req)
return url_lists


def parse(self, response):
# 判断该页是否爬完,数值定为20是因为无内容时长度是11
if len(response.body) >= 20:
movie = IDItem()
dicts = json.loads(response.body)
data_list = dicts['data']
for data in data_list:
movie['ids'] = data['id']
#...
yield movie

# while循环构造url递归爬下一页
tag_meta = response.meta['tag_meta']
genre_meta = response.meta['genre_meta']
page = response.meta['page']
page += 1
dict_meta = {'tag_meta':tag_meta,'page':page,'genre_meta':genre_meta}
yield scrapy.Request(self.url.format(url_tags = tag_meta,url_start = 20*page,url_genres = genre_meta),callback=self.parse,meta=dict_meta)

参考:Python For 和 While 循环爬取不确定页数的网页

赞赏一杯咖啡
0%