2.9 异步加载

一、介绍

有时候我们在用requests抓取页面的时候，得到的结果可能和在浏览器中看到的不一样。这是因为requests获取的都是原始的HTML文档，而浏览器中的页面则是经过JavaScript处理数据后生成的结果，这些数据的来源有多种，可能是通过Ajax加载的，可能是包含在HTML文档中的，也可能是经过JavaScript和特定算法计算后生成的。
对于第一种情况，数据加载是一种异步加载方式，原始的页面最初不会包含某些数据，原始页面加载完后，会再向服务器请求某个接口获取数据，然后数据才被处理从而呈现到网页上，这其实就是发送了一个Ajax请求。
照Web发展的趋势来看，这种形式的页面越来越多。网页的原始HTML文档不会包含任何数据，数据都是通过Ajax统一加载后再呈现出来的，这样在Web开发上可以做到前后端分离，而且降低服务器直接渲染页面带来的压力。
所以如果遇到这样的页面，直接利用requests等库来抓取原始页面，是无法获取到有效数据的，这时需要分析网页后台向接口发送的Ajax请求，如果可以用requests来模拟Ajax请求，那么就可以成功抓取了。

二、认识Ajax

1、打开堆糖网页，搜索‘‘新垣结衣’’后，展现出来的网页的内容只有24张图片，但是下滑右边的滑块到底后，就会刷新出新的图片，不断地下滑就会有新的内容不断刷出来，这是因为每次到底的时候，客户端就向服务器发送了新的请求，获得了新的数据。

使用检查元素可以帮助我们看到这其中发生的变化，在Network中找到XHR类型，这是Ajax的特殊请求类型，

右侧可以看到很多信息，如Request Headers、URL和Response Headers，其中Request Headers中有一个信息为X-Requested-With:XMLHttpRequest，这就标记了此请求是Ajax请求。

点击preview，可以看到其中的信息是前面加载出来的24张图片的信息，并且是是JSON格式的。

在点击response，以及最初的response，可以发现后来的response中的内容并未在前面出现，因此是后来加载的

这里我和原文博主的内容不太一样

接下来，再利用Chrome开发者工具的筛选功能筛选出所有的Ajax请求。在请求的上方有一层筛选栏，直接点击XHR，此时在下方显示的所有请求便都是Ajax请求了

接下来，不断滑动页面，可以看到页面底部有一条条新的微博被刷出，而开发者工具下方也一个个地出现Ajax请求，这样我们就可以捕获到所有的Ajax请求了。

随意点开一个条目，都可以清楚地看到其Request URL、Request Headers、Response Headers、Response Body等内容，此时想要模拟请求和提取就非常简单了。

三、结果提取

1、分析请求

可以发现，这是一个GET类型的请求，请求链接为https://www.duitang.com/napi/blog/list/by_search/?kw=新垣结衣&type=feed&include_fields=top_comments%2Cis_root%2Csource_link%2Citem%2Cbuyable%2Croot_id%2Cstatus%2Clike_count%2Csender%2Calbum&_type=&start=24&_=1525497770697。请求的参数有4个：include_fields、_type、start和_。

随后再看看其他请求，可以发现，它们的前两个参数始终如一。其中start为24，刚好是每次加载图片的个数，而_参数每加载一次，数值就增加一，但是这个初始数值如何得来，我还不清楚。

2、分析响应

图片

这个内容是JSON格式的，浏览器开发者工具自动做了解析以方便我们查看。可以看到，最关键的信息就是data中的object_list，它包含了每个加载图片的信息，其中path中对应的就是每个图片的链接

3、具体代码

import requests
from urllib.parse import urlencode


def open_url(start, num):
    params = {'include_fields': 'top_comments%2Cis_root%2Csource_link%2Citem%2Cbuyable%2Croot_id%2Cstatus%2Clike_count%2Csender%2Calbum',
              '_type': ''}
    params['start'] = str(start)
    params['_'] = str(num)
    url = base_url + urlencode(params)
    # 刚开始忘记使用headers，结果一样可以得到数据，难道堆糖的不是异步加载吗？不然怎么可能呢？
    headers = {'Host': 'www.duitang.com',
               'Referer': 'https://www.duitang.com/search/?kw=%E6%96%B0%E5%9E%A3%E7%BB%93%E8%A1%A3&type=feed',
               'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',
               'X-Requested-With': 'XMLHttpRequest'}
    try:
        response = requests.get(url,headers)
        if response.status_code == 200:
            return response.json()
        else:
            return None
    except requests.RequestException as e:
        print(e)
        return None


# 这个函数是创建一个list好呢？还是直接用yield好呢？
# #爬虫速度变得特别慢，是否是因为yield呢？改进效率问题！
def get_img(response_json):
    for item in response_json.get('data').get('object_list'):
        link = item['photo']['path']
        yield link


# 后缀名中已包含'.'，因为要下载gif，所以对link做了一些改变
def link_extension(link):
    (a, b) = link.rsplit('.', 1)
    if 'gif' in b:
        b = '.' + 'gif'
        return (a+b, b)
    else:
        b = '.' + b
        return (link, b)


def save_img(link, img_name):
    try:
        response = requests.get(link)
        path = 'D:\\My Python\\爬虫\\爬虫数据\\新垣结衣_堆糖\\'
        file_name = path + img_name
        with open(file_name, 'wb') as f:
            f.write(response.content)
    except requests.RequestException as e:
        print(e)
    except IOError as e:
        print(e)

if __name__ == '__main__':
    base_url = 'https://www.duitang.com/napi/blog/list/by_search/?kw=%E6%96%B0%E5%9E%A3%E7%BB%93%E8%A1%A3&type=feed'
    start = 24
    # num参数需要人为获取，因为我不知道怎么获取
    num = 1525482336186
    t = 1
    for i in range(2):
        start += 24*i
        num += 1
        response_json = (open_url(start, num))
        if response_json:
            for link in get_img(response_json):
                (link, extension) = link_extension(link)
                img_name = str(t) + extension
                save_img(link, img_name)
                t += 1
    print('共下载了%d张图片' % (t-1))

Previousscrapy(2)Next2.6 Splash

Last updated 6 years ago