网络爬虫最简单的是直接获取 对应 url 的网页源码,然后根据网页源码分析定位要爬取的内容,所需要的 两个主要的 python 包:
requests + etree
分别用于网页源码的获取和定位爬取要下载的数据。
但是,爬取网页的时候经常遇到翻页的情况:翻页时候URL没有发生变化,且网页源码并没有给出URL,那么久不能简单通过URL来进行跳转定位网页。
这种技术就是 Ajax的 动态页面加载:只和服务器交换少量的数据并不改变整个网页,能够实现异步更新网页且只对网页的数据进行部分更新。
Ajax的 动态页面加载:
具体步骤,
(1)获取URL
(2)发送 request 参数请求给 server
(3)server 根据 parameter 发送信息给 浏览器
(4)浏览器接收数据,抓取想要的数据