spider

网络爬虫最简单的是直接获取对应 url 的网页源码，然后根据网页源码分析定位要爬取的内容，所需要的两个主要的 python 包：

requests + etree

分别用于网页源码的获取和定位爬取要下载的数据。

但是，爬取网页的时候经常遇到翻页的情况：翻页时候URL没有发生变化，且网页源码并没有给出URL，那么久不能简单通过URL来进行跳转定位网页。

这种技术就是 Ajax的动态页面加载：只和服务器交换少量的数据并不改变整个网页，能够实现异步更新网页且只对网页的数据进行部分更新。

Ajax的动态页面加载：

具体步骤，

（1）获取URL

（2）发送 request 参数请求给 server

（3）server 根据 parameter 发送信息给浏览器

（4）浏览器接收数据，抓取想要的数据

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
xie_cheng_test.py		xie_cheng_test.py

Provide feedback