Skip to content

wenhuazang/spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

spider

网络爬虫最简单的是直接获取 对应 url 的网页源码,然后根据网页源码分析定位要爬取的内容,所需要的 两个主要的 python 包:

requests + etree

分别用于网页源码的获取和定位爬取要下载的数据。

但是,爬取网页的时候经常遇到翻页的情况:翻页时候URL没有发生变化,且网页源码并没有给出URL,那么久不能简单通过URL来进行跳转定位网页。

这种技术就是 Ajax的 动态页面加载:只和服务器交换少量的数据并不改变整个网页,能够实现异步更新网页且只对网页的数据进行部分更新。

Ajax的 动态页面加载:

具体步骤,

(1)获取URL

(2)发送 request 参数请求给 server

(3)server 根据 parameter 发送信息给 浏览器

(4)浏览器接收数据,抓取想要的数据

下面以携程旅游评论为例http://you.ctrip.com/sight/haerbin151/7700.html

About

spider for review data

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages