Skip to content

Freator/Homework_DoubanSpider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

43 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

DoubanSpider

这是一个豆瓣图书爬取项目,将图书的相关信息爬取到Excel文件中, 然后再链接MySQL数据库,将爬取到的数据存入数据库中。
1. 爬取数据
主要爬取了数学、计算机、python、旅行、教育这5个类别的书籍数据(每个类别爬取了5页数据), 每一组书籍数据包括:序号,书名,评分,评价人数,作者,出版社这几个属性。
正在下载
完成下载
可以看到在爬取的过程之中,会有请求失败的情况,因为频繁的网页请求访问很有可能会被限制
2. 数据存储
在爬取了相关数据后,在当前目录下生成了一个Excel表格
当前目录
并且在Excel文件中生成了对应的5个工作表
工作表
每个工作表对应的数据就是我们所爬取的原始数据
原始数据
3. 数据入库
对于生成的原始数据,在进行相关的过滤和处理之后,将其导入到数据库中,以便后续进行操作。
从下图可以看出,我们新建了一个数据库DoubanSpider,然后建立了相关的数据表
建数据库
建数据表
查看表格
在python对MySQL的操作中,需要注意的是字符集的问题,这里我们使用UTF-8
添加数据
添加完成后可以直接查看是否添加正确
查看数据

使用MySQL界面管理工具查看数据更加清晰明了
管理工具

@Author:Freator Tang
@Email:bingcongtang@gmail.com

About

Python课程作业:爬虫爬取豆瓣图书信息

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages