知乎爬虫

需要个入参 q，相当于在输入框随便输入，根据接口返回循环获取搜索词的所有文章内容，并且根据 id 获取对应的文章所有评论，使用 cheerio 解析文本，获取 img 下载到本地，并且替换输出的文件内的 src 为本地文件路径,文件会输出到 static/关键词/id 下，deal.txt - 处理 content 只保留文本内容+替换 img 的 src origin.txt - 保留源文件 content+所有的评论数据 {index}.jpg 等，添加了爬取完上传服务器的操作，根据需要修改

爬取难点在于 x_zse_96 解密，每个接口请求都会动态生成 x_zse_96

封装的 axios 主要目的是为了请求时候每个接口调用动态 ip 接口（网上有卖的服务商），防止自己的唯一 ip 被封禁，请求头添加了 user-agent，也是为了防止被封禁

npm i
npm start

爬取数据 http://localhost:3000/api/zhihu?q=想要搜索的词

⚠️ 注：本地运行环境需要 canvas，如果安装不上参考 https://www.jianshu.com/p/c6a2c2ed10f8

服务器上装不上 canvas 的话参考 https://codeleading.com/article/81245562517/

大部分坑已踩，有任何问题可以留言讨论！

2023.10.27 更新

新增爬取热榜（热榜数据来源参照（https://github.com/justjavac/zhihu-trending-hot-questions）将项目 clone 到本地或者服务器上，有能力的可以调用 github 接口获取 raw 文件夹下所有文件等，本项目为了快速采集，分成了 4 年的）

新增爬取热门收藏夹

新增爬取专栏

暂时取消评论爬取（太慢了，容易被检测到人机验证）

2023.11.06 更新

新增定时爬取任务（自动任务，爬取漏掉的数据），每天定时爬取当日热榜，数据入 mysql 库，自动创建入库表结构，按照日期月方式分表创建，防止大数据量爆库

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
bin		bin
controller		controller
public		public
routes		routes
views		views
.gitignore		.gitignore
README.md		README.md
app.js		app.js
package-lock.json		package-lock.json
package.json		package.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

bin

bin

controller

controller

public

public

routes

routes

views

views

.gitignore

.gitignore

README.md

README.md

app.js

app.js

package-lock.json

package-lock.json

package.json

package.json

Repository files navigation

知乎爬虫

2023.10.27 更新

2023.11.06 更新

About

Releases

Packages

Languages

xingqiangqiang/zhihu-reptile

Folders and files

Latest commit

History

Repository files navigation

知乎爬虫

2023.10.27 更新

2023.11.06 更新

About

Topics

Resources

Stars

Watchers

Forks

Languages