Skip to content

Latest commit

 

History

History
9 lines (8 loc) · 904 Bytes

readme.md

File metadata and controls

9 lines (8 loc) · 904 Bytes

爬虫通过读取表格来工作,表格内容一般如下:

学院名 网址 教师 姓名 职称 学系名 研究领域
财务管理与会计研究院 https://ifas.xmu.edu.cn/szdw/hjx.htm
https://ifas.xmu.edu.cn/szdw/hjx/1.htm
//div[@class="course-detail"]/a ./../h4//text() ./../p[last()]//text() //div[@class="container"]/h1//text()

  • 学院名: 此列一般直接填学院名,可以在末尾以"=>"连接学系名,例如: 数理学院=>数学系。如果之后的学系名一栏不为空,则此处的学系名之后将被覆盖。
  • 网址: 可以有多个网址,以换行符隔开,爬虫会执行一次去重操作。如必要可以使用列表生成式生成多个网址,例如: ['https://www.med.cam.ac.uk/staff/division/infectious-diseases/?fwp_paged={0}'.format(i) for i in range(2,11)]
  • 教师: