Skip to content

gilzoide/pparker

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

PParker

Aranhas que buscam notícias usando scrapy. Notícias são tiradas dos sites das revistas Galileu, Super Interessante e Mundo Educação.

Dependências

Como rodar

Há uma aranha para cada revista. Para rodar todas, utilize os seguintes comandos:

$ scrapy crawl galileu
$ scrapy crawl super
$ scrapy crawl mundoeducacao

Note que, por enquanto, PParker busca somente 20 notícias, para facilitar os testes. Para baixar todas as notícias disponíveis (o que demora), utilize os seguintes comandos:

$ scrapy crawl -s DEPTH_LIMIT=0 galileu
$ scrapy crawl -s DEPTH_LIMIT=0 super
$ scrapy crawl -s DEPTH_LIMIT=0 mundoeducacao

Para alterar a pasta de destino das notícias, utilize a opção DIRETORIO_SAIDA:

$ scrapy crawl -s DIRETORIO_SAIDA=caminho_das_noticias galileu

Saídas

As notícias coletadas são armazenadas na pasta "noticias", em subpastas específicas da revista e seções da mesma. Cada arquivo é uma notícia individual.

Curiosidade

Por que PParker?

É uma aranha que busca notícias, quem isso te lembra? =P