Scrapy Kaskus Crawler

This Crawler is create to crawl some kaskus thread, like this.

Thread info, user info is saved to sql databases.

Library used

Scrapy
mysqldb

How to Use :

Edit db_base.py change your database setting
Edit kaskus/settings.py, change your scrapy spider setting

Edit kaskus/spiders/new_kaskus_spider.py, change list of thread in this line:

 start_urls = ['http://www.kaskus.co.id/thread/509881921dd719d70e000015']

Or You can do like this too

 start_urls = ['http://www.kaskus.co.id/thread/509881921dd719d70e000015', 'http://www.kaskus.co.id/thread/50c3d3324f6ea10528000001']

And start your crawler with this command
```
 scrapy crawl new_kaskus
```

Notice

The script is still sucks, not follow scrapy standards, use at your own risks.

mail me at clasense4[at]gmail[dot]com

@clasense4

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
kaskus		kaskus
README.md		README.md
db_base.py		db_base.py
db_base.pyc		db_base.pyc
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

kaskus

kaskus

README.md

README.md

db_base.py

db_base.py

db_base.pyc

db_base.pyc

scrapy.cfg

scrapy.cfg

Repository files navigation

Scrapy Kaskus Crawler

Library used

How to Use :

Notice

About

Releases

Packages

Languages

clasense4/scrapy-kaskus-crawler

Folders and files

Latest commit

History

Repository files navigation

Scrapy Kaskus Crawler

Library used

How to Use :

Notice

About

Topics

Resources

Stars

Watchers

Forks

Languages