Skip to content

ryyos/CNN-scraping.PY

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Hello 👋, I'm Ryo

An independent backend developer

Welcome To CNN-Scraping.PY🧣

Program ini digunakan untuk mengambil data dari website berita CNN

Feature

  • penggunaan requests daripada webdriver (selenium/playwright) sehingga dapat berjalan lebih cepat dan ringan
  • penggunaan Pyquery dari pada BS4 (Beautiful soup) sehingga lebih mudah untuk memparser (filter) content HTML untuk mengambil data yang di butuhkan
  • penggunaan logging untuk mempermudah dalam memonitoring data
  • mengambil data mulai dari berita yang paling update
  • dapat mengambil 1000 page berita dalam 1 kali run

Tech

  • icecream adalah library Python yang menyediakan cara sederhana dan informatif untuk mencatat kode, membantu memantau alur eksekusi program.
  • requests adalah library Python yang mudah digunakan untuk berinteraksi dengan API dan membuat permintaan HTTP.

Requirement

Installation

Untuk menjalankan program ini Anda perlu menginstal beberapa librarys dengan perintah

pip install -r requirements.txt

How To Run ?🤔

# Clone this repositories
git clone https://github.com/ryosoraa/CNN-scraping.PY.git

# go into the directory
cd CNN-scraping.PY

Untuk menjalankan Programnya kamu hanya perlu menjalankan dengan command

python main.py

🚀Structure

│   LICENSE
│   main.py
│   README.md
│   requirements.txt
│
├───data
└───libs
    │   __init__.py
    │
    ├───service
    │       cnn.py
    │
    └───utils
            corrector.py
            logs.py
            parser.py
            writer.py

Author

👤 Rio Dwi Saputra

Ryo's LinkedIn Ryo's Instagram