Skip to content

annaeremina96/airflow_karpov_courses

Repository files navigation

airflow_DA_karpov_courses

Works completed within the Airflow module of the Data Analyst course on the Karpov Courses platform

Задания:

  1. Разбор устройства DAG в Airflow.

Необходимо скопировать DAG из лекции - к себе.

Необходимо выполнить:

  1. Поменять имена dag на уникальные (лучше всего как-то использовать свой логин).

Поставить новую дату начала DAG и новый интервал (все еще должен быть ежедневным)

  1. Удалить таски get_stat и get_stat_com. Вместо них сделать свои собственные, которые считают следующие:
  • Найти топ-10 доменных зон по численности доменов
  • Найти домен с самым длинным именем (если их несколько, то взять только первый в алфавитном порядке)
  • На каком месте находится домен airflow.com?
  1. Финальный таск должен писать в лог результат ответы на вопросы выше

image

Файл с кодом в репозитории

Оценка: 8/8

+2 DAG задан корректно

  1. +2 все ок
  2. +2 все ок
  3. +2 все ок
  1. Создаем свой собственный DAG.

Используем Airflow для решения аналитических задач. Будем использовать следующие данные: https://git.lab.karpov.courses/lab/airflow/-/blob/master/dags/a.batalov/vgsales.csv

Сначала определим год, за какой будем смотреть данные. Сделать это можно так:

  • в питоне выполнить 1994 + hash(f‘{login}') % 23, где {login} - ваш логин (или же папка с дагами)

Дальше нужно составить DAG из нескольких тасок, в результате которого нужно будет найти ответы на следующие вопросы:

  • Какая игра была самой продаваемой в этом году во всем мире?
  • Игры какого жанра были самыми продаваемыми в Европе? Перечислить все, если их несколько
  • На какой платформе было больше всего игр, которые продались более чем миллионным тиражом в Северной Америке? Перечислить все, если их несколько
  • У какого издателя самые высокие средние продажи в Японии? Перечислить все, если их несколько
  • Сколько игр продались лучше в Европе, чем в Японии?

Оформлять DAG можно как угодно, важно чтобы финальный таск писал в лог ответ на каждый вопрос. Ожидается, что в DAG будет 7 тасков. По одному на каждый вопрос, таск с загрузкой данных и финальный таск который собирает все ответы.

image

Файл с кодом в репозитории

Оценка: 12/12

+2 DAG задан корректно

  1. +2 все ок
  2. +2 все ок
  3. +2 все ок
  4. +2 все ок
  5. +2 все ок

About

Works completed within the Airflow module of the Data Analyst course on the Karpov Courses platform

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages