transform_df.py

# -*- coding: utf-8 -*-
"""transform_df.ipynb

Automatically generated by Colaboratory.

Original file is located at
    https://colab.research.google.com/drive/1q-f8ZWASQuX2gzqkXC3VkweQbKEJYCi-
"""

def transform(df: DataFrame) -> DataFrame:
    '''
    So we can write default code block that can work despite the content of a datasetcleans data
    This could be
      - remooving duplicates
      - droping empty cells
      - removing outliers

    '''

    # Removing duplicates
    df.drop_duplicates()

    # Droping null values
    df.dropna(inplace=True)

    # Removing outliers
    def remove_outliers(df,columns,n_std):
        for col in columns:
          print('Working on column: {}'.format(col))
        
          mean = df[col].mean()
          sd = df[col].std()
        
          df = df[(df[col] <= mean+(n_std*sd))]
        
        return df
        return df