Skip to content

Uma lista com curadoria de cursos gratuitos de universidades conceituadas que atendem aos requisitos de um currículo de graduação em Ciência de Dados, menos educação geral. Com projetos, materiais de apoio em uma estrutura organizada.

marcoshsq/Curriculo_Autodidata_Dados

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 

Repository files navigation

Developer Roadmap

Currículo Autodidata em Ciência de Dados



Sumário de Conteúdo


Sobre

Bem-vindo a esse Currículo de Formação Autodidata em Dados, uma lista de cursos gratuitos de universidades renomadas como Stanford, Johns Hopkins e Colorado e outras.

Minha intenção ao criar esse projeto era aprender ciência de dados de forma gratuita, principalmente quando vi que existe muito conteúdo gratuito e bom na internet, por isso fiz minha pesquisa e organizei da forma mais coerente que encontrei.

Inicialmente eu criei esse guia para mim, mas se quiser usar também é só clonar e fazer os cursos que estão aqui presentes, caso faça sentido pra você ;)

Para construir este currículo consultei diferentes fontes que podem ser encontradas na seção Referências no final deste README.


Metas de Aprendizado

Meu foco principal é aprender o conteúdo seguindo este roteiro aqui, criado pelo pessoal da AI Expert.

Mas aqui está uma lista geral de conceitos e habilidades que quero aprender ao final deste "curso":

  1. Proficiência em Programação:

    • Python é a principal linguagem para manipulação e implementação de modelos de dados, além de ser a principal ferramenta de inteligência artificial, sendo assim, é a linguagem mais explorada neste currículo.

    • Proficiência em R para análise estatística, visualização e exploração de dados estatísticos.

    • Rust é uma linguagem muito usada para engenharia de dados e implementação de modelos de IA, não preciso dizer mais nada.

  2. Bancos de dados, Business Intelligence e Data Warehousing:

    • Conhecimento de sistemas de gerenciamento de banco de dados, com ênfase em bancos de dados relacionais e não relacionais.

    • Proficiência em ferramentas de Business Intelligence (BI) para análise de dados e tomada de decisões.

    • Compreender os meandros do Data Warehousing para garantir armazenamento e recuperação eficientes de grandes conjuntos de dados.

  3. Inteligência Artificial:

    • Compreensão do desenvolvimento e aplicação de algoritmos de aprendizado de máquina para modelagem preditiva e reconhecimento de padrões.

    • Deep Learning: Aprofundando-se nas redes neurais, explorando arquiteturas e frameworks como TensorFlow e PyTorch.


Seção 01 - Fundamentos

Nesta seção, o objetivo é aprender o básico sobre dados, mas, mais importante, tornar-se "alfabetizado" em dados, entendendo como é possível transformar dados em informação.

Essa seção possui em média 128h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.

Curso Oferecido por Esforço de Certificado, se aplicável Status
Dados – O Que São, O Que Podemos Fazer Com Eles Johns Hopkins University ~11h -- --
Medição – Transformando Conceitos em Dados Johns Hopkins University ~11h -- --
Quantificando Relações com Modelos de Regressão Johns Hopkins University ~11h -- --
Quais são as chances? Probabilidade e Incerteza na Estatística Johns Hopkins University ~10h -- --
Ciência de Dados como Campo University of Colorado ~10h -- --
A Caixa de Ferramentas do Cientista de Dados Johns Hopkins University ~18h Certificado de Conclusão
Questões Éticas em Ciência de Dados University of Colorado ~23h -- --
Cibersegurança para Ciência de Dados University of Colorado ~19h -- --
Fundamentos da Visualização de Dados University of Colorado ~14h -- --

Seção 02 - Matemática e Estatística Aplicada em Dados e Computação

Matemática é a área mais importante para ciência de dados, logo, acredito que a melhor forma de aprender seja por livros ou mesmo fazendo uma graduação em estatística, ou matemática aplicada, como já sou graduado em estatística, coloquei apenas alguns cursos específicos, mas nada muito profundo, recomendo fortemente as referências bibliográficas para um estudo mais aprofundado em matemática e estatística.

Essa seção possui em média 400h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.

Matemática 01:

Curso Oferecido por Esforço de Certificado, se aplicável Status
Pensamento Matemático em Ciência da Computação UC San Diego ~41h -- --
Combinatória e Probabilidade UC San Diego ~23h -- --
Introdução à Teoria dos Grafos UC San Diego ~20h -- --
Teoria dos Números e Criptografia UC San Diego ~16h -- --
Problema de Entrega UC San Diego ~13h -- --
Álgebra Linear para Aprendizado de Máquina e Ciência de Dados DeepLearning.AI ~34h -- --
Cálculo para aprendizado de máquina e ciência de dados DeepLearning.AI ~25h -- --
Probabilidade e estatística para aprendizado de máquina e ciência de dados DeepLearning.AI ~33h -- --

Matemática 02:

Curso Oferecido por Esforço de Certificado, se aplicável Status
Bioestatística 1 Johns Hopkins University ~13h -- --
Bioestatística 2 Johns Hopkins University ~11h -- --
Modelos Lineares 1: Mínimos Quadrados Johns Hopkins University ~08h -- --
Modelos Lineares 2: Modelos Estatísticos Johns Hopkins University ~05h -- --
Modelos Gráficos Probabilísticos 1: Representação Stanford University ~66h -- --
Modelos Gráficos Probabilísticos 2: Inferência Stanford University ~38h -- --
Modelos Gráficos Probabilísticos 3: Aprendizagem Stanford University ~66h -- --

Seção 03 - Programação para Ciência de Dados

Essa seção é focada em linguagens de programação usadas na área de dados, para isso eu selecionei 3, Python, R e Rust. As três linguagens são amplamente usadas, são padrões na indústria, possuem um monte de bibliotecas para dados, mas mais importante, quando eu pesquiso "Ciência de Dados" no LinkedIn, Python é a principal linguagem cobrada, todo curso de Estatística é dado em R, e Rust parece ser super legal de aprender... logo, essas são as linguagens que vamos aprender.

Essa seção possui em média 900h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo, e é a parte mais longa do currículo.

Seção 03-A - Linguagem Python para Análise de Dados

Curso Oferecido por Esforço de Certificado, se aplicável Status
Noções básicas de Python University of Michigan ~34h Certificado de Conclusão
Funções, arquivos e dicionários em Python University of Michigan ~31h Certificado de Conclusão
Coleta e processamento de dados com Python University of Michigan ~16h Certificado de Conclusão
Classes e Herança Python University of Michigan ~17h -- --
Compreendendo e visualizando dados com Python University of Michigan ~19h -- --
Análise Estatística Inferencial com Python University of Michigan ~21h -- --
Ajustando modelos estatísticos a dados com Python University of Michigan ~14h -- --
Introdução à Álgebra Linear e Python Howard University ~12h -- --
Conceitos fundamentais de álgebra linear com Python Howard University ~10h -- --
Construindo Modelos de Regressão com Álgebra Linear Howard University ~06h -- --
Cálculo Aplicado com Python Johns Hopkins University ~23h -- --
Introdução à ciência de dados em Python University of Michigan ~34h -- --
Plotagem, gráficos e representação de dados aplicados em Python University of Michigan ~24h -- --
Aprendizado de máquina aplicado em Python University of Michigan ~31h -- --
Mineração de texto aplicada em Python University of Michigan ~25h -- --
Análise Aplicada de Redes Sociais em Python University of Michigan ~26h -- --

Seção 03-B - Linguagem R para Análise e Modelagem Estatística

Curso Oferecido por Esforço de Certificado, se aplicável Status
Programação R Johns Hopkins University ~57h -- --
Programação R Avançada Johns Hopkins University ~18h -- --
Construindo Pacotes R Johns Hopkins University ~20h -- --
Introdução ao Tidyverse Johns Hopkins University ~07h -- --
Importando dados no Tidyverse Johns Hopkins University ~15h -- --
Organização de dados no Tidyverse Johns Hopkins University ~14h -- --
Visualizando dados no Tidyverse Johns Hopkins University ~16h -- --
Modelando dados no Tidyverse Johns Hopkins University ~21h -- --
Introdução à visualização de dados em R Johns Hopkins University ~11h -- --
Visualização de dados em R com ggplot2 Johns Hopkins University ~12h -- --
Visualização de dados avançada com R Johns Hopkins University ~10h -- --
Publicação de visualizações em R com Shiny e flexdashboard Johns Hopkins University ~11h -- --

Seção 03-C - Linguagem Rust para Engenharia de Dados e LLM

Curso Oferecido por Esforço de Certificado, se aplicável Status
Fundamentos da Rust Duke University ~40h -- --
Engenharia de dados com Rust Duke University ~63h -- --
Rust para DevOps Duke University ~18h -- --
Python e Rust com ferramentas de linha de comando do Linux Duke University ~20h -- --
Rust para LLMOps Duke University ~16h -- --

Seção Bônus - Estruturas de dados e Algoritmos

Curso Oferecido por Esforço de Certificado, se aplicável Status
Algoritmos para pesquisa, classificação e indexação University of Colorado Boulder ~35h -- --
Árvores e gráficos: noções básicas University of Colorado Boulder ~34h -- --
Programação dinâmica, algoritmos gananciosos University of Colorado Boulder ~37h -- --
Algoritmos de Aproximação e Programação Linear University of Colorado Boulder ~48h -- --
Estruturas de dados avançadas, algoritmos RSA e quânticos University of Colorado Boulder ~37h -- --

Seção 04 - Mineração de Dados

Nessa seção eu quero aprender técnicas de mineração de dados tanto para dados estruturados, quanto para dados não estruturados que existem na forma de texto em linguagem natural. Os tópicos específicos dos cursos incluem descoberta de padrões, clustering, recuperação de texto, mineração e análise de texto e visualização de dados.

Essa seção possui em média 112h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.

Curso Oferecido por Esforço de Certificado, se aplicável Status
Visualização de dados University of Illinois ~15h -- --
Recuperação de texto e motores de busca University of Illinois ~30h -- --
Mineração e análise de texto University of Illinois ~33h -- --
Descoberta de padrões em mineração de dados University of Illinois ~17h -- --
Análise de Cluster em Mineração de Dados University of Illinois ~16h -- --

Seção 05 - Bancos de dados, SQL e Big Data

Acredito que preciso descrever porque temos uma seção de SQL e Big Data... Com isso posto, aqui estão ótimos cursos que visam ensinar essas habilidades relacionadas a Banco de Dados e Big Data.

Essa seção possui em média 160h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.

Curso Oferecido por Esforço de Certificado, se aplicável Status
Design de banco de dados relacional University of Colorado ~34h -- --
A linguagem de consulta estruturada (SQL) University of Colorado ~26h -- --
Tópicos Avançados e Tendências Futuras em Tecnologias de Banco de Dados University of Colorado ~16h -- --
Introdução ao Big Data University of California ~17h -- --
Modelagem de Big Data e Sistemas de Gestão University of California ~13h -- --
Integração e processamento de Big Data University of California ~17h -- --
Aprendizado de máquina com Big Data University of California ~23h -- --
Análise gráfica para Big Data University of California ~13h -- --

Seção 06 - Computação na Nuvem

Cloud é extremamente importante em tecnologia hoje em dia, porém, esse projeto já passou por algumas iterações, e não só tecnologia evolui, como temos diversos serviços de Cloud, por isso os cursos aqui são mais teóricos do que treinamentos, acredito que aprendendo a base do que é computação em nuvem, fica muito mais fácil escolher usar Azure ou AWS.. etc.

Essa seção possui em média 100h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.

Curso Oferecido por Esforço de Certificado, se aplicável Status
Conceitos de computação em nuvem, parte 1 University of Illinois ~23h -- --
Conceitos de computação em nuvem: parte 2 University of Illinois ~19h -- --
Sistemas e infraestrutura em nuvem University of Illinois ~15h -- --
Big Data e aplicações na nuvem University of Illinois ~19h -- --
Rede em nuvem University of Illinois ~22h -- --

Seção 07 - Aprendizado de Maquina

Aprendemos análise de dados, Python e Big Data... agora juntamos tudo isso e aplicamos IA nisso, as próximas três seções exploram isso, começando por Machine Learning. Os cursos a seguir fornecem uma ampla introdução ao aprendizado de máquina moderno, incluindo aprendizado supervisionado (regressão linear múltipla, regressão logística, redes neurais e árvores de decisão), aprendizado não supervisionado (clustering, redução de dimensionalidade, sistemas de recomendação) e algumas das melhores práticas usadas em Silicon.

Essa seção possui em média 148h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.

Curso Oferecido por Esforço de Certificado, se aplicável Status
Aprendizado de Máquina Supervisionado: Regressão e Classificação DeepLearning.AI ~33h -- --
Algoritmos de Aprendizagem Avançada DeepLearning.AI ~34h -- --
Aprendizagem não Supervisionada, Recomendações, Aprendizagem por Reforço DeepLearning.AI ~37h -- --
Introdução ao TensorFlow DeepLearning.AI ~17h -- --
Redes Neurais Convolucionais no TensorFlow DeepLearning.AI ~16h -- --
Processamento de linguagem natural no TensorFlow DeepLearning.AI ~24h -- --
Sequências, Séries Temporais e Previsão DeepLearning.AI ~22h -- --

Seção 08 - Aprendizado Profundo

Dando continuidade aos estudos de IA, passamos ao Deep Learning, que basicamente são técnicas mais complexas para trabalhar com dados não estruturados, como imagens. Os cursos dessa seção exploram essas técnicas e aplicações.

Essa seção possui em média 127h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.

Curso Oferecido por Esforço de Certificado, se aplicável Status
Redes Neurais e Aprendizado Profundo DeepLearning.AI ~24h -- --
Melhorando Redes Neurais Profundas DeepLearning.AI ~23h -- --
Estruturação de Projetos de Aprendizado de Máquina DeepLearning.AI ~06h -- --
Redes Neurais Convolucionais DeepLearning.AI ~35h -- --
Modelos de sequência DeepLearning.AI ~37h -- --

Seção 09 - Processamento de Linguagem Natural

Finalizando os estudos (introdutórios) de IA com NLP, que é o estudo de técnicas para o reconhecimento e análise de linguagem natural, que é a forma como nós escrevemos e falamos. Essa tecnologia é uma das áreas de aprendizado de máquina mais amplamente aplicadas e é fundamental para a análise eficaz de grandes quantidades de dados não estruturados e com muito texto. À medida que a IA continua a expandir-se, também aumenta a procura por profissionais qualificados na construção de modelos que analisem a fala e a linguagem, descubram padrões contextuais e produzam insights a partir de texto e áudio. Os cursos a seguir visam ensinar a realizar isso.

Essa seção possui em média 112h de conteúdo, sem considerar o tempo para resolução de exercícios e assimilação do conteúdo.

Curso Oferecido por Esforço de Certificado, se aplicável Status
NLP com classificação e espaços vetoriais DeepLearning.AI ~33h -- --
NLP com Modelos Probabilísticos DeepLearning.AI ~30h -- --
NLP com modelos de sequência DeepLearning.AI ~21h -- --
NLP com modelos de atenção DeepLearning.AI ~26h -- --

Seção 10 - Soft Skills

Uma seção para habilidade e conceitos relevantes que não se relacionam a parte técnica e teórica, mas ainda sim, são extremamente relevantes para um profissional de Data Science.

Curso Oferecido por Esforço de Certificado, se aplicável Status
Aprendendo a aprender Deep Teaching Solutions ~15h Certificado de Conclusão
Storytelling & Influência: Comunicar com Impacto Macquarie University ~18h -- --
Faça perguntas para tomar decisões baseadas em dados Google ~21h Certificado de Conclusão

Projetos Obrigatórios

Essa seção contêm os projetos sugeridos para complementar os cursos e consolidar os conteúdos aprendidos aqui, alguns são oferecidos através dos próprios cursos, outros são projeto relevantes que achei legal para complementar.

Proposta de Projeto Repositório, se aplicável Status
Alfabetização em Dados – Avaliando Pesquisas --
Projeto Python: Pillow, Tesseract e OpenCV --
Dominando o desenvolvimento de software em R --
Projeto de Visualização de Dados --
Projeto de Mineração de Dados --
Projeto de Big Data --
Projeto de Computação em Nuvem --
Projeto de Aprendizado de Maquina --

Bibliografía Extra

Além dos cursos deste currículo (eu particularmente prefiro vídeos do que livros), foram utilizados outros materiais como artigos e livros, que são referenciados nesta seção.

Os livros aqui não estão organizados em nenhuma ordem específica.

Livros de Matemática

Livros, artigos e documentação relacionada

Notas e Esclarecimentos

  • A duração dos cursos aqui são estimativas feitas pelas plataformas onde são oferecidos.

  • No momento estou fazendo essa graduação, então o tempo verbal desse readme está um pouco estranho, às vezes no passado, às vezes no futuro, conforme eu fizer isso irei reformatá-lo para melhor relatar minha experiência .

  • Quanto aos livros, minha universidade tem parceria com algumas plataformas, como a O'Reilly, além de uma biblioteca muito grande, onde consegui quase todos, mas se você não tiver acesso... cof cof... tenta ver se eles caem do caminhão... cof cof..., mas se der pra comprar, comprem... cof cof..

Referências

Sources consulted for the construction of this curriculum.

  • OSSU Data Science - A OSSU é uma galera que oferece faculdades para graduação em tech de graça, eles tem uma galera especialista que monta os currículos e coloca os links de onde você consegue estudar aqueles temas de graça, é uma faculdade EAD de graça, que você estuda no seu tempo, é basicamente isso aqui, só que esse repositório é mais personalizado, mas recomendo muito a OSSU, e qualquer um que tente democratizar a educação.
  • AI Expert Roadmap - Novamente, um roteiro para se tornar um especialista em IA, por uma galera que entende de IA.
  • Python Developer - O Roadmap SH é uma plataforma que oferece trilhas de aprendizagem em diversas áreas e ferramentas de tecnologia. Esse link é para o roadmap de Python, mas eles tem muitos outros.
  • PostgreSQL - Roadmap de PostgreSQL para DBA do Roadmap SH.
  • Curso de Estatística da USP - Bacharel em Estatística pela Universidade de São Paulo, que utilizei para guiar alguns dos cursos que escolhi aqui, mas principalmente para escolher os livros.


Developer Roadmap


About

Uma lista com curadoria de cursos gratuitos de universidades conceituadas que atendem aos requisitos de um currículo de graduação em Ciência de Dados, menos educação geral. Com projetos, materiais de apoio em uma estrutura organizada.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published