Você está na página 1de 10

Ferramentas e Bibliotecas para

Cientistas de Dados
Aula 01 - 4 de Abril de 2022 às 20h

⌛ Chegou a hora!
4 aulas completas.

Habilidades para conquistar sua vaga na área de Ciência de Dados.

Minha história na área de dados.

O que as empresas realmente buscam.

🔓 Maratona Ciência de Dados


Importância dos dados.

Era do Big Data.

Área multidisciplinar (profissão mais sexy do século).

Estratégia de estudo para alcançar seus objetivos de forma + rápida.

Por que programação é tão importante.

print("Gratidão")

Ferramentas e Bibliotecas para Cientistas de Dados 1


‼ Muitas coisas acontecerão
Usar o Notion para documentação de projeto.

Criar seu portfólio e subir seu projeto no GitHub.

Utilizar bibliotecas para análise de dados e visualização.

Entender a importância dos projetos em Ciência de Dados.

Dominar um fluxo de projeto em Ciência de Dados.

Implementar um algoritmo de Machine Learning usando biblioteca Scikit-Learn

Saber quais soft skills são fundamentais para o profissional de dados.

📣 Compartilhe resultados
Divulguem as tarefas propostas.

Não deixem de marcar no Instagram ❤


#rumoanetuno

⚙ Como funciona a Jornada #rumoanetuno


Conteúdo Gratuito 🎉
YouTube, Instagram, LinkedIn, Roadmap

DataClass: Sua primeira solução em Ciência de Dados

Maratona Ciência de Dados: do zero a primeira vaga 📍


Método Voyager: Você vai se tornar Especialista em Dados

Neuron Lab

🎁 Não esqueça o seu presente


Materiais da Aula enviado via WHATSAPP

Entre no grupo, link na descrição.

Disponível a partir de amanhã às 12h.

Códigos e Conjuntos de Dados.

Ferramentas e Bibliotecas para Cientistas de Dados 2


🏗 Crie sua ponte
Onde você está hoje?

Quais sua principais dificuldades pra começar?

1. Saber por onde começar

2. Falta de conhecimentos técnicos

3. Tempo

4. Medo

5. Falta de Experiência

Eu gosto de pensar de duas formas

1. Vai exigir dedicação e esforço, mas vai valer a pena.

2. Ou agora ou jaja

⚠ Beber a água limpa é sempre melhor


🤝 Vamos fazer um acordo?
Você vai executar o que eu te falar aqui por pelo menos um mês.

Você vai criar sua conta no Google Colab

Você vai criar sua conta no GitHub

Você se compromete a subir pelo menos mais um projeto (além do nosso) até o final do ano.

De 0 a 10, qual o seu comprometimento para fechamos esse acordo?

No último dia vou te perguntar de novo.

🎓 O que eu quero que você entenda


Você não precisa ficar 5 anos estudando pra só então começar.

Você não precisa de um diploma, nem certificados.

Aprenda a resolver problemas!

As vagas não param de aparecer e FALTAM PROFISSIONAIS QUALIFICADOS.

Ferramentas e Bibliotecas para Cientistas de Dados 3


Isso precisa acabar!

🛣 Existe um caminho
Vamos mudar o jogo?

Dados são a melhor ideia.


Dados estão em todo lugar e são a matéria-prima da informação

Todo dia produzimos mais dados → Drones, Apps, Browser, Cameras, Localização, etc.

5Vs (Volume, Velocidade, Variedade, Veracidade e Valor)

2.5 quintilhões de bytes de dados todos os anos.

Mais dados foram coletados nos últimos anos do que em toda a história da humanidade.

O novo petróleo 🛢📊

Ferramentas e Bibliotecas para Cientistas de Dados 4


Para onde vão todos esses dados criados? Como organizar, acessar, manipular esses
dados?

Estimativa de dados armazenados → 44 zettabytes de dados

Fonte dos Dados

Onde os dados ficam armazenados;

Existem N formas de se armazenar dados.

Planilhas Eletrônicas, Banco de Dados, Arquivos CSV, ERP, APIs, Scraping;

Uma das primeiras etapas do projeto → Coleta de Dados

Refinando o Bruto

Matéria-prima da Informação

Commodity primária, um material "não processado".

Área multidisciplinar

Sim, você vai precisar ter um leque de habilidades.

Estatística → Fornece métodos e técnicas

Probabilidade → Lidar com a incerteza

Matemática → Background dos algoritmos

Inteligência Artificial → Padrões e predição

Soft Skills Importantes

Ferramentas e Bibliotecas para Cientistas de Dados 5


Criatividade, Comunicação, Ceticismo e Perserverança.

O grande diferencial: Programação 💻


"Victor, programação é a minha maior barreira"

"Victor, preciso saber programação?"

"Victor, quero trabalhar com dados mas não quero programar."

Tudo é um algoritmo! (alguns são computacionais)

Algoritmo da Amizade (The Big Bang Theory).

Trocar uma lâmpada.

Fritar uma ovo.

Predição de custos de uma campanha de Marketing.

Mas eu preciso saber tudo? Não!

Você precisa saber conceitos que os conceitos essenciais que formam a base.

Exemplo

Programação

Variáveis e tipos de dados, Estruturas Lógicas e Condicionais, Estrutura de


Repetição, Coleções e Funções.

Qual idioma preciso falar? Ops! Linguagem de Programação

Qual a melhor ferramenta? Existem várias!

Escolha a que resolve o seu problema! Martelo ou chave de fenda?

Na área de dados: Python e R

Onde tenho que escrever esses algoritmos computacionais?

Google Colab

Ferramentas e Bibliotecas para Cientistas de Dados 6


Google Colaboratory

https://colab.research.google.com/drive/1WWajWgf11jKvlMLCOE
mNYR_TeYSED2xR?usp=sharing

Apenas um conta de e-mail (gmail)

Na nuvem ☁
Bibliotecas pré-instaladas, GPUs

0800 🤟
Posso usar alguma outra? Claro!

Jupyter Notebook

Visual Studio Code

Sublime

Não reinvente a roda, use bibliotecas!

Desempenham um papel vital no desenvolvimento em diversas áreas da tecnologia, e é


claro, aqui não é diferente.

Por quais você deve começar?

pandas
pandas is a fast, powerful, flexible and easy to use open source
data analysis and manipulation tool, built on top of the Python
programming language.
https://pandas.pydata.org/

Ferramenta de manipulação e análise de dados. (PODEROSA D+)

99.9% das empresas que trabalham com dados utilizam.

Código aberto, poderosa, flexível e fácil de usar.

Projetado para lidar com dados bidimensionais.

Semelhante as planilhas do Excel.

Fornecem métodos prontos pra você executar em cima dos seus dados.

Vamos colocar a mão na massa?

Ferramentas e Bibliotecas para Cientistas de Dados 7


Datasets - Google Drive

https://drive.google.com/drive/folders/1S82BLgDRpEKJH
w71gr51Zv4pPAo0RAKq?usp=sharing

Vamos começar a ver alguns métodos importantes 👇


df.read_csv()

pd.read_excel()

df.head()

df.info()

df.shape

df.describe()

Tutorials - Matplotlib 3.4.3 documentation


This page contains more in-depth guides for using Matplotlib. It is
broken up into beginner, intermediate, and advanced sections, as
well as sections covering specific topics. For shorter examples,
https://matplotlib.org/stable/tutorials/index.html

seaborn: statistical data visualization - seaborn 0.11.2 documentation


Seaborn is a Python data visualization library based on matplotlib. It provides
a high-level interface for drawing attractive and informative statistical
graphics. For a brief introduction to the ideas behind the library, you can read
https://seaborn.pydata.org/

Bibliotecas úteis para Visualização de Dados

Fornece vários métodos para visualizar os dados de uma forma eficaz

Ferramentas e Bibliotecas para Cientistas de Dados 8


Permite que você crie de forma rápida linhas, gráficos de pizza, histogramas e
outras visualizações em outro nível.

df.boxplot()

sns.pairplot()

sns.heatmap()

Material Exclusivo do Método Voyager sobre Correlação

Correlação.pdf

https://drive.google.com/file/d/1EgApPbxShAXTJsJzo63
WGElJWVBx7noS/view?usp=sharing

As máquinas pensam?

Inteligência Artificial? Eu vi isso em uma propaganda!

Mas começou agora?

Allan Turing (1950)

Dartmouth Conference (1956)

Desde o Século 17 (Máquinas com Inteligência Humana)

Apesar dos avanços 😔


Poder computacional

Dados

Não é mais o futuro, já está aqui!

⚠ Tarefa #01
👉 Você vai criar sua conta no Google Colab
👉 Você vai criar sua conta no GitHub
👉 Material Exclusivo do Método Voyager sobre Correlação

Ferramentas e Bibliotecas para Cientistas de Dados 9


🔥 É só o começo! Você vem amanhã?
Aula 2: Ideias de projetos em Ciência de Dados

Já agenda o lembrete, link na descrição.

Participe do grupo no Whatsapp e receba todos os materiais das aulas.

Não esqueça o acordo que fizemos.

‼ Muitas coisas AINDA acontecerão


Criar seu portfólio e subir seu projeto no GitHub.

Entender a importância dos projetos em Ciência de Dados.

Dominar um fluxo de projeto em Ciência de Dados.

Implementar um algoritmo de Machine Learning usando biblioteca Scikit-Learn

Saber quais soft skills são fundamentais para o profissional de dados.

📣 Compartilhe resultados
Divulguem as tarefas propostas.

Não deixem de marcar no Instagram ❤


#rumoanetuno

Ferramentas e Bibliotecas para Cientistas de Dados 10

Você também pode gostar