Você está na página 1de 5

ONDE ENCONTRAR CONJUNTOS DE DADOS PARA SEUS

PROJETOS

Desenvolver projetos é o melhor jeito para aprender Data Science e mostrar para
o mercado que você tem experiência para resolver problemas de negócios.
Projetos são necessários para quem:

● está começando em Ciência de Dados;


● está se preparando para entrevistas;
● já atua e quer aprender novos conceitos.
Contudo, assim como um pintor precisa de tela e tintas, o Cientista de Dados
precisa de Conjuntos de Dados, os famosos Datasets.
A boa notícia é que muitas organizações disponibilizam diversos conjuntos de
dados de forma aberta.
Para ajudá-lo na tarefa de construir seu portfólio, elaborei uma lista com 12
sites para você encontrar ótimos conjuntos de dados, e minhas recomendações
de datasets para você começar a desenvolver os seus projetos.

SEMANA DO INICIANTE EM DATA SCIENCE | 1


1. FiveThirtyEight

FiveThirtyEight É um site interativo de notícias e esportes que além de ter


visualizações de dados incríveis, disponibiliza em seu GitHub os dados de
alguns projetos muito interessantes, como:
Segurança Aérea
Preços de ingressos da NFL
Consumo de álcool
Estudo sobre drogas
Crimes do sistema do FBI

2. BuzzFeed

O BuzzFeed disponibiliza os conjuntos de dados, análises, bibliotecas,


ferramentas e guias usados em seus artigos no seu GitHub.
Alguns exemplos de datasets que rendem ótimos projetos são:
Aviões de vigilância federal
Zika Vírus
Top 50 de Fake News
Mudanças Climáticas
Dados do FBI sobre armas de fogo

3. Kaggle

No Kaggle, você encontra mais de 50.000 conjuntos de dados, além de cursos ,


projetos de outros profissionais, notebooks e GPU disponíveis para você
desenvolver seus projetos.
Alguns conjuntos de dados que recomendo são:
E-commerce brasileiro
Filmes e programas de TV da Netflix

SEMANA DO INICIANTE EM DATA SCIENCE | 2


Fraudes em transações com cartão de crédito
Programa Social de Segurança Alimentar

Preço de imóveis
Imagens de raio-x

4. Socrata

O Socrata disponibiliza, através da sua Rede de Dados Abertos, fontes de dados


públicos das mais diversas áreas, como, dados governamentais, financeiros,
empresariais, ambientais, econômicos, saúde e educacionais.
Um conjunto de dados bem interessante é o sobre Acidentes de trabalho com
fatalidade nos EUA.

5. Awesome-Public-Datasets no Github

Este GitHub hospeda uma biblioteca de conjuntos de dados públicos incríveis!


Eles são todos classificados por categoria e direcionam você diretamente para o
site de hospedagem. Lá você pode encontrar dados sobre as seguintes áreas:

● Dados Climáticos Globais


● Dados da série temporal de frequência cardíaca
● Banco de dados de acidentes de avião
● Dados agrícolas
● Dados de energia
● Dados de Câncer
● Processamento de Linguagem Natural

6. Conjuntos de dados públicos do Google

Você pode buscar conjuntos de dados hospedados em diversos sites utilizando


a ferramenta de busca mais famosa, O Google , através da sua ferramenta
Dataset Research.

SEMANA DO INICIANTE EM DATA SCIENCE | 3


7. UCI Machine Learning Repository

A Universidade da Califórnia em Irvine hospeda conjuntos de dados como um


serviço para a comunidade de aprendizado de máquina. Esses conjuntos de
dados são bons porque a maioria deles está limpa e pronta para modelagem.
Aqui estão alguns exemplos:
Consumo de energia elétrica
Câncer de mama
Anúncios de Internet
Desempenho de carteira de ações

8. Data.gov

O Data.gov permite que você baixe e explore dados de várias agências


governamentais americanas, lá você pode encontrar dados sobre: tráfego,
orçamento, aborto, saúde, varejo e muito mais.

9. Portal Brasileiro de Dados Abertos

Através do Portal Brasileiro de Dados Abertos, o governo brasileiro disponibiliza


dados públicos de diversos órgãos, setores e instâncias públicas.
Lá você pode encontrar dados de órgãos como o SUS, IBGE, IPEA, MEC e outros;
sobre temas como economia, saúde, educação, investimento público etc;
referentes tanto à federação, como aos estados e municípios.
Alguns datasets de destaque são:
Microdados do Censo Escolar
Compras Públicas do Governo Federal
Série Histórica de Preços de Combustíveis

SEMANA DO INICIANTE EM DATA SCIENCE | 4


10. 0pen Government Data (OGD) Platform India

A OGD Platform India é a plataforma de dados abertos do Governo da Índia. Este


portal é super bem construído e centraliza o acesso a visualizações e conjuntos
de dados de diversos setores do governo.
Aqui estão alguns exemplos:
Estatística das prisões
Mortes Acidentais e Suicídios

11. Torrents acadêmicos

Academic Torrents é um site voltado para o compartilhamento de dados de


artigos científicos, onde você encontra inúmeros conjuntos de dados
interessantes, como por exemplo:
E-mails da Enron
Fatores de aprendizagem do aluno

12. GitHub de Dados Públicos


O GitHub do Fellipe Gomes está repleto de dados públicos sobre saúde,
agricultura, cultura, clima e muito mais para você desenvolver seus projetos.

Pronto! Agora você não tem mais desculpas para adiar o início dos seus projetos
por falta de dados. Navegue por esses sites, ou escolha uma de minhas
sugestões, e mãos à obra.
Juliana da FLAI.
#itstimetoflai

SEMANA DO INICIANTE EM DATA SCIENCE | 5

Você também pode gostar