Enunciado Do Desafio - Módulo 1 - Bootcamp Analista em Ciência de Dados-1

Bootcamp: Graduação Bacharelado em Ciência de Dados
Trabalho Prático
Módulo 1: Introdução à Ciência de Dados
Objetivos de Ensino
Exercitar os seguintes conceitos trabalhados no Módulo:
1. Coleta de dados.
2. Analisar e realizar tratamento de dados.
3. Criar visualização de dados.
4. Implementar algoritmo de Machine Learning.
5. Analisar resultados obtidos.
6. Conhecimento teórico ministrado nas videoaulas.
Enunciado
Você é um cientista de dados em uma equipe de saúde que está buscando
identificar padrões em dados médicos de pacientes. Sua equipe está
trabalhando em um projeto para identificar riscos de saúde em pacientes com
problemas de saúde específicos, como diabetes, hipertensão ou doença
cardiovascular. Seu objetivo é coletar, tratar e analisar dados de pacientes
para criar grupos de pacientes com risco intermediário, alto ou muito alto de
problemas de saúde.
Sua equipe decidiu usar o método de agrupamento k-means para agrupar os

pacientes em três grupos distintos com base nas informações fornecidas. O
objetivo é identificar padrões nos dados que possam indicar o risco de um
1
paciente desenvolver problemas cardiovasculares. As doenças
cardiovasculares são uma das principais causas de morbidade e mortalidade
em todo o mundo. É essencial que os profissionais de saúde possam
identificar pacientes com maior risco de desenvolver essas doenças, a fim de
oferecer tratamentos e aconselhamentos preventivos personalizados.
ATENÇÃO PARA TRATAMENTO DE DADOS
Avalie se será necessário realizar tratamento de dados ausentes nos datasets

disponibilizados.
Instruções para correção de dados ausentes
1. Para dados de perfil, utilize a estratégia de exclusão dos dados.
2. Para os dados médicos, utilize:
a. Média arredondada para 2 casas decimais para as variáveis do tipo

numéricas;
b. Moda para as variáveis categóricas.
3. Para os dados de estados:
a. Moda para variáveis categóricas.
b. Exclusão para variáveis numéricas.
Atividades
Para esta atividade, os alunos deverão criar um algoritmo de K-means para

criar um agrupamento de pessoas baseados nas suas características.
Criar um projeto no Google Drive.
1. Coletar e inserir na plataforma os arquivos:
2
a. dados_perfil.xlsx
b. dados_medicos.csv
c. unidades_federativas_do_Brasil.csv
2. Analisar os dados coletados.
3. Avaliar a correlação entre as variáveis.
4. Criar algoritmo de k-means com as configurações:
a. random_state=0, init='k-means++'
5. Responder às questões teóricas e práticas do trabalho.
6. Realizar a segmentação dos pacientes.
7. Análise dos dados de acordo com clusters criados.
Dicas do professor:
1. Leia atentamente todas as instruções da atividade.
2. Analise com cuidado os dados através da representação gráfica.
3. Crie um novo dataframe (pacientes) com os dados obtidos entre a relação

das tabelas dados_perfil, dados_medicos e
unidades_federativas_do_Brasil.
4. Para criação do algoritmo de clusterização, utilize as variáveis de peso e

triglicerídeos.
5. Analise bem o gráfico gerado e a disponibilização dos dados do

agrupamento.
a. Atribua o grupo de risco baseado nas cores apresentadas no gráfico.
3
b. Faz parte da atividade o aluno analisar os dados no gráfico e escolher
qual o indicador para cada grupo.
c. Utilize o bom senso no momento de analisar os dados do gráfico e

atribuir os grupos de risco. Avalie a disposição.
6. Antes de enviar as respostas, verifique se o gabarito está correto.
7. Tenha atenção no que pede cada questão.
8. Os dados disponibilizados no dataset são fictícios. Ou seja, não têm

relação com o mundo real.
9. Siga exatamente o que o enunciado do trabalho solicita.
a. Obs.: Não existe pegadinhas nas alternativas.
10. Os datasets utilizados no trabalho podem ser obtidos no link:
https://github.com/ProfLeandroLessa/classroom-
datasets/tree/master/ANC/Desafio/02
Biblioteca utilizadas
pandas: 1.5.2
sklearn: 1.2.0
plotly: 5.11.0

Enunciado Do Desafio - Módulo 1 - Bootcamp Analista em Ciência de Dados-1

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Enunciado Do Desafio - Módulo 1 - Bootcamp Analista em Ciência de Dados-1

Enviado por

Direitos autorais:

Formatos disponíveis

Bootcamp: Graduação Bacharelado em Ciência de Dados

2. Analisar e realizar tratamento de dados.

3. Criar visualização de dados.

4. Implementar algoritmo de Machine Learning.

5. Analisar resultados obtidos.

6. Conhecimento teórico ministrado nas videoaulas.

Sua equipe decidiu usar o método de agrupamento k-means para agrupar os

ATENÇÃO PARA TRATAMENTO DE DADOS

Avalie se será necessário realizar tratamento de dados ausentes nos datasets

Instruções para correção de dados ausentes

1. Para dados de perfil, utilize a estratégia de exclusão dos dados.

2. Para os dados médicos, utilize:

a. Média arredondada para 2 casas decimais para as variáveis do tipo

b. Moda para as variáveis categóricas.

3. Para os dados de estados:

a. Moda para variáveis categóricas.

b. Exclusão para variáveis numéricas.

Para esta atividade, os alunos deverão criar um algoritmo de K-means para

Criar um projeto no Google Drive.

1. Coletar e inserir na plataforma os arquivos:

2. Analisar os dados coletados.

3. Avaliar a correlação entre as variáveis.

4. Criar algoritmo de k-means com as configurações:

5. Responder às questões teóricas e práticas do trabalho.

6. Realizar a segmentação dos pacientes.

7. Análise dos dados de acordo com clusters criados.

1. Leia atentamente todas as instruções da atividade.

2. Analise com cuidado os dados através da representação gráfica.

3. Crie um novo dataframe (pacientes) com os dados obtidos entre a relação

4. Para criação do algoritmo de clusterização, utilize as variáveis de peso e

5. Analise bem o gráfico gerado e a disponibilização dos dados do

a. Atribua o grupo de risco baseado nas cores apresentadas no gráfico.

c. Utilize o bom senso no momento de analisar os dados do gráfico e

6. Antes de enviar as respostas, verifique se o gabarito está correto.

7. Tenha atenção no que pede cada questão.

8. Os dados disponibilizados no dataset são fictícios. Ou seja, não têm

9. Siga exatamente o que o enunciado do trabalho solicita.

a. Obs.: Não existe pegadinhas nas alternativas.

10. Os datasets utilizados no trabalho podem ser obtidos no link:

Você também pode gostar