Você está na página 1de 26

Metodologia Data Science

-
Do entendimento à
preparação
PREPARAÇÃO DOS DADOS
Conceitos:
- Preparação dos dados:
- Limpando os dados

Em certo sentido, a preparação de dados é


semelhante a lavar vegetais recém-
colhidos, na medida em que os elementos
indesejáveis, como sujeira ou imperfeições,
são removidos.
Junto com a coleta e compreensão de
dados, a preparação de dados é a fase mais
demorada de um projeto de ciência de
dados, normalmente levando setenta por
cento e até noventa por cento do tempo
total do projeto.
Conceitos:
- Preparação dos dados:
- Limpando os dados

Automatizar alguns dos processos de


coleta e preparação de dados no banco
de dados pode reduzir esse tempo para
apenas 50 por cento.
Essa economia de tempo se traduz em
mais tempo para os cientistas de dados
se concentrarem na criação de
modelos.
Conceitos:
- Preparação dos dados:
- Transformando os dados
Para continuar com nossa metáfora
culinária, sabemos que o processo de
picar cebolas em um estado mais fino
permitirá que seus sabores se
espalhem pelo molho com mais
facilidade do que seria o caso se
jogássemos a cebola inteira na panela.
Da mesma forma, transformar dados
na fase de preparação de dados é o
processo de colocar os dados em um
estado em que seja mais fácil trabalhar.
Conceitos:
- Do entendimento à preparação
Especificamente, o estágio de preparação de dados da metodologia responde à pergunta:
◦ Quais são as maneiras pelas quais os dados são preparados?
Conceitos:
- Exemplos de limpeza de dados
Para trabalhar de forma eficaz com os dados, eles devem ser preparados de forma a endereçar
valores ausentes ou inválidos e remover duplicatas, para garantir que tudo esteja formatado
corretamente.
Conceitos:
- Usando conhecimento de domínio
A engenharia de recursos também faz
parte da preparação de dados.
É o processo de usar o conhecimento
de domínio dos dados para criar
recursos que fazem os algoritmos de
aprendizado de máquina funcionarem.
Um recurso é uma característica que
pode ajudar na solução de um
problema.
Conceitos:
- Usando conhecimento de domínio
Os recursos nos dados são importantes
para os modelos preditivos e
influenciarão os resultados que você
deseja alcançar.
A engenharia de recursos é crítica
quando as ferramentas de aprendizado
de máquina estão sendo aplicadas para
analisar os dados.
Conceitos:
- Trabalhando com análise de texto
Conceitos:
- Trabalhando com análise de texto
Ao trabalhar com texto, as etapas de análise de texto para codificar os dados são
necessárias para poder manipular os dados.
O cientista de dados precisa saber o que está procurando em seu conjunto de
dados para resolver a questão.
A análise do texto é crítica para garantir que os agrupamentos adequados sejam
definidos e que a programação não ignore o que está escondido dentro.
A fase de preparação de dados prepara o terreno para as próximas etapas no
tratamento da questão.
Conceitos:
- Trabalhando com análise de texto
Embora esta fase possa demorar um pouco, se bem feita, os resultados apoiarão
o projeto.
Se isso for ignorado, o resultado não será adequado e você poderá voltar à
prancheta.
É vital gastar seu tempo nesta área e usar as ferramentas disponíveis para
automatizar etapas comuns para acelerar a preparação de dados.
Certifique-se de prestar atenção aos detalhes nesta área.
Afinal, basta um ingrediente ruim para arruinar uma boa refeição.
Estudo de caso:
- Aplicando os conceitos
Estudo de caso:
- Preparação dos dados
No estudo de caso, um primeiro passo importante no estágio de preparação de dados foi definir
a insuficiência cardíaca congestiva.
Isso pareceu fácil no início, mas defini-lo com precisão não era simples.
Primeiro, o conjunto de códigos de grupo relacionados ao diagnóstico precisava ser identificado,
já que a insuficiência cardíaca congestiva implica certos tipos de acúmulo de fluido.
Estudo de caso:
- Preparação dos dados
Também precisamos considerar que a insuficiência cardíaca congestiva é apenas um tipo de
insuficiência cardíaca.
A orientação clínica era necessária para obter os códigos corretos para insuficiência cardíaca
congestiva.
Estudo de caso:
- Definir readimissão
A próxima etapa envolveu a definição dos critérios de readmissão para a mesma condição.
O tempo dos eventos precisava ser avaliado para definir se uma determinada admissão por
insuficiência cardíaca congestiva foi um evento inicial, que é chamado de admissão de índice ou
uma readmissão relacionada à insuficiência cardíaca congestiva.
Com base na experiência clínica, foi definido um período de 30 dias como janela de readmissão
relevante para pacientes com insuficiência cardíaca congestiva, após a alta da admissão inicial.
Estudo de caso:
- Definindo admissão CHF
Em seguida, os registros que estavam em formato transacional foram agregados, significando
que os dados incluíam vários registros para cada paciente.
Estudo de caso:
- agregando registros
Os registros transacionais incluíram
reivindicações de instalações de fornecedores
profissionais enviadas para serviços médicos,
laboratoriais, hospitalares e clínicos.
Também foram incluídos registros que
descrevem todos os diagnósticos,
procedimentos, prescrições e outras
informações sobre pacientes internados e
ambulatoriais.
Um determinado paciente poderia facilmente
ter centenas ou mesmo milhares desses
registros, dependendo de sua história clínica.
Estudo de caso:
- agregando ao nível do paciente
Em seguida, todos os registros
transacionais foram agregados ao nível
do paciente, gerando um único registro
para cada paciente, conforme
necessário para o método de
classificação da árvore de decisão que
seria usado para a modelagem.
Como parte do processo de agregação,
muitas novas colunas foram criadas
representando as informações nas
transações.
Estudo de caso:
- agregando ao nível do paciente
Por exemplo, frequência e visitas mais
recentes a médicos, clínicas e hospitais
com diagnósticos, procedimentos,
prescrições e assim por diante.
Também foram consideradas
comorbidades com insuficiência
cardíaca congestiva, como diabetes,
hipertensão e muitas outras doenças e
condições crônicas que poderiam
impactar no risco de reinternação por
insuficiência cardíaca congestiva.
Estudo de caso:
- Mais ou menos dados é necessário?
Estudo de caso:
- Mais ou menos dados é necessário?
Durante as discussões sobre a preparação de dados, uma revisão literária sobre
insuficiência cardíaca congestiva também foi realizada para ver se algum
elemento importante dos dados foi esquecido, como comorbidades que ainda
não haviam sido contabilizadas.
A revisão literária envolveu um retorno ao estágio de coleta de dados para
adicionar mais alguns indicadores para condições e procedimentos.
Estudo de caso:
- completando o conjunto de dados
Agregar os dados transacionais no nível do
paciente significava mesclá-los com os
outros dados do paciente, incluindo suas
informações demográficas, como idade,
sexo, tipo de seguro e assim por diante.
O resultado foi a criação de uma tabela
contendo um único registro por paciente,
com várias colunas representando os
atributos sobre o paciente em sua história
clínica.
Essas colunas seriam usadas como variáveis
na modelagem preditiva.
Estudo de caso:
- Criando novas variáveis
Aqui está uma lista das variáveis que foram usadas na construção do modelo.
A variável dependente, ou alvo, foi readmissão por insuficiência cardíaca
congestiva dentro de 30 dias após a alta de uma hospitalização por insuficiência
cardíaca congestiva, com resultado sim ou não.
Estudo de caso:
- Criando novas variáveis
Estudo de caso:
- Usando conjuntos de treinamento
A fase de preparação de dados resultou em uma coorte de 2.343 pacientes que
atendiam a todos os critérios para este estudo de caso.
A coorte foi então dividida em conjuntos de treinamento e teste para construir e
validar o modelo, respectivamente.
Estudo de caso:
- Usando conjuntos de treinamento

Você também pode gostar