- Do entendimento à preparação PREPARAÇÃO DOS DADOS Conceitos: - Preparação dos dados: - Limpando os dados
Em certo sentido, a preparação de dados é
semelhante a lavar vegetais recém- colhidos, na medida em que os elementos indesejáveis, como sujeira ou imperfeições, são removidos. Junto com a coleta e compreensão de dados, a preparação de dados é a fase mais demorada de um projeto de ciência de dados, normalmente levando setenta por cento e até noventa por cento do tempo total do projeto. Conceitos: - Preparação dos dados: - Limpando os dados
Automatizar alguns dos processos de
coleta e preparação de dados no banco de dados pode reduzir esse tempo para apenas 50 por cento. Essa economia de tempo se traduz em mais tempo para os cientistas de dados se concentrarem na criação de modelos. Conceitos: - Preparação dos dados: - Transformando os dados Para continuar com nossa metáfora culinária, sabemos que o processo de picar cebolas em um estado mais fino permitirá que seus sabores se espalhem pelo molho com mais facilidade do que seria o caso se jogássemos a cebola inteira na panela. Da mesma forma, transformar dados na fase de preparação de dados é o processo de colocar os dados em um estado em que seja mais fácil trabalhar. Conceitos: - Do entendimento à preparação Especificamente, o estágio de preparação de dados da metodologia responde à pergunta: ◦ Quais são as maneiras pelas quais os dados são preparados? Conceitos: - Exemplos de limpeza de dados Para trabalhar de forma eficaz com os dados, eles devem ser preparados de forma a endereçar valores ausentes ou inválidos e remover duplicatas, para garantir que tudo esteja formatado corretamente. Conceitos: - Usando conhecimento de domínio A engenharia de recursos também faz parte da preparação de dados. É o processo de usar o conhecimento de domínio dos dados para criar recursos que fazem os algoritmos de aprendizado de máquina funcionarem. Um recurso é uma característica que pode ajudar na solução de um problema. Conceitos: - Usando conhecimento de domínio Os recursos nos dados são importantes para os modelos preditivos e influenciarão os resultados que você deseja alcançar. A engenharia de recursos é crítica quando as ferramentas de aprendizado de máquina estão sendo aplicadas para analisar os dados. Conceitos: - Trabalhando com análise de texto Conceitos: - Trabalhando com análise de texto Ao trabalhar com texto, as etapas de análise de texto para codificar os dados são necessárias para poder manipular os dados. O cientista de dados precisa saber o que está procurando em seu conjunto de dados para resolver a questão. A análise do texto é crítica para garantir que os agrupamentos adequados sejam definidos e que a programação não ignore o que está escondido dentro. A fase de preparação de dados prepara o terreno para as próximas etapas no tratamento da questão. Conceitos: - Trabalhando com análise de texto Embora esta fase possa demorar um pouco, se bem feita, os resultados apoiarão o projeto. Se isso for ignorado, o resultado não será adequado e você poderá voltar à prancheta. É vital gastar seu tempo nesta área e usar as ferramentas disponíveis para automatizar etapas comuns para acelerar a preparação de dados. Certifique-se de prestar atenção aos detalhes nesta área. Afinal, basta um ingrediente ruim para arruinar uma boa refeição. Estudo de caso: - Aplicando os conceitos Estudo de caso: - Preparação dos dados No estudo de caso, um primeiro passo importante no estágio de preparação de dados foi definir a insuficiência cardíaca congestiva. Isso pareceu fácil no início, mas defini-lo com precisão não era simples. Primeiro, o conjunto de códigos de grupo relacionados ao diagnóstico precisava ser identificado, já que a insuficiência cardíaca congestiva implica certos tipos de acúmulo de fluido. Estudo de caso: - Preparação dos dados Também precisamos considerar que a insuficiência cardíaca congestiva é apenas um tipo de insuficiência cardíaca. A orientação clínica era necessária para obter os códigos corretos para insuficiência cardíaca congestiva. Estudo de caso: - Definir readimissão A próxima etapa envolveu a definição dos critérios de readmissão para a mesma condição. O tempo dos eventos precisava ser avaliado para definir se uma determinada admissão por insuficiência cardíaca congestiva foi um evento inicial, que é chamado de admissão de índice ou uma readmissão relacionada à insuficiência cardíaca congestiva. Com base na experiência clínica, foi definido um período de 30 dias como janela de readmissão relevante para pacientes com insuficiência cardíaca congestiva, após a alta da admissão inicial. Estudo de caso: - Definindo admissão CHF Em seguida, os registros que estavam em formato transacional foram agregados, significando que os dados incluíam vários registros para cada paciente. Estudo de caso: - agregando registros Os registros transacionais incluíram reivindicações de instalações de fornecedores profissionais enviadas para serviços médicos, laboratoriais, hospitalares e clínicos. Também foram incluídos registros que descrevem todos os diagnósticos, procedimentos, prescrições e outras informações sobre pacientes internados e ambulatoriais. Um determinado paciente poderia facilmente ter centenas ou mesmo milhares desses registros, dependendo de sua história clínica. Estudo de caso: - agregando ao nível do paciente Em seguida, todos os registros transacionais foram agregados ao nível do paciente, gerando um único registro para cada paciente, conforme necessário para o método de classificação da árvore de decisão que seria usado para a modelagem. Como parte do processo de agregação, muitas novas colunas foram criadas representando as informações nas transações. Estudo de caso: - agregando ao nível do paciente Por exemplo, frequência e visitas mais recentes a médicos, clínicas e hospitais com diagnósticos, procedimentos, prescrições e assim por diante. Também foram consideradas comorbidades com insuficiência cardíaca congestiva, como diabetes, hipertensão e muitas outras doenças e condições crônicas que poderiam impactar no risco de reinternação por insuficiência cardíaca congestiva. Estudo de caso: - Mais ou menos dados é necessário? Estudo de caso: - Mais ou menos dados é necessário? Durante as discussões sobre a preparação de dados, uma revisão literária sobre insuficiência cardíaca congestiva também foi realizada para ver se algum elemento importante dos dados foi esquecido, como comorbidades que ainda não haviam sido contabilizadas. A revisão literária envolveu um retorno ao estágio de coleta de dados para adicionar mais alguns indicadores para condições e procedimentos. Estudo de caso: - completando o conjunto de dados Agregar os dados transacionais no nível do paciente significava mesclá-los com os outros dados do paciente, incluindo suas informações demográficas, como idade, sexo, tipo de seguro e assim por diante. O resultado foi a criação de uma tabela contendo um único registro por paciente, com várias colunas representando os atributos sobre o paciente em sua história clínica. Essas colunas seriam usadas como variáveis na modelagem preditiva. Estudo de caso: - Criando novas variáveis Aqui está uma lista das variáveis que foram usadas na construção do modelo. A variável dependente, ou alvo, foi readmissão por insuficiência cardíaca congestiva dentro de 30 dias após a alta de uma hospitalização por insuficiência cardíaca congestiva, com resultado sim ou não. Estudo de caso: - Criando novas variáveis Estudo de caso: - Usando conjuntos de treinamento A fase de preparação de dados resultou em uma coorte de 2.343 pacientes que atendiam a todos os critérios para este estudo de caso. A coorte foi então dividida em conjuntos de treinamento e teste para construir e validar o modelo, respectivamente. Estudo de caso: - Usando conjuntos de treinamento