Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Semana 1:
2. Semana 2:
3. Semana 3:
4. Semana 4:
5. Semana 5:
6. Semana 6:
7. Semana 7:
8. Semana 8:
9. Semana 9:
Metadados e Documentação.
Encerramento do curso.
https://www.youtube.com/watch?v=pTYcY6fhmT4
PLANEJAMENTO SLIDES
PARTE 1 : Introdução
Definição e Importância:
Uma boa escolha de estrutura de dados é crucial para tornar os algoritmos mais eficientes e
reduzir o consumo de recursos computacionais.
Estruturas Lineares: São aquelas em que os elementos de dados são organizados em uma
sequência linear, como arrays, listas e pilhas.
Estruturas Não Lineares: São aquelas em que os elementos de dados não são organizados em
uma sequência linear, como árvores e gráficos.
Estruturas Homogêneas: Todos os elementos são do mesmo tipo de dado (exemplo: arrays).
Operações Básicas:
As estruturas de dados permitem realizar operações básicas, como inserção, remoção, busca e
atualização de elementos.
A eficiência dessas operações pode variar de acordo com a estrutura de dados escolhida.
_________________________________________________________________________
PARTE 2: Por que a estrutura e qualidade de dados são essenciais na Ciência de Dados?
A estrutura e qualidade de dados são fundamentais na Ciência de Dados por vários motivos
essenciais que impactam diretamente na eficácia e no sucesso das análises e projetos. Aqui
estão algumas razões pelas quais esses aspectos são tão importantes:
Base para Tomada de Decisões:
A Ciência de Dados visa extrair insights a partir dos dados para embasar a tomada de decisões
estratégicas nas empresas e organizações.
Dados bem protegidos e de alta qualidade garantem que as análises e interpretadas sejam
precisas e supervisionadas, ansiosas o risco de tentar errôneas.
Dados mal garantidos ou de baixa qualidade podem resultar em análises distorcidas e parecem
inválidas.
A qualidade dos dados é crucial para evitar viés e garantir que os resultados sejam
representativos da realidade.
Eficiência e Desempenho:
Uma estrutura de dados adequada permite o acesso e manipulação eficiente dos dados,
tornando as operações mais rápidas e menos custosas em termos de recursos computacionais.
Dados bem garantidos são mais fáceis de organizar e categorizar, tornando mais simples a
recuperação de informações relevantes para as análises.
Uma boa estrutura também facilita a indexação e busca eficiente de dados específicos.
Dados controlados e de qualidade são mais fáceis de compartilhar e entender por diferentes
membros de uma equipe ou partes interessadas.
A qualidade dos dados afeta diretamente o desempenho e a precisão dos modelos criados.
Em empresas que utilizam dados para fornecer serviços aos clientes, a qualidade dos dados é
vital para manter a confiança dos usuários.
Erros ou falhas em dados críticos podem levar à perda de clientes e avaliação negativa.
_____________________________________________________________________________
Em outras palavras, a estrutura de dados é a organização lógica dos dados dentro de uma
aplicação ou programa, permitindo que esses dados sejam acessados, armazenados,
manipulados e compartilhados de forma eficiente.
Existem várias estruturas de dados diferentes, cada uma com suas características específicas e
usos adequados para diferentes tipos de problemas. Algumas das estruturas de dados mais
comuns incluem:
Arrays: Uma coleção de elementos do mesmo tipo, onde cada elemento é identificado por um
índice. Os arrays têm tamanho fixo e o acesso aos elementos é feito por meio de seus índices.
Listas: Uma sequência de elementos em que cada elemento é ligado ao próximo por meio de
ponteiros. As listas podem ser simplesmente encadeadas ou duplamente encadeadas.
Pilhas: Uma estrutura de dados LIFO (Last-In-First-Out), onde o último elemento adicionado é
o primeiro a ser removido.
Filas: Uma estrutura de dados FIFO (First-In-First-Out), onde o primeiro elemento adicionado é
o primeiro a ser removido.
Árvores: Uma estrutura hierárquica que consiste em nós conectados por meio de arestas.
como árvore.
Grafos: Uma coleção de nós conectados por meio de arestas. Os gráficos podem ser
direcionados (arestas com direção) ou não direcionados. São usados para representar relações
complexas e conexões entre elementos.
Tabelas Hash: Uma estrutura que associa chaves a valores, permitindo a recuperação rápida
dos valores com base nas chaves. É desempenhado através de uma função de hash que
mapeia as chaves para posições na tabela.
Árvores de Busca: Uma variação das árvores que possui uma propriedade de ordenação, na
qual os nós são organizados de forma que o filho à esquerda seja menor que o pai, e o filho à
direita seja maior.
Por exemplo, para busca rápida de elementos, uma tabela hash pode ser uma escolha
eficiente, enquanto para representar relações de dados, uma árvore pode ser mais adequada.
A seleção da estrutura de dados certa depende da natureza do problema e das operações que
serão frequentemente realizadas.
_____________________________________________________________________________
A qualidade de dados é essencial porque dados de baixa qualidade podem levar a tentativas
errôneas, resultados imprecisos e tomadas de decisão desejadas. Dados de alta qualidade, por
outro lado, fornecem uma base sólida para análises monitoradas, insights relevantes e
decisões acertadas.
Acurácia: Refere-se à exatidão dos dados em relação à realidade que eles representam. Dados
precisos são livres de erros e retratam informações corretas.
Integridade: Diz respeito à completude e consistência dos dados. Dados íntegros estão
completos, sem informações faltantes ou inconsistentes.
Consistência: Garante que os dados sejam coesos e não entrem em desigualdades com outras
informações armazenadas no sistema.
Atualidade: indica que os dados estão atualizados e refletem o estado mais recente da
informação.
A garantia da qualidade dos dados é um processo contínuo que envolve diversas etapas,
incluindo:
Coleta e Aquisição: Verifique a procedência e fonte dos dados, garantindo que eles sejam
obtidos de fontes e relevantes.
A qualidade de dados é um pilar fundamental para o sucesso da ciência de dados, uma vez que
analisa, modelagem estatística, aprendizado de máquina e tomada de decisão dependente da
confiabilidade e precisão das informações utilizadas. É importante ressaltar que a garantia da
qualidade dos dados é um esforço contínuo e multidisciplinar, envolvendo tanto práticas
tecnológicas quanto a conscientização dos usuários e implementação de políticas e padrões
adequados para a gestão dos dados.
_____________________________________________________________________________
A qualidade dos dados é um desafio por várias razões, envolvendo aspectos técnicos,
organizacionais e humanos. Abaixo estão algumas das principais razões pelas quais garantir a
qualidade dos dados pode ser um desafio:
Volume e Diversidade de Fontes: Com a crescente quantidade de dados gerados a cada dia e
multiplicidade de fontes de onde eles provêm (redes sociais, sensores, dispositivos IoT,
sistemas legados, entre outros), torna-se complexo assegurar a qualidade de todos esses
dados.
Erros de Coleta e Inserção: Durante o processo de coleta de dados, podem ocorrer erros de
digitação, duplicações ou inclusão de informações incorretas, especialmente quando a coleta é
manual.
Dados faltantes e incompletos: alguns dados podem não ser coletados ou armazenados,
gerados em campos incompletos ou com valores ausentes.
Dificuldade na Validação: A validação dos dados pode ser complexa, pois nem sempre é
possível confirmar a veracidade e exatidão das informações de maneira fácil.
Custos e Recursos: Garantir a qualidade dos dados exige investimento de recursos, incluindo
tecnologia, pessoal especializado e ferramentas de qualidade de dados.
Mudança de Paradigmas: Para empresas que estavam acostumadas a utilizar dados em menor
escala, adaptadas-se ao cenário de Big Data e dados em tempo real podem representar um
desafio na gestão da qualidade dessas informações.
Para enfrentar esses desafios, as organizações precisam adotar uma abordagem sistemática e
contínua para garantir a qualidade dos dados. Isso envolve a implementação de boas práticas
na coleta, armazenamento e manutenção dos dados, além do uso de ferramentas e
tecnologias adotadas para a validação e limpeza das informações. Além disso, é crucial
envolver as partes interessadas e conscientizar toda a equipe sobre a importância da
qualidade dos dados para o sucesso das iniciativas de ciência de dados e tomada de decisões
fundamentadas.
_____________________________________________________________________________
Facilita a Integração de Dados: Dados bem seguros são mais fáceis de integrar com outras
fontes de dados, permitindo que diferentes conjuntos de informações sejam combinados para
análises mais completas e abrangentes.
Suporte a Iniciativas de Big Data: Em cenários de Big Data, a qualidade e a estrutura dos dados
são essenciais para lidar com o volume, variedade e velocidade dos dados. Uma gestão
adequada dos dados permite extrair valor de informações complexas e de grande escala.
Confiança dos Usuários e Stakeholders: Dados de alta qualidade e bem garantidos aumentam
a confiança dos usuários, clientes e stakeholders na organização e em suas iniciativas de
ciência de dados.
Em resumo, a estrutura e qualidade de dados são fundamentais para o sucesso das iniciativas
de Ciência de Dados, pois garantem a confiabilidade das informações, otimizam os recursos e
impulsionam a tomada de decisões estratégicas. Investir na gestão adequada dos dados é uma
estratégia essencial para aprimorar a competitividade e eficiência das organizações em um
mundo cada vez mais orientado por dados.
__________________________________________________________________________
Definição de Dados:
Dados são elementos brutos, fatos ou estatísticas coletadas de diversas fontes, como sensores,
formulários, sistemas computacionais, entre outros. Eles podem estar em formato numérico,
texto, imagens, vídeos ou qualquer outro formato que represente informações. No contexto
da Ciência de Dados, os dados são a matéria-prima essencial para análises e tomada de
decisões.
Informações:
Conhecimento:
Inteligência:
A relação entre dados, informações, conhecimento e inteligência pode ser entendida como
uma progressão de etapas, em que cada conceito se baseia e depende dos anteriores. Vamos
explorar essa relação:
Dados: Os dados são o nível mais básico e fundamental. Eles consistem em fatos e estatísticas
brutas, como números, palavras, imagens ou qualquer outra representação de informações.
Os dados, por si só, não têm significado ou contexto definido.
____________________________________________________________________________
Para melhorar a estrutura e a qualidade dos dados na Ciência de Dados, é fundamental adotar
práticas sólidas e contínuas ao longo do ciclo de vida dos dados. Aqui estão algumas práticas
essenciais para a estruturação e melhoria da qualidade de dados:
Objetivos Definir Claros: Compreender os objetivos do projeto ou análise é o primeiro passo
para garantir a confiança e a qualidade dos dados coletados. Isso ajuda a direcionar o foco na
coleta de informações que são realmente úteis para os propósitos definidos.
Padronizar Dados: Estabelecer padrões para a estrutura e formato dos dados é crucial para
garantir a consistência das informações. Isso inclui a padronização de formatos de dados,
moedas, unidades de medida, entre outros.
Validar e Limpar Dados: Implementar processos de validação e limpeza dos dados é essencial
para identificar e corrigir erros, dados inconsistentes e informações faltantes. Técnicas como
preenchimento de valores faltantes, correção de erros de digitação e eliminação de
duplicações podem ser aplicadas nesse estágio.
Integrar Fontes de Dados: Muitas vezes, os dados são provenientes de diferentes fontes.
Integrar essas fontes de dados de forma coesa e consistente é importante para garantir uma
visão completa e abrangente das informações.
Monitorar e Atualizar Regularmente: A qualidade dos dados pode mudar ao longo do tempo.
Portanto, é importante monitorar continuamente a qualidade dos dados e atualizá-los
conforme necessário. Isso inclui verificar a precisão, integridade e confiança dos dados em
intervalos regulares.
Ao implementar essas práticas, as organizações podem garantir que seus dados estejam bem
controlados, precisos, monitorados e relevantes, o que leva a análises mais monitoradas,
tomadas de decisões controladas e uma melhor compreensão das informações para apoiar os
objetivos do negócio.
_____________________________________________________________________________
Ao lidar com dados, especialmente aqueles que contêm informações pessoais ou sensíveis dos
indivíduos, é fundamental garantir a privacidade e a segurança de suas informações. A coleta e
o armazenamento de dados devem ser realizados de acordo com as leis e regulamentações de
proteção de dados vigentes, como o Regulamento Geral de Proteção de Dados (GDPR) na
União Europeia ou outras legislações de privacidade em diferentes países. Além disso, é
importante implementar medidas de segurança cumpridas para prevenir o acesso não
autorizado e garantir que os dados sejam usados apenas para os fins definidos e autorizados
pelos indivíduos.
As organizações que coletam e utilizam dados devem ser transparentes sobre como os dados
serão usados, para que finalidades e com quem serão compartilhados. Os indivíduos têm o
direito de saber como suas informações pessoais estão sendo tratadas e quais decisões podem
ser tomadas com base nesses dados. Além disso, as organizações têm a responsabilidade de
usar os dados de forma ética e responsável, garantindo que as análises e decisões sejam
imparciais e não discriminatórias.
Consentimento Informado:
É essencial obter o consentimento informado dos indivíduos antes de coletar e usar seus
dados. O consentimento deve ser obtido de forma clara, explícita e voluntária, garantindo que
os indivíduos compreendam completamente como seus dados serão usados e para quais
finalidades. Os indivíduos também devem ter o direito de retirar seu consentimento a
qualquer momento.
Minimização de Dados:
As organizações devem coletar apenas os dados necessários para atender aos objetivos
específicos do projeto ou análise. A minimização de dados ajuda a reduzir o risco de uso
excessivo e necessário de informações pessoais, garantido para a proteção da privacidade.
Equidade e Bias:
Ao realizar análises de dados, é importante estar atento a possíveis vieses e preconceitos nos
dados e algoritmos. O uso de dados enviados pode levar a decisões discriminatórias ou
injustas. É fundamental garantir que as análises sejam justas e imparciais, evitando que os
dados perpetuem desigualdades.
As organizações devem adotar uma abordagem responsável na gestão dos dados, garantindo
que sejam guardados, protegidos e compartilhados de forma ética e segura. Isso inclui a
implementação de medidas para evitar vazamentos de dados e garantia de que os dados
sejam usados apenas por pessoal autorizado.
____________________________________________________________________________
_____________________________________________________________________________
_____________________________________________________________________________
Dados Não Seguros: Dados que não possuem medidas de segurança rigorosas ou que não
contêm informações pessoais, como dados públicos ou de fontes abertas.
Exemplos de dados não seguros: dados climáticos públicos, informações de tráfego em tempo
real.
_____________________________________________________________________________
Bancos de dados relacionais são sistemas de gerenciamento de banco de dados (SGBDR) que
organizam dados em tabelas relacionadas umas com as outras por meio de chaves primárias e
estrangeiras. Cada tabela representa uma entidade ou conceito, enquanto as colunas
representam os atributos dessa entidade. Os registros em cada tabela contêm os dados
específicos relacionados a essa entidade. A estruturação baseada em relações e a capacidade
de estabelecer associações entre tabelas tornam os bancos de dados relacionais uma escolha
popular para armazenamento e recuperação de dados.
Colunas: Cada coluna representa um atributo específico dos dados, como nome, idade ou
endereço.
Registros: Cada registro representa uma instância específica dos dados, contendo valores para
cada coluna.
Chave Primária: Uma coluna única em cada tabela que identifica exclusivamente cada registro.
É usado para garantir a unicidade dos dados.
Chave Estrangeira: Uma coluna que estabelece uma relação entre duas mesas. Ela faz
referência à chave primária de outra tabela, permitindo associações entre os dados.
Os bancos de dados relacionais são amplamente utilizados na ciência de dados por suas
vantagens em organizar, armazenar e recuperar grandes volumes de dados. Alguns exemplos
de aplicação incluem:
Integração com outras ferramentas e linguagens usadas na ciência de dados, como Python ou
R.
Vantagens e Desafios:
_____________________________________________________________________________
O que são bancos de dados NoSQL: Bancos de Dados NoSQL (Not Only SQL) são sistemas de
gerenciamento de banco de dados que se diferenciam dos bancos de dados relacionais
tradicionais. A principal característica dos bancos de dados NoSQL é a flexibilidade em relação
ao esquema dos dados, permitindo o armazenamento de informações não estruturadas ou
sem uma estrutura rígida. Eles são projetados para serem escaláveis horizontalmente, o que
significa que podem lidar com grandes volumes de dados e cargas de trabalho distribuindo os
dados em vários servidores. Além disso, os bancos de dados NoSQL são conhecidos por terem
um desempenho otimizado para operações de leitura e gravação rápidas, tornando-os
adequados para aplicações com necessidades de alta velocidade.
Tipos de bancos de dados NoSQL: Existem diferentes tipos de bancos de dados NoSQL, cada
um adequado para cenários específicos:
1. Bancos de Dados NoSQL do tipo Documentos: Nesse tipo, os dados são armazenados
em documentos no formato JSON ou BSON (Binary JSON). Cada documento pode ter
uma estrutura diferente das demais, o que oferece maior flexibilidade no
armazenamento de informações não estruturadas ou sem um esquema fixo. Exemplos
populares de bancos de dados NoSQL do tipo documento incluem o MongoDB e o
Couchbase.
2. Bancos de Dados NoSQL do tipo Chave-Valor: Nesse tipo, os dados são armazenados
em pares de chave e valor. A chave é um identificador único que permite recuperar
rapidamente o valor associado a ela. Esses bancos de dados são eficientes para
operações de leitura e gravação de dados simples, como caches e armazenamento de
metadados. Exemplos populares incluem o Redis e o Amazon DynamoDB.
3. Bancos de Dados NoSQL do tipo Colunas: Nesse tipo, os dados são armazenados em
formato de colunas em vez de linhas, permitindo uma recuperação eficiente de
subconjuntos de dados. Esses bancos de dados são comumente usados para análise de
big data e processamento de registros de eventos. Exemplos populares incluem o
Apache Cassandra e o HBase.
4. Bancos de Dados NoSQL do tipo Gráficos: Nesse tipo, os dados são armazenados em
forma de gráficos, com nós representando entidades e arestas representando os
relacionamentos entre elas. Esse tipo de banco de dados é ideal para cenários que
envolvem análise de redes sociais, análise de conexões e recomendações
personalizadas. Exemplos populares incluem o Neo4j e o Amazon Neptune.
Bancos de dados do tipo chave-valor são ideais para implementar caches de dados,
pois permitem um acesso rápido aos dados armazenados na memória.
Bancos de dados do tipo triangular são amplamente utilizados em cenários de big data
e análise, onde é necessário processar grandes volumes de dados em paralelo.
Bancos de dados do tipo gráficos são aplicados em análises de redes sociais, detecção
de padrões complexos e recomendações personalizadas com base nas relações entre
os dados.
Em resumo, os bancos de dados NoSQL oferecem opções flexíveis e eficientes para armazenar
e recuperar dados em cenários que vão além das necessidades tradicionais de bancos de
dados relacionais. Cada tipo de banco de dados NoSQL possui suas vantagens específicas,
tornando-os adequados para diferentes casos de uso na Ciência de Dados e outras áreas da
tecnologia da informação. A escolha do banco de dados mais adequado dependerá das
características e requisitos específicos do projeto
_____________________________________________________________________________
1. Modelo de Dados:
Relacionais: Use o modelo de dados tabulares com tabelas, colunas e registros. As relações são
protegidas através de chaves primárias e estrangeiras, garantindo a integridade referencial dos
dados.
NoSQL: Possuem modelos de dados mais flexíveis, como documentos, chave-valor, colunas ou
gráficos, que permitem armazenar informações com diferentes estruturas e sem um esquema
rígido.
2. Esquema e Flexibilidade:
NoSQL: Oferecem uma maior flexibilidade no esquema, permitindo que os dados sejam
inseridos sem um esquema pré-definido. Isso torna mais fácil lidar com dados não rígidos ou
com estruturas variáveis.
3. Escalabilidade:
NoSQL: São projetados para escalabilidade horizontal, permitindo que os dados sejam
distribuídos em vários servidores, o que facilita o aumento da capacidade conforme a
demanda.
4. Desempenho:
Relacionais: São otimizados para consultas complexas usando a linguagem SQL, mas podem ser
menos eficientes para algumas operações em grande escala, como armazenamento em cache.
NoSQL: Oferecem alto desempenho em operações de leitura e gravação, sendo ideais para
cenários com alta velocidade e grande volume de dados.
5. Consistência e Durabilidade:
Relacionais: São conhecidos por manterem altos níveis de consistência e durabilidade dos
dados. Transações ACID (Atomicidade, Consistência, Isolamento e Durabilidade) são comuns
nesse tipo de banco de dados.
NoSQL: São mais adequados para cenários com dados não controlados, armazenamento de big
data, análises em tempo real, aplicações web e mobile, redes sociais e cenários com altos
requisitos de escalabilidade.
_____________________________________________________________________________
Declarativa: A linguagem SQL é uma linguagem declarativa, o que significa que o usuário
informa ao banco de dados o que deseja fazer, e não como fazer. Em vez de especificar o
caminho para executar uma tarefa, o usuário descreve o resultado desejado e deixa para o
banco de dados encontrar a melhor maneira de executá-la.
Divisão em Sublinguagens: A SQL é dividida em diferentes sublinguagens, cada uma com uma
especificidade específica. As três sublinguagens principais são:
DDL (Data Definition Language): Usada para definir a estrutura do banco de dados, como criar
tabelas, esquemas e definir chaves primárias e estrangeiras.
DML (Data Manipulation Language): Utilizada para manipular os dados no banco de dados,
incluindo operações como SELECT (recuperar dados), INSERT (inserir dados), UPDATE (atualizar
dados) e DELETE (excluir dados).
DCL (Data Control Language): Responsável por gerenciar os direitos de acesso e permissões no
banco de dados.
Aqui estão alguns exemplos de consultas SQL que ilustram as operações básicas:
Consulta de Dados:
sql
SELECT nome, idade, cidade FROM clientes WHERE cidade = 'São Paulo';
Nesse exemplo, estamos selecionando os nomes, idades e cidades dos clientes que moram em
São Paulo.
Inserção de Dados:
INSERT INTO funcionarios (nome, cargo, salario) VALUES ('João', 'Analista de Dados', 5000);
Nesse exemplo, estamos inserindo um novo registro na tabela "funcionarios" com o nome
"João", cargo "Analista de Dados" e salário de 5000.
Atualização de Dados:
Exclusão de Dados:
Nesse exemplo, estamos excluídos todos os pedidos com data anterior a 1º de janeiro de
2023.
_____________________________________________________________________________
_____________________________________________________________________________
Introdução:
A coleta e aquisição de dados são etapas essenciais na Ciência de Dados, pois fornecem as
informações necessárias para análises e tomada de decisões fundamentadas. Nesta aula,
exploraremos os métodos de coleta de dados, as técnicas de ingestão e análise de viés e as
considerações éticas envolvidas nesse processo.
Fontes Primárias: São dados coletados diretamente pelo pesquisador ou cientista de dados
para fins específicos. Exemplos incluem pesquisas, entrevistas, observações de campo e
experimentos controlados. As fontes primárias geralmente fornecem dados mais relevantes e
precisos, mas também podem ser mais trabalhosas e custosas de se obter.
Fontes Secundárias: São dados que já foram coletados e estão disponíveis publicamente ou
por outras organizações. Os exemplos incluem dados de bancos de dados públicos, conjuntos
de dados compartilhados online, relatórios governamentais e pesquisas acadêmicas. As fontes
secundárias são geralmente mais fáceis de acessar e podem economizar tempo e recursos,
mas é importante verificar a confiabilidade e a qualidade desses dados.
Ao coletar e adquirir dados, é importante estar ciente de possíveis viéses que podem afetar a
qualidade e a representatividade dos dados:
Viés de Amostragem: Pode ocorrer quando a seleção de uma amostra não é aleatória e não
representa a população. É essencial utilizar métodos de acessibilidade para obter resultados
mais precisos e evitar distorções.
Viés de Seleção: Surge quando certos dados são coletados de forma seletiva ou apenas de
certas fontes, ignorando outras perspectivas importantes. Isso pode levar a elas tendenciosas
e incompletas.
A coleta de dados também envolve preocupações éticas que devem ser abordadas:
Uso Responsável dos Dados: Os dados coletados devem ser usados de maneira responsável e
ética, evitando qualquer forma de demonstração ou uso inadequado.
_____________________________________________________________________________
Fontes Primárias:
Fontes Secundárias:
Bases de dados públicos: Acesso a bancos de dados disponíveis publicamente, como dados
acessíveis, dados de pesquisas acadêmicas e outras fontes abertas.
Imagine um cenário em que um hospital deseja melhorar seu atendimento e a eficiência dos
serviços oferecidos aos pacientes. Para isso, eles decidem realizar um estudo de
monitoramento de saúde de seus pacientes. Vamos ver como a coleta de dados pode ser
realizada neste cenário:
Fontes Primárias:
Pesquisas com pacientes: O hospital pode realizar pesquisas com os pacientes para avaliar a
satisfação com os serviços, coletando informações sobre a qualidade do atendimento, tempo
de espera, limpeza, entre outros aspectos.
Entrevistas com médicos e enfermeiros: Entrevistas com a equipe médica e de enfermagem
podem fornecer informações valiosas sobre os desafios enfrentados no dia a dia e sugestões
de melhorias no atendimento.
Fontes Secundárias:
Registros eletrônicos de saúde (EHR): O hospital pode utilizar os registros eletrônicos de saúde
de seus pacientes para analisar dados médicos, históricos de tratamento e resultados de
exames.
A coleta e aquisição de dados são fundamentais para a Ciência de Dados e têm aplicação em
diversos cenários, desde pesquisas acadêmicas até tomadas de decisão estratégicas em
empresas. A escolha das técnicas e fontes de dados adequadas é essencial para garantir que as
informações coletadas sejam relevantes, conduzidas e úteis para as análises realizadas. No
estudo de caso apresentado, a coleta de dados em um hospital exemplifica como as técnicas
de coleta podem ser aplicadas em um cenário específico para melhorar a eficiência e a
qualidade dos serviços prestados.
_____________________________________________________________________________
Peça aos alunos que realizam uma pesquisa de satisfação com seus colegas ou com membros
de suas famílias sobre um determinado produto, serviço ou experiência. Eles devem elaborar
um vocabulário com perguntas relevantes e realizar
Peça aos alunos que acessem bases de dados públicos ou conjuntos de dados compartilhados
em plataformas online. Eles devem escolher um
Após a coleta de dados, peça aos alunos que analisem os resultados obtidos e discutam suas
descobertas com a turma. Eles podem compartilhar insights interessantes, padrões
identificados, desafios enfrentados durante a
Considerações:
____________________________________________________________________________
Introdução:
Os dados faltantes são valores ausentes em uma ou mais variáveis de um conjunto de dados.
Eles podem ocorrer por diversos motivos, como falhas na coleta, erros de registro ou escolha
do entrevistado em não responder a uma pergunta.
Preenchimento com valor padrão: Substituir os dados faltantes por um valor padrão, como
zero, a média, a mediana ou o valor mais frequente da variável.
Remoção de Outliers:
Identificação de Outliers:
Outliers são valores extremos que se afastam significativamente do padrão dos demais dados.
Eles podem ser causados por erros de medição, comportamentos incomuns ou eventos raros.
Técnicas de Remoção de Outliers:
Considerações:
Conclusão:
A limpeza e pré-processamento de dados são etapas críticas na preparação dos dados para
análise na Ciência de Dados. Ao identificar e tratar dados faltantes, remover duplicatas e
outliers, os cientistas de dados garantem que os dados utilizados sejam mantidos,
representativos e livres de imperfeições. Isso fornece uma base sólida para a realização de
análises precisas e a obtenção de insights valiosos a partir dos dados.
_____________________________________________________________________________
_____________________________________________________________________________
_____________________________________________________________________________
_____________________________________________________________________________
PARTE 14: Métricas de Qualidade de Dados
Explicação sobre as principais métricas utilizadas para avaliar a qualidade dos dados.
____________________________________________________________________________
_____________________________________________________________________________
_____________________________________________________________________________
_____________________________________________________________________________
_____________________________________________________________________________
_____________________________________________________________________________
PARTE 20: Exercícios Práticos de Documentação e Metadados
_____________________________________________________________________________
_____________________________________________________________________________
_____________________________________________________________________________
_____________________________________________________________________________
____________________________________________________________________________
_____________________________________________________________________________
PARTE 26: Revisão e Preparação para a Avaliação Final