Você está na página 1de 51

Estatística Aplicada à Medicina Tópico 6– 2020.

Estatística Descritiva e
Análise Exploratória de Dados (AED)

 Introdução

o métodos estatísticos podem ser utilizados para a


análise e interpretação de dados obtidos a partir de
estudos corretamente delineados;

o a primeira etapa deste procedimento é a


organização, síntese e interpretação dos dados, na
busca por padrões, formatos, estruturas e valores
atípicos (AED);

o as ferramentas básicas para esta análise são


tabelas, gráficos, diagramas e medidas numéricas;

o objetivos: familiarização com os dados, detecção


de padrões interessantes e de valores atípicos
(outliers).

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 1


Estatística Aplicada à Medicina Tópico 6– 2020.1

Estatística Descritiva e Análise Exploratória de Dados (AED)

 Dados Brutos

o obtidos diretamente de pesquisas (não tendo ainda


sofrido qualquer processo de síntese ou análise);

o são apresentados em quadros, tabelas, arquivos ou


listas, e geralmente não incluídos nas publicações.
Originários de questionários, fichas de pacientes,
sites, etc

Exemplo: (Soares e Siqueira, 2002)

Teor de gordura fecal (g/24 horas) de 43 crianças sadias


3,7 1,6 2,5 3,0 3,9 1,9 3,8 1,5 1,1
1,8 1,4 2,7 2,1 3,3 3,2 2,3 2,3 2,4
0,8 3,1 1,8 1,0 2,0 2,0 2,9 3,2 1,9
1,6 2,9 2,0 1,0 2,7 3,0 1,3 1,5 4,6
2,4 2,1 1,3 2,7 2,1 2,8 1,9

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 2


Estatística Aplicada à Medicina Tópico 6– 2020.1

Estatística Descritiva e Análise Exploratória de Dados (AED)

 Organização e Apresentação dos Dados

o veremos a seguir formas de organização e


apresentação de dados através de tabelas,
diagramas e gráficos;
o será dada maior ênfase à interpretação do que à
execução das tabelas, diagramas e gráficos .

 Tabelas de Freqüências

o uma tabela de distribuição de freqüências é uma


das formas de se resumir ou sintetizar um
conjunto de observações (dados);

o a partir dos dados brutos, constrói-se uma tabela


levando-se em consideração a freqüência com
que cada observação ocorre em cada categoria (no
caso de dados qualitativos ou categóricos) ou
classe (no caso de variáveis quantitativas ou
numéricas)

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 3


Estatística Aplicada à Medicina Tópico 6– 2020.1

Exemplo: (Soares e Siqueira, 2002)

Distribuição de profissões entre


pacientes potencialmente suicidas

Profissão Freq. Freq. relativa


Serviços gerais 75 0,248
Doméstica 55 0,182
Do lar 53 0,175
Indeterminada 29 0,096
Emprego especializado 23 0,076
Menor 20 0,066
Desempregado 15 0,050
Estudante 14 0,046
Lavrador 12 0,040
Autônomo 4 0,013
Aposentado 2 0,007
Total 302 1

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 4


Estatística Aplicada à Medicina Tópico 6– 2020.1

Estatística Descritiva e Análise Exploratória de Dados (AED)

DISTRIBUIÇÃO DE IDADE DE PACIENTES POTENCIALMENTE


SUICIDAS - 2002
IDADE (ANOS) fi xi fri Fi FrI
10├ 20 57 15 0,188 57 0,188
20├ 30 113 25 0,374 170 0,562
30├ 40 59 35 0,195 229 0,758
40├ 50 32 45 0,105 261 0,864
50├ 60 19 55 0,062 280 0,927
60├ 70 7 65 0,023 287 0,950
≥ 70 2 0,006 289 0,956
Indeterminada 13 0,043 302 1,000
TOTAL 302 100

FONTE: Siqueira, 2002.

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 5


Estatística Aplicada à Medicina Tópico 6– 2020.1

Estatística Descritiva e Análise Exploratória de Dados (AED)

 Etapas para a construção de tabelas de frequências


para variáveis numéricas (para ler depois;
atualmente os programas de computador em geral
fazem isso automaticamente)

o encontrar o mínimo e o máximo da distribuição;

o escolher um número de subintervalos ou classes,


preferencialmente de igual amplitude, que
incluam todos os valores sem que haja
superposição dos intervalos. Os extremos dos
intervalos são conhecidos como 'limites de classe';

o contar o número de elementos que pertencem a


cada classe (freqüência absoluta)

o determinar a 'freqüência relativa' de cada classe, a


partir da divisão da freqüência absoluta da classe
pelo número total de observações;

o determinar a 'freqüência acumulada', dada pelo


total de observações menores ou iguais ao limite
superior de cada classe.

Estatística Descritiva e Análise Exploratória de Dados (AED)


Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 6
Estatística Aplicada à Medicina Tópico 6– 2020.1

 Número de Classes

o deve ser escolhido pelo pesquisador;


o geralmente entre 5 e 20 (se for muito pequeno,
perde-se informação; se for muito grande, a tabela
deixa de ter a função de resumir as informações);

 Intervalos das Classes

o é obtido pelo quociente entre a amplitude total e o


número de classes;
- este valor pode ser modificado de forma a
facilitar a construção e interpretação da tabela;

- o limite inferior da primeira classe deve ser


menor que o mínimo valor observado; o limite
superior da última classe deve ser maior que o
máximo valor observado.

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 7


Estatística Aplicada à Medicina Tópico 6– 2020.1

Estatística Descritiva e Análise Exploratória de Dados (AED)

 Outro exemplo de tabela de distribuição


de frequências.

Fonte: Soares e Siqueira (2002), p.47

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 8


Estatística Aplicada à Medicina Tópico 6– 2020.1

Estatística Descritiva e Análise Exploratória de Dados (AED)

 Gráficos: discutiremos apenas alguns tipos de


gráficos considerados mais úteis para a identificação
da forma de um conjunto de dados, e para sua
descrição.

 Gráficos de Barras (ou colunas)

o Adotados para a representação de variáveis


qualitativas ou categóricas.

Internações em estabelecimentos de saúde,


por espécie de clínica
(Vieira, 1998)
FREQUÊNCIA FREQUENCIA
ESPÉCIE DE CLÍNICA ABSOLUTA RELATIVA (%)
Médica 6457923
Ginecologia/Obstetrícia 3918308
Cirurgia 3031075
Pediatria 2943939
Outras 3512176

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 9


Estatística Aplicada à Medicina Tópico 6– 2020.1

o Completando a coluna de frequências relativas:

FREQUÊNCIA FREQUÊNCIA
ESPÉCIE DE CLÍNICA ABSOLUTA RELATIVA (%)
Médica 6457923 32,51
Ginecologia/Obstetrícia 3918308 19,73
Cirurgia 3031075 15,26
Pediatria 2943939 14,82
Outras 3512176 17,69
Gráfico de colunas:

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 10


Estatística Aplicada à Medicina Tópico 6– 2020.1

Estatística Descritiva e Análise Exploratória de Dados (AED)

Gráfico de Pontos

o Exemplo: Idade dos pacientes em uma amostra

o Valores podem ser arredondados, para facilitar a


interpretação.

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 11


Estatística Aplicada à Medicina Tópico 6– 2020.1

 Histograma

o Gráfico de barras justapostas, em que no eixo


horizontal está a variável de interesse, dividida em
classes geralmente de mesmo intervalo (podem
ser as mesmas da tabela de distribuição de
freqüências).
 desenha-se uma barra para cada classe, de forma
que a área da barra seja proporcional à
frequência absoluta ou relativa daquela classe.
(No caso de classes de mesma amplitude basta
que as alturas das barras sejam proporcionais às
frequências).
 as barras são centradas nos pontos médios das
classes.

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 12


Estatística Aplicada à Medicina Tópico 6– 2020.1

Exemplo: (Soares e Siqueira, 2002)

Fonte: Soares e Siqueira (2002), pp. 49-50

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 13


Estatística Aplicada à Medicina Tópico 6– 2020.1

Fonte: Soares e Siqueira (2002), pp 38 e 47

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 14


Estatística Aplicada à Medicina Tópico 6– 2020.1

Fonte: Soares e Siqueira (2002), p. 48

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 15


Estatística Aplicada à Medicina Tópico 6– 2020.1

Estatística Descritiva e Análise Exploratória de Dados (AED)

Polígono de Freqüências: construído a partir do


histograma – consiste em unir através de
segmentos de reta as ordenadas correspondentes
aos pontos médios de cada classe.

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 16


Estatística Aplicada à Medicina Tópico 6– 2020.1

Estatística Descritiva e Análise Exploratória de Dados (AED)

o Histogramas e polígonos de frequências servem


para a visualização da forma da distribuição da
variável estudada.

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 17


Estatística Aplicada à Medicina Tópico 6– 2020.1

 Diagrama de Ramos e Folhas

Escala: 13*|4 = 134 mg%

Exemplo: Nível de colesterol sérico em


miligramas percentuais, medidos em
100 homens que apresentavam doença
cardíaca, com idades entre 45 e 67
anos.

Prof. Henrique Hippert e Prof. Ronaldo Bastos- Departamento de Estatística – UFJF 18


Estatística Aplicada à Medicina Tópico 6 – 2020.1

o representação visual de um conjunto de dados


, em que cada número x i consiste em,
no mínimo, 2 dígitos. Procedimento:

o dividimos cada número xi em duas partes:


o um ramo, consistindo em um ou mais dígitos
iniciais
o uma folha, consistindo nos dígitos restantes ou
valor arredondado ou truncado do dígito
seguinte.

o escolher relativamente poucos ramos em


comparação ao número de observações;

o após definição do conjunto de ramos, os mesmos


são listados na margem esquerda do diagrama;

o para cada ramo, todas as folhas correspondentes


são listadas.

o valores podem ser arredondados para facilitar a


interpretação.

o para a comparação de duas distribuições que


possuam aproximadamente o mesmo número de
observações, um gráfico duplo (back-to-back) pode

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 17


Estatística Aplicada à Medicina Tópico 6 – 2020.1

ser utilizado, sendo construído em torno de um ramo


vertical comum.

o Exemplo de ramo e folhas duplo:

Idades de alunos no primeiro período de Medicina, por sexo

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 18


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Medidas de Tendência Central

o Medidas de tendência central são utilizadas para


sintetizar em um único número o conjunto de
dados;

o De maneira geral, estas medidas podem ser


interpretadas como o ponto central, ao redor do
qual os dados estão distribuídos;

o Estudaremos as seguintes medidas de tendência


central: média, mediana e moda.

 Média Amostral

o os dados, além de representados graficamente,


podem também ser descritos numericamente.

o a média aritmética simples pode ser utilizada para


caracterizar a tendência central nos dados

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 19


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Medidas de Tendência Central (Cont.)

o os dados com os quais estaremos trabalhando serão


usualmente provenientes de uma amostra de
observações selecionada de uma população.

o Definição: se as n observações em uma amostra


forem denotadas por , a média
amostral será definida por:

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 20


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Medidas de Tendência Central (Cont.)

 Média Populacional

o podemos também pensar em calcular o valor


médio de todas as observações em uma
população, ou seja, a média populacional (μ), que
é dada por:

o a média amostral é um “bom” estimador da


média populacional , se a amostra for
representativa.

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 21


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Medidas de Tendência Central (Cont.)

 Mediana ( ~x )

o medida de tendência central – valor que divide a


distribuição dos dados em duas partes contendo a
mesma quantidade de observações.

o 50% das observações ficam acima da mediana, e


as outras 50% ficam abaixo.

o é necessário primeiramente ordenar a amostra


para que possamos localizar a posição da
mediana, e assim encontrar o seu valor.

 se n for ímpar, a mediana é o elemento central


(elemento de ordem n 1 2 ).

 se n for par, a mediana será a média entre os


dois elementos centrais (elementos de ordem
n 2 e n 2  1 ).

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 22


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Medidas de Tendência Central (Cont.)

Exemplos.

o Observe que para o cálculo da média, levamos em


consideração todos os valores da amostra.

o No cálculo da mediana isto não ocorre

o Assim, valores muito grandes ou muito pequenos


(valores discrepantes ou atípicos – “outliers”),
causam grandes variações na média.

o A mediana, porém, não é em geral afetada da


mesma forma

o Podemos então dizer que a mediana é uma medida


mais resistente, ou seja, menos afetada por valores
atípicos.

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 23


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Medidas de Tendência Central (Cont.)

 Moda

o É o valor mais frequente na amostra (também uma


medida de tendência central).

o Veja novamente o diagrama de pontos para idades


de pacientes:

Idades dos pacientes em uma amostra

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 24


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Quartis e Percentis

o Quartis: três valores que dividem o conjunto de


dados em 4 partes, contendo cada uma o mesmo
número de observações.

- 1º quartil (Q1): valor abaixo do qual estão 25% das


observações, e acima do qual estão as outras 75%

- 2º quartil (Q2): coincide com a mediana.

- 3º quartil (Q3): valor abaixo do qual estão 75% das


observações, e acima do qual estão as outras 25%

o De maneira análoga, as distribuições podem ser


divididas em 10 partes através de nove decis, e em
100 partes através de noventa e nove percentis.

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 25


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Medidas de Variabilidade (ou Dispersão)


o Não basta conhecermos o valor em torno do qual
os dados se concentram - é preciso conhecermos o
seu grau de variabilidade.

 Amplitude Total

o Definição: se as n observações em uma amostra


forem denotadas por , a amplitude
será:

o Porém, esta medida omite toda a informação


contida entre os valores de máximo e mínimo.

o Na prática, quando n  10 esta perda de


informações não será muito séria.

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 26


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Medidas de Variabilidade (ou Dispersão)

 Variância Amostral

o Definição: se for uma amostra de n


observações, a variância amostral será dada por:
(1)

o o desvio-padrão amostral s é a raiz quadrada


positiva da variância amostral.
o a unidade de medida para a variância é o quadrado
da unidade de medida da variável.
o para o desvio-padrão, a unidade de medida é a
mesma utilizada para a variável.

o por que a variância mede a variabilidade?

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 27


Estatística Aplicada à Medicina Tópico 6 – 2020.1

o quanto maior a variabilidade nos dados, maior


o valor absoluto de alguns desvios
( xi  x )

 por que os desvios são elevados ao quadrado?

o Observe que:

(propriedade algébrica da média aritmética)

o a variância é a média dos desvios ao quadrado


das observações em relação à média.

 Em (1) dividimos por (n - 1). Aquele é um


‘melhor’ estimador do que aquele que considera a
divisão por n. Quando o tamanho da amostra é
grande, as duas alternativas produzem resultados
muito parecidos.

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 28


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Medidas de Variabilidade (ou Dispersão)

 Coeficiente de Variação (CV)

o Medida relativa de dispersão, útil para a comparação


do grau de concentração em torno da média.

o É uma medida adimensional, isto é, um número


puro, usualmente expresso em termos percentuais.

o Fornece uma medida de homogeneidade do


conjunto de dados. Quanto menor o CV, maior a
homogeneidade.

o Para muitos autores, valores menores que 25%


indicam que o conjunto de dados é razoavelmente
homogêneo.

o Tais interpretações porém devem ser feitas


sempre com muito cuidado!

o Medida útil para comparação de duas variáveis ou


dois grupos.

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 29


Estatística Aplicada à Medicina Tópico 6 – 2020.1

 Desvio Interquartílico (DI ou IQ)

o É também uma medida de variabilidade, dada por:

o menos sensível a valores extremos na amostra, do


que a variância, desvio-padrão e amplitude total.

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 30


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Simetria x Assimetria

Medidas de Assimetria

o Uma medida de assimetria indica se existem mais


valores abaixo ou acima da média.

o Quando os valores observados se distribuem


igualmente em torno da média, a distribuição é
simétrica – caso contrário a distribuição será
assimétrica.

o A seguinte relação existe para uma distribuição


perfeitamente simétrica:

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 31


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Medidas de Assimetria (Cont.)

o Para uma distribuição assimétrica positiva:

o Para uma distribuição assimétrica negativa:

 Primeiro Coeficiente de Karl Pearson

 Segundo Coeficiente de Pearson

o Para ambos os coeficientes, se:


As < 0  assimetria negativa
As = 0  simetria
As > 0  assimetria positiva
(ver exemplos)

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 32


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Diagrama de Caixa
(Boxplot ou Diagrama de Tukey)

o gráfico muito útil para a descrição de várias


características de um conjunto de dados: centro,
dispersão, simetria e valores extremos
(discrepantes, atípicos ou outliers).

o podem também ser utilizados para comparações


entre diferentes conjuntos de dados (diferentes
grupos).

o para a construção de um boxplot, são necessárias as


seguintes informações: os valores máximo e
mínimo, os quartis e o desvio interquartílico.

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 33


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Diagrama de Caixa (Cont.)

o Procedimentos:

 marcar numa reta os valores dos três quartis, em


determinada escala.

 acima desta reta, desenha-se um retângulo com


limites iguais às posições do primeiro e terceiro
quartis, cortado por um segmento de reta na posição
do segundo quartil (mediana).

 a partir dos limites do retângulo, traçar linhas


até:

 encontrar os extremos (máximo e mínimo);

ou (o mais usual, adotado no curso)

 encontrar o maior e o menor valores que estejam


dentro da faixa de 1,5DI a partir dos quartis Q1 e
Q3 e traçar as “caudas” até tais valores

 pontos que estão a mais de 1,5DI do quartil


correspondente até 3,0DI são chamados pontos
extremos, e os que estão a mais de 3,0DI são pontos
‘muito extremos’ (pontos soltos, ou outliers
extremos). São representados em geral por * ou °

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 34


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 35


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Diagrama de Caixa (Cont.)


Exemplo - Doença de Chagas (Soares e Siqueira, 2002)

o foi realizado um estudo comparativo de crianças


filhas de mães chagásicas com filhas de mães não
chagásicas (grupo controle).

o foram feitos exames laboratoriais, e foram


levantadas medidas vitais, antropométricas e de
desenvolvimento motor.

o para as crianças filhas de mães chagásicas,


apresentamos na tabela abaixo os dados ordenados
da dosagem de bilirrubina (mg/dL).

1,3 3,1 3,9 6,3 9,7


1,5 3,2 4,0 6,6 10,1
1,9 3,2 4,3 6,7 10,7
2,0 3,2 4,3 6,8 11,2
2,1 3,2 4,4 6,8 11,3
2,8 3,2 4,9 7,8 13,0
2,8 3,3 6,0 8,2
2,9 3,7 6,1 8,3
2,9 3,7 6,2 8,8
3,1 3,8 6,3 9,5

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 36


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Diagrama de Caixa (Cont.)

As estatísticas descritivas são:


x  5,4
xmin = 1,3 xmax = 12,5
Q1 = 3,2
Q2 = 4,3
Q3 = 6,8

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 37


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Diagrama de Caixa (Cont.)


Teor de gordura fecal (g/24 horas) de 43 crianças sadias
(Soares e Siqueira, 2002)

Statistics

gordura
N Valid 43
Missing 0
Mean 2.305
Median 2.100
Std. Deviation .8635
Minimum .8
Maximum 4.6
Percentiles 25 1.600
50 2.100
75 2.900

o Boxplots são muito úteis para comparações de


diferentes conjuntos de dados:

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 38


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Em Resumo: Estatística Descritiva / Análise


Exploratória de Dados

Gráficos, tabelas e medidas são maneiras de


se descrever um conjunto de dados. Fazendo
uma analogia, poderíamos dizer que o gráfico de
ramo-e-folhas (stem-and-leaf), por exemplo, é
como a fotografia de uma pessoa, o de Tukey
(box-plot) como o desenho desta pessoa, retendo
apenas os traços essenciais, mais marcantes, e as
medidas, uma descrição escrita destes traços,
podendo ser entendidas como modelos numéricos
para representar os dados (simplificação do
conjunto de dados por uma medida síntese).

Todas estas técnicas têm seu valor, pois cada uma


delas realça um aspecto particular do conjunto de
dados e juntas elas se complementam.

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 39


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Para poder realizar uma análise exploratória


de dados, anote primeiro todos os detalhes que
chamarem sua atenção e todas as dúvidas que
ocorrerem. Observe, por exemplo:

Quantas observações foram feitas?


Quais são os pontos com valores mínimo e
máximo?
Estes pontos são incomuns ou discrepantes
(outliers)? Você consegue explicá-los?
Qual a forma geral do gráfico traçado? É
simétrico ou assimétrico?
Há espaços sem observações (brancos, falhas,
buracos) na distribuição dos dados?
Em que faixas de valores se encontra a maioria
dos dados?
Os dados estão dispersos ou aglomerados?
Há aglomerados localizados de dados (clusters)?
Onde estão estes clusters? Você consegue
explicá-los? etc.

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 40


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Faça também perguntas sobre os dados que


recebeu, por exemplo:

Quem forneceu os dados?


Como eles foram obtidos: censo, amostragem,
experimentação, conveniência? Será que
eles são realmente válidos?
Como será que as observações foram feitas: por
classificação (variáveis qualitativas ou
categóricas) ou mensuração (variáveis
quantitativas ou numéricas)?
As unidades de medida ou as formas de
classificação utilizadas são adequadas?
Falta alguma coisa importante nos dados?

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 41


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Em função dos dados obtidos (se qualitativos ou


categóricos: nominais ou ordinais; se quantitati-
vos ou numéricos: discretos ou contínuos) decida-
se pelo(s) gráfico(s) e tabela(s) que sejam mais
adequados a estes dados e pelas medidas que
sejam possíveis de serem calculadas e interpreta-
das. No caso de medidas, pergunte:

Quais as vantagens desta medida?


Existem situações que desaconselham a uti-
lização desta medida?
A interpretação da medida é plausível? Outras
pessoas saberão interpretar as medidas esco-
lhidas?

Você provavelmente não conseguirá respon-


der a algumas das perguntas acima, mas fazer
perguntas deste tipo é essencial para desenvolver
sua capacidade de analisar e criticar dados estatís-
ticos. O melhor para organizar todas as idéias é
escrever um resumo, ou relatório sucinto, da for-
ma mais clara possível.
Organizar os achados da análise, resumir e
comunicar as informações numéricas obtidas,
fazem parte de uma habilidade importante para a
carreira do profissional que utiliza estatística.
Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 42
Estatística Aplicada à Medicina Tópico 6 – 2020.1

Lembre-se de que a forma de análise de um


conjunto de dados depende muito da natureza dos
mesmos. Dados qualitativos ou categóricos,
sejam nominais ou ordinais, permitem certos
tipos de análise. Já os dados quantitativos ou
numéricos, sejam discretos ou contínuos,
permitem análises que não são possíveis de se
realizar com dados qualitativos.

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 43


Estatística Aplicada à Medicina Tópico 6 – 2020.1

o Uma forma sistemática de realizar uma AED:

Uma forma sistemática de se realizar uma análise


exploratória de dados é procurar pelas seis caracterís-
ticas de uma base de dados, a saber:

1) formato,
2) localização,
3) dispersão,
4) pontos discrepantes,
5) aglomerados,
6) granularidade.

O formato de uma base de dados é, sem dúvida, o


fator mais importante para se decidir quais as medidas
e os gráficos que melhor descrevem o conjunto de
dados. Aqui estamos falando da análise de simetria e
caracterização como unimodal, bimodal ou multimo-
dal. Por exemplo, uma distribuição bimodal não fica
bem caracterizada ao ser representada por um diagra-
ma de Tukey. (box plot).

A localização aproximada de uma distribuição é


inicialmente estimada visualmente a partir dos gráfi-
cos. Posteriormente, após a análise do formato da
distribuição, chegamos à escolha da(s) medida(s) de
centro mais adequada(s): média, mediana, moda, mé-
dia truncada, etc.
Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 44
Estatística Aplicada à Medicina Tópico 6 – 2020.1

A dispersão mede a quantidade de variação apre-


sentada pelos dados. Novamente devemos partir de
uma avaliação meramente visual e, posteriormente,
escolher a medida(s) de dispersão mais adequada(s)
em função do formato e do propósito para o qual
iremos calcular tal medida. Aqui estamos falando da
variância, do desvio-padrão, do intervalo interquatí-
lico e da amplitude, embora esta última medida seja
pouco resistente.

Pontos discrepantes são aqueles valores que se


encontram afastados do aglomerado geral formado
pelos outros valores do conjunto de dados. Cada
ponto discrepante deve ser cuidadosamente analisado,
com o objetivo de se verificar a sua representatividade
diante da população em estudo (neste caso deve ser
mantido) ou sua pouca representatividade ou erro
(quando pode ser eliminado). Notar que em alguns
casos o ponto discrepante pode ser o valor mais
importante da base de dados. Existe um caso verda-
deiro de uma análise computadorizada automática ter
excluído um ponto discrepante importante: o buraco
na camada de ozônio acima do Polo Sul foi detectado
por um satélite muito antes do mesmo ser detectado de
bases de observação no solo; os valores medidos
tinham sido excluídos automaticamente pelo programa
de computador por serem muito menores que os valo-
res que se imaginava possíveis! O diagrama de Tukey
Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 45
Estatística Aplicada à Medicina Tópico 6 – 2020.1

é o melhor para a procura e análise de pontos discre-


pantes. Outros gráficos também podem ser utilizados,
lembrando que a grande contribuição do computador é
justamente possibilitar a análise dos dados de dife-
rentes formas e de maneira rápida e eficiente.

Os aglomerados indicam que os dados tendem a


se concentrar ao redor de certos valores, formando os
agrupamentos que são chamados de aglomerados
pelos estatísticos. O gráfico que permite a melhor
visualização de aglomerados é justamente o mais
simples: o gráfico de pontos.

A granularidade indica que apenas valores dis-


cretos são permitidos para representar as observações
(e, às vezes, múltiplos de uma constante). Isto implica
que os dados são realmente discretos ou então que os
dados eram contínuos e foram arredondados ou trun-
cados para simplificar a análise (ou seja, foram discre-
tizados). O gráfico de pontos indica bem este fenô-
meno, com pontos sobrepostos separados por espaços.
Quando, por exemplo, medimos o pulso de um pacien-
te por 15 segundos e multiplicamos por 4, o conjunto
de dados gerados será constituído por valores que são
todos múltiplos de 4!
Logo, a observação da granularidade nos permite
inferir ou confirmar a forma de coleta dos dados.

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 46


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Representação esquemática das 6 características:

- formato

- localização

- dispersão

- pontos discrepantes

- aglomerados

+++++
++++++
+++++++
+++++++
++++++++

- granularidade
Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 47
Estatística Aplicada à Medicina Tópico 6 – 2020.1

Vantagens da visualização de dados1:

Se um laboratório estivesse interessado em avaliar os


efeitos adversos (AE) de um medicamento em dife-
rentes lotes do mesmo, através de um ensaio clínico, a
seguinte tabela poderia ser produzida:

1
Allen, J. Medical Data Review and Exploratory Data Analysis using Data Visualization. Roche
Innovation Centre , Basel (2014).

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 48


Estatística Aplicada à Medicina Tópico 6 – 2020.1

Apesar de podermos tirar nossas conclusões sobre o


lote X, quando comparado com os outros lotes, através
da tabela, veja o que poderia ser visto através de
gráficos de barras:

Veja que é mais fácil através do gráfico verificarmos


que as diferenças são relativamente pequenas. Além
disso, pacotes computacionais permitem a confecção
de gráficos interativos, como o acima, onde podemos
facilmente mudar o lote, ou então selecionar apenas
alguns efeitos adversos! (ver botões abaixo do gráfico)

Observação Final:
Toda análise estatística deve ser iniciada por uma
AED, de forma que hipóteses sobre os fenômenos
estudados possam ser levantadas para posterior
confirmação (ou não) das mesmas.

Prof. Henrique Hippert e Prof. Ronaldo Bastos - Departamento de Estatística - UFJF 49

Você também pode gostar