Você está na página 1de 37

ORGANIZAÇÃO E

APRESENTAÇÃO DE
DADOS
Profª Msc. Stefanie Marina Correia Cairo

E-mail: stefanie.cairo@ftc.edu.br
Coletei os
dados, como
posso
apresentá-los ?
Análise descritiva ou exploratória dos
dados
Primeira etapa do processo de análise de dados – conjunto de técnicas estatísticas e
gráficas que permite explorar uma grande quantidade de dados para a primeira
aproximação à realidade estudada, na procura de algum padrão ou comportamento
relevante que esteja presente nos dados. Os dados podem ser organizados:

Medidas
Tabelas Gráficos
descritivas
TABELAS
Tabelas – Tabela de Frequência
Título: Conjunto de informações - respondendo as perguntas: O que? Quando? Onde? Localizado no topo
da tabela, além de conter a palavra “TABELA” e sua respectiva numeração.

Corpo: É o conjunto de linhas e colunas que contem


informações sobre a variável em estudo.
• Colunas
• Linhas
• Laterais: não devem ser fechadas

Variável qualitativa nominal

Rodapé: é reservado para observações pertinentes


à tabela, bem como para a identificação da fonte de
dados.
N - frequência absoluta
% - frequência relativa
Tabela de Contingência – 2x2

• São usadas para registrar observações independentes de duas ou mais variáveis,


normalmente qualitativas;
• Se pretender investigar se as variáveis estudadas têm alguma associação.
Tabela com dados numéricos
Exemplo - Para estudar o desempenho cardíaco
de pacientes submetidos à diálise renal, foram
obtidos valores de diversas variáveis de
interesse da Cardiologia.
Arredondamento – variáveis
numéricas contínuas
• Quando o 1º algarismo a ser abandonado for 0, 1, 2, 3 ou 4, fica inalterado o último algarismo
a permanecer.

• Exemplo: 48,23 é aproximadamente 48,2

• Quando o primeiro algarismo a ser abandonado for 5, 6, 7, 8 ou 9 , aumenta-se de uma


unidade o último algarismo a permanecer.

• Exemplo¹: 23,87 é aproximadamente 23,9

• Exemplo²: 23,99 é aproximadamente 24,0


• Tabelas com grande número de
dados não oferecem ao leitor visão
rápida e global do fenômeno.
• Observe os dados apresentados: é
difícil dizer como os valores se
distribuem.
• Por esta razão, dados contínuos,
desde que em grande número são
apresentados em tabelas de
distribuição de frequências.
GRÁFICOS
Gráficos
• A analise de gráficos é uma etapa importante da análise exploratória.

• Vantagens: Informa de maneira rápida e concisa sobre o comportamento ou sobre a


variabilidade do fenômeno estudado.
A partir das tabelas de frequências construiu-se o seguinte diagrama de barras que permite
comparar como se distribui a população masculina e feminina do continente, segundo o
estado civil:
Gráficos

• Todo gráfico deve apresentar título e escala


(variáveis);

• O título deve ser colocado abaixo do gráfico.

• As escalas devem crescer da esquerda para


a direita e de baixo para cima.

• As legendas explicativas devem ser


Fig. 1. Distribuição, segundo as variáveis estado
colocadas, de preferência, à direita do gráfico. civil e sexo da população do continente.
Gráfico de barras
Histograma
Para a tabela da distribuição de frequência das alturas (em cm) de 40 alunos da Universidade X temos
o seguinte Histograma:

• Forma gráfica adequada para


apresentar a distribuição de
uma variável quantitativa
contínua ou discreta com
muitos valores.

• Tamanho das classes são


iguais – largura dos retângulos
são iguais.
Polígono de Frequências
Para a tabela da distribuição de frequência das alturas (em cm) de 40 alunos da Universidade
XYZ temos o seguinte Polígono de Frequência:

• Usado para representar os


dados de uma variável
quantitativa contínua.

• Construído a partir dos


pontos médios das classes.

• Eixo x: pontos médios

• Eixo y: frequência
Gráfico de Setores – “pizza”

15%

Em geral, as pessoas são mais capazes de comparar comprimentos de barras do que ângulos de
gráficos de pizza. Por isso, desenhe pizzas somente quando o número de categorias for pequeno
MEDIDAS DE TENDÊNCIA CENTRAL

A análise descritiva de dados, além da construção de tabelas e


gráficos, consiste também no cálculo de medidas que ajudam na
produção de uma visão global dos dados.
Medidas de Tendência Central
o Buscam sintetizar em um único número o conjunto de dados - representa bem a
distribuição da variável de interesse:

 Dados quantitativos;

 Mostra os dados de tabelas e gráficos de forma resumida;

 Valor do ponto em torno do qual os dados se distribuem;


Média Aritmética
Média aritmética (𝑥 ): Pode ser interpretada como o “centro de gravidade” de um conjunto
de dados – ponto de equilíbrio. Para calcular a média, deve-se somar os valores de todos
os dados e dividir o total pelo número deles (n):

𝑥
𝑥=
𝑛
Exemplo: Circunferência abdominal (cm) de 10 pessoas do sexo masculino:
- Valores: 88, 83, 79, 76, 78, 70, 80, 82, 86, 105
- Qual o valor médio? 837 / 10 = 83,7 cm
Mediana
 Valor que divide a distribuição ao meio (50% das observações ficam acima da mediana e
50% abaixo).
 Para calcular a mediana é necessário primeiro ordenar a amostra e localizar a posição
da mediana.

• No cálculo da média, todos os valores são levados em


conta, ao passo que na mediana isto não acontece.

• Por esta razão, valores muito grandes ou muito


pequenos, causam grandes variações na média, o
que geralmente não ocorre com a mediana.

• Distribuição assimétrica dos dados.


Moda
Valor de maior frequência na amostra – ou seja, o que mais se repete.

Ex.: 3, 4, 7, 7, 7, 9 e 9
Moda = 7

Ex.: 1, 2, 2, 3, 4, 4, e 5
Moda 2 e 4

Ex.: 1, 2, 3, 4, 5
Moda = não possui moda
MEDIDAS DE VARIABILIDADE OU
DISPERSÃO

Quase nunca uma única medida de tendência central é suficiente para descrever, de modo
satisfatório, um conjunto de dados. Não basta saber o valor em torno do qual os dados se
concentram. É preciso conhecer as medidas de dispersão desses dados.
Em duas pizzarias hipotéticas...

Ambos anunciam um tempo médio de entrega


de 20 minutos.
Como estamos famintos, os dois parecem
igualmente bons!

No entanto, essa equivalência pode ser enganosa!


Em duas pizzarias hipotéticas...
• Para determinar em qual restaurante você deve pedir
quando estiver com fome, precisamos analisar sua
variabilidade.

Quão significativa é essa diferença em levar pizza


aos clientes prontamente?

• Usei as mesmas escalas em ambos os gráficos para


que você possa comparar visualmente as duas
distribuições.
Em duas pizzarias hipotéticas...

• Nestes gráficos, consideramos uma espera de 30 minutos ou mais inaceitável. Afinal, estamos com fome!
• A área sombreada em cada gráfico representa a proporção dos tempos de entrega que ultrapassam 30 minutos. Quase 16% das
entregas para o restaurante de alta variabilidade ultrapassam 30 minutos. Por outro lado, apenas 2% das entregas demoram muito
com o restaurante de baixa variabilidade.
• Ambos têm um tempo médio de entrega de 20 minutos, mas eu sei onde colocaria meu pedido quando estou com fome!
• Como mostra este exemplo, a tendência central não fornece informações completas.
• Também precisamos entender a variabilidade em torno do meio da distribuição para obter o quadro completo.
Medidas de dispersão
o São utilizadas para amostras com maior dispersão dos dados;
Tabela 1. Notas de quatro alunos em cinco provas.

Aluno Notas Média


Maria 5 5 5 5 5 5
João 6 4 5 4 6 5
José 10 5 5 5 0 5
Pedro 10 10 5 0 0 5

As notas de Maria - não tem variação;


As notas de Pedro - grande variação;
As notas de João variaram menos que a de José;
Amplitude
o Diferenças entre o maior e menor valor observado.
 Maria: a = 5 - 5 = 0
Tabela 1. Notas de quatro alunos em cinco provas.
Aluno Notas Média João: a= 6 - 4 = 2

Antônio 5 5 5 5 5 5 José: a= 10 - 0 = 10
João 6 4 5 4 6 5
Pedro: a= 10 – 0 = 10
José 10 5 5 5 0 5
Pedro 10 10 5 0 0 5 A amplitude nem sempre capta a
diferença: caso de José e Pedro.

A amplitude não mede bem a dispersão porque,


pega somente os valores extremos.
Variância
• Medida de variabilidade dos dados em torno da média – mostra o quão distante os
valores estão da média.
• A variância é a média dos desvios ao quadrado das observações em relação a média.
Variância
 Quero saber a variância para o tempo médio de corrida “sem
apresentar fadiga/cansaço”, de 5 voluntários da turma de
bioestatística

 Exemplo: Dados: 3 min, 5 min, 6 min, 7 min e 9 min

 1ª passo: Calcular a média:

3 + 5 + 6 + 7 + 9 30
= =𝟔
5 5
Variância
 Variância: Dados distribuídos em torno da média;

 2ª PASSO - Desvio em relação a média = é a diferença do dado e a


média do conjunto;

EX.: Tempo médio de corrida sem se cansar 6 minutos; Desvio em relação a


 Pessoa com 5 minutos:
média:
3 – 6= -3
 5 - 6= -1 minutos 5 – 6= -1
6–6=0 Soma = 0
 Obs.: Todos os dados tem um desvio em relação a média;
7–6=1
 A média dos desvios sempre será igual a zero; 9–6=3
Variância
3º passo: Para medir a dispersão em torno da média utiliza-se a soma do quadrado dos
desvios.

Desvio = 0 Variância = média aritmética do


quadrado do desvio
20 / 5 = 4
Desvio Padrão
 Desvio padrão (S) é a raiz quadrada da variância;
 O quanto os valores de um conjunto de dados são diferentes.

Indica o grau em que todos os valores de uma


distribuição se desviam da média. Desvio padrão é a raiz
quadrada da variância

Variância = média aritmética do


quadrado do desvio
20 / 5 = 4
𝟒 = 𝟐 pra mais e pra menos
Coeficiente de Variação - CV
• Sua utilidade é fornecer uma medida para a homogeneidade do conjunto de dados.
• Quanto menor o CV mais homogêneo é o conjunto de dados.
• É a razão entre o desvio padrão e a média X 100. O DP é grande ou
pequeno?
Exercícios
Foi realizado um estudo em uma universidade para verificar a massa corpórea dos alunos em
diferentes salas. Foram encontrados os seguintes resultados.
Exercícios
A partir dessas informações calcule:
a) A amplitude
b) A variância
c) O desvio padrão.
d) Coeficiente de Variação

Você também pode gostar