Você está na página 1de 46

ESTATÍSTICA DESCRITIVA

ESTATÍSTICA: CONCEITOS

O QUE É?
Conjunto de métodos e técnicas que permitem recolher, explorar, descrever e interpretar
um determinado conjunto de dados.
Dito de outra forma, a Estatística é uma arte e uma ciência.
Arte, enquanto permite “criar” resultados e fazer inferências a partir de conjuntos de dados;
Ciência, enquanto possuidora de técnicas matemáticas.
Os números apenas têm significado num determinado contexto e transformados em
informação; o que depois levará a um conhecimento muito mais valioso.

CAMPOS DE APLICAÇÃO

Economia
Previsão
Demografia
Desporto
Performance individual e de equipa
Engenharia
Construção
Materiais
Medicina
Gestão
Tomadas de decisão
Marketing, Publicidade

APLICAÇÕES PARA TRATAMENTO ESTATÍSTICO DE DADOS (…)


SAS
SPSS
Minitab
Excel
Calc
Reviews
JASP
Jamovi
PSPP
Stata
MATLAB
Maple

PARA QUÊ?
Para ter um mundo melhor … através de decisões bem fundamentadas!!!

“Nada revela mais uma incapacidade


fundamental para o exercício do
comércio que o hábito de concluir o
que os outros querem, sem estudar os
outros(…).”

COMO?
Na apresentação de informação numérica e na construção de gráficos;
Na melhoria de processos e no estímulo da qualidade;
Na estimação de previsões objetivas;
Na resolução de problemas com metodologias quantitativas;
Na dedução de conclusões gerais a partir de resultados das amostras.

“É fácil mentir com a estatística, mas é ainda mais fácil mentir sem ela.”

Fredrick Mosteller (Professor of Biostatistics at Harvard School of Public


Health)
COMO SE PODE MENTIR COM A ESTATÍSTICA?
Quando os dados são apresentados de forma enganosa!

 Por descuido ou ignorância;


 Quando alguém tem objetivos pessoais, pretendendo suprimir dados desfavoráveis
enquanto dá ênfase aos dados que lhe são favoráveis.

Por exemplo:

 Amostras tendenciosas
 Utilização errada da média (uma das principais estatísticas)
 Falta de informação associada a resultados
 Gráficos “malucos”

AMOSTRAS TENDENCIOSAS

Frase publicitária: “Pessoas que “Houve uma melhoria de


usam a pasta de dentes XPTO, 100% nos nossos serviços!”
declaram ter 23% menos cáries.

Frase publicitária: “8 em cada 10 pessoas prefere o


detergente X”

Que significam estes números impressionantes?


Existem dois aspetos que saltam à vista, se
lermos com alguma desconfiança: Os dados podem muito bem ser baseados
em amostras pequena e com pessoas
1) A precisão é surpreendente. cuidadosamente selecionadas para dar o
2) É tão bom que não deve ser verdade. resultado pretendido!!!

UTILIZAÇÃO ERRADA DA MÉDIA

“O ex estudante da Universidade X, formado em 2000,


ganha me média 25.111 euros por ano”, frase
publicada num jornal.

Se eu comer 2 frangos e tu nenhum, na média está


muito bem porque comemos um cada um.
Nem sempre a média nos diz algo acertado. Deve-se complementar esta medida com outras.

GRÁFICOS
Erros nas escalas através de intervalos
desiguais
Erros nas escalas através de
deformação
Não começar no zero e não o indicar
Eliminação de dados especialmente
reveladores
Pictogramas com figuras não
equivalentes

CONCEITOS CHAVE

População
Conjunto finito ou infinito de
unidades (pessoas, animais,
objetos) com uma ou mais
características sem comum que
se pretendem analisar.

Amostra
Subconjunto finito da
população.
Estatística Descritiva
Conjunto de técnicas que visam organizar, analisar e apresentar dados amostrais
OBJETIVO: Descrever e resumir a amostra, sem tirar conclusões sobre a população
COMO: Organização em tabelas, representação gráfica, cálculo de medidas descritivas
UTILIDADE: Caracterizar a(s) amostra(s)

Estatísticas Inferencial
Conjunto de técnicas que visam caracterizar (ou inferir sobre) uma população, a partir de
dados amostrais
OBJETIVO: Tirar conclusões sobre características da população a partir de dados
amostrais
COMO: Comparar, testar, estimar e prever os parâmetros da população
ATRAVÉS: Cálculo de probabilidades (envolve incerteza)
UTILIDADE: Concluir sobre a população

Parâmetros – quantidades Estatísticas – quantidades


numéricas com interesse numéricas que são estimativas
dos parâmetros

Dimensão da Amostra

É o número de dados da amostra e representa-se por n.


A dimensão da população chama-se Efetivo e representa-se por N.

Variável Estatística

A característica que se pretende estudar.


(Ex. Cor dos olhos)
Categorias ou modalidades

São as diferentes formas que a variável estatística pode apresentar.


(Ex. Azuis, Verdes)

Dados

Resultado da observação de uma variável.

Tipos de Variáveis

Escalas de Medida

ESCALAS DE MEDIDA – atribuem números ou rótulos a


pessoas, objetos ou estados de acordo com regras específicas
para representar quantidades ou qualidades dos atributos que se
pretendem medir.

Há 4 níveis de medição:

Escala Nominal
Escala Ordinal
Escala de Intervalo
Escala de Rácio

Escala Nominal
Conjunto de categorias de resposta qualitativamente diferentes e mutuamente exclusivas (pode-
se atribui-se um número a cada categoria para codificar as respostas.
Atenção: os números não implicam diferenças em quantidade!)
Exemplo de Variáveis:
Sexo: 1 – Feminino; 2 – Masculino
Tipos de lojas: 1- Mercearia; 2 - Minimercados; 3 – Supermercados, 4 – Hipermercados

Escala Ordinal
Estas escalas admitem uma ordenação numérica das suas categorias, estabelecendo uma relação
de ordem entre elas.
Atenção: Continua a não ser possível medir a diferenças entre as respetivas categorias, mas faz
sentido ordená-las!
Exemplo de Variáveis:
Escalões etários: 1 – 18-22; 2 – 23-27; ......
Grau de satisfação: 1- Muito Insatisfeito; 2 - satisfeito; 3 – Muito Satisfeito

Escala de Intervalo
Estas escalas têm a característica de uma escala ordinal em que um valor numérico mais elevado
indica, de facto, uma maior quantidade. As diferenças entre valores numéricos adjacentes na
escala indicam diferenças iguais na quantidade da variável. O valor zero é arbitrário e não
indica ausência total da característica que a variável representa.
Exemplo de Variáveis:
Temperatura: 35 graus é maior que 30 graus, mas 0 grau não indica ausência de temperatura
(0ºC=32º Fahrenheit)

Escala de Rácio (ou razão)


Estas escalas possuem todas as características das de intervalo mais uma: o zero é “real”. Ou
seja, uma escala de rácio reflete a quantidade real de uma variável.
Exemplo de Variáveis:
Distância; Tempo; Peso
Variáveis vs Escalas de Medida
Nota: uma variável quantitativa pode ser transformada numa variável com escala ordinal.
Exemplo: idade em faixas etárias

Etapas
1. Definição do problema
2. Planificação do processo de resolução
3. Recolha de dados
4. Organização de dados
5. Apresentação de dados
6. Análise e interpretação de dados
7. Estabelecer generalizações e tomada de decisões

Exemplo
Caracterização de um conjunto de consumidores de cerveja

Algumas questões:
Que possível padrão de consumidores terá interesse em procurar?
Esses padrões são imediatamente identificáveis?
Que representações dos dados poderiam destacar os possíveis padrões?
O conjunto de consumidores inquirido será representativo da totalidade dos
consumidores de cerveja?
Poderiam as conclusões da análise deste conjunto de consumidores ser extrapoladas
para a totalidade dos consumidores?

Resolução:

Unidades estatísticas:
Os consumidores de cerveja

Variáveis estatísticas:
“Sexo”; “Idade”; “Habitações Escolares”; “Salário Mensal”; “Residência”

Dados:
Os valores na tabela

Estatísticas/parâmetros:
Por exemplo: Idade média do consumidor; Salário médio mensal do consumidor

12 Dimensão da amostra:
(consumidores inquiridos)

Variáveis Qualitativas:
Sexo; Habilitações Escolares; Residência

Variáveis Quantitativas:
Idade; Salário Mensal

Escalas de Medida: Nominal


Sexo; Residência

Escalas de Medida: Ordinal:


Habilitações Escolares

Escalas de Medida: Escala


Idade; Salário Mensal

ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS ESTATÍSTICOS: TABELAS


ORGANIZAR E APRESENTAR
Necessário Que fazer com daos
Recolha de Dados Dados Brutos
Organizar/Ordenar Repetidos?

Os dados podem ser organizados de diferentes modos.

TABELA DE FREQUÊNCIAS

1ª coluna: Categorias c i, os valores x i, ou as classes [l i ; l i+1[ que a variável estatística pode


assumir.

2ª coluna: Frequência Absoluta, f i, é a contagem ou número de vezes que cada categoria ou


valor da variável foi observado. Para uma amostra de tamanho n:
k

∑ fi = n (o somatório das frequências absolutas é igual ao total de observações, ou seja, n)


i=1

3ª coluna: Frequência Relativa, f ri , é a proporção (ou %) com que cada modalidade ou valor
da variável foi observado: f ri = f i/n
k

∑ fri = 1 (o somatório das frequências relativas é igual à unidade)


i=1

Colunas seguintes (apenas para dados quantitativos ou qualitativos ordinais): Frequência


Acumulada, f i ou f ri
O índice i diz respeito a cada linha da tabela, indicando a categoria ou o valor correspondente
da variável.

Exemplo
Num estudo de mercado sobre Cerveja, recolheu-se a seguinte informação sobre o número de
vezes que 17 pessoas beberam cerveja numa determinada semana de verão, tendo-se obtido os
seguintes dados:

Tipo de variáveis?
Sexo - Variável qualitativa, nominal
Nº de vezes – Variável quantitativa discreta
Tabela de frequência da variável qualitativa nominal “Sexo”

Interpretação:
A maioria dos inquiridos é do sexo
feminino (52,9%).

Nota: Por vezes, a soma das frequências relativas dá próximo de 1 e não exatamente 1; estas
ligeiras diferenças são devidas a erros de arredondamento.

Tabela de frequências da variável quantitativa discreta (similar para a qualitativa,


ordinal)
Interpretação:
Frequências simples:
35,3% (6) dos inquiridos revelam que beberam cerveja duas vezes nessa semana de verão.
Frequências acumuladas:
47% (8) dos inquiridos bebeu cerveja uma ou nenhuma vez naquela semana.

Exemplo
O Sr. Cevada é vendedor de cerveja na cidade do Porto. Nos últimos anos registou o seguinte
volume de vendas (milhares de euros):

Tipo de variável?
Variável quantitativa
contínua

Tabela de frequências
Face à grande variedade de valores que uma variável quantitativa contínua pode assumir, é
necessário agrupar os dados em classes (ou intervalos).
O principal inconveniente do agrupamento reside no facto de deixarmos de considerar os dados
originais para, em sua substituição, utilizarmos um mesmo representante para os diferentes
dados de uma classe - a MARCA.

Nota: Por vezes, quando a variável é discreta mas apresenta uma grande
diversidade de valores, é aconselhável a construção de classes.
TABELA DE FREQUÊNCIAS: COMO CONSTRUIR AS CLASSES?
1. Determinar o número k de classes da amostra; existem várias regras, das quais se salienta
a seguinte:

2. Determinar a Amplitude da amostra, A, isto é, a diferença entre o valor máximo e o valor


mínimo da amostra: A = X máx - X min
A
3. Determinar a amplitude da classe, a: a =
k
4. Determinar os limites das k classes
5. Distribuir as observações pelas classes

Calculado o número de classes e respetiva amplitude, deve-se obedecer a algumas regras:


As classes devem ter, sempre que possível, amplitudes iguais
Os limites das classes devem ser definidos de modo que o limite inferior (li) da classe é
fechado e o limite superior (ls) é aberto
Perante a diversidade de técnicas que existem para distribuir as observações pelas
classes, optou-se por considerar o limite inferior da primeira classe igual ao mínimo
da amostra

Exemplo
O Sr. Cevada é vendedor de cerveja na cidade do Porto. Nos últimos anos registou os seguintes
volume de vendas (milhares de euros):

Resolução:
Número de classes: Como n = 20 se situa entre 15 e 30, 𝐾 = 5

Amplitude da amostra: A = X máx - X min = 10.8 – 4.0 = 6.8

6.8
Amplitude da classe: a = = 1.36 ≈ 1.4
5

Deve-se arredondar por excesso, para garantir que todas


as observações sejam abrangidas pelas classes; e deve-se
considerar um número de casas decimais igual à dos dados
Resolução:

Interpretação:
Em 40% (8) dos anos, o Sr. Cevada faturou entre 4 a 5.3 milhares de euros.
Em 60% (12) dos anos, o Sr. Cevada faturou menos de 6.8 milhares de euros.
E, em 15% dos anos, a faturação foi superior ou igual a 8.2 milhares de euros

ORGANIZAÇÃO E APRESENTAÇÃO DE DADOS ESTATÍSTICOS: GRÁFICOS


REPRESENTAÇÃO GRÁFICA
Ao contrário das tabelas, os gráficos são visualmente atraentes!
Uma imagem vale mais do que mil palavras!
Mas…não têm a precisão das tabelas.
A impressão visual falha…é tendenciosa!

ALGUNS EXEMPLOS DE GRÁFICOS COM ERROS

Os mesmos dados, mas… Origem dos eixos diferentes!

Alteração da escala torna o fenómeno aparentemente menos intenso, quando os dois gráficos
representam o mesmo fenómeno!
Nota: Sempre que existir interesse em comparar duas curvas estas devem ser construídas na
mesma escala! Devem ser colocadas lado a lado…ou na mesma página
Outro Exemplo
O gráfico seguinte, publicado pela Revista
Forbes, em 1990, tem como objetivo mostrar
que, enquanto a despesa com educação do
governo americano tem crescido
rapidamente, o desempenho dos estudantes, medido através da média das notas (SAT -
Scholastic Aptitude Tests), não tem correspondido.
A conclusão é de que o governo americano não deve desperdiçar o dinheiro do contribuinte na
educação
Contudo, alterando a amplitude das escalas verticais separadamente, pode-se fazer com que o
gráfico mostre exatamente o efeito oposto.

QUANDO SE FAZ UM GRÁFICO. QUESTÕES:


O gráfico é realmente a melhor opção?
Qual é o público-alvo?
Que tipo de gráfico usar?
Como apresentar o gráfico?
Deverá ser usado apenas um gráfico?
Que meios técnicos se vão utilizar?

O gráfico é fácil de ler?


O gráfico pode ser mal interpretado?
O gráfico tem o tamanho e a forma certa?
O gráfico está localizado no sítio certo?
O gráfico beneficia por ser a cores?

ASPETOS A TER EM CONTA


Os gráficos devem ser auto-explicativos e de fácil compreensão, de preferência sem
comentários inseridos.
Ou seja: simplicidade e clareza.
Em trabalhos científicos a finalidade principal dos gráficos é evidenciar informações.
Deve-se:
Selecionar as escalas com cuidado
Colocar títulos adequados
Colocar legenda
Colocar as unidades dos dados
Indicar a fonte da informação
TIPOS DE GRÁFICOS

Gráficos de Barras Gráficos de Linhas


6 6
5 5
4 4
3 3
2 2
1 1
0 0
Categoria 1 Categoria 2 Categoria 3 Categoria 4 Categoria 1 Categoria 2 Categoria 3 Categoria 4

Série 1 Série 2 Série 3 Série 1 Série 2 Série 3

Gráficos Circulares

1° Trim. 2° Trim. 3° Trim. 4° Trim.

GRÁFICO DE BARRAS OU DIAGRAMA CIRCULAR


Para representar a distribuição de frequências relativas de uma variável qualitativa (nominal e
ordinal) e quantitativa discreta utiliza-se o gráfico de barras (ou diagrama circular),
representando-se no eixo das abcissas os valores de x, e no eixo das ordenadas, as frequências
relativas na % com que os valores foram observados.
(Nota: no caso ordinal e quantitativa discreta é mais recomendável o diagrama de barras)

HISTOGRAMA
A representação gráfica adequada para as variáveis quantitativas contínuas é o Histograma.
O histograma é formado por uma sucessão de retângulos adjacentes.
É um gráfico de barras em que cada barra ou retângulo está associada a uma classe.
No eixo horizontal colocam-se as classes e no eixo vertical as frequências relativas.
Assim:
a cada retângulo corresponde uma
classe;
a largura de cada retângulo (base) é
igual à amplitude da classe;
se as classes tiverem todas a mesma
amplitude, a altura do retângulo é
proporcional à frequência.
Barras Juntas – Neste caso já existem valores
entre as diferentes classes.

GRÁFICO DE LINHA: POLÍGONO DE FREQUÊNCIAS


Polígono de frequências - resulta de unir sucessivamente, por segmentos de reta, os pontos
médios dos topos das barras
Para fechar o polígono, é necessário criar uma classe adicional em cada um dos extremos do
histograma, com amplitude idêntica à das classes adjacentes e com frequência nula. O polígono
de frequências é a melhor apresentação visual, quando se pretendem comparar duas ou mais
distribuições de frequências de variáveis contínuas.

Gráfico de linha
6
5
4
3
2
1
0
Categoria 1 Categoria 2 Categoria 3 Categoria 4

Série 1 Série 2 Série 3

Linha Poligonal – apenas possível em


variáveis quantitativas contínuas

MEDIDAS DESCRITIVAS
Objetivo: Sintetizar toda a informação respeitante a uma variável estatística, resumindo os
dados observados.
Procedimento: Redução de dados
Resultado: Estatísticas (amostra) ou parâmetros (população) da variável estatística.
MÉDIA
É a medida de localização central mais utilizada em estatística.
Só pode ser utilizada para dados quantitativos (discretos ou contínuos).
É uma medida de localização do centro da amostra.
Observações de valor muito elevado ou muito baixo (outliers) podem falsear os
resultados.
A média nem sempre é representativa.

Dados não agrupados


n

X=
∑ xi = X 1 + X 2 +…+ X n
i=1
n
n

Dados não agrupados


k

X=
∑ xifi 𝑘 - número de categorias/modalidades
i=1
n

Dados não agrupados


k

X=
∑ Mifi Mi – marca da classe
i=1
𝑘 - número de classes
n

MÉDIA – EXEMPLO DADOS NÃO AGRUPADOS


Considere os seguintes dados que se referem ao número de vezes que 10 indivíduos vão a um
hipermercado por mês. Determine o valor médio das idas ao supermercado.

X = “número de idas ao supermercado por mês”


10

X=
∑ xi = X 1 + X 2 +…+ X 10 = 5+4 +0+3+3+ 2+ 2+ 1+ 4+ 1 = 2.5
i=1
10 10
n

X=
∑ xi∗fi = 25 = 2.5
i=1
10
n

MÉDIA – EXEMPLO DADOS AGRUPADOS EM CLASSES


O Sr. Cevada é vendedor de cerveja na cidade do Porto. Nos últimos anos registou os seguintes
volume de vendas (milhares de euros).
Mi = Ponto médio ou centro da classe i
Mi = (limite superior + limite inferior) / 2
5

X=
∑ Mifi = 127.6 = 6.4
i=1
20
n

MODA
A moda é o valor com a maior frequência ou que se repete um maior número de vezes. É a
única medida descritiva que pode ser utilizada para dados qualitativos nominais.
Ao contrário do que acontece com as outras medidas de localização, uma amostra pode possuir
mais do que uma moda (distribuição multimodal) ou não ter moda (distribuição amodal).

MODA – DADOS AGRUPADOS EM CLASSES


Fórmula de Czuber

d1
Mo = l + a *
d 1+ d 2
l – limite inferior da classe modal
d1 – diferença das frequências da classe modal e a classe anterior
d2 – diferença das frequências entre a classe modal e a classe seguinte
a – amplitude da classe modal
´ Exemplo: Identificar a classe modal e a respetiva estimativa da moda

D1 = 8-0 = 8
D2 = 8-4 = 4
d1 8
Mo = l + a * = 4.0+1.4* = 4.9
d 1+ d 2 8+4
MEDIANA – DADOS NÃO AGRUPADOS
Mediana: valor da variável que, depois de ordenar por ordem crescente todas as observações,
50% dos valores são inferiores ou iguais à mediana e 50% dos valores são superiores ou iguais à
mediana. Em termos grosseiros, a mediana é o valor que divide a amostra ao meio.
EXEMPLO: Dados ordenados (por ordem crescente)

n+1
Posição da mediana =
2

7+1
Posição da mediana (ímpar) = =4
2
Md = 20
6+1
Posição da mediana (par) = = 4.5
2
20+20
Md = = 20
2

MEDIANA – DADOS AGRUPADOS


Neste caso, pode recorrer-se às frequências relativas acumuladas (Fri) para identificar a
mediana.
MEDIANA – DADOS AGRUPADOS EM CLASSES
Fórmula de Czuber

n
−Fa
Mo = l + a * 2
fMd

Legenda:
l - limite inferior da classe mediana,
Fa – frequência absoluta acumulada até à classe mediana,
fMd - frequência absoluta da classe mediana,
a - amplitude da classe mediana.

EM RESUMO
MEDIDAS DE LOCALIZAÇÃO NÃO CENTRAL

Quantis: são valores numéricos que dividem o conjunto ordenado das observações em
partes iguais.
Podem ser utilizados para dados quantitativos e apenas para os dados qualitativos ordinais.
Consoante o número de partes iguais, podemos distinguir:
tercis (3 partes)
quartis (4 partes)
quintis (5 partes)
decis (10 partes)
percentis (100 partes), etc

MEDIDAS DE LOCALIZAÇÃO NÃO CENTRAL: QUARTIS E PERCENTIS


QUARTIS E PERCENTIS: DADOS NÃO AGRUPADOS
São obtidos de forma semelhante à mediana: determinar a posição e identificar o valor nessa
posição na amostra.

QUARTIS E PERCENTIS: DADOS AGRUPADOS


Tal como na determinação da mediana, pode recorrer-se às frequências relativas acumuladas
(Fri).

QUARTIS E PERCENTIS: DADOS AGRUPADOS EM CLASSES


Como na determinação na mediana, pode recorrer-se às frequências relativas acumuladas (Fri).

DIAGRAMA DE EXTREMOS E QUARTIS


Diagrama de extremos e quartis: Representação gráfica de medidas de partição (extremos e
quartis)
1. Traça-se um segmento de reta entre o valor mínimo e o máximo das observações;
2. Sobre esse segmento constrói-se um retângulo com comprimento igual à amplitude
interquartil e regista-se a mediana com um traço a dividir a caixa.

CAIXA DE BIGODES (BOXPLOT)


Caixa de bigodes: Versão do diagrama de extremos e quartis que permite detetar outliers.
Outliers: são valores aberrantes, anormalmente baixos ou anormalmente altos, relativamente
aos restantes valores da variável.
Tipicamente devem-se a uma das seguintes causas:

 A observação ou medição outlier foi feita de forma incorreta ou inserida incorretamente


no cálculo;
 A observação ou medição outlier está correta, mas pertence a uma população diferente.
Caixa de bigodes: Versão do diagrama de extremos e quartis que permite visualizar outliers.
Outliers moderados

Barreira inferior = Q1 -1.5 AIQ

Barreira superior = Q 3 +1.5 AIQ

Outliers severos

Barreira inferior = Q 1-3 AIQ

Barreira superior = Q 3+3 AIQ

Exemplo: Construir a caixa de bigodes para o volume de vendas.

Sem outliers porque


BI=4,9-1,5*(7,6-4,9)=0,85 < Min
BS=7,6+1,5*(7,6-4,9)=11,65 > Máx

NOTA: Se as barreiras superior e inferior de outliers moderados forem valores


que não pertencem ao conjunto dos valores observados pela variável na
amostra, então a distribuição amostral não tem outliers nem moderados nem
severos.

A consideração de duas ou mais caixas de bigodes constitui um meio útil para comparar
distribuições da mesma variável.
Preços médios de vinho maduro tinto
(garrafão) por litro na região, segundo
o mês, em 2003.

MEDIDAS DE DISPERSÃO
~ As medidas de localização não são, por Permitem determinar a variabilidade ou dispersão dos
si só, suficientes para caracterizar a dados, relativamente à medida de localização do centro
amostra. da amostra.

Repare-se que as 3 amostras seguintes têm uma dispersão bem diferente, embora tenham a
mesma média:

MEDIDAS DE VARIABILIDADE

Amplitude

Amplitude Interquartil

Variância

Desvio-Padrão

Coeficiente de Variação
AMPLITUDE (AMOSTRAL)

É a medida mais simples para medir a dispersão e define-se como a diferença entre o valor
máximo e mínimo da amostra (A).
Exprime-se nas mesmas unidades da variável.

Embora seja a medida de variabilidade mais fácil de calcular, raramente é usada como única.
A razão é que a amplitude é baseada em apenas duas observações (a mínima e a máxima) e,
portanto, é altamente influenciada pelos valores extremos.
(Nada revela sobre o resto da amostra)

AMPLITUDE INTERQUARTIL
Amplitude interquartil (AIQ) é uma medida de variabilidade que ultrapassa a dependência dos
valores extremos.
Esta medida é a diferença entre o terceiro quartil e o primeiro quartil.
É uma medida de dispersão absoluta que traduz a amplitude entre as 50% observações centrais
(a metade central da amostra, quando ordenada por ordem crescente).

AIQ = Q3-Q1

Este intervalo contém 50% das


observações centrais.

VARIÂNCIA E DESVIO PADRÃO


O desvio padrão mede a dispersão absoluta dos valores da variável estatística em torno da
média.
Obtém-se calculando a raiz quadrada da variância (média dos desvios quadráticos à média).
Unidades de medida:
Variância - nas unidades de medida da variável ao quadrado (resulta da aplicação da fórmula
em que se calculam os desvios quadráticos das observações relativamente à média). Se, por
exemplo, a unidade de medida da variável for cm então o valor de variância será em cm2. –
SEM INTERPRETAÇÃO!
Desvio-padrão - nas unidades de medida da variável. Se a unidade de medida da variável for
cm então o valor do desvio-padrão será em cm.

DESVIO-PADRÃO
EXEMPLO: Dados não agrupados

Qual o desvio padrão da idade dos estudantes na amostra?

EXEMPLO: Dados agrupados em classes


DESVIO-PADRÃO – PROPRIEDADES
Desvio padrão – propriedades:
O desvio padrão toma valores sempre positivos e mede a variabilidade (dispersão absoluta) das
observações em torno da média.

Regra empírica: Em amostras com distribuição razoavelmente simétrica, unimodal e de


achatamento médio, podemos dizer o seguinte:

 68% das observações centrais estão no intervalo ] .𝒙 − 𝒔 ; .𝒙 + 𝒔 [


 95% das observações estão no intervalo ] .𝒙 − 𝟐𝒔 ; .𝒙 + 𝟐𝒔 [
 99.7% das observações estão no intervalo ] .𝒙 − 𝟑𝒔 ; .𝒙 + 𝟑𝒔 [

COEFICIENTE DE VARIAÇÃO
É uma medida de dispersão relativa das observações em torno da média, independente das
unidades de medida e da escala da variável.
Esta medida mede o desvio-padrão relativamente à média.
S
CV = * 100%
X
Coeficiente de variação (Cv):
 Permite comparar a dispersão de variáveis distintas; quando queremos comparar amostras de
média diferente temos de recorrer a uma medida de dispersão relativa.
 Permite tirar conclusões sobre a representatividade da média como medida de tendência
central.

COEFICIENTE DE VARIAÇÃO – EXEMPLO


Numa empresa, o salário médio dos homens é de 900 euros com um desvio-padrão de 330 e o
das mulheres é de 700 euros com desvio padrão de 280. Compare as duas amostras
relativamente à dispersão.

Calculando os coeficientes de variação vem:


Logo, podemos concluir que os salários das mulheres apresentam maior dispersão relativamente
aos salários dos homens, mas ambas as amostras apresentam dispersão elevada.

MEDIDAS DE ASSIMETRIA E ACHATAMENTO


Forma da Distribuição – Classificação
Quanto à deformação (assimetria) relativamente à distribuição simétrica (Skewness, em inglês):

Quanto à deformação (achatamento) relativamente à curva da distribuição normal (Kurtosis,


em inglês).

MEDIDAS DE ASSIMETRIA (SKENESS)


Uma distribuição diz-se assimétrica negativa se, na representação gráfica, as
observações se concentram na zona de valores mais elevados da variável.
Quando as observações se concentram na zona de valores mais baixos, a
distribuição diz-se assimétrica positiva.
FORMA DA DISTRIBUIÇÃO

ASSIMETRIA – COMPARAÇÃO DAS MEDIDAS DE LOCALIZAÇÃO


Quando a representação gráfica da distribuição da variável não está disponível, o modo mais
simples de determinação da assimetria consiste na comparação das três medidas de
localização de tendência central: Média, Mediana, Moda.
Em geral:

ASSIMETRIA – OBSERVAÇÃO DA CAIXA DE BIGODES

ACHATAMENTO (KURTOSIS)
Curtose: mede o grau de achatamento de uma distribuição.
Dá indicação da intensidade (ou do grau de dispersão) das frequências na vizinhança dos
valores de tendência central.

FORMA DA DISTRIBUIÇÃO

ACHATAMENTO (KURTOSIS)

CRUZAMENTO DE VARIÁVEIS
TABELA CRUZADA OU TABELA DE CONTINGÊNCIA
Forma de representação dos dados que organiza a informação correspondente a duas variáveis.

PROBABILIDADE
Todos os dias somos confrontados com situações que nos conduzem a utilizar, intuitivamente, a
noção de probabilidade:

Exemplos Dizemos que existe uma pequena probabilidade de ganhar o euro milhões;
Dizemos que existe uma grande probabilidade de chover num dia de Inverno;
O político deseja saber qual a sua probabilidade de ganhar as eleições;
O técnico de controlo da qualidade questiona-se sobre a probabilidade de
rejeitar um lote de parafusos.

EXPERIÊNCIAS
Existem dois tipos de experiências: deterministas ou causais e aleatórias ou casuais.
As experiências deterministas ou causais caracterizam-se por produzirem o mesmo resultado,
desde que sejam repetidas sob as mesmas condições.

As experiências aleatórias ou casuais caracterizam-se pela impossibilidade de prever o


resultado que se obtém, ainda que as experiências sejam realizadas nas mesmas condições.

ESPAÇO AMOSTRAL E ACONTECIMENTOS


Espaço de Resultados
O conjunto de todos os resultados possíveis de uma experiência aleatória e representa-se
usualmente por U.

Acontecimento
É um subconjunto do espaço de resultados U.
Usualmente representa-se por uma letra maiúscula (A, B, C, etc.).
Acontecimento Certo
É o acontecimento cujo resultado coincide com o espaço amostral.

Acontecimento Impossível
É o acontecimento que não contém algum elemento de U.

Acontecimento Elementar
Conjunto que contém apenas um elemento do espaço amostral. É cada um dos resultados
possíveis da experiência aleatória.

Acontecimento Composto
Conjunto que contém mais do que um elemento do espaço amostral.

ÁLGEBRA DOS ACONTECIMENTOS


Estudo das relações que se podem estabelecer entre acontecimentos e as operações que, sobre os
mesmos, se podem realizar.
PROBABILIDADE
PROBABILIDADE
Conceito de Probabilidade - Utilizamos a noção de Probabilidade no dia-a-dia, nas mais
variadas situações, para exprimir uma medida da "credibilidade" ou "grau de convicção" na
observação1 do acontecimento, na próxima realização da experiência aleatória.

ACONTECIMENTOS INDEPENDENTES
São acontecimentos em que a ocorrência de um não afeta a probabilidade da ocorrência do outro
acontecimento.
Exemplo: a probabilidade de retirar uma carta de copas (acontecimento A) de um baralho de 52
cartas, se as cartas retiradas forem sempre sendo repostas, é independente da carta retirada antes
ser de outro naipe (acontecimento B). P(A)=13/52
Mas, se cada carta retirada não for reposta, a probabilidade de retirar uma carta de copas (A) vai
depender de a carta anterior ser de outro naipe (acontecimento B) ou não.
PROBABILIDADE CONDICIONADA

Quando dois acontecimentos são dependentes é necessário considerar


probabilidades condicionais.
Sejam A e B dois acontecimentos dependentes e não impossíveis de um espaço amostral U.
Uma vez conhecida a probabilidade de B é possível calcular a probabilidade do acontecimento
A se realizar, condicionada pelo acontecimento B.
Representa-se por P(A|B) a probabilidade de ocorrência de A, na hipótese de B ter ocorrido:

TABELA DE DUPLA ENTRADA


Utilização de tabelas de dupla entrada para o cálculo de probabilidades.
No caso de operações entre acontecimentos relativos a apenas duas variáveis, as probabilidades
podem ser obtidas recorrendo a tabelas de dupla entrada:

TABELA DE DUPLA ENTRADA: EXEMPLO


Foram analisadas duas variáveis junto de 750 alunos de uma Universidade: curso que
frequentam (Gestão ou Economia) e qual o tipo de aulas que preferem (teóricas ou práticas). Os
resultados obtidos encontram-se na
tabela ao lado.
Selecionado aluno ao acaso, determine a probabilidade
de o aluno:

REGRA ADITIVA: EXEMPLO


Em determinada população 9.8% das pessoas adquirem a revista A, 22.9% a revista B, e 5.1%
ambas. Qual a probabilidade de uma pessoa adquirir pelo menos uma revista?

TÉCNICAS DE CONTAGEM: COMBINAÇÕES


Permite contar o número de sequências diferentes que se
conseguem formar com p elementos a partir de n elementos em
que não interessa a ordem de colocação desses elementos.
Ou seja, quando pretendemos escolher não apenas um elemento,
mas dois ou mais, temos de recorrer a uma técnica de contagem para determinar o número de
casos possíveis e favoráveis.

VARIÁVEL ALEATÓRIA
Uma Variável Aleatória é uma aplicação que faz corresponder um número a cada acontecimento
do espaço amostral. Portanto, a variável aleatória é o resultado numérico associado a cada
resultado (numérico ou não) de uma experiência aleatória.

Usualmente representa-se por letras maiúsculas, X, Y, Z, ..., e os valores que podem assumir
pelas correspondentes letras minúsculas, x, y, z, ...
A variável pode ser:

 Discreta, se assumir um número finito ou infinito numerável de valores distintos


 Contínua, se assumir um número infinito não numerável de valores distintos

VARIÁVEL ALEATÓRIA DISCRETA


Pode apresentar um número finito ou infinito de valores distintos;
Os valores possíveis são números inteiros (0, 1, 2, 3, ...);
Geralmente obtidos por contagem.

VARIÁVEL ALEATÓRIA CONTÍNUA


Pode assumir um número infinito de valores;
Os valores possíveis podem ser racionais ou irracionais, apesar de por vezes serem apresentados
na forma de inteiros;
Geralmente são obtidos por medição.
DISTRIBUIÇÕES DE PROBABILIDADE
VARIÁVEL ALEATÓRIA
Uma variável aleatória fica completamente definida por:

 Distribuição de probabilidades:
gráfico, tabela ou fórmula, f(x)=P(X=x)
 Parâmetros: média ou valor esperado,
variância, e desvio padrão.
Algumas distribuições de probabilidades têm
expressões próprias e valores tabelados e servem
de modelo a muitos fenómenos. Consoante o tipo
de dados da variável aleatória, as distribuições podem ser:
Discretas: Uniforme, Bernoulli, Binomial, Hipergeométrica, Poisson;
Contínuas: Uniforme, Normal, Exponencial, t-Student, F-Snedcor, Qui-Quadrado.

DISTRIBUIÇÃO DE BERNOULLI
Uma experiência aleatória diz-se de Bernoulli quando se observa a ocorrência de um dado
acontecimento A numa experiência aleatória com apenas dois resultados possíveis – sucesso e
insucesso.
À ocorrência de A dá-se o nome de sucesso com 𝑷(𝑨) = 𝒑 e à não ocorrência de A dá-se o
nome de insucesso com 𝑷( Ac ) = 𝟏𝟏−𝒑 = 𝒒.

Exemplo:
Experiência aleatória: Acertar no centro do alvo, numa única tentativa
Sucesso: Acertar no Centro
Insucesso: Não Acertar no Centro

DISTRIBUIÇÃO BINOMIAL
Considere-se a experiência aleatória com a realização de n experiências de Bernoulli
independentes. A v.a. “número de sucessos nas n tentativas” tem distribuição binomial de
parâmetros n e p e escreve-se 𝑿~𝑩(𝒏; 𝒑).
Parâmetros da distribuição binomial, 𝑛 e 𝑝
Parâmetros da variável aleatória X, 𝜇 = 𝐸(𝑋) = 𝑛*𝑝; σ 2 = 𝑛*𝑝*(1 −𝑝)

Exemplos:

 Número de vezes que acerta no centro do alvo, em 6 tentativas (sucesso: acertar no alvo);
 Número de vermelhos em 15 rodadas de uma roleta (sucesso: sair vermelho);
 Número de itens defeituosos num lote de 5 itens (sucesso: ser defeituoso);
 Número de respostas corretas num teste de escolha múltipla com 10 questões (se for igual
a probabilidade de acertar em cada questão; sucesso: ter resposta correta);
 Número de consumidores que compram em cada 100 que entram numa loja (se for igual a
probabilidade de cada consumidor comprar; sucesso: comprar).
Assim, a variável aleatória discreta X – número de sucessos em n experiências tem
Distribuição Binomial e escreve-se 𝑿~𝑩(𝒏; 𝒑).
A função de probabilidade de uma distribuição binomial é dada por:

DISTRIBUIÇÃO NORMAL
A distribuição Normal é um dos modelos probabilísticos mais importantes em estatística,
conhecida também como Distribuição Gaussiana.
Aplicações: além de descrever inúmeros fenómenos físicos e financeiros, tem grande aplicação
na estatística inferencial e serve de aproximação para o cálculo de outras distribuições quando o
número de observações é elevado.

 Idade, peso e coeficiente de inteligência de uma população;


 Medições, erros; etc.
Distribuição Normal: fica caracterizada pela média, μ, e pelo desvio padrão, 𝝈, ou seja, os
parâmetros da variável aleatória, X, e da distribuição são os mesmos:
DISTRIBUIÇÃO NORMAL PADRÃO
Dado que μ e 𝜎 podem tomar um número infinito e não numerável de valores é necessário
recorrer a uma função que represente todas as distribuições normais, a distribuição normal
padrão.
A transformação consiste numa mudança de origem (subtração por μ) e de escala (divisão por
𝜎𝜎):
Tabela Distribuição Normal Padrão – Um Exemplo

Você também pode gostar