Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTATÍSTICA: CONCEITOS
O QUE É?
Conjunto de métodos e técnicas que permitem recolher, explorar, descrever e interpretar
um determinado conjunto de dados.
Dito de outra forma, a Estatística é uma arte e uma ciência.
Arte, enquanto permite “criar” resultados e fazer inferências a partir de conjuntos de dados;
Ciência, enquanto possuidora de técnicas matemáticas.
Os números apenas têm significado num determinado contexto e transformados em
informação; o que depois levará a um conhecimento muito mais valioso.
CAMPOS DE APLICAÇÃO
Economia
Previsão
Demografia
Desporto
Performance individual e de equipa
Engenharia
Construção
Materiais
Medicina
Gestão
Tomadas de decisão
Marketing, Publicidade
PARA QUÊ?
Para ter um mundo melhor … através de decisões bem fundamentadas!!!
COMO?
Na apresentação de informação numérica e na construção de gráficos;
Na melhoria de processos e no estímulo da qualidade;
Na estimação de previsões objetivas;
Na resolução de problemas com metodologias quantitativas;
Na dedução de conclusões gerais a partir de resultados das amostras.
“É fácil mentir com a estatística, mas é ainda mais fácil mentir sem ela.”
Por exemplo:
Amostras tendenciosas
Utilização errada da média (uma das principais estatísticas)
Falta de informação associada a resultados
Gráficos “malucos”
AMOSTRAS TENDENCIOSAS
GRÁFICOS
Erros nas escalas através de intervalos
desiguais
Erros nas escalas através de
deformação
Não começar no zero e não o indicar
Eliminação de dados especialmente
reveladores
Pictogramas com figuras não
equivalentes
CONCEITOS CHAVE
População
Conjunto finito ou infinito de
unidades (pessoas, animais,
objetos) com uma ou mais
características sem comum que
se pretendem analisar.
Amostra
Subconjunto finito da
população.
Estatística Descritiva
Conjunto de técnicas que visam organizar, analisar e apresentar dados amostrais
OBJETIVO: Descrever e resumir a amostra, sem tirar conclusões sobre a população
COMO: Organização em tabelas, representação gráfica, cálculo de medidas descritivas
UTILIDADE: Caracterizar a(s) amostra(s)
Estatísticas Inferencial
Conjunto de técnicas que visam caracterizar (ou inferir sobre) uma população, a partir de
dados amostrais
OBJETIVO: Tirar conclusões sobre características da população a partir de dados
amostrais
COMO: Comparar, testar, estimar e prever os parâmetros da população
ATRAVÉS: Cálculo de probabilidades (envolve incerteza)
UTILIDADE: Concluir sobre a população
Dimensão da Amostra
Variável Estatística
Dados
Tipos de Variáveis
Escalas de Medida
Há 4 níveis de medição:
Escala Nominal
Escala Ordinal
Escala de Intervalo
Escala de Rácio
Escala Nominal
Conjunto de categorias de resposta qualitativamente diferentes e mutuamente exclusivas (pode-
se atribui-se um número a cada categoria para codificar as respostas.
Atenção: os números não implicam diferenças em quantidade!)
Exemplo de Variáveis:
Sexo: 1 – Feminino; 2 – Masculino
Tipos de lojas: 1- Mercearia; 2 - Minimercados; 3 – Supermercados, 4 – Hipermercados
Escala Ordinal
Estas escalas admitem uma ordenação numérica das suas categorias, estabelecendo uma relação
de ordem entre elas.
Atenção: Continua a não ser possível medir a diferenças entre as respetivas categorias, mas faz
sentido ordená-las!
Exemplo de Variáveis:
Escalões etários: 1 – 18-22; 2 – 23-27; ......
Grau de satisfação: 1- Muito Insatisfeito; 2 - satisfeito; 3 – Muito Satisfeito
Escala de Intervalo
Estas escalas têm a característica de uma escala ordinal em que um valor numérico mais elevado
indica, de facto, uma maior quantidade. As diferenças entre valores numéricos adjacentes na
escala indicam diferenças iguais na quantidade da variável. O valor zero é arbitrário e não
indica ausência total da característica que a variável representa.
Exemplo de Variáveis:
Temperatura: 35 graus é maior que 30 graus, mas 0 grau não indica ausência de temperatura
(0ºC=32º Fahrenheit)
Etapas
1. Definição do problema
2. Planificação do processo de resolução
3. Recolha de dados
4. Organização de dados
5. Apresentação de dados
6. Análise e interpretação de dados
7. Estabelecer generalizações e tomada de decisões
Exemplo
Caracterização de um conjunto de consumidores de cerveja
Algumas questões:
Que possível padrão de consumidores terá interesse em procurar?
Esses padrões são imediatamente identificáveis?
Que representações dos dados poderiam destacar os possíveis padrões?
O conjunto de consumidores inquirido será representativo da totalidade dos
consumidores de cerveja?
Poderiam as conclusões da análise deste conjunto de consumidores ser extrapoladas
para a totalidade dos consumidores?
Resolução:
Unidades estatísticas:
Os consumidores de cerveja
Variáveis estatísticas:
“Sexo”; “Idade”; “Habitações Escolares”; “Salário Mensal”; “Residência”
Dados:
Os valores na tabela
Estatísticas/parâmetros:
Por exemplo: Idade média do consumidor; Salário médio mensal do consumidor
12 Dimensão da amostra:
(consumidores inquiridos)
Variáveis Qualitativas:
Sexo; Habilitações Escolares; Residência
Variáveis Quantitativas:
Idade; Salário Mensal
TABELA DE FREQUÊNCIAS
3ª coluna: Frequência Relativa, f ri , é a proporção (ou %) com que cada modalidade ou valor
da variável foi observado: f ri = f i/n
k
Exemplo
Num estudo de mercado sobre Cerveja, recolheu-se a seguinte informação sobre o número de
vezes que 17 pessoas beberam cerveja numa determinada semana de verão, tendo-se obtido os
seguintes dados:
Tipo de variáveis?
Sexo - Variável qualitativa, nominal
Nº de vezes – Variável quantitativa discreta
Tabela de frequência da variável qualitativa nominal “Sexo”
Interpretação:
A maioria dos inquiridos é do sexo
feminino (52,9%).
Nota: Por vezes, a soma das frequências relativas dá próximo de 1 e não exatamente 1; estas
ligeiras diferenças são devidas a erros de arredondamento.
Exemplo
O Sr. Cevada é vendedor de cerveja na cidade do Porto. Nos últimos anos registou o seguinte
volume de vendas (milhares de euros):
Tipo de variável?
Variável quantitativa
contínua
Tabela de frequências
Face à grande variedade de valores que uma variável quantitativa contínua pode assumir, é
necessário agrupar os dados em classes (ou intervalos).
O principal inconveniente do agrupamento reside no facto de deixarmos de considerar os dados
originais para, em sua substituição, utilizarmos um mesmo representante para os diferentes
dados de uma classe - a MARCA.
Nota: Por vezes, quando a variável é discreta mas apresenta uma grande
diversidade de valores, é aconselhável a construção de classes.
TABELA DE FREQUÊNCIAS: COMO CONSTRUIR AS CLASSES?
1. Determinar o número k de classes da amostra; existem várias regras, das quais se salienta
a seguinte:
Exemplo
O Sr. Cevada é vendedor de cerveja na cidade do Porto. Nos últimos anos registou os seguintes
volume de vendas (milhares de euros):
Resolução:
Número de classes: Como n = 20 se situa entre 15 e 30, 𝐾 = 5
6.8
Amplitude da classe: a = = 1.36 ≈ 1.4
5
Interpretação:
Em 40% (8) dos anos, o Sr. Cevada faturou entre 4 a 5.3 milhares de euros.
Em 60% (12) dos anos, o Sr. Cevada faturou menos de 6.8 milhares de euros.
E, em 15% dos anos, a faturação foi superior ou igual a 8.2 milhares de euros
Alteração da escala torna o fenómeno aparentemente menos intenso, quando os dois gráficos
representam o mesmo fenómeno!
Nota: Sempre que existir interesse em comparar duas curvas estas devem ser construídas na
mesma escala! Devem ser colocadas lado a lado…ou na mesma página
Outro Exemplo
O gráfico seguinte, publicado pela Revista
Forbes, em 1990, tem como objetivo mostrar
que, enquanto a despesa com educação do
governo americano tem crescido
rapidamente, o desempenho dos estudantes, medido através da média das notas (SAT -
Scholastic Aptitude Tests), não tem correspondido.
A conclusão é de que o governo americano não deve desperdiçar o dinheiro do contribuinte na
educação
Contudo, alterando a amplitude das escalas verticais separadamente, pode-se fazer com que o
gráfico mostre exatamente o efeito oposto.
Gráficos Circulares
HISTOGRAMA
A representação gráfica adequada para as variáveis quantitativas contínuas é o Histograma.
O histograma é formado por uma sucessão de retângulos adjacentes.
É um gráfico de barras em que cada barra ou retângulo está associada a uma classe.
No eixo horizontal colocam-se as classes e no eixo vertical as frequências relativas.
Assim:
a cada retângulo corresponde uma
classe;
a largura de cada retângulo (base) é
igual à amplitude da classe;
se as classes tiverem todas a mesma
amplitude, a altura do retângulo é
proporcional à frequência.
Barras Juntas – Neste caso já existem valores
entre as diferentes classes.
Gráfico de linha
6
5
4
3
2
1
0
Categoria 1 Categoria 2 Categoria 3 Categoria 4
MEDIDAS DESCRITIVAS
Objetivo: Sintetizar toda a informação respeitante a uma variável estatística, resumindo os
dados observados.
Procedimento: Redução de dados
Resultado: Estatísticas (amostra) ou parâmetros (população) da variável estatística.
MÉDIA
É a medida de localização central mais utilizada em estatística.
Só pode ser utilizada para dados quantitativos (discretos ou contínuos).
É uma medida de localização do centro da amostra.
Observações de valor muito elevado ou muito baixo (outliers) podem falsear os
resultados.
A média nem sempre é representativa.
X=
∑ xi = X 1 + X 2 +…+ X n
i=1
n
n
X=
∑ xifi 𝑘 - número de categorias/modalidades
i=1
n
X=
∑ Mifi Mi – marca da classe
i=1
𝑘 - número de classes
n
X=
∑ xi = X 1 + X 2 +…+ X 10 = 5+4 +0+3+3+ 2+ 2+ 1+ 4+ 1 = 2.5
i=1
10 10
n
X=
∑ xi∗fi = 25 = 2.5
i=1
10
n
X=
∑ Mifi = 127.6 = 6.4
i=1
20
n
MODA
A moda é o valor com a maior frequência ou que se repete um maior número de vezes. É a
única medida descritiva que pode ser utilizada para dados qualitativos nominais.
Ao contrário do que acontece com as outras medidas de localização, uma amostra pode possuir
mais do que uma moda (distribuição multimodal) ou não ter moda (distribuição amodal).
d1
Mo = l + a *
d 1+ d 2
l – limite inferior da classe modal
d1 – diferença das frequências da classe modal e a classe anterior
d2 – diferença das frequências entre a classe modal e a classe seguinte
a – amplitude da classe modal
´ Exemplo: Identificar a classe modal e a respetiva estimativa da moda
D1 = 8-0 = 8
D2 = 8-4 = 4
d1 8
Mo = l + a * = 4.0+1.4* = 4.9
d 1+ d 2 8+4
MEDIANA – DADOS NÃO AGRUPADOS
Mediana: valor da variável que, depois de ordenar por ordem crescente todas as observações,
50% dos valores são inferiores ou iguais à mediana e 50% dos valores são superiores ou iguais à
mediana. Em termos grosseiros, a mediana é o valor que divide a amostra ao meio.
EXEMPLO: Dados ordenados (por ordem crescente)
n+1
Posição da mediana =
2
7+1
Posição da mediana (ímpar) = =4
2
Md = 20
6+1
Posição da mediana (par) = = 4.5
2
20+20
Md = = 20
2
n
−Fa
Mo = l + a * 2
fMd
Legenda:
l - limite inferior da classe mediana,
Fa – frequência absoluta acumulada até à classe mediana,
fMd - frequência absoluta da classe mediana,
a - amplitude da classe mediana.
EM RESUMO
MEDIDAS DE LOCALIZAÇÃO NÃO CENTRAL
Quantis: são valores numéricos que dividem o conjunto ordenado das observações em
partes iguais.
Podem ser utilizados para dados quantitativos e apenas para os dados qualitativos ordinais.
Consoante o número de partes iguais, podemos distinguir:
tercis (3 partes)
quartis (4 partes)
quintis (5 partes)
decis (10 partes)
percentis (100 partes), etc
Outliers severos
A consideração de duas ou mais caixas de bigodes constitui um meio útil para comparar
distribuições da mesma variável.
Preços médios de vinho maduro tinto
(garrafão) por litro na região, segundo
o mês, em 2003.
MEDIDAS DE DISPERSÃO
~ As medidas de localização não são, por Permitem determinar a variabilidade ou dispersão dos
si só, suficientes para caracterizar a dados, relativamente à medida de localização do centro
amostra. da amostra.
Repare-se que as 3 amostras seguintes têm uma dispersão bem diferente, embora tenham a
mesma média:
MEDIDAS DE VARIABILIDADE
Amplitude
Amplitude Interquartil
Variância
Desvio-Padrão
Coeficiente de Variação
AMPLITUDE (AMOSTRAL)
É a medida mais simples para medir a dispersão e define-se como a diferença entre o valor
máximo e mínimo da amostra (A).
Exprime-se nas mesmas unidades da variável.
Embora seja a medida de variabilidade mais fácil de calcular, raramente é usada como única.
A razão é que a amplitude é baseada em apenas duas observações (a mínima e a máxima) e,
portanto, é altamente influenciada pelos valores extremos.
(Nada revela sobre o resto da amostra)
AMPLITUDE INTERQUARTIL
Amplitude interquartil (AIQ) é uma medida de variabilidade que ultrapassa a dependência dos
valores extremos.
Esta medida é a diferença entre o terceiro quartil e o primeiro quartil.
É uma medida de dispersão absoluta que traduz a amplitude entre as 50% observações centrais
(a metade central da amostra, quando ordenada por ordem crescente).
AIQ = Q3-Q1
DESVIO-PADRÃO
EXEMPLO: Dados não agrupados
COEFICIENTE DE VARIAÇÃO
É uma medida de dispersão relativa das observações em torno da média, independente das
unidades de medida e da escala da variável.
Esta medida mede o desvio-padrão relativamente à média.
S
CV = * 100%
X
Coeficiente de variação (Cv):
Permite comparar a dispersão de variáveis distintas; quando queremos comparar amostras de
média diferente temos de recorrer a uma medida de dispersão relativa.
Permite tirar conclusões sobre a representatividade da média como medida de tendência
central.
ACHATAMENTO (KURTOSIS)
Curtose: mede o grau de achatamento de uma distribuição.
Dá indicação da intensidade (ou do grau de dispersão) das frequências na vizinhança dos
valores de tendência central.
FORMA DA DISTRIBUIÇÃO
ACHATAMENTO (KURTOSIS)
CRUZAMENTO DE VARIÁVEIS
TABELA CRUZADA OU TABELA DE CONTINGÊNCIA
Forma de representação dos dados que organiza a informação correspondente a duas variáveis.
PROBABILIDADE
Todos os dias somos confrontados com situações que nos conduzem a utilizar, intuitivamente, a
noção de probabilidade:
Exemplos Dizemos que existe uma pequena probabilidade de ganhar o euro milhões;
Dizemos que existe uma grande probabilidade de chover num dia de Inverno;
O político deseja saber qual a sua probabilidade de ganhar as eleições;
O técnico de controlo da qualidade questiona-se sobre a probabilidade de
rejeitar um lote de parafusos.
EXPERIÊNCIAS
Existem dois tipos de experiências: deterministas ou causais e aleatórias ou casuais.
As experiências deterministas ou causais caracterizam-se por produzirem o mesmo resultado,
desde que sejam repetidas sob as mesmas condições.
Acontecimento
É um subconjunto do espaço de resultados U.
Usualmente representa-se por uma letra maiúscula (A, B, C, etc.).
Acontecimento Certo
É o acontecimento cujo resultado coincide com o espaço amostral.
Acontecimento Impossível
É o acontecimento que não contém algum elemento de U.
Acontecimento Elementar
Conjunto que contém apenas um elemento do espaço amostral. É cada um dos resultados
possíveis da experiência aleatória.
Acontecimento Composto
Conjunto que contém mais do que um elemento do espaço amostral.
ACONTECIMENTOS INDEPENDENTES
São acontecimentos em que a ocorrência de um não afeta a probabilidade da ocorrência do outro
acontecimento.
Exemplo: a probabilidade de retirar uma carta de copas (acontecimento A) de um baralho de 52
cartas, se as cartas retiradas forem sempre sendo repostas, é independente da carta retirada antes
ser de outro naipe (acontecimento B). P(A)=13/52
Mas, se cada carta retirada não for reposta, a probabilidade de retirar uma carta de copas (A) vai
depender de a carta anterior ser de outro naipe (acontecimento B) ou não.
PROBABILIDADE CONDICIONADA
VARIÁVEL ALEATÓRIA
Uma Variável Aleatória é uma aplicação que faz corresponder um número a cada acontecimento
do espaço amostral. Portanto, a variável aleatória é o resultado numérico associado a cada
resultado (numérico ou não) de uma experiência aleatória.
Usualmente representa-se por letras maiúsculas, X, Y, Z, ..., e os valores que podem assumir
pelas correspondentes letras minúsculas, x, y, z, ...
A variável pode ser:
Distribuição de probabilidades:
gráfico, tabela ou fórmula, f(x)=P(X=x)
Parâmetros: média ou valor esperado,
variância, e desvio padrão.
Algumas distribuições de probabilidades têm
expressões próprias e valores tabelados e servem
de modelo a muitos fenómenos. Consoante o tipo
de dados da variável aleatória, as distribuições podem ser:
Discretas: Uniforme, Bernoulli, Binomial, Hipergeométrica, Poisson;
Contínuas: Uniforme, Normal, Exponencial, t-Student, F-Snedcor, Qui-Quadrado.
DISTRIBUIÇÃO DE BERNOULLI
Uma experiência aleatória diz-se de Bernoulli quando se observa a ocorrência de um dado
acontecimento A numa experiência aleatória com apenas dois resultados possíveis – sucesso e
insucesso.
À ocorrência de A dá-se o nome de sucesso com 𝑷(𝑨) = 𝒑 e à não ocorrência de A dá-se o
nome de insucesso com 𝑷( Ac ) = 𝟏𝟏−𝒑 = 𝒒.
Exemplo:
Experiência aleatória: Acertar no centro do alvo, numa única tentativa
Sucesso: Acertar no Centro
Insucesso: Não Acertar no Centro
DISTRIBUIÇÃO BINOMIAL
Considere-se a experiência aleatória com a realização de n experiências de Bernoulli
independentes. A v.a. “número de sucessos nas n tentativas” tem distribuição binomial de
parâmetros n e p e escreve-se 𝑿~𝑩(𝒏; 𝒑).
Parâmetros da distribuição binomial, 𝑛 e 𝑝
Parâmetros da variável aleatória X, 𝜇 = 𝐸(𝑋) = 𝑛*𝑝; σ 2 = 𝑛*𝑝*(1 −𝑝)
Exemplos:
Número de vezes que acerta no centro do alvo, em 6 tentativas (sucesso: acertar no alvo);
Número de vermelhos em 15 rodadas de uma roleta (sucesso: sair vermelho);
Número de itens defeituosos num lote de 5 itens (sucesso: ser defeituoso);
Número de respostas corretas num teste de escolha múltipla com 10 questões (se for igual
a probabilidade de acertar em cada questão; sucesso: ter resposta correta);
Número de consumidores que compram em cada 100 que entram numa loja (se for igual a
probabilidade de cada consumidor comprar; sucesso: comprar).
Assim, a variável aleatória discreta X – número de sucessos em n experiências tem
Distribuição Binomial e escreve-se 𝑿~𝑩(𝒏; 𝒑).
A função de probabilidade de uma distribuição binomial é dada por:
DISTRIBUIÇÃO NORMAL
A distribuição Normal é um dos modelos probabilísticos mais importantes em estatística,
conhecida também como Distribuição Gaussiana.
Aplicações: além de descrever inúmeros fenómenos físicos e financeiros, tem grande aplicação
na estatística inferencial e serve de aproximação para o cálculo de outras distribuições quando o
número de observações é elevado.