Escolar Documentos
Profissional Documentos
Cultura Documentos
1 – ESTATÍSTICA: GENERALIDADES
ESTATÍSTICA
Estatística Estatística
Descritiva Indutiva
Exemplo:
Se considerarmos a variável “número de descendentes do cavalo”, podemos
recolher uma amostra com 6 cavalos onde:
, ou seja, o cavalo 1 tem 1 descendente;
, ou seja, o cavalo 2 tem 0 descendentes; …
A dimensão da amostra é
Existem 4 modalidades ( ): 0, 1, 2 ou 5.
Uma estação televisiva pretende dar a conhecer a posição dos portugueses face à
sua intenção de fazer férias dentro ou fora de Portugal.
Não é viável fazer um censo: demoraria muito tempo e teria custos muito
elevados;
A maioria dos resultados sobre estes temas são feitos com base em sondagens.
Por exemplo, realiza-se uma entrevista telefónica a 550 pessoas;
• A população é toda a população portuguesa;
• N=10,33 milhões (2021);
• A unidade estatística é cada um dos portugueses;
• A amostra é constituída pelas pessoas entrevistadas e escolhidas
aleatoriamente;
• n=550;
1.5 – VARIÁVEIS ESTATÍSTICAS
VARIÁVEL
Característica da população que se pretende
estudar (objeto de estudo).
QUANTITATIVA QUALITATIVA
A característica pode ser medida ou A característica diz respeito a uma
contada qualidade
0 6 6 30 30
1 6 12 30 60
2 2 14 10 70
3 4 18 20 90
4 2 20 10 100
Podemos utilizar o
conceito de frequência
relativa (simples) para
Nº construir um gráfico
fr(%) Fr (%)
descendentes circular.
0 30 30
1 30 60
2 10 70 Podemos ver rapidamente que nesta amostra
3 20 90
4 10 100 • 20% dos cavalos que têm exatamente três
Totais 100 descendentes: . <𝟑
≤𝟐
Quando trabalhamos com uma variável contínua (ou com uma variável discreta que adquire
muitos valores distintos) podemos agrupar as diferentes modalidades em classes para
representar os valores de uma forma muito mais simples.
Se k=3 Portanto
Se k=4
2.4 – REPRESENTAÇÃO GRÁFICA
Gráfico de barras:
Utiliza-se quando a variável é qualitativa ou quantitativa discreta agrupada em modalidades.
• Os valores da variável estatística colocam-se
num dos eixos e as respetivas frequências no
outro eixo.
• A altura das barras mostra a frequência.
• As barras podem ser verticais ou horizontais.
• Existe um espaço vazio entre as barras.
• Permite estabelecer facilmente comparações
entre duas ou mais variáveis.
• Tem forte impacto visual.
• Só pode ser usado para transmitir informações
simples.
2.4 – REPRESENTAÇÃO GRÁFICA
Histograma:
Utiliza-se quando a variável é quantitativa contínua ou quantitativa discreta agrupada em classes
• valor da amostra (ordenada) que a divide em duas partes com igual número
de observações.
• Valor que permite afirmar, ao comparar dois ou mais grupos, qual deles
apresenta resultados mais (ou menos) elevados.
2.5.1 – MEDIDAS DE LOCALIZAÇÃO
Amostra ordenada
n=20 (par), a mediana obtém-se através da expressão:
2.5.1 – MEDIDAS DE LOCALIZAÇÃO
Média ( :
Número de fa
descendentes
0 6
1 6
• Dados agrupados:
2 2
× × × × × 3 4
4 2
2.5.1 – MEDIDAS DE LOCALIZAÇÃO
Nestas situações devemos, sempre que seja possível, utilizar os dados não agrupados no
cálculo da média.
Se tal não for possível, podemos calcular uma aproximação para o valor da média,
utilizando a marca , , de cada classe k como valor de na fórmula da média para
dados agrupados:
2.5.2 – MEDIDAS DE LOCALIZAÇÃO
• é o valor acima do qual estão, quando muito, (100 – p)% dos elementos da
amostra.
𝑛𝑝
𝑥 ( ) 𝑘= não é inteiro
100
𝑃 =
𝑥 +𝑥 𝑛𝑝
𝑘= é inteiro
2 100
2.5.2 – MEDIDAS DE LOCALIZAÇÃO
Amostra ordenada da v.e. “número de descendentes”
𝑛𝑝
𝑥 ( ) 𝑘= não é inteiro
100
𝑃 =
𝑥 +𝑥 𝑛𝑝
𝑘= é inteiro
2 100
×
que não é um número inteiro,
( , ) , .
Pelo menos 11% dos cavalos têm 0 descendentes e, no máximo, 89% dos cavalos têm mais
do que 0 descendentes.
2.5.2 – MEDIDAS DE LOCALIZAÇÃO
Amostra ordenada da v.e. “número de descendentes”
𝑛𝑝
𝑥 ( ) 𝑘= não é inteiro
100
×
𝟎 que é um número inteiro, 𝑃 =
𝑥 +𝑥 𝑛𝑝
𝑘= é inteiro
2 100
.
Pelo menos 40% dos cavalos têm até um descendente e, no máximo, 60% dos cavalos têm
dois ou mais descendentes.
Nº Fr
Com a coluna da frequência relativa acumulada facilmente se descendentes (%)
0 30
identificam os percentis: 1 60
2 70
a modalidade 0 contém os percentis 0 a 30 3 90
a modalidade 1 contém os percentis 31 a 60 4 100
… Totais
2.5.2 – MEDIDAS DE LOCALIZAÇÃO
Quartis (Q1, Q2 e Q3 )
As medidas de localização devem ser utilizadas para, de uma forma muito sucinta,
transmitir informação sobre a amostra em causa. Devemos no entanto ser cuidadosos na
sua interpretação e conhecer as suas limitações.
Num exemplo anterior, verificamos que, no que diz respeito ao número de descendentes,
.
Existem outras medidas estatísticas, denominadas medidas de dispersão, que nos fornecem
informações quanto ao grau de variabilidade dos elementos da amostra.
Variância (corrigida)
∑ ̅
Dados não agrupados:
∑ ̅
Dados agrupados:
Obs. Se n>30 então a variância calcula-se dividindo por n e não por n-1.
NOTA: A média e o desvio-padrão têm a mesma unidade de medida da variável, mas o mesmo não acontece com a variância.
2.6 - MEDIDAS DE DISPERSÃO
O coeficiente de variação (CV) é uma medida que expressa a variação dos dados em
relação à média.
• é a razão entre o desvio padrão e a média: ̅
• é um número adimensional, ou seja, não depende da unidade de medida usada na
recolha dos dados.
• Usa-se (em vez do desvio-padrão) para fazer comparação entre conjuntos de dados
com diferentes unidades ou médias muito diferentes.
• Os outliers são dados da amostra que estão longe da generalidade dos restantes
dados. Por outras palavras, são valores atípicos num conjunto de dados e são
problemáticos para muitas análises estatísticas, pois podem fazer com que os testes
percam resultados significativos ou distorçam resultados reais.
Para demonstrar o quanto um único outlier pode afetar os resultados, vamos examinar
as propriedades de um conjunto de dados referentes, por exemplo, a medições de
altura de 15 alunos com idades entre os 13 e os 20 anos. Um desses valores é um
outlier. A tabela abaixo mostra a altura média com e sem o outlier.
• Uma das métricas mais utilizadas em estatística para identificação de outliers é o quartil.
Algumas pessoas poderiam dizer que há 5 outliers, mas outras pessoas poderiam discordar
dizendo que há 3 ou 4 outliers.
Uma regra comum diz que um dado é um outlier se estiver mais de 1,5.AIQ acima do terceiro
quartil ou abaixo do primeiro quartil.
Ou seja,
Os outliers inferiores estão abaixo de Q1−1,5 AIQ
Os outliers superiores estão acima de Q3+1,5 AIQ
2.8 - OUTLIERS
Classificações ordenadas: 5, 7, 10, 15, 19, 21, 21, 22, 22, 23, 23, 23, 23, 23, 24, 24, 24, 24, 25
4º Passo: Conclusão
Q1−1,5 AIQ = 19-7,5=11,5 ------> 3 outliers inferiores: 5, 7 e 10
Obs: Os outliers são apresentados como pontos e o diagrama teve de mudar. O diagrama
prolonga-se até ao ponto do conjunto de dados que não é um outlier, que é 15.