Estatística Aplicada I

ESTATÍSTICA APLICADA I
Teóricas – Professor Pedro Sousa
1º ANO – 2º SEMESTRE
Ano letivo 2018/2019
Realizada por: Tatiana Lopes e Mónica Novais

Estatística I
(2º aula, 13/02)
Estatística aplicada na criminologia
Importância da estatística na Criminologia
Uma hipótese de afirmação não é nada menos do que uma proposição.
A estatística é a arte de retirar dos dados a informação. Cálculo feito com dados
recolhidos a partir do “todo” que se deseja conhecer. São técnicas de análises de
dados e em que circunstâncias estas se aplicam.
1º Estatística descritiva, descrever aquilo que é observado e recolhido, parte da

realidade com que temos contacto
Normalmente não temos acesso a tudo e por esse motivo existe:
2º Inferência estatística, a partir de uma pequena parte da população inferir para o

todo, tirar conclusões. O erro está presente, a preocupação é reduzir este.
Independentemente de qual a população, a amostra é sempre representativa de

alguma coisa, pode é não ser do que era suposto no início do estudo.
Problemas das estatísticas:
Deficiências de medida: Terá sido medida a variável que realmente desejávamos ter
medido?
• Fontes de dados utilizados: fontes oficiais; Inquéritos.

• Natureza dos próprios comportamentos ou fenómenos estudados na
criminologia – Mesmo os dados oficiais podem vir subavaliados ou
sobreavaliados
• Transformação de variáveis na análise estatística pode introduzir deficiências.
É necessário ter precaução nas variáveis utilizadas e na forma com as mesmas são
medidas.
Validade causal: Até que ponto 2 variáveis relacionadas entre si podem levar a uma
relação causa-efeito.
• A tem que preceder B;

• A e B têm de estar relacionadas;
• Tem que garantir que não exista uma variável C externa.
Problema da generalização e da representatividade: ------- incapacidade para se

estudar fenómenos ou comportamentos analisando-se a totalidade da população. A
1
Estatística I
amostra é uma espécie de microcosmos do grande. A quantidade de pessoas

necessárias depende da representatividade, por exemplo se quisermos estudar uma
característica rara na população, maior tem que ser a amostra de maneira a que a
probabilidade de encontrar indivíduos com essas características seja maior.
• População (estatística) – grupo grande que queremos estudar

O estudo da população pode ser vantajoso ou ou necessário, não se recorrendo
a uma amostra.
Quando temos todos os recursos possíveis para estudar o todo.
Há certas circunstâncias em que o estudo da população é demasiado
complicado, e é melhor recorrer a uma amostra. – tempo;
• Amostra – Técnicas de amostragem aleatória vs técnicas de amostragem não

probabilística. Dois critérios para selecionar:
• Representatividade- os indivíduos que fazem parte da amostra sejam os

mais representativos do todo ao qual queremos inferir, ou seja, o erro
de amostragem tem que ser mínimo.
• Precisão – a amostra deve proporcionar estimativas das características
da população com precisão razoável. Limitada pelos custos ou
disponibilidade de casos para integrar a amostra.
Quando mais a amostra, maior o intervalo de confiança.
Variáveis e constantes:
• Constantes: características, atributos, ou propriedades que não variam e que

assumem sempre os mesmos “valores” ou “qualificações”.
• Variáveis: os indivíduos da amostra diferenciam-se uns aos outros nos “valores”

que assumem numa variável.
• Variáveis categóricas ou qualitativas: Características apresentadas, mas não

são suscetíveis de resultado numéricos. Os “valores” assumidos pelas
variáveis são categorias ou qualificações (qualidades). Não possuem
nenhum significado numérico ou quantitativo.
o Frequentemente, convertemos as variáveis alfanuméricas em

dados codificados em números – Processo de conversão:
• Atribuição de números aos “valores” qualitativos.

• Os dados permanecem categóricos ou qualitativos.
• O código em número atribuído não tem qualquer significado
numérico.
o Mesmo depois de convertidas em códigos, as variáveis

qualitativas mantêm-se sem significado numérico.
2
Estatística I
• Variáveis quantitativas: Os valores assumidos pelas variáveis possuem um

significado numérico. A comparação dos valores das variáveis tem
significado numérico.
o Quantitativa discreta: quando as variáveis assumem valores

finitos (números inteiros...);
o Quantitativa contínua: quando as variáveis podem assumir um
número infinito não-numerável de valores (temperatura do
ar,...).
Variáveis – medição:
• Medição nominal
• Os “valores ” assumidos pelas variáveis fornecem apenas informação de

categorias ou de classificações qualitativas. – Homem / mulher; – Veículo
ligeiro / veículo pesado de mercadorias / veículo pesado de passageiros.
• Os “valores ” não permitem ordenação. No máximo permitem afirmações
de que os atributos são diferentes entre os indivíduos.
• Mesmo que se convertam os “valores ” das variáveis (qualitativas, medidas
em termos nominais) em numéricas, mantêm-se as limitações em termos
de ordenação.
• Medição ordinal
• Os “valores ” assumidos pelas variáveis continuam a ser de natureza

categórica, mas agora já têm alguma relação uns com os outros  As
categorias podem agora ser ordenadas, embora sem rigor quantitativo das
diferenças.
• Os “valores ” permitem ordenação, mas no máximo é possível dizer que um
“valor ” é maior do que outro; somos incapazes de dizer em quanto o
primeiro valor é superior ao segundo valor.
• Medição em intervalos ou em rácio
• Os valores permitem ordenação sendo conhecida a relação de um valor

com outro.
o Os “valores ” podem permitir subtrações e adições entre eles,
0 significa ausência -> variáveis “medidas em rácio ”.
o Os “valores ” podem não permitir subtrações e adições entre
eles, o 0 é apenas mais um valor, não significa ausência ->
variáveis “medidas em intervalo ”.
3
Estatística I
Variáveis Dependentes e Independentes
A classificação depende da investigação em curso. Uma variável que é dependente

num estudo, pode ser independente noutro.
• Independentes ou explicativas
• Dependente ou explicada
Apresentação de dados – Gráficos: virtudes, defeitos e precauções
• Contagens e taxas:
Houve cerca de 1,6 vítimas em

cada 10000 pessoas -> Taxa de
prevalência.
Problemas:
• Legenda;
• Variável, deve ser percetível ao olhar para a tabela, deve estar sinalizada.
Costuma estar na primeira coluna;
• Período temporal, é necessário localizar os dados no tempo;
• Amplitude de classes: o 14 encaixa-se em 2 classes; as classes tem diferentes
amplitudes, tanto tem 3 idades como 14.
4
Estatística I
• Proporções e percentagens
Amostras = indivíduos vitimas de homicídio
• Frequência Absoluta: número de casos de indivíduos correspondente a cada

escalão.
• Frequência Relativa: número de indivíduos pertencentes a um determinado
escalão relativamente ao total de indivíduos.
• Gráfico circular
Problemas:
• Têm cores: ao fazer um trabalho com cores é necessário imprimir a cores –

razão financeira e económica; há pessoas que não conseguem distinguir as
cores;
5
Estatística I
• Deve ser utilizado quando temos poucas classes.

• Variável categórica
Taxa percentual: peso relativo de cada de cada escalão no total dos escalões.
• Gráfico de barras
A altura tem a ver com o número de indivíduos de cada classe. A variável apresenta-se
no eixo horizontal e a frequência absoluta ou relativa está na vertical.
• Gráfico circular de 3 dimensões
Problemas:
• Falta de informação
• A que se refere
• Local
6
Estatística I
• Período de tempo
• Etc.
• Série temporal ou cronológica
Nota: A imagem pode servir para mostrar muitas histórias e sobretudo quando
comparamos evoluções é preferível ter longos períodos de análises longitudinais
porque temos uma maior perspetiva sobre tendências.
• Diagrama de dispersão
O 100 corresponde à média nacional, o que está abaixo de 100 corresponde a abaixo
da média e o que está acima de 100 é superior à média.
Não se pode comparar diferentes locais, por exemplo na compra de laranjas, uma vez
que: 1º Possibilidades económicas; 2º Preço pode ser diferente.
7
Estatística I
Taxa de crescimento:
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐ℎ𝑒𝑔𝑎𝑑𝑎 − 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑎𝑟𝑡𝑖𝑑𝑎

𝑥 100
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑎𝑟𝑡𝑖𝑑𝑎
A mesma variação para cima ou para baixo, não quer dizer a mesma variação a níveis
percentuais.
Principais erros a evitar – a omissão da origem
Na verdade o gráfico é o mesmo que no segundo. A mesma realidade pode ser

apresentada de diferentes formas dependendo da maneira como se mostra, o facto de
ter o 0 muda muito.
Processo de agregação de dados
• Obtenção de dados relativos a uma variável (característica) [dias decorridos até

nova detenção]
• Analise dos dados disponíveis:
– Constatação de alguma desorganização nos dados:

– Dados: 25,30,31,33,19,36,37,34,39,32,33,37,26,29,28,............
• Organização dos dados

• 1º organização dos dados
– Contagem de ocorrências para cada um dos “valores” assumidos pela variável.

– Determinação de frequências absolutas e relativas para cada “valor”.
8
Estatística I
– Construção de um Quadro e de Histogramas.
Quantas Soma dos

Variável pessoas valores
demorarem anteriores mais a
para reincidir frequência
nos dias absoluta do dia
indicados
2 formas de apresentar o histograma
A criação de classes de “valores” de uma variável em estudo corresponde à construção

de distribuições de frequências agrupadas ou agregadas. Há algumas regras que
devem ser respeitadas para constituir grupos ou classes:
• As classes criadas devem ser mutuamente exclusivas, não se pode pertencer a

2 classes ao mesmo tempo
9
Estatística I
• Não devem existir uma classe para casa um dos valores da variável
• As classes (intervalo de “valores”) devem ter igual amplitude, ou seja, igual

número de “valores”
• A 1º classe deve conter, entre outros, o “valor” mais baixo, enquanto a última
classe deve conter o valor mais elevado da variável.
O problema é complicado, uma vez que não sabemos muito bem quantas classes se
devem fazer. Devemos ter em consideração que sempre que fazemos um estudo
possivelmente ele já foi feito por alguém do mundo, ou no mínimo foi feito um
parecido, e os resultados devem ser comparáveis aos existentes.
Sempre que agregamos informação perdemos conhecimento, dados. No entanto, este

procedimento, é seguido para apresentar informação num espaço mais curto ou para
comparar com outros estudos. No entanto, continua-se a apresentar da mesma
maneira: até 19, até 22, ...
Estatística Descritiva
Estatística descritiva: descrição de características de indivíduos ou de casos;
Inferência estatística: pegar nos resultados obtidos numa amostra e extrapola-los para
a população representada naquela amostra.
Distinções:
Estatística univariada: caracterização e análise de uma só variável;
Estatística multivariada: caracterização e análise de duas ou mais variáveis e de

relações entre elas
Medidas de tendência central: “Valores” que permitem o melhor possível representar

a tendência de uma variável
10
Estatística I
Medidas de dispersão: quão distantes estão as observações de uma medida de

tendência central?
Medidas de tendência central
Moda: Valor mais frequente de entre os valores assumidos pela variável. Medida de
tendência central. Corresponde ao valor mais comum e frequente na distribuição dos
valores assumidos pela variável. Pode ser calculara com variáveis nominais, ordinais,
de intervalo e de rácio.
• Quadro: seleção do valor que tenha a maior frequência, a maior proporção ou

a maior percentagem
Valor modal: frequência absoluta do valor da moda.
• Gráfico de barras ou gráfico circular: seleção do valor para a qual a fatia ou

barra seja mais longa
11
Estatística I
Quanto existem 2 valores com frequências muito próximas e que são superiores a
todos os outros valores, temos uma distribuição bimodal.
Vantagens:
• A determinação da moda é fácil e simples;

• Pode ser obtida independentemente da forma de medição da variável em
estudo (nominal, ordinal, de intervalo ou de rácio).
Desvantagens:
• Desperdiça muita informação que um conjunto de dados incorpora;

• É uma medida de 1º momento, de tendência central, que se pode aplicar quer
a variáveis categóricas como quantitativas.
Mediana: Valor correspondente a 50º percentil na distribuição dos valores da variável,

ou seja, metade dos indivíduos estudados apresentam “valores” menores d que a
mediana”. Medida de tendência central adequada para: dados quantitativos medidos
no intervalo ou no rácio; dados que tendo sido medidos originalmente no nível de
intervalo ou de rácio, foram agregados em classes numa segunda fase de tratamento
preparatório dos dados.
• Dados não agrupados em classes
Ímpar: Começa-se a cortar de os dois lados até chegar a um valor central. Para saber
em que posição está a mediana soma-se ao número de valores 1 e divide-se por dois.
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 + 1
2
Par: Utiliza-se a mesma fórmula que no ímpar, mas neste caso o resultado será um
número decimal. Assim sendo, vão existir 2 valores centrais, ou seja, faz-se a média
entre os 2. Por exemplo, se der 5,5, será a média entre o valor da 5º posição e o valor
da 6º posição.
12
Estatística I
A variável é o número de vezes que os jovens

vandalizaram a escola.
• A moda é 0, uma vez que é o que apresenta o
maior número de vezes;
• A partir da frequência absoluta acumulada: O
número de vezes corresponde ao último valor da
frequência absoluta acumulada, ou seja, 77. A posição
da mediana é 39ª. O 39º localiza-se nos jovens que
vandalizaram 3 vezes a escola, logo a mediana é 3;
• A partir da frequência relativa acumulada ______
• Dados agrupados em classes
Os dados estão ordenados de forma

crescente em função dos valores da variável
(dias em liberdade).
Temos 120 indivíduos, ou seja, a posição
ocupada pela mediana é 60,5 -> Temos que
procurar a classe de dias que contém a
mediana, ou seja, média da posição 60 e 61
que se encontram na classe 29-31 dias.
Fórmula aplicada:
𝑛+1
( 2 ) − 𝑐𝑓
𝑋𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = 𝐿 + ( ) . 𝑤𝑖 =
𝑓
120 + 1
( 2 ) − 33
= 28,5 + ( ) . 3 = 31,44 𝑑𝑖𝑎𝑠 𝑒𝑚 𝑙𝑖𝑏𝑒𝑟𝑑𝑎𝑑𝑒
28
𝑋𝑚𝑒𝑑𝑖𝑎𝑛𝑎 : valor da mediana
𝐿 : limite real inferior da classe que contém a mediana
𝑐𝑓: frequência (absoluta) da classe anterior à classe que contém a mediana
𝑓 : frequência (absoluta) da classe que contém a mediana
𝑤𝑖 : amplitude da classe que contém a mediana
𝑛 : número total de observações na amostra estudada.
13
Estatística I
Vantagens:
Numa distribuição existe apenas uma mediana.
•
A mediana é determinada pelo número de observações e não pelos seus
valores.
• Como não é necessário considerar todos os valores da distribuição, a mediana
não é afetada por valores extremamente elevados ou reduzidos (outliers).
• É uma medida muito utilizada em distribuições assimétricas.
Desvantagens:
• Na inferência estatística, a mediana não satisfaz as propriedades de um bom

estimador.
Medidas de Tendência Central – MÉDIA
MÉDIA
O que é?
Medida de tendência central. É a média aritmética dos valores que a variável assume.
Os dados têm que estar medidos em intervalo ou em nível de rácio. Mas pode ser
calculado em dados ordinais que tenham sido obtidos por agregação de dados
contínuos (caso dos indivíduos em liberdade que voltaram a ser detidos).
MÉDIA – Como se determina?
• Média da população: µ
X1, X2, ..., Xn: N valores assumidos pela variável.

N: dimensão da população (número de indivíduos).
• Média da amostra: x̅ (quando a frequência é igual para todos os valores da

variável).
x1, x2, ..., xn: n valores assumidos pela variável na população.

N :dimensão da amostra (número de indivíduos selecionados para amostra, ou
número de registos).
14
Estatística I
Como se determina a média da amostra?
Média da amostra: x̅ (quando os valores da variável têm frequências diferentes).
x1, x2, ..., xn: n valores assumidos pela variável na população (alguns valores
podem ser repetidos).
fi: frequência com que ocorre o valor xi.
k: número de valores que a variável x pode assumir.
n: dimensão da amostra (número de indivíduos selecionados para amostra, ou
número de registos).
Média de dados agrupados:
m1, m2, ..., mk: k pontos médios das classes (intervalos);

fi: frequência com que ocorre a classe (intervalo);
n: dimensão da amostra ( número de indivíduos selecionados para a amostra,
ou número de registos).
Média
Vantagens:
• É a medida mais familiar e mais correntemente utilizada.

• É a medida de tendência central mais eficiente quando trabalhamos com uma
amostra da população.
Desvantagens:
• Suscetível do valor da média ser afetado por outliers.
Medidas de Dispersão – Introdução
15
Estatística I
Medidas de Tendência Central
Revelam algumas das características da distribuição da variável estudada… mas são

apenas algumas características.
Medidas de Dispersão
Refletem:
• O quão diferentes ou distantes são os valores assumidos pela variável em

relação a alguma das medidas de tendência central.
• O grau de heterogeneidade presente nos dados.
Distribuições são distinguíveis com o uso de MEDIDAS de DISPERSÃO: Em variáveis

nominais e ordinais; Em variáveis quantitativas.
Medidas de Dispersão em variáveis nominais e ordinais
Em que medida as características assumidas pela variável estão concentradas na

moda?
Proporção da categoria modal
• Importância relativa de um valor modal no

total.
Rácio de variação (Variation Ratio)
• Mede a extensão em que as observações não estão concentradas na categoria

modal.
• Quanto menor for a proporção de indivíduos caracterizados pela categoria

modal, maior é o valor do rácio de variação RV.
• No caso de a variável poder assumir apenas 2 valores, RV<0,50
Medidas de Dispersão em variáveis de intervalo e de rácio

ALGUMAS MEDIDAS:
• Amplitude
• Amplitude inter-quartílica
• Desvio
• Desvio absoluto médio
• Variância
16
Estatística I
• Desvio-padrão
AMPLITUDE (Intervalo de variação)
Consiste na diferença ou na distância entre o valor mais elevado e o valor mais baixo
que a variável pode assumir.
Vantagens:
• Fácil de calcular.
• Interpretação rápida do resultado.
Desvantagens:
• Frequentemente conduz o investigador a uma impressão errada acerca da

heterogeneidade dos dados.
• Ignora completamente a dispersão existente entre o valor mais baixo e o valor
mais elevado
• Só considera os valores extremos.
Solução:
Uma outra medida → AMPLITUDE INTER-QUARTÍLICA
AMPLITUDE INTER-QUARTÍLICA (intervalo interquartis)
Consiste na diferença ou na distância entre o valor no percentil 75 e o valor no

percentil 25. Deste modo, esta medida considera 50% da distribuição. Mede a
amplitude dos valores assumidos pela variável no meio da distribuição.
Como se calcula?
1. Ordenar os valores por ordem crescente

2. Determinar as frequências relativas acumuladas (percentagens acumuladas)
3. Localizar os valores assumidos pela variável no percentil 75 (Q3) e no percentil
25 (Q1).
4. Calcular a diferença entre esses dois valores:
Dados ordenados
17
Estatística I
• Identificar a posição mediana truncada
• Posição da mediana dos dados com a parte decimal truncada (arredondada

para menor número inteiro próximo).
• 20 estabelecimentos prisionais →posição ocupada pela mediana = (20+1)/2 =
10,5 →10.
• Identificar os 1º e 3º quartis
• Posição: (10+1)/2 = 5,5
• 1º quartil = ponto médio entre posições 5ª e 6ª , i.e., para Portugal: 2;
para Espanha: 3
• 3º quartil = ponto médio entre posições 15ª e 16ª, i.e., para Portugal:
6; para Espanha: 6
• Finalmente, amplitude inter-quartílica é:
• Portugal = 6 – 2 = 4 fugas
• Espanha = 6 – 3 = 3 fugas
Afinal, aparenta menor

dispersão do que a
indicada pela amplitude
(simples)
Vantagens:
• Ultrapassa algumas das limitações da medida AMPLITUDE.

• Continua a ser de cálculo fácil e relativamente rápido.
• Permite ao investigador uma maior aproximação à dispersão dos dados.
• A sua utilização é aconselhada para distribuições com elevada assimetria.
Desvantagens:
• Continua a não aproveitar toda a informação que está contida nos dados, em
matéria de dispersão.
Solução:
• Medidas alternativas: DESVIOS e VARIÂNCIA → em que medida os valores

assumidos pela variável são diferentes do valor médio????
DESVIO
Mede o afastamento (distância) entre cada valor assumido pela variável e a média dos
valores.
18
Estatística I
DESVIO ABSOLUTO MÉDIO – para dados

desagregados (não agrupados)
• Calcular a média.
• Determinar o valor absoluto das diferenças entre cada valor
observado e o valor médio.
• Somar todos os valores absolutos calculados e dividir pelo número
de observações ou de resultados dos dados.
DESVIO ABSOLUTO MÉDIO – para dados agregados (agrupados)
• Identificar a frequência absoluta com que cada valor surge nos dados.
• Calcular a média.
• Determinar o valor absoluto das diferenças entre cada um dos valores
observados e o valor médio.
• Para cada valor identificado nos dados, multiplicar a sua
diferença absoluta com respeito à média pela frequência
com que surge nos dados.
• Somar todos os produtos obtidos no ponto anterior.
Vantagens:
• Medida mais sensível do que as anteriores, uma vez que considera a diferença
de todas as observações relativamente a um valor central (média).
• Interpretação fácil dos resultados.
• Medida menos influenciada por valores extremos do que o desvio-padrão (a
ver ainda à frente).
Desvantagens:
• Não considerando os sinais dos desvios, conduz à perda de informação.
VARIÂNCIA
Média dos desvios quadrados dos valores em relação à média. Uma vez mais, quanto
maior for a magnitude da VARIÂNCIA, maior é a dispersão dos dados.
Como se calcula então?
– Depende de estarmos a calcular numa amostra ou na população;
19
Estatística I
– Depende de estarmos com dados agregados ou com dados desagregados.
(06-03)
Medidas de tendência central- Mediana
Mediana- Como se determina?
(B) Dados agrupados em classes:
• Dados ordenados de forma crescente em função dos valores da variável (dias

em liberdade).
• n=120. O número de dias mediano estará na posição dada por: (120+1) / 2=
posição 60,5.
20
Estatística I
• Qual é a classe de dias em que contém a mediana? Pp (ver tabela)

• Fórmula aplicada à mediana: pp.
Vantagens:
• Numa distribuição existe apenas uma mediana;

• A mediana é determinada pelo número de observações e não pelos seus
valores;
• Como não é necessário considerar todos os valores da distribuição, a mediana
não é afetada por valores extremamente elevados ou reduzidos.
• Pp.
Média- O que é a média?
Medida de tendência central. Medida aritmética.
Letras gregas -> estatísticas da população

Letra normais -> estatística da amostra
Maiúsculo -> medidas da população
Minúsculo-> medidas da amostra
𝑥̅ -> média da amostra.
Média de dados agrupados:
Polígono de frequências: linha que une os pontos médios das classes das variáveis.
Vantagens:
• Mais fácil de calcular
• O melhor calculo que podemos fazer para nos aproximar dos resultados da pop
é a média, é o melhor estimador.
• Ao caracterizar uma amostra eu tenho de procurar uma media de que me
mostre as diferenças que existem entre os indivíduos_ medidas de dispersão.
Medidas de dispersão:
É necessário dividir em variáveis nominais e ordinais, depois aplicamos estas medidas.

Quanto mais os valores forem concentrados à volta da média, menos dispersão tem.
Dispersão quando as variáveis de rácio ou de intervalo (variáveis quantitativas):
Amplitude (intervalo de variação)
Consiste na diferença ou na distancia entre o valor mais elevado e o valor mais baixo
que a variável pode assumir.
21
Estatística I
Vantagens:
• Fácil de calcular.
• Interpretação rápida do resultado.
Desvantagens:
• Frequentemente conduz o investigador a uma impressão errada acerca da

heterogeneidade dos dados.
• Ignora completamente a dispersão existente entre o valor mais baixo e o valor
mais elevado- só considera os valores extremos.
Solução:
• Uma outra medida: Amplitude inter-quartílica
Amplitude inter-quartílica
Consiste na diferença ou na distância entre o valor no percentil 75 e o valor no

percentil 25. Deste modo, esta medida considera 50% da distribuição. Mede a
amplitude dos valores.
Posição do 3º quartil:
n (20)- posição do Q1 (5,5+1)= 15,5ª posição do Q3.
Quanto mais baixa for a amplitude menos dispersa é a ...

A frequência relativa é necessária dividir-se com a frequência absoluta.
Desvio absoluto médio -> melhor medida de dispersão

Nestes cálculos o que me interessa é se o individuo está muito ou pouco afastado da
média.
(19/03)
Medida de assimetria
Olhando para um gráfico se for igual de um lado e do outro acontece é uma

distribuição total, é uma simetria perfeita. Existiria um Skewness = 0, simetria perfeita.
Quando ela é negativa, temos uma assimetria negativa, é mais alongado para a
esquerda (onde a cauda desce mais devagar). Ao contrário, é positiva.
22
Estatística I
Assimetria negativa
Curva enviesada à esquerda

Skewness < 0
Assimetria Positiva
Curva enviesada à direita

Skewness > 0
Amostra pode ser dividida em:
• Skewness
• Standard error of skewness / erro padrão
Dividir o Skewness por standard error em uma escala que vai de -1,96 a 1,96. Além da
distribuição amostral ter uma assimetria positiva, também há evidencia que todos s
reclusos também tinham uma assimetria positiva.
Se a skewness de uma amostra fosse igual a 0,97, por ser positivo, dizia-se que a
distribuição amostral tinha uma assimetria positiva.
Admitindo que a divisão era um valor superior a 1,96. Em tal situação, pode-se dizer
que além da distribuição amostral ter uma assimetria positiva, também a distribuição
da população de que a amostra é representativa tem uma assimetria positiva.
Se o quociente estivesse entre -1,96 e 1,96 dizia-se que independentemente do tipo de

assimetria amostral, a distribuição da população de que aquela amostra é
representativa é simétrica. Ou seja, o valor que obtemos é o valor amostral que
depende daqueles dados, na divisão conseguimos fazer inferência para a população e
se tiver entre os 2 valores, há simetria.
Quando a moda = mediana = média é porque a dispersão é simétrica.
Quanto mais centrada estiver a mediana, mais propensão para achar a distribuição
simétrica. Quando mais próximo de baixo, mais sinais há para dizer que há uma
assimetria positiva. Quando mais próximo do cima, mais sinais há para dizer que há
uma assimetria negativa.
23
Estatística I
Se o bigode superior for mais comprido que o outro, há indícios de assimetria positiva.
Se o bigode inferior for mais comprido que o outro, há indícios de assimetria negativa.
(ter atenção há palavra indícios)
Dependendo do valor do kurtosis o gráfico fica diferente.
• Kurtosis > 0, leptocúrtica
• Kurtosis = 0, mesocúrtica
• Kurtosis < 0, platicúrtica
(27/03)
Teoria das Probabilidades
Probabilidade:
– Tentativa de quantificar a possibilidade de ocorrência de acontecimentos.
– Com que “certeza” ocorrerá um certo acontecimento?
1. Interpretação clássica
Pressupõe que:
• É possível listar todos os resultados possíveis, antes da experiência aleatória.

• Os resultados são igualmente prováveis (experiência aleatória regular)
Define Probabilidade de ocorrer A como: Lei de Laplace
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟á𝑣𝑒𝑖𝑠

𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑝𝑜𝑠𝑠í𝑣𝑒𝑖𝑠
𝑃 𝐴
Um( acontecimento
) = é a manifestação de um certo resultado numa experiencial
aleatória que eu produzo.
Ex: lançamento de uma moeda

a) 1 lançamento: A B
b) 2 lançamentos: AA AB BA BB
24
Estatística I
a) Exemplo 1: Probabilidade de “sair o lado A” (entre aspas significa que é o

acontecimento)
1
𝑃(𝐴) =
2
b) Exemplo 2:
o Probabilidade de sair “lado A e lado A”
𝑃(𝐴𝑒𝐴) = 𝐶14 = 25%
o Probabilidade de “sair A no 1º lançamento” = 2/4 = 50%
c) Lançamento (honesto) de um dado
o P(um ponto) = 1/6
o P(nº par de pontos) = 3/6
2. Interpretação Frequencista
Ideia fundamental:
• Observação da evolução da frequência relativa do mesmo acontecimento, à

medida que se vai repetindo a experiência aleatória de modo independente.
• Repetindo-se a experiência aleatória um no muito grande de vezes, verifica-se

que existe uma tendência para a estabilização da frequência relativa em torno
de um número – valor aproximado da probabilidade de ocorrência P(A).
O número para que tende essa estabilização é a probabilidade de esse
acontecimento.
Experiência aleatória
• Lançamento (honesto) de uma moeda

perfeita;
• Anotação do nº de vezes que sai {cara};
• Determinação da frequência relativa
correspondente a {cara}.
25
Estatística I
Esta interpretação é usada quando não sabemos que valor aplicar no número de casos
possíveis.
3. Interpretação subjetiva
Probabilidade atribuída por um indivíduo; reflete opiniões, características de

personalidade e análise do próprio indivíduo.
Exemplo: “Acho que, para aí com uns 75% de hipóteses, amanhã vai chover.”
Odds
• O que é a odd (chance)?
É uma chance de alguma coisa acontecer.
Treinador atual
𝑃(𝑓𝑖𝑐𝑎𝑟 𝑛𝑎 1º𝑙𝑖𝑔𝑎) 𝑃(𝑓𝑖𝑐𝑎𝑟 𝑛𝑎 1º𝑙𝑖𝑔𝑎) 0,10 1
𝑜𝑑𝑑 𝑑𝑒 𝑓𝑖𝑐𝑎𝑟 𝑛𝑎 1º 𝑙𝑖𝑔𝑎 = = = =
𝑝(𝑛ã𝑜 𝑓𝑖𝑐𝑎𝑟 𝑛𝑎 1º𝑙𝑖𝑔𝑎) 1 − 𝑃(𝑓𝑖𝑐𝑎𝑟 𝑛𝑎 1º𝑙𝑖𝑔𝑎) 1 − 0,10 9
Treinador estrela
0,80 8
𝑜𝑑𝑑 𝑑𝑒 𝑓𝑖𝑐𝑎𝑟 𝑛𝑎 1º 𝑙𝑖𝑔𝑎 = = =4
1 − 0,80 2
Resultados = (“ficar”; “não ficar”)
• O que é um odds ratio? OR
𝑜𝑑𝑑 𝑑𝑒 𝑓𝑖𝑐𝑎𝑟 𝑐𝑜𝑚 𝑒𝑠𝑡𝑟𝑒𝑙𝑎 4

𝑂𝑅 𝑑𝑒 𝑓𝑖𝑐𝑎𝑟 𝑛𝑎 1º 𝑙𝑖𝑔𝑎 = = = 36
𝑜𝑑𝑑 𝑑𝑒 𝑓𝑖𝑐𝑎𝑟 𝑐𝑜𝑚 𝑎𝑡𝑢𝑎𝑙 1/9
A chance de o club ficar na 1º liga com o treinador Estrela é 36 vezes maior do que se
ficar na 1º liga com o treinador atual.
o Exemplo novo
Dois grupos de reclusos:
1. Um grupo foi intervencionado com um programa que pretende reduzir ou

eliminar a reincidência do crime quando indivíduos forem libertados – com
programa -> 200
2. Um segundo grupo não foi intervencionado – sem programa -> 200
26
Estatística I
1 ano depois da liberdade

Não reincidiu - NR Reincidiu - R
Com programa 150 50

Sem programa 100 100
150
150 200
𝑃(𝑁𝑅) 200 50 0,75
𝑜𝑑𝑑 𝑑𝑒 𝑁𝑅 𝑐𝑜𝑚 𝑝𝑟𝑜𝑔𝑟𝑎𝑚𝑎 𝑃(𝑅) 1 − 𝑃(𝑁𝑅) 0,25 3
𝑂𝑅 𝑑𝑒 𝑁𝑅 = = = = 200 = =
𝑜𝑑𝑑 𝑑𝑒 𝑁𝑅 𝑠𝑒𝑚 𝑝𝑟𝑜𝑔𝑟𝑎𝑚𝑎 𝑃(𝑁𝑅) 100 0,5 1 1
𝑃(𝑅) 200 0,5
100
200
A chance de NR com programa é 3 vezes superior que a chance de NR sem programa.
Regras de probabilidade
Seja P(A) -> probabilidade (não condicionada) de ocorrência de A.
o 0 ≤ P(A) ≤ 1
• Não há probabilidades negativas, nem superiores a 1 (ou 100%)

• Complementar de A: P(não ocorrer A) = 1 – P(A)
• Ocorrência simultânea de “A” e “não A” é impossível.
Exercício: Se a probabilidade de um indivíduo reincidir no crime for de 75%
Qual será a ODDS de o indivíduo reincidir no crime?
Qual será a ODDS de o indivíduo não reincidir no crime?
o Cálculo de P(A ou B) -> REGRAS DE ADIÇÃO
➔ A, B são acontecimentos mutuamente exclusivos
o P (A ou B) = P(A) + P(B)
A B
27
Estatística I
Exemplo:
Probabilidade de escolher um individuo como tendo bom

desempenho?
P(B) = 346/1575 = 0,2197 -> 21,97%
Qual a probabilidade de alguém dizer que os tribunais estão

a fazer um trabalho razoável ou mau?
P (C ou E) = P(C) + P(E) = 740/1575 + 142/1575 = 0,4698 +

0,0902 = 0,56 -> 56%
➔ A, B são acontecimentos não mutuamente exclusivos
o P(A ou B) = P(A) + P(B) – P(A e B)
Exemplo:
Extração de cartas de um baralho perfeito (honesto) (52 cartas)
▪ Probabilidade de extrair uma carta de ouros?
P(ouros) = 13/52 = 0,25 -> 25%
▪ Probabilidade de extrair um Ás?
P(Ás) = 4/52 = 0,0769 -> 7,69%
▪ Probabilidade de extrair uma carta de ouros ou um Ás?
P(ouros ou Ás) = P(ouros) + P(Ás) – P(ouros e Ás) = 0,25 + 0,0769 – 1/52 = 0,3077 ->
30,77%
o Cálculo de P(A e B) -> REGRAS DE MULTIPLICAÇÃO
➔ A, B são acontecimentos independentes
o P(A e B) = P(A) x P(B)
Exemplo
28
Estatística I
Lançamento honesto de uma moeda perfeita, duas vezes
▪ Probabilidade de sair cara nos dois lançamentos é igual a:
P(cara e cara) = P(cara) x P(cara) = 1/2 x 1/2 = 1/4 = 0,25
➔ A, B são acontecimentos não independentes
o P(A e B) = P(A )x P(B|A)
P(A) – probabilidade de A (não condicionada)
P(B|A) – probabilidade condicionada de B, dado A
Se A e B forem independentes, P(B|A) = P(B)
Se A e B não forem independentes, P(B|A) ≠ P(B)
Exemplo:
200 reclusos, 100 deles são intervencionados, como objetivo de redução da

reincidência quando libertados.
Dos100, 40 reincidem nos primeiros três meses após saída do est prisional.
▪ Qual é a probabilidade de um indivíduo intervencionado vir a reincidir ->

P(R|C)?
R = indivíduo reincide; C = indivíduo foi sujeito a intervenção
P(C) = 100/200 = 0,50
P(R e C) = 40/100 = 0,40
P(R|C) = P(R e C) / P(C)
P(R|C) = 0,40/0,50 = 0,8 (80%)
29
Estatística I
Probabilidade condicionada
Um acontecimento A pode não ser independente de um outro B.
Assim, saber que B acontece permite corrigir a expectativa que se pode ter acerca da
ocorrência de A.
Assim, a probabilidade de A condicionada por B é definida por:
P (A e B)
P(A|B) =
P(B)
𝑃(𝐴 𝑒 𝐵) = 𝑃(𝐴) . 𝑃(𝐵|𝐴)

𝑃(𝐵 𝑒 𝐴) = 𝑃(𝐵). 𝑃(𝐴|𝐵)
Teorema de Bayes
A partir da probabilidade condicional é possível deduzir o teorema:
P (A|B). P(A)
P(A|B) =
P(B)
P(A): probabilidade a priori ou probabilidade marginal de A, para cujo cálculo não se

considera nenhuma informação sobre B.
P(A|B): probabilidade a posteriori; probabilidade condicional de A, dado B
P(B|A): probabilidade condicional de B, dado A
Como P(B) = P(B|A)⋅P(A) + P(B|A)⋅P(A) é possível escrever o teorema de Bayes de

outro modo:
𝑃(B|A) ⋅ 𝑃( 𝐴) 𝑃(B|A) ⋅ 𝑃( 𝐴)
𝑃(B|A) = =
𝑃(𝐵) 𝑃(B|A) ⋅ 𝑃( 𝐴) + 𝑃(B|𝐴̅) ⋅ 𝑃( 𝐴̅)
Distribuições e Probabilidades
Distribuição de frequências
• Natureza empírica
• Regista o observado: consiste no número de vezes com que observamos cada um
30
Estatística I
dos valores assumidos pela variável em estudo.
Distribuição de probabilidades
• Natureza teórica
• Regista o que deverá ser observado – é uma distribuição teórica – se a experiência

aleatória for repetida um número muito grande de vezes, a longo prazo.
Distribuição de Frequências vs Distribuição de Probabilidades
Exemplo Distribuição de frequências:
Lançamento duplo de uma moeda equilibrada, com dois lados {A e B}
Vamos designar por X = número de vezes que sai o lado A
– Pode sair 0 vezes (X=0)
– Pode sair 1 vez (X=1)
– Pode sair 2 vezes (X=2)
Lançamento Lados X (no de lados A)
Vamos fazer o lançamento duplo 20 vezes
Vamos registando o que vai saindo
Imaginando que ao fim das 20 vezes o resultado é o seguinte:
Exemplo distribuição de probabilidades:
Lançamento duplo de uma moeda equilibrada, com dois lados {A e B}
Adotando uma interpretação clássica:
31
Estatística I
. .
P(X=0)=P(BeB)=P(B) P(B)=(1/2) (1/2)=0,25
. .
P(X=1)=P(AeB ou BeA)= P(AeB)+P(BeA)=P(A) P(B)+P(B) P(A)=0,25+0,25=0,50
. .
P(X=2)=P(AeA)=P(A) P(A)=(1/2) (1/2)=0,25
Soma das três probabilidades = 0,25+0,50+0,25 = 1.
Tipos de distribuição de probabilidade
Distribuição discreta:
Distribuição contínua:
Variável Aleatória discreta
Variável aleatória contínua
32
Estatística I
Distribuições de probabilidade discreta
a) Distribuição Uniforme Discreta – Variável aleatória (v.a.) pode assumir n

valores diferentes, equiprováveis -> a probabilidade de ocorrência de cada um
dos valores é igual a (1/n).
b) Distribuição de Bernoulli – Distribuição Binomial – Associada à experiência

aleatória (processo de Bernoulli) em que se observa a realização ou não
realização de determinado acontecimento A, com uma probabilidade P(A)= θ.
c) Distribuição Geométrica – Distribuição Binomial Negativa – Observação de

uma sucessão de provas de Bernoulli em que o resultado pode ser favorável ou
desfavorável e em que a v.a. passa a ser o número de experiências aleatórias
necessárias até obter resultado favorável.
d) Distribuição Hipergeométrica – Igual à anterior, mas com a diferença das

experiências serem independentes entre si. A v.a. será na mesma o no de
experiências aleatórias necessárias até obter resultado favorável.
e) Distribuição de Poisson – Está associada ao processo de contagem (de

Poisson) do número de eventos que ocorrem ao longo do tempo. Exemplo:
contagem do n.o de pessoas que afluem à Repartição de Finanças ao longo do
dia; organização de listas de espera com cálculo do tempo previsto para o
atendimento.
f) Distribuição Multinomial– Generalização da distribuição binomial à

consideração de um conjunto de experiências aleatórias e à observação da
ocorrência de resultados favoráveis em cada uma delas.
Distribuições de probabilidade contínua
a) Distribuição Uniforme Contínua – Distribuição correspondente à distribuição

uniforme discreta, no caso de a v.a. ser contínua.
33
Estatística I
b) Distribuição Normal – A distribuição de probabilidade mais utilizada, em

virtude de a grande maior parte das características de uma população serem
representadas por v.a. que seguem uma distribuição normal: distribuição das
alturas (ou pesos) dos indivíduos, e em virtude de gozar de propriedades que a
tornam mais atraente para as aplicações práticas e estudos empíricos.
c) Distribuição Exponencial (ou exponencial negativa) – Associada ao processo

de Poisson; aplicação não apenas ao tempo de espera, mas também a
fenómenos como a vida útil de equipamentos, entre outros.
Exemplo: O ritmo médio de afluência a uma loja é de 20 clientes por hora. Após
abrir a loja, qual é a probabilidade de se ter que esperar mais de 5 minutos
para que chegue o 1o cliente?
d) Distribuição Gama. Distribuição do Qui-Quadrado – Generalização da

distribuição exponencial, com aplicações mais vastas que ultrapassam o estudo
de tempos de espera; A distribuição exponencial é um caso particular da
distribuição gama. Um outro caso particular é a distribuição Qui-quadrado.
e) Distribuição Beta – Quando existem limitações no domínio da v.a. (nas

distribuições anteriores, a v.a. não apresentava tais limitações). Exemplo: o
montante de indemnização num seguro depende do capital seguro, não
podendo exceder o valor deste.
f) Distribuição Normal Bidimensional ou k-dimensional – Generalização da dist.

Normal ao caso em que se estuda o comportamento conjunto de mais do que
uma v.a.
Distribuição de Bernoulli
Associada à experiência aleatória (prova de Bernoulli) em que se P(A) = p

observa a realização (sucesso) com uma probabilidade p, ou não
realização de determinado acontecimento P(A) =1− p
A (insucesso), com uma probabilidade (1 – p).
EXEMPLO
Condutor parado em operação stop é identificado com posse de droga? Sim
ou Não -> x=1 ou x=0.
DISTRIBUIÇÃO BINOMIAL
Sucessão de provas de Bernoulli independentes. Em cada prova pode observar-se a

realização ou a não realização de determinado acontecimento A, com probabilidade p,
que se supõe constante de prova para prova.
Qual é a probabilidade de se obter x sucessos em n provas de Bernoulli sucessivas e
34
Estatística I
independentes, seja qual for a ordem em que aqueles sejam obtidos?
Exemplo:
Operação stop na madrugada da cidade do Porto, nas vias de saída de um bairro

importante no tráfico de droga.
p : probabilidade de sucesso -> identificar alguém com posse de droga;
(1-p) : probabilidade de insucesso -> identificar alguém sem droga.
Admita-se que experiência passada da polícia leva a considerar que p = 0,20.
Durante a operação só pararam 5 carros.
Qual a probabilidade de a polícia identificar todos (5) os condutores com posse de

droga?
Utiliza-se o recurso a uma tabela de distribuição de probabilidade binomial.
Tal como numa distribuição de frequências, agora também é possível calcular o desvio-
padrão e a média – esta última assume agora a designação de valor esperado, em
virtude de estarmos perante uma distribuição teórica.
Nota: Ver exemplos no ppt do professor, capítulo IV parte 2
35
Estatística I
Distribuição Normal
Diz-se que a variável aleatória X segue uma distribuição normal de média μ e desvio-
padrão σ se a sua função de densidade de probabilidade (f.d.p.) for definida por:
Função densidade de probabilidade -> A

probabilidade de um resultado é maior a meio do
que nos extremos da distribuição; nas caudas, a
probabilidade é menor do que no centro; Nenhuma
das caudas toca no eixo horizontal, uma vez que a
função é definida para valores infinitamente
positivos e negativos.
Sempre que o comportamento (valor) de uma v.a. X resulta da soma de um grande

número de efeitos provocados por causas muito pequenas (cada uma delas tem efeito
negligenciável) e independentes umas das outras, diz-se que a v.a. X segue uma
Distribuição Normal.
➔ É uma distribuição UNIMODAL.

➔ A área abaixo de toda a curva da função
densidade é igual à unidade (100%).
➔ Tomando como referência a média (μ), é possível
saber a probabilidade desse valor e de múltiplos
do desvio-padrão.
➔ A função densidade de probabilidade tem pontos
de inflexão em x = μ ± σ.
➔ É uma distribuição SIMÉTRICA... do desenho de
uma linha vertical sobre o centro da curva,
resultaria que as abas direita e esquerda seriam
espelho uma da outra.
É possível calcular 0,6826=2x0,3413;
0,9544=2x0,4772; 0,9974=2x0,4987.
➔ Uma qualquer distribuição de probabilidade
Normal é caracterizada (definida) por 2
parâmetros: média ou valor esperado (μ) e
2
variância (σ ).
36
Estatística I
2
Diferentes valores para os parâmetros (μ e σ ) correspondem a diferentes funções
densidade de probabilidade Normal.
Distribuição normal estandardizada (reduzida ou padrão)
Como μ e σ podem assumir uma infinidade de valores não

numerável, existirá uma infinidade de distribuições normais,
o que complica o cálculo de probabilidades neste tipo de
distribuição. Solução?
Fazer uma transformação (estandardização) da v.a. X em Z,

obedecendo a:
A v.a. Z assim definida tem uma distribuição normal estandardizada.
Esta tabela dá-nos o valor da

área na aba do lado direito da
função densidade. Mas como a
distribuição é simétrica em Z=0,
a área sob a linha na aba
esquerda tem o mesmo valor
que a da aba direita.
Nota: ver mais exemplos no ppt acima indicado
37
Estatística I
Em virtude do Teorema do Limite Central, a Distribuição Normal tem aplicabilidade

bastante lata.
Propriedades da Distribuição t-Student
➔ Tem a forma de sino e é centrada e simétrica em torno de μ=0.

➔ Tem maior variabilidade do que a Distribuição Z. É mais achatada e com caudas
mais altas.
➔ Existem tantas distribuições t-student quantos os graus de liberdade (degrees
of freedom df). Note-se que df = (n-1). [o no de graus de liberdade depende da
dimensão da amostra]
➔ Quando a amostra tem uma dimensão superior a 100 indivíduos, a distribuição
t transforma-se (virtualmente) na distribuição Z.
Falta só o último ppt acabar o que falta, mas não sei bem a que aula se refere isto que
escreveste; visto que grande parte está por outras palavras na última aula
Aula 30/04/19
Inferência estatística
O que fazemos na estatística?
Tentamos perceber como o mundo funciona, perceber que umas coisas estão
relacionadas com as outras. Tentamos encontrar no mundo relações entre variáveis.
Quando nos formos tentar fazer este trabalho vamos tentar descrever o mundo com a
informação que obtemos, como não conseguimos captar tudo, vamos estudar uma
amostra. Então nós queremos estudar uma população, constituída por muitas pessoas,
mais velhas, mais novas, de origens diferentes, de religiões diferentes, cursos
diferentes, uma população muito diversificada, desta população recolhemos uma
amostra. Para a amostra que nos recolhermos tem de ser representativa da população
que estamos a estudar.
38
Estatística I
O N (POPULAÇÃO) E n (AMOSTRA).
Conceitos básicos:
População: Grupo completo sobre que incide a investigação. A sua dimensão varia em
função do fenómeno estudado.
Parâmetro: Característica da população que se pretende conhecer.
Amostra: Subconjunto da população extraída para sobre ela fazer análise estatística,
e a partir dela fazer inferência estatística, com vista a extrapolar conclusões para a
população.
Estatística (amostral): Característica da amostra a partir de cujo comportamento se

pode fazer inferências para o parâmetro da população.
Estimador e Estimativa
“Qual o tamanho de uma amostra que devemos ter para analisar?”
Variáveis→ características da população
As respostas que vamos obter através da escala irão ser variadas, todas estas
particularidades podem nos interessar para o nosso estudo.
População em estudo: Porto
Amostra: Rua de Cedofeita, pessoas que se disponibilizam para responder ao
questionário, isto por si só já pode influenciar a maneira como a pessoa vai dar as
respostas.
Ao longo do dia inteiro conseguimos 300 questionários, encontramos algumas pessoas
que tinham sido multadas pela policia municipal, e na sua resposta irá responder de
forma enviesada.
A média de satisfação com a policia municipal era 60%.
Estimador: estimação pontual é fazer uso do estimador → algoritmo de calculo que
usa os dados de uma amostra para nos dar informação aproximada – estimativa - de
um parâmetro (característica) da população. Ex: o estimador no nosso caso concreto é
a conta que eu faço para chegar ao 60%, no nosso caso a media amostral é o
estimador. Quando concretizamos com os dados da amostra recolhido nós temos um
valor concreto, isto é a estimativa.
Desta maneira conseguimos recolher através da média da nossa amostra a satisfação
com a policia municipal.
Com os dados da amostra também podemos calcular a percentagem de se a policia
atua bem (^p= 0,40).
Ao usarmos estes valores estamos a fazer uma estimação pontual, pois o assunto
daquela amostra pode levar-nos a possíveis erros de amostragem/de inferência. De
amostra para amostra nós vamos ter variações nos dados dos resultados obtidos. Se as
39
Estatística I
pessoas forem mais ou menos homogéneas, o desvio padrão não será muito grande,
haverá algumas variações mas não significativas.
Usar aqueles valores para fazer a nossa inferência ou relatório é um erro.
Para calcularmos a estimação pontual e evitar o erro de inferência temos dois
caminhos, os intervalos de confiança ou os testes de hipóteses.
Testes de hipóteses: neste nosso caso seria: o super intendente dizia que queria testar
uma hipótese, ou seja, nos testamos o valor que o super intendente teria nos dado.
Como é que nós conseguimos com os dados recolhidos da amostra rejeitar ou aceitar
esta hipótese? Uma hipótese de investigação pode ser nula ou ter uma hipótese
alternativa. Ao rejeitarmos a nossa hipótese podemos cometer um erro tipo1( rejeitar
H0 e H0 ser verdadeiro), mas se não rejeitarmos podemos cometer erro tipo2 (não
rejeitar H0 e esta ser falsa).
Intervalo de confiança: o valor médio que as pessoas atribuem aos serviços que vóces
prestam vais estar entre dois valores.
O nosso valor central é 60, por isso começa x-margem de erro e x + margem de erro.
Para calcularmos a margem de erro é sempre com o valor central e o limite do
intervalo. O calculo da margem de erro vai depender do tamanho da amostra, da
heterogeneidade dos valores da nossa amostra, estes intervalos de confiança é de
muita ou pouca confiança? Normalmente o intervalo de confiança é feito para 95%de
confiança.
Se a margem de erro for 4 pontos percentuais, quer dizer que o intervalo vai de 21% a
29%, isto de uma percentagem de 25%. Por vezes existem empates técnicos em que o
intervalo de um partido corresponde ao intervalo de outro partido.
Capitulo n IV (juntar a apontamentos da aula que me falta)
Aula 14/05/19
Imaginando que vamos dar uma entrevista sobre a forma como os tribunais tem
julgado determinados tipos de crime em Portugal.
Uma das perguntas – Qual a previsão deste tipo de crime? -> Ir à internet ou telefonar
a alguém: número de média de meses que tem sido registado em Portugal para o
crime A – não há resposta, não se sabe.
Em muitas coisas que tentamos estudar não conhecemos a população.
População -> inferência: tentar conhecer a população usando os dados de uma

amostra – dentro do que temos disponível -> recolher processos de tribunal, medida
concreta da pena (tempo de prisão) e recolher uma amostra n, tendo assim um
número médio de meses de prisão.
Exemplo 1:
X- variável quantitativa -> número de meses dados pelos magistrados portugueses

para o crime A
n=
40
Estatística I
𝑋̅ = 120
s = 15 -> desvio padrão
Exemplo 2:
x – variável categórica -> partidos políticos: a, b, c, d, e
Há semelhança do primeiro que queremos saber o valor médio de meses de prisão,

podemos estar interessados em saber a percentagem de valores portugueses que vão
escolher o partido a
É impossível falar com toda a gente, supostamente dividimos o número de pessoas
que vão votar em a pelo número de pessoas total. Como é impossível, fazemos uma
amostra
n:
Percentagem amostral daqueles que vão votar no partido A -> 𝑝

̂𝐴 = 0,30
Estimativa pontual: uma maior aproximação da estatística verdadeira -> a média à que
corresponder à média amostral ou á percentagem amostral
A amostra pode ser muito representativa, mas é necessário existir muita variabilidade
dos indivíduos escolhidos para a amostra, ao utilizar o 120 correríamos muitos riscos
Intervalo de confiança: Contruir um intervalo que quase de certeza absoluta vai incluir
o verdadeiro valor -> a minha média não é 120, mas há de estar entre 2 valores, não é
0,30, há de ser um valor entre os limites -> forma alternativa -> é feito normalmente
para 95% de confiança, ou seja,
Exemplo 1:
110 ≤ 𝜇 ≤130
𝑋̅ = 𝑚𝑎𝑟𝑔𝑒𝑚 𝑑𝑒 𝑒𝑟𝑟𝑜 → 120 − 10
𝑋̅ = 𝑚𝑎𝑟𝑔𝑒𝑚 𝑑𝑒 𝑒𝑟𝑟𝑜 → 120 + 10
Fui recolher uma amostra de um certo n e calculei a média e o desvio padrão, se eu

tivesse ido buscar outras amostras:
amostra 2, podia ter uma média de 𝑋̅ = 125 e s= 12
amostra 3, podia ter uma média de 𝑋̅ = 112 e s= 20
41
Estatística I
Mesmo que tenha amostras da mesma dimensão, mas com diferentes processos vou
ter vário valores na média. Com cada amostra poderia
fazer um intervalo de confiança diferente. Podia
admitir a possibilidade de ter:
Com cada amostra obtêm-se um valor inferior e um

valor superior distinto. Se para cada amostra fizesse
um segmento, com o valor mínimo e máximo.
Ter 95% de confiança é a mesma coisa que ter uma
desconfiança de 5 em 100  1/20
Nestes todos há um que está totalmente fora da
média, ou seja, todos os outros intervalos de confiança tinham dentro dele a média
verdadeira, ou seja, se eu tivesse recolhido 100 amostras e tivesse 100 intervalos de
confiança eu ia ter 5 intervalos de confiança que me iam enganar, valores errados.
O spss dá o resultado do valor que se retira à média muito rápido, mas é preciso saber
como se faz.
Exemplo 2:
0,27 ≤ 𝜇 ≤ 0,33
𝑝
̂𝐴 − 𝑚𝑎𝑟𝑔𝑒𝑚 𝑑𝑒 𝑒𝑟𝑟𝑜
𝑝
̂𝐴 + 𝑚𝑎𝑟𝑔𝑒𝑚 𝑑𝑒 𝑒𝑟𝑟𝑜
Exemplo ppt:
n = 810
̂
𝑝= 0,34
Margem de erro: 0,0344 = 3,44%/100
0,34 – 0,0344 ≤ p ≤ 0,34 + 0,0344  0,3056 ≤ p ≤ 0,3744  30,56 ≤ p ≤ 037,44
Intervalos de confiança como fazer
Margem de erro
42
Estatística I
Amostra grande: 100 ou mais observações

Amostra pequena: menos de 100 observações
Quanto a variável é quantitativa e quando esta variável varia por várias circunstâncias.
Quando falamos no intervalo de confiança temos alguma possibilidade de nos

enganarmos, isto quer dizer que os 5% são muito importantes.
0,025 = 2,5% 0,025 = 2,5%
-1,96 0 1,96
Dependendo do nível de confiança o valor do 𝑍𝛼 vai ser diferente.

Quanto maior o número de confiança, maior é o 𝑍𝛼 , maior a margem de erro, logo
mais amplo o intervalo de confiança. Quando maior for o s, maior a margem de erro.
Exercício 1:
A amplitude do intervalo de confiança depende do número de precisão que se atribui a

intervalos de confiança.
Imaginado medir vários intervalos em locais diferentes.
25% _________29%
26% _____________32%
17% _____________________________36%
Maior amplitude de intervalo de confiança encontra-se associada a menor precisão, ao

contrário também funciona.
Que depende a amplitude do intervalo, precisão?
43
Estatística I
➔ Depende do nível de confiança - quanto maior confiança tivermos no

intervalo, maior é a margem de erro e maior a amplitude.
➔ Variabilidade na amostra, desvio padrão – quanto maior for a variabilidade
entre os indivíduos da amostra na variável em consideração
➔ Tamanho da amostra, n – quanto mais pequena for a amostra, maior a
margem de erro e maior a amplitude
A amplitude do intervalo de confiança é igual a duas vezes a margem de erro.
Exercício 2:
𝑥̅ =
s
3,2
12,4 ± 1,96 ( ) = 12,4 ± 0,53 => 11,87 ≤ 𝜇 ≤ 12,93
√140
Qual é a população?
➔ Existe uma confiança de 95% em como a duração média do processo de

crime em Portugal esteja entre 11,87 e 12,93 meses.
➔ A confiança de 95% significa que se tivéssemos recolhido 100 amostras e
com elas tivéssemos contruídos os correspondentes 100 intervalos de
confiança, exatamente 5 desses intervalos são enganadores pois não
contem o verdadeiro valor do parâmetro do parâmetro que nós queremos
conhecer na população. Os restantes 95% intervalos contem o valor
verdadeiro do 𝜇.
Em amostras pequenas não se pode utilizar a distribuição normal, tem que se usar
uma distribuição t-Student. Sempre que a amostra tem menos de 100, temos que
utilizar outros valores.
44
Estatística I
Quantos assaltos praticaram antes de ir para a cadeia:
Média- 5,3
Desvio padrão – 3,4
O cálculo é igual tirando o valor t.
Voltando ao exemplo 2:
n = 150 > 100 -> distribuição normal
87
𝑝̂ = = 0,58
150
Margem de erro =
𝑝̂ .(1− 𝑝̂) 0,58 .(1−1,58)
𝑍𝛼 × √ = 1,96 × = 0,0789858
𝑛 150
Amplitude de intervalo de confiança de 95% = 2 x 0,0789858 ou 0,6589 – 0,5010
Margem superior: 0,58 + 0,0789858
Margem inferior: 0,58 – 0,0789858
45
Estatística I
Teste de hipóteses
Ou Nível de significância
estrófica
Slide importante: 16, 21 -> o resto é para o próximo ano letivo.
46

Estatística Aplicada I

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estatística Aplicada I

Enviado por

Direitos autorais:

Formatos disponíveis

ESTATÍSTICA APLICADA I

Teóricas – Professor Pedro Sousa

Realizada por: Tatiana Lopes e Mónica Novais

(2º aula, 13/02)

Estatística aplicada na criminologia

Importância da estatística na Criminologia

Uma hipótese de afirmação não é nada menos do que uma proposição.

1º Estatística descritiva, descrever aquilo que é observado e recolhido, parte da

Normalmente não temos acesso a tudo e por esse motivo existe:

2º Inferência estatística, a partir de uma pequena parte da população inferir para o

Independentemente de qual a população, a amostra é sempre representativa de

Problemas das estatísticas:

• Fontes de dados utilizados: fontes oficiais; Inquéritos.

• A tem que preceder B;

Problema da generalização e da representatividade: ------- incapacidade para se

amostra é uma espécie de microcosmos do grande. A quantidade de pessoas

• População (estatística) – grupo grande que queremos estudar

• Amostra – Técnicas de amostragem aleatória vs técnicas de amostragem não

• Representatividade- os indivíduos que fazem parte da amostra sejam os

Quando mais a amostra, maior o intervalo de confiança.

• Constantes: características, atributos, ou propriedades que não variam e que

• Variáveis: os indivíduos da amostra diferenciam-se uns aos outros nos “valores”

• Variáveis categóricas ou qualitativas: Características apresentadas, mas não

o Frequentemente, convertemos as variáveis alfanuméricas em

• Atribuição de números aos “valores” qualitativos.

o Mesmo depois de convertidas em códigos, as variáveis

• Variáveis quantitativas: Os valores assumidos pelas variáveis possuem um

o Quantitativa discreta: quando as variáveis assumem valores

• Os “valores ” assumidos pelas variáveis fornecem apenas informação de

• Os “valores ” assumidos pelas variáveis continuam a ser de natureza

• Medição em intervalos ou em rácio

• Os valores permitem ordenação sendo conhecida a relação de um valor

Variáveis Dependentes e Independentes

A classificação depende da investigação em curso. Uma variável que é dependente

Apresentação de dados – Gráficos: virtudes, defeitos e precauções

Houve cerca de 1,6 vítimas em

Amostras = indivíduos vitimas de homicídio

• Frequência Absoluta: número de casos de indivíduos correspondente a cada

• Têm cores: ao fazer um trabalho com cores é necessário imprimir a cores –

• Deve ser utilizado quando temos poucas classes.

• Gráfico circular de 3 dimensões

• Série temporal ou cronológica

𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐ℎ𝑒𝑔𝑎𝑑𝑎 − 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑎𝑟𝑡𝑖𝑑𝑎

Principais erros a evitar – a omissão da origem

Na verdade o gráfico é o mesmo que no segundo. A mesma realidade pode ser

Processo de agregação de dados

• Obtenção de dados relativos a uma variável (característica) [dias decorridos até

• Analise dos dados disponíveis:

– Constatação de alguma desorganização nos dados:

• Organização dos dados

– Contagem de ocorrências para cada um dos “valores” assumidos pela variável.

– Construção de um Quadro e de Histogramas.

Quantas Soma dos

2 formas de apresentar o histograma

A criação de classes de “valores” de uma variável em estudo corresponde à construção

• As classes criadas devem ser mutuamente exclusivas, não se pode pertencer a

• As classes (intervalo de “valores”) devem ter igual amplitude, ou seja, igual

Sempre que agregamos informação perdemos conhecimento, dados. No entanto, este

Estatística descritiva: descrição de características de indivíduos ou de casos;

Estatística univariada: caracterização e análise de uma só variável;

Estatística multivariada: caracterização e análise de duas ou mais variáveis e de

Medidas de tendência central: “Valores” que permitem o melhor possível representar

Medidas de dispersão: quão distantes estão as observações de uma medida de

Medidas de tendência central