Escolar Documentos
Profissional Documentos
Cultura Documentos
1º ANO – 2º SEMESTRE
Ano letivo 2018/2019
A estatística é a arte de retirar dos dados a informação. Cálculo feito com dados
recolhidos a partir do “todo” que se deseja conhecer. São técnicas de análises de
dados e em que circunstâncias estas se aplicam.
Deficiências de medida: Terá sido medida a variável que realmente desejávamos ter
medido?
É necessário ter precaução nas variáveis utilizadas e na forma com as mesmas são
medidas.
Validade causal: Até que ponto 2 variáveis relacionadas entre si podem levar a uma
relação causa-efeito.
1
Estatística I
Variáveis e constantes:
2
Estatística I
Variáveis – medição:
• Medição nominal
• Medição ordinal
3
Estatística I
• Independentes ou explicativas
• Dependente ou explicada
• Contagens e taxas:
Problemas:
• Legenda;
• Variável, deve ser percetível ao olhar para a tabela, deve estar sinalizada.
Costuma estar na primeira coluna;
• Período temporal, é necessário localizar os dados no tempo;
• Amplitude de classes: o 14 encaixa-se em 2 classes; as classes tem diferentes
amplitudes, tanto tem 3 idades como 14.
4
Estatística I
• Proporções e percentagens
• Gráfico circular
Problemas:
5
Estatística I
• Gráfico de barras
A altura tem a ver com o número de indivíduos de cada classe. A variável apresenta-se
no eixo horizontal e a frequência absoluta ou relativa está na vertical.
Problemas:
• Falta de informação
• A que se refere
• Local
6
Estatística I
• Período de tempo
• Etc.
Nota: A imagem pode servir para mostrar muitas histórias e sobretudo quando
comparamos evoluções é preferível ter longos períodos de análises longitudinais
porque temos uma maior perspetiva sobre tendências.
• Diagrama de dispersão
O 100 corresponde à média nacional, o que está abaixo de 100 corresponde a abaixo
da média e o que está acima de 100 é superior à média.
Não se pode comparar diferentes locais, por exemplo na compra de laranjas, uma vez
que: 1º Possibilidades económicas; 2º Preço pode ser diferente.
7
Estatística I
Taxa de crescimento:
A mesma variação para cima ou para baixo, não quer dizer a mesma variação a níveis
percentuais.
8
Estatística I
9
Estatística I
• Não devem existir uma classe para casa um dos valores da variável
• A 1º classe deve conter, entre outros, o “valor” mais baixo, enquanto a última
classe deve conter o valor mais elevado da variável.
O problema é complicado, uma vez que não sabemos muito bem quantas classes se
devem fazer. Devemos ter em consideração que sempre que fazemos um estudo
possivelmente ele já foi feito por alguém do mundo, ou no mínimo foi feito um
parecido, e os resultados devem ser comparáveis aos existentes.
Estatística Descritiva
Inferência estatística: pegar nos resultados obtidos numa amostra e extrapola-los para
a população representada naquela amostra.
Distinções:
10
Estatística I
Moda: Valor mais frequente de entre os valores assumidos pela variável. Medida de
tendência central. Corresponde ao valor mais comum e frequente na distribuição dos
valores assumidos pela variável. Pode ser calculara com variáveis nominais, ordinais,
de intervalo e de rácio.
11
Estatística I
Quanto existem 2 valores com frequências muito próximas e que são superiores a
todos os outros valores, temos uma distribuição bimodal.
Vantagens:
Desvantagens:
Ímpar: Começa-se a cortar de os dois lados até chegar a um valor central. Para saber
em que posição está a mediana soma-se ao número de valores 1 e divide-se por dois.
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 + 1
2
Par: Utiliza-se a mesma fórmula que no ímpar, mas neste caso o resultado será um
número decimal. Assim sendo, vão existir 2 valores centrais, ou seja, faz-se a média
entre os 2. Por exemplo, se der 5,5, será a média entre o valor da 5º posição e o valor
da 6º posição.
12
Estatística I
Fórmula aplicada:
𝑛+1
( 2 ) − 𝑐𝑓
𝑋𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = 𝐿 + ( ) . 𝑤𝑖 =
𝑓
120 + 1
( 2 ) − 33
= 28,5 + ( ) . 3 = 31,44 𝑑𝑖𝑎𝑠 𝑒𝑚 𝑙𝑖𝑏𝑒𝑟𝑑𝑎𝑑𝑒
28
13
Estatística I
Vantagens:
•
A mediana é determinada pelo número de observações e não pelos seus
valores.
• Como não é necessário considerar todos os valores da distribuição, a mediana
não é afetada por valores extremamente elevados ou reduzidos (outliers).
• É uma medida muito utilizada em distribuições assimétricas.
Desvantagens:
MÉDIA
O que é?
Medida de tendência central. É a média aritmética dos valores que a variável assume.
Os dados têm que estar medidos em intervalo ou em nível de rácio. Mas pode ser
calculado em dados ordinais que tenham sido obtidos por agregação de dados
contínuos (caso dos indivíduos em liberdade que voltaram a ser detidos).
• Média da população: µ
14
Estatística I
x1, x2, ..., xn: n valores assumidos pela variável na população (alguns valores
podem ser repetidos).
fi: frequência com que ocorre o valor xi.
k: número de valores que a variável x pode assumir.
n: dimensão da amostra (número de indivíduos selecionados para amostra, ou
número de registos).
Média
Vantagens:
Desvantagens:
15
Estatística I
Medidas de Dispersão
Refletem:
• Amplitude
• Amplitude inter-quartílica
• Desvio
• Desvio absoluto médio
• Variância
16
Estatística I
• Desvio-padrão
Consiste na diferença ou na distância entre o valor mais elevado e o valor mais baixo
que a variável pode assumir.
Vantagens:
• Fácil de calcular.
• Interpretação rápida do resultado.
Desvantagens:
Solução:
Como se calcula?
Dados ordenados
17
Estatística I
Vantagens:
Desvantagens:
• Continua a não aproveitar toda a informação que está contida nos dados, em
matéria de dispersão.
Solução:
DESVIO
Mede o afastamento (distância) entre cada valor assumido pela variável e a média dos
valores.
18
Estatística I
• Calcular a média.
• Determinar o valor absoluto das diferenças entre cada valor
observado e o valor médio.
• Somar todos os valores absolutos calculados e dividir pelo número
de observações ou de resultados dos dados.
• Identificar a frequência absoluta com que cada valor surge nos dados.
• Calcular a média.
• Determinar o valor absoluto das diferenças entre cada um dos valores
observados e o valor médio.
• Para cada valor identificado nos dados, multiplicar a sua
diferença absoluta com respeito à média pela frequência
com que surge nos dados.
• Somar todos os produtos obtidos no ponto anterior.
Vantagens:
• Medida mais sensível do que as anteriores, uma vez que considera a diferença
de todas as observações relativamente a um valor central (média).
• Interpretação fácil dos resultados.
• Medida menos influenciada por valores extremos do que o desvio-padrão (a
ver ainda à frente).
Desvantagens:
VARIÂNCIA
Média dos desvios quadrados dos valores em relação à média. Uma vez mais, quanto
maior for a magnitude da VARIÂNCIA, maior é a dispersão dos dados.
19
Estatística I
(06-03)
20
Estatística I
Vantagens:
Polígono de frequências: linha que une os pontos médios das classes das variáveis.
Vantagens:
• O melhor calculo que podemos fazer para nos aproximar dos resultados da pop
é a média, é o melhor estimador.
• Ao caracterizar uma amostra eu tenho de procurar uma media de que me
mostre as diferenças que existem entre os indivíduos_ medidas de dispersão.
Medidas de dispersão:
Consiste na diferença ou na distancia entre o valor mais elevado e o valor mais baixo
que a variável pode assumir.
21
Estatística I
Vantagens:
• Fácil de calcular.
• Interpretação rápida do resultado.
Desvantagens:
Solução:
Amplitude inter-quartílica
Posição do 3º quartil:
(19/03)
Medida de assimetria
Quando ela é negativa, temos uma assimetria negativa, é mais alongado para a
esquerda (onde a cauda desce mais devagar). Ao contrário, é positiva.
22
Estatística I
Assimetria negativa
Assimetria Positiva
• Skewness
• Standard error of skewness / erro padrão
Dividir o Skewness por standard error em uma escala que vai de -1,96 a 1,96. Além da
distribuição amostral ter uma assimetria positiva, também há evidencia que todos s
reclusos também tinham uma assimetria positiva.
Se a skewness de uma amostra fosse igual a 0,97, por ser positivo, dizia-se que a
distribuição amostral tinha uma assimetria positiva.
Admitindo que a divisão era um valor superior a 1,96. Em tal situação, pode-se dizer
que além da distribuição amostral ter uma assimetria positiva, também a distribuição
da população de que a amostra é representativa tem uma assimetria positiva.
Quanto mais centrada estiver a mediana, mais propensão para achar a distribuição
simétrica. Quando mais próximo de baixo, mais sinais há para dizer que há uma
assimetria positiva. Quando mais próximo do cima, mais sinais há para dizer que há
uma assimetria negativa.
23
Estatística I
Se o bigode superior for mais comprido que o outro, há indícios de assimetria positiva.
Se o bigode inferior for mais comprido que o outro, há indícios de assimetria negativa.
(ter atenção há palavra indícios)
• Kurtosis = 0, mesocúrtica
(27/03)
Probabilidade:
1. Interpretação clássica
Pressupõe que:
24
Estatística I
b) Exemplo 2:
2. Interpretação Frequencista
Ideia fundamental:
Experiência aleatória
25
Estatística I
Esta interpretação é usada quando não sabemos que valor aplicar no número de casos
possíveis.
3. Interpretação subjetiva
Exemplo: “Acho que, para aí com uns 75% de hipóteses, amanhã vai chover.”
Odds
Treinador atual
𝑃(𝑓𝑖𝑐𝑎𝑟 𝑛𝑎 1º𝑙𝑖𝑔𝑎) 𝑃(𝑓𝑖𝑐𝑎𝑟 𝑛𝑎 1º𝑙𝑖𝑔𝑎) 0,10 1
𝑜𝑑𝑑 𝑑𝑒 𝑓𝑖𝑐𝑎𝑟 𝑛𝑎 1º 𝑙𝑖𝑔𝑎 = = = =
𝑝(𝑛ã𝑜 𝑓𝑖𝑐𝑎𝑟 𝑛𝑎 1º𝑙𝑖𝑔𝑎) 1 − 𝑃(𝑓𝑖𝑐𝑎𝑟 𝑛𝑎 1º𝑙𝑖𝑔𝑎) 1 − 0,10 9
Treinador estrela
0,80 8
𝑜𝑑𝑑 𝑑𝑒 𝑓𝑖𝑐𝑎𝑟 𝑛𝑎 1º 𝑙𝑖𝑔𝑎 = = =4
1 − 0,80 2
A chance de o club ficar na 1º liga com o treinador Estrela é 36 vezes maior do que se
ficar na 1º liga com o treinador atual.
o Exemplo novo
26
Estatística I
150
150 200
𝑃(𝑁𝑅) 200 50 0,75
𝑜𝑑𝑑 𝑑𝑒 𝑁𝑅 𝑐𝑜𝑚 𝑝𝑟𝑜𝑔𝑟𝑎𝑚𝑎 𝑃(𝑅) 1 − 𝑃(𝑁𝑅) 0,25 3
𝑂𝑅 𝑑𝑒 𝑁𝑅 = = = = 200 = =
𝑜𝑑𝑑 𝑑𝑒 𝑁𝑅 𝑠𝑒𝑚 𝑝𝑟𝑜𝑔𝑟𝑎𝑚𝑎 𝑃(𝑁𝑅) 100 0,5 1 1
𝑃(𝑅) 200 0,5
100
200
Regras de probabilidade
o 0 ≤ P(A) ≤ 1
o P (A ou B) = P(A) + P(B)
A B
27
Estatística I
Exemplo:
Exemplo:
P(ouros ou Ás) = P(ouros) + P(Ás) – P(ouros e Ás) = 0,25 + 0,0769 – 1/52 = 0,3077 ->
30,77%
Exemplo
28
Estatística I
Exemplo:
Dos100, 40 reincidem nos primeiros três meses após saída do est prisional.
29
Estatística I
Probabilidade condicionada
Assim, saber que B acontece permite corrigir a expectativa que se pode ter acerca da
ocorrência de A.
P (A e B)
P(A|B) =
P(B)
Teorema de Bayes
P (A|B). P(A)
P(A|B) =
P(B)
𝑃(B|A) ⋅ 𝑃( 𝐴) 𝑃(B|A) ⋅ 𝑃( 𝐴)
𝑃(B|A) = =
𝑃(𝐵) 𝑃(B|A) ⋅ 𝑃( 𝐴) + 𝑃(B|𝐴̅) ⋅ 𝑃( 𝐴̅)
Distribuições e Probabilidades
Distribuição de frequências
• Natureza empírica
30
Estatística I
Distribuição de probabilidades
• Natureza teórica
31
Estatística I
. .
P(X=0)=P(BeB)=P(B) P(B)=(1/2) (1/2)=0,25
. .
P(X=1)=P(AeB ou BeA)= P(AeB)+P(BeA)=P(A) P(B)+P(B) P(A)=0,25+0,25=0,50
. .
P(X=2)=P(AeA)=P(A) P(A)=(1/2) (1/2)=0,25
Distribuição discreta:
Distribuição contínua:
32
Estatística I
33
Estatística I
Exemplo: O ritmo médio de afluência a uma loja é de 20 clientes por hora. Após
abrir a loja, qual é a probabilidade de se ter que esperar mais de 5 minutos
para que chegue o 1o cliente?
Distribuição de Bernoulli
EXEMPLO
DISTRIBUIÇÃO BINOMIAL
34
Estatística I
Exemplo:
Tal como numa distribuição de frequências, agora também é possível calcular o desvio-
padrão e a média – esta última assume agora a designação de valor esperado, em
virtude de estarmos perante uma distribuição teórica.
35
Estatística I
Distribuição Normal
Diz-se que a variável aleatória X segue uma distribuição normal de média μ e desvio-
padrão σ se a sua função de densidade de probabilidade (f.d.p.) for definida por:
36
Estatística I
2
Diferentes valores para os parâmetros (μ e σ ) correspondem a diferentes funções
densidade de probabilidade Normal.
37
Estatística I
Falta só o último ppt acabar o que falta, mas não sei bem a que aula se refere isto que
escreveste; visto que grande parte está por outras palavras na última aula
Aula 30/04/19
Inferência estatística
Tentamos perceber como o mundo funciona, perceber que umas coisas estão
relacionadas com as outras. Tentamos encontrar no mundo relações entre variáveis.
Quando nos formos tentar fazer este trabalho vamos tentar descrever o mundo com a
informação que obtemos, como não conseguimos captar tudo, vamos estudar uma
amostra. Então nós queremos estudar uma população, constituída por muitas pessoas,
mais velhas, mais novas, de origens diferentes, de religiões diferentes, cursos
diferentes, uma população muito diversificada, desta população recolhemos uma
amostra. Para a amostra que nos recolhermos tem de ser representativa da população
que estamos a estudar.
38
Estatística I
O N (POPULAÇÃO) E n (AMOSTRA).
Conceitos básicos:
População: Grupo completo sobre que incide a investigação. A sua dimensão varia em
função do fenómeno estudado.
Amostra: Subconjunto da população extraída para sobre ela fazer análise estatística,
e a partir dela fazer inferência estatística, com vista a extrapolar conclusões para a
população.
Estimador e Estimativa
As respostas que vamos obter através da escala irão ser variadas, todas estas
particularidades podem nos interessar para o nosso estudo.
População em estudo: Porto
Amostra: Rua de Cedofeita, pessoas que se disponibilizam para responder ao
questionário, isto por si só já pode influenciar a maneira como a pessoa vai dar as
respostas.
Ao longo do dia inteiro conseguimos 300 questionários, encontramos algumas pessoas
que tinham sido multadas pela policia municipal, e na sua resposta irá responder de
forma enviesada.
A média de satisfação com a policia municipal era 60%.
Estimador: estimação pontual é fazer uso do estimador → algoritmo de calculo que
usa os dados de uma amostra para nos dar informação aproximada – estimativa - de
um parâmetro (característica) da população. Ex: o estimador no nosso caso concreto é
a conta que eu faço para chegar ao 60%, no nosso caso a media amostral é o
estimador. Quando concretizamos com os dados da amostra recolhido nós temos um
valor concreto, isto é a estimativa.
Desta maneira conseguimos recolher através da média da nossa amostra a satisfação
com a policia municipal.
Com os dados da amostra também podemos calcular a percentagem de se a policia
atua bem (^p= 0,40).
Ao usarmos estes valores estamos a fazer uma estimação pontual, pois o assunto
daquela amostra pode levar-nos a possíveis erros de amostragem/de inferência. De
amostra para amostra nós vamos ter variações nos dados dos resultados obtidos. Se as
39
Estatística I
pessoas forem mais ou menos homogéneas, o desvio padrão não será muito grande,
haverá algumas variações mas não significativas.
Usar aqueles valores para fazer a nossa inferência ou relatório é um erro.
Para calcularmos a estimação pontual e evitar o erro de inferência temos dois
caminhos, os intervalos de confiança ou os testes de hipóteses.
Testes de hipóteses: neste nosso caso seria: o super intendente dizia que queria testar
uma hipótese, ou seja, nos testamos o valor que o super intendente teria nos dado.
Como é que nós conseguimos com os dados recolhidos da amostra rejeitar ou aceitar
esta hipótese? Uma hipótese de investigação pode ser nula ou ter uma hipótese
alternativa. Ao rejeitarmos a nossa hipótese podemos cometer um erro tipo1( rejeitar
H0 e H0 ser verdadeiro), mas se não rejeitarmos podemos cometer erro tipo2 (não
rejeitar H0 e esta ser falsa).
Intervalo de confiança: o valor médio que as pessoas atribuem aos serviços que vóces
prestam vais estar entre dois valores.
O nosso valor central é 60, por isso começa x-margem de erro e x + margem de erro.
Para calcularmos a margem de erro é sempre com o valor central e o limite do
intervalo. O calculo da margem de erro vai depender do tamanho da amostra, da
heterogeneidade dos valores da nossa amostra, estes intervalos de confiança é de
muita ou pouca confiança? Normalmente o intervalo de confiança é feito para 95%de
confiança.
Se a margem de erro for 4 pontos percentuais, quer dizer que o intervalo vai de 21% a
29%, isto de uma percentagem de 25%. Por vezes existem empates técnicos em que o
intervalo de um partido corresponde ao intervalo de outro partido.
Capitulo n IV (juntar a apontamentos da aula que me falta)
Aula 14/05/19
Imaginando que vamos dar uma entrevista sobre a forma como os tribunais tem
julgado determinados tipos de crime em Portugal.
Uma das perguntas – Qual a previsão deste tipo de crime? -> Ir à internet ou telefonar
a alguém: número de média de meses que tem sido registado em Portugal para o
crime A – não há resposta, não se sabe.
Em muitas coisas que tentamos estudar não conhecemos a população.
Exemplo 1:
n=
40
Estatística I
𝑋̅ = 120
Exemplo 2:
n:
Estimativa pontual: uma maior aproximação da estatística verdadeira -> a média à que
corresponder à média amostral ou á percentagem amostral
A amostra pode ser muito representativa, mas é necessário existir muita variabilidade
dos indivíduos escolhidos para a amostra, ao utilizar o 120 correríamos muitos riscos
Intervalo de confiança: Contruir um intervalo que quase de certeza absoluta vai incluir
o verdadeiro valor -> a minha média não é 120, mas há de estar entre 2 valores, não é
0,30, há de ser um valor entre os limites -> forma alternativa -> é feito normalmente
para 95% de confiança, ou seja,
Exemplo 1:
110 ≤ 𝜇 ≤130
41
Estatística I
Mesmo que tenha amostras da mesma dimensão, mas com diferentes processos vou
ter vário valores na média. Com cada amostra poderia
fazer um intervalo de confiança diferente. Podia
admitir a possibilidade de ter:
O spss dá o resultado do valor que se retira à média muito rápido, mas é preciso saber
como se faz.
Exemplo 2:
0,27 ≤ 𝜇 ≤ 0,33
𝑝
̂𝐴 − 𝑚𝑎𝑟𝑔𝑒𝑚 𝑑𝑒 𝑒𝑟𝑟𝑜
𝑝
̂𝐴 + 𝑚𝑎𝑟𝑔𝑒𝑚 𝑑𝑒 𝑒𝑟𝑟𝑜
Exemplo ppt:
n = 810
̂
𝑝= 0,34
Margem de erro
42
Estatística I
Quanto a variável é quantitativa e quando esta variável varia por várias circunstâncias.
-1,96 0 1,96
Exercício 1:
25% _________29%
26% _____________32%
17% _____________________________36%
43
Estatística I
Exercício 2:
𝑥̅ =
s
3,2
12,4 ± 1,96 ( ) = 12,4 ± 0,53 => 11,87 ≤ 𝜇 ≤ 12,93
√140
Qual é a população?
44
Estatística I
Média- 5,3
Desvio padrão – 3,4
Voltando ao exemplo 2:
87
𝑝̂ = = 0,58
150
Margem de erro =
𝑝̂ .(1− 𝑝̂) 0,58 .(1−1,58)
𝑍𝛼 × √ = 1,96 × = 0,0789858
𝑛 150
45
Estatística I
Teste de hipóteses
Ou Nível de significância
estrófica
46