Escolar Documentos
Profissional Documentos
Cultura Documentos
Aula teórica 01
Introdução à Estatística
1. Introdução
1.1. Evolução do papel da Estatística
A palavra Estatística provém da palavra latina, Status, que significa Estado. Foi no Estado onde
teve a sua origem, onde era utilizado para denominar levantamentos de dados, cuja finalidade era
orientar-lo no processo de tomada de decisões.
Ao longo da Idade Média e até ao século XVIII a Estatística foi puramente descritiva, onde foi
usada pelos governos nos processos de censos, com o objectivo de conhecer seus habitantes, sua
condição socioeconómica, sua cultura, religião, etc. Foi também utilizado para determinar o valor
dos impostos a cobrar os cidadãos, para determinar a estratégia de uma nova batalha em guerras
que se caracterizavam por uma sucessão de batalhas, pois era fundamental aos comandantes, saber
de quantos homens, armas, cavalos, etc, dispunham após a última batalha.
Ao contrário do que muitos pensam, a estatística não se limita somente a compilar tabelas
de dados e os ilustrar graficamente, pois, a introdução sistemática dos métodos
estatísticos na investigação experimental fica-se a dever, fundamentalmente, aos
trabalhos de K. Pearson e R. A. Fisher, por volta de 1925. Desta forma, o trabalho do
estatístico passou a ser o de ajudar a planear a obtenção de dados, interpretar e analisar os
dados obtidos e apresentar os resultados de maneira a facilitar a tomada de decisões
razoáveis.
Importância da Estatística
1
Química, Comunicações, Economia, Educação, Electrónica, Medicina, Física, Ciências Políticas,
Psicologia, Sociologia e outros numerosos campos da ciência e engenharia onde é usada no auxílio
de tomada de decisões, com o mínimo de erro possível e maior eficiência.
A definição de estatística não é única, pelo que será apresentada uma, em forma de resumo de entre
as mais comuns na literatura:
Estatística é uma parte da Matemática que fornece um conjunto de técnicas ou métodos para a
colecta, a organização, a apresentação, a análise e a interpretação de dados quantitativos,
viabilizando a utilização dos mesmos dados na tomada de decisões, com mínimo grau de incerteza.
Por exemplo, o Estado através do Ministério da Agricultura, conduz um censo para apurar o número
de indivíduos que desenvolvem a actividade agrícola, quais os produtos cultivados, em que áreas o
são, qual o resultado da colheita, o que foi vendido, que pestes afectaram a produção, etc. Estas
estatísticas informam ao Ministério para além de várias outras coisas, como é que está a desenvolver
o sector da Agricultura, em quanto irá contribuir a Agricultura para o PIB Nacional e ajuda na
prevenção de possíveis pestes nas colheitas seguintes. A análise dos dados colhidos é muito
importante para se fazer um planeamento adequado.
2
Serão apresentadas as definições de alguns conceitos importantes para o processo de aprendizado
da Estatística
i. Fenómeno estatístico: é qualquer evento que se pretenda analisar, cujo estudo seja possível a
aplicação do método estatístico.
ii. População (N) é o conjunto, finito ou infinito, de todos os elementos, indivíduos ou objectos que
apresentam em comum pelo menos uma característica definida, cujo comportamento interessa
analisar.
iii. Censo: é uma colecta exaustiva de dados relativos a todos os elementos de uma população.
iv. Amostra (n): é um subconjunto da população e deve ser finita. A amostra deve ser seleccionada
seguindo certas regras e deve ser representativa, de modo que ela represente todas as características
da população como se fosse uma fotografia desta.
Exemplo: estudo da satisfação dos estudantes da USTM em relação a qualidade das
aulas.
População: todos estudantes da USTM
Amostra: estudantes do 2º ano do curso de Gestão
v. Dado estatístico: é qualquer característica que possa ser observada ou medida de alguma maneira,
aplicando os métodos estatísticos. As matérias-primas da estatística são os dados observáveis, isto é,
o que é recolhido e preparado para produzir algum resultado.
3
vi. Variável é uma propriedade dos elementos da população que se pretende conhecer. Pode assumir
qualquer modalidade1 de um conjunto de elementos, o qual denota-se por domínio da variável ou
categoria. Os símbolos utilizados para representar as variáveis são as letras maiúsculas do alfabeto,
tais como X, Y, Z,
vii. Variáveis quantitativas são as que têm por modalidades quantidades numéricas com as quais
podemos fazer operações aritméticas, sendo classificadas em discretas e contínuas
Variáveis quantitativas discretas são as que podem assumir somente valores inteiros,
inclusive zero, num conjunto de valores, isto é, não admitem uma modalidade
intermediária entre duas quaisquer de suas modalidades.
Variáveis quantitativas contínuas são aquelas que podem assumir um valor dentro de
um intervalo de valores. É gerada pelo processo de medição.
viii. Variáveis qualitativas ou atributos são as observações (dados estatísticos) que apresentam um
carácter qualitativo, não podendo ser medidas em termos numéricos
Atributos Dicotómicos são aqueles que admitem uma subdivisão em apenas duas
classes.
Atributos Múltiplos são aqueles que admitem uma subdivisão em mais de duas
classes
1
Modalidade é toda manifestação possível de uma variável, isto é, várias hipóteses de respostas, ou
diferentes variações ou valores que uma variável pode assumir.
4
i. Escalas Nominais – são aquelas que separam os atributos em categorias diferentes não forçando
uma ordenação em termo de hierarquia.
Exemplo: Profissão (1. Contabilista, 2. Informático, 3.Camponês, etc.)
ii. Escalas Ordinais – baseiam-se numa classificação hierárquica. Através desta escala os atributos
são colocados em determinada ordem conforme um critério escolhido.
Exemplo: Cargo numa empresa (1.Presidente, 2.Vice-presidente, 3.administrador,
etc.)
iii. Escalas de intervalo – É aquela em que se conhece a distância (o intervalo) entre as diferentes
categorias. Os números conferidos as diferentes categorias das variáveis quantitativas possuem
todas as características das variáveis nominais ou ordinais, com a característica adicional de
possuir uma unidade constante de medição entre as diferentes categorias que estão igualmente
espaçadas.
Exemplo: A idade e o número de partos [paridade] são variáveis com intervalos
constantes de mesmo modo que a duração do uso de anticoncepcionais e a data
de aceitação de um método anticoncepcional.
iv. Escalas de Razão - são um caso especial das escalas ordinais, as quais são também nominais
hierárquicas. Assim a escala de razão é também uma escala de intervalo dotada de zero absoluto.
Tem essa designação porque a razão dos números da escala é igual a razão que descreve o grau
em que duas pessoas ou objetos possuem um atributo
Exemplo: uma pessoa com peso de100 Kg e uma outra com 50 Kg a razão é 2 : 1
Aula teórica 02
2. Introdução
5
Um dos objectivos da Estatística Descritiva quando se trabalha com grandes quantidades de
dados é obter uma significativa redução dos mesmos dados, para facilitar a sua análise.
6
iii. Frequência simples acumulada de uma classe ( F i ): é o total das frequências de todos os
valores inferiores ao limite superior do intervalo de uma determinada classe.
iv. Frequência relativa acumulada de uma classe ( F r ): é a frequência acumulada da classe,
dividida pela frequência total da distribuição.
observados: fi n
i 1
i xi Frequências
fi
1 41 3
2 42 2
3 43 1
4 44 1
5 45 1
6 46 2
7 50 2
7
8 51 1
9 52 1
10 54 1
11 57 1
12 58 2
13 60 2
Soma --------- 20
i Classes Frequências f i
1 41 |------ 45 7
2 45 |------ 49 3
3 49 |------ 53 4
4 53 |------ 57 1
5 57 |------ 61 5
Total 20
i. Classe: Intervalos nos quais os valores da variável analisada são agrupados. Cada classe é
simbolizada por (i) e o número total de classe é simbolizado por (k).
Ex: na tabela anterior k=5 e 49 |------- 53 é a 3ª classe, onde i=3.
8
ii. Limites da classe: são extremos de cada classe. O menor número é o limite inferior de
classe L inf e o maior número, o limite superior de classe L sup .
Deste modo, o intervalo de classe quanto a sua natureza pode ser aberto, fechado ou misto.
Nota: De um modo geral, na resolução dos exercícios iremos usar a regra 2 e/ou regra 3,
para determinar o número de classe em função do número de observações (n).
Exemplo 4: considerando os dados do exemplo 1 podemos obter o número total de classe:
Temos que n=20 então, pela regra 2, K=1+3.3*log20= 1+3.3*1.3= 5.29 5
iv. Amplitude Total ou “Range” (At) é a diferença entre o maior e o menor número do rol. A
amplitude total pode ser denotada por:
At X max
X min
9
Exemplo 5: o maior peso dos 20 estudantes é de 60 kg e o menor peso é de 41 kg, a amplitude
total será de 19 kg porque ( 60 kg - 41 kg= 19 kg).
vi. Ponto Médio de classe (PM): é o valor que se encontra no meio dos limites de cada classe
L sup L inf
PM , onde Lsup= Limite superior da classe; Linf= Limite inferior da classe;
2
C T C T C T C T C T
1 104 9 122 17 129 25 144 33 183
2 108 10 142 18 138 26 151 34 138
3 138 11 106 19 122 27 146 35 115
4 101 12 201 20 161 28 82 36 179
5 163 13 169 21 167 29 137 37 142
6 141 14 120 22 189 30 132 38 111
7 90 15 210 23 132 31 172 39 140
8 154 16 98 24 127 32 87 40 136
10
Resolução: Passos para elaboração de uma distribuição de frequências com classes.
At X max
X min
210 82 128 min
11
146.0|---171.6
171.6|---197.2
197.2|---222.8
Apresentar a tabela com as classes e respectivas frequências
i classe fi (consumidores) Fi fr (proporção) Fr
Aula Teórica 03
Representação tabular e gráfica
2.3. Introdução
A representação gráfica é um complemento da representação tabular (em tabelas).
Normalmente, contém menos informação que as tabelas, mas são de mais fácil leitura. A
principal vantagem da representação gráfica em relação a representação em tabelas é o facto de
ela permitir que se consiga ter uma visualização imediata da distribuição dos valores
observados.
Os gráficos propiciam uma idéia mais satisfatória da concentração e dispersão dos valores, uma
vez que os dados estatísticos se apresentam em termos de grandezas visualmente interpretáveis.
12
Por outro lado, os factos essenciais que poderiam ser difíceis de reconhecer em massas de dados
estatísticos (dados brutos) podem ser observados mas claramente através dos gráficos.
2.3.1 Tipos de gráficos
Existem vários tipos de gráficos tais como: o gráfico de barras, gráficos circulares
(Pie charts), Histogramas e gráficos circulares e mais.
13
As barras devem ser desenhadas observando a sua ordem de grandeza, para
facilitar a leitura e análise comparativa dos valores.
Total 44430
14
Exemplo de Interpretação: a região Norte apresenta a maior produção de milho
com 17350 toneladas, sendo que a região Centro do país é a que produz menos
milho apresentado uma produção de 12530 toneladas.
Nota: para interpretação foi feita uma combinação dos dados que a tabela nos
apresenta (para a leitura dos valores) e o histograma.
15
Exemplo de Interpretação: a China é o país que menos importa Frango e Peixe,
sendo que Portugal encontra-se em 2º lugar na lista dos países que menos
importam esses produtos. O Brasil é o maior importador de frango e 2º maior
importador de Peixe, enquanto que, Angola que se encontra no 1º lugar dos países
que mais importam peixe encontra-se em 2º lugar na lista dos países que mais
importam frango.
Características:
A área do gráfico equivale á totalidade de casos (360° = 100%)
Cada “fatia” representa a percentagem de cada categoria
16
X=39% X=28% X=33%
2.3.1.4 Histogramas:
É formado por um conjunto de rectângulos justapostos, cujas bases se localizam
sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os
pontos médios dos intervalos de classe. A área de um histograma é proporcional à
soma das frequências simples ou absolutas. Na linha horizontal (eixo das
abscissas) colocamos os valores da variável e na linha vertical (eixo das
ordenadas), as frequências. Este gráfico é utlizado para representar a distribuição
de frequências de varíaveis contínuas.
17
Características:
Cada barra representa a frequência do intervalo respectivo;
Os intervalos devem ter a mesma amplitude;
As barras devem estar todas juntas.
(abaixo de)
1 69.2|---94.8 82 3 3 40
2 94.8|---120.4 107.6 8 11 37
3 120.4|---146.0 133.2 16 27 29
4 146.0|---171.6 158.8 7 34 13
5 171.6|---197.2 184.4 4 38 6
6 197.2|---222.8 210 2 40 2
Total ------- 40
18
Histograma
19
2.3.1.6 Ogivas ou polígonos de frequências acumuladas
Os gráficos chamados de ogivas correspondem a um polígono de frequências
acumuladas, nas quais, estas frequências são localizadas sobre perpendiculares
levantadas nos limites inferiores ou superiores das classes, dependendo se a ogiva
representar as frequências acumuladas “abaixo de” ou “acima de”
respectivamente.
Exemplo 5: Consideremos o exemplo anterior. As duas últimas colunas
representam frequências acumuladas “abaixo de” e “acima de” respectivamente.
A partir delas podemos representar duas ogivas.
20
2.3.1.7 Gráficos de Linhas2
São usados para representar séries temporais, principalmente quando a série
cobrir um grande número de períodos de tempo.
Exemplo 6: Considere a série temporal da tabela abaixo, referente ao número de
toneladas de trigo e de milho produzidos no distrito PQR, durante os anos de 1970
a 1980.
2
Este tipo de gráfico não será aplicado nas nossas aulas, por não estar contemplado no programa de
Estatística I. Aparece aqui por mera informação
21
1978 250 95
1979 230 110
1980 235 100
Gráfico de linhas
22
Aula Teórica 04
Medidas de Posição
Medidas de Tendência Central
3. Introdução
Nas aulas anteriores vimos que atravês de uma distribuição de frequências se estabelece um
sistema que descreve o padrão de variação de um determinado fenômeno estatístico.
No entanto, há diversas medidas que complementam a descrição do conjunto de dados, dando
maior percepção das diferenças e semelhaças que os mesmos possuem, e permitindo
condensação da informação na fase analística da estatística descritiva.
As medidas de que falamos são as medidas de posição, medidas de dispersão e medidas de
assimetria e curtose.
3.1.Média
É a medida de tendência central mais usada para descrever resumidamente uma
distribuição de frequências. Esta medida dá-nos a informação de qual é o valor que
representa o ponto de equilíbrio de determinado conjunto de dados.
Apesar da existência de vários tipos de média como a aritmética, harmônica,
geométrica, quadrática e outros, nesta ficha iremos abordar somente como se calcula
e interpreta o valor da média aritmética.
23
A média aritmética simples é aquela em que todos valores do conjunto de dados
apresentam igual peso.
O seu cálculo é igual ao quociente entre a soma dos valores do conjunto e o
número total de valores, isto é, é igual a soma de cada um dos valores pertencentes
ao conjunto de números, pelo número total de observações. Genericamente,
podemos escrever:
xi
i 1
x (1)
n
xi
820 810 790 800 780 4000
i 1
de: x 800
n 5 5
Nota: A média aritmética simples será calculada sempre que os dados aparecerem
na forma de dados brutos.
xi * wi
i 1
x n
onde wi representa o peso (2)
wi
i 1
24
Exemplo 2: Nos cursos lecionados na Universidade XYZ a direcção académica
decretou que por semestre deviam ser realizados dois testes e dois mini-testes, cada
um deles com o seguinte peso, 0.40 para cada teste e 0.10 para cada mini-teste. Um
estudante que durante o semestre em determinada cadeira tiver tido 15 e 13 nos
testes e 17 e 15 nos mini-testes, a sua média de frequência para o exame será:
xi * wi
0 . 40 * 15 0 . 40 * 13 0 . 10 * 17 0 . 10 * 15 14 . 4
i 1
x 14
0 . 40 0 . 40 0 . 10 0 . 10
n
1
wi
i 1
xi * fi
n
i 1
x onde n fi (3)
n i 1
i Nº Nº de xi * fi
de estudantes
irmãs fi
xi
1 0 3 0
2 1 9 9
3 2 9 18
4 3 3 9
Total 24 36
25
n
xi * fi
0 9 18 9 36
i 1
x 1 .5 2
n 24 24
Interpretação: os estudantes entrevistados do curso de Contabilidade e Auditoria
da USTM têm em média duas irmãs OU o número médio de irmãs dos estudantes
entrevistados do curso de Contabilidade e Auditoria da USTM é de duas irmãs.
xi * fi
i 1
A fórmula será igual a fórmula 3 apresentada: x
n
Exemplo 4: considere o enunciado do exemplo 7 da ficha teórica 2, sobre o tempo
(T) em minutos que os consumidores (C) de determinada operadora utilizaraiam em
um mês.
n
xi * fi
5507 . 2
i 1
x 137 . 68
n 40
I Classe PM de xi fi (C) xi * fi
1 69.2|---94.8 82 3 246
2 94.8|---120.4 107.6 8 860.8
3 120.4|---146.0 133.2 16 2131.2
4 146.0|---171.6 158.8 7 1111.6
5 171.6|---197.2 184.4 4 737.6
6 197.2|---222.8 210 2 420
Total ------- 40 5507.2
26
Propriedades da Média Aritmética
1. A soma algébrica dos desvios de um conjunto de números tomados em
n n
3.2.Moda
Símbolo: Mo ou Xˆ
Bimodal – quando possui dois valores com o maior e igual número de frequência
Exemplo 6: no seguinte conjunto de dados 3, 3, 7, 8, 8, 11 possuimos 2 valores com
igual valor de frequência que são o 3 e 8. Estamos perante uma distribuição bimodal
com Mo= 3 e 8
27
Exemplo 7: no seguinte conjunto de dados 3, 7, 8, 10, 11 não possuimos nenhum
valor de maior frequência que os outros, por isso, estamos perante uma distribuição
amodal.
f post
M 0
l mo *c
f ant f post
Onde:
lmo – limite inferior da classe modal (é a classe que apresenta a maior frequência)
fpost – frequência absoluta simples posterior à classe modal
fant - frequência absoluta simples anterior à classe modal
c – amplitude do intervalo de classe
28
fant=8
c=25.6
f post 7
M 0
l mo * c 120 . 4 * 25 . 6 132 , 35
f ant f post
8 7
3.3.Mediana
~
Símbolo: Md ou X
A Mediana é o valor real que separa os dados em ROL em duas partes , deixando à
sua esquerda o mesmo número de elementos que à sua direita, isto é, é o valor que
divide a distribuição de dados de tal modo que 50% dos dados sejam superiores à
mediana e 50% sejam inferiores. Por isso é também chamada de separatriz.
O Nº de observações é impar
Quando o número total de observaçoes é ímpar, o valor mediano é o que se
n 1
encontra na posição encontrada por
2
Exemplo 10: considerando os dados em Rol, do exemplo 1, sobre o salário dos
advogados estagiários ndo escritório de advogados: 780, 790, 800, 810 e 820
n 1 5 1
verificamos que o valor mediano é o que se encontra na 3
2 2
posição, Md=800
Interpretação: 50% dos advogados estagiários do escritório de advogados auferem
um salário até 800 usd e os outros 50% auferem um salário acima de 800usd
i.
O Nº de observações é par
29
Para este caso são encontradas duas posições no rol de dados, atravês das
n n
expressões: e 1 . Após encontrada essas posições, a Mediana é
2 2
convencionada como sendo a média aritmética dos valores que ocupam essas
posições centrais.
Exemplo 11: Suponha que foi contratado mais um advogado estagiário para o
escritório de advogados, aumentando para 6 os advogados estagiários e que este
último aufere um salário de 700usd. Determine a mediana do conjunto de salários
dos estágiários.
n 24
1 1 13
2 2
30
Interpretação: 50% do estudantes de Contabilidade e Auditoria possuem mais que
duas irmãs e outros 50% possuem duas ou menos irmãs.
i Nº de Nº de Fi
irmãs estudantes
xi fi
1 0 3 3
2 1 9 12
3 2 9 21
4 3 3 24
Total 24 36
Onde:
l Md – limite inferior da classe mediana
I Classe fi (C) Fi
1 69.2|---94.8 3 3
2 94.8|---120.4 8 11
3 120.4|---146.0 16 27
4 146.0|---171.6 7 34
31
5 171.6|---197.2 4 38
6 197.2|---222.8 2 40
Total ------- 40
n 40
E Md 20
2 2
O vigésimo elemento está situado na 3ª classe (a 3ª classe engloba do 12º elemento
ao 27º elemento), por isso, a 3ª classe será a classe mediana. Então:
Dados:
l Md =120.4
n=40
F ant =11
f Md =16
c=25.6
n
F ant
2 20 11
M d
l Md * c 120 . 4 * 25 . 6 120 . 4 14 . 4 134 . 8
f Md 16
Interpretação: 50% dos inqueridos falariam acima de 134.8 minutos por mês e os
restantes 50% falariam até 134.8 minutos
Md=Q2=P50
Q1=P25
Q3=P75
Aula Teórica 05
Medidas de Posição
Medidas de Tendência Central
32
Para além das medidas de tendência central já apresentadas, há outras que
individualmente não são medidas de tendência central, mas estão ligadas à
mediana, relativamente a sua característica como separatriz de determinado
conjunto de dados organizado em rol. Estamos a falar dos Quartis, Decis e
Percentis.
3.4.1. Quartis ( Q i )
Os quartis dividem a distribuição de um conjunto de dados em 4 partes iguais,
sendo que existem 3 quartis:
O Q1 divide os dados em duas partes, sendo que 25% dos valores encontram-se
abaixo dele e 75% acima dele.
O Q 2 divide os dados em duas partes iguais, pois coincide com a Mediana. Neste
caso, 50% dos valores encontram-se abaixo dele e 50% acima dele.
O Q 3 divide os dados em duas partes, sendo que 75% dos valores encontram-se
abaixo dele e 25% acima dele.
Onde:
l Q – Limite inferior da classe quartílica
i
fQ
i
– Frequência absoluta simples da classe quartílica
c – amplitude de intervalo de classe quartílica
33
i Classe fi (C) Fi
1 69.2|---94.8 3 3
2 94.8|---120.4 8 11
3 120.4|---146.0 16 27
4 146.0|---171.6 7 34
5 171.6|---197.2 4 38
6 197.2|---222.8 2 40
Total ------- 40
i*n 1 * 40
1. EQ 10
4 4
i*n
F ant
4 10 0
3. Q1 lQ * c 69 . 2 * 25 . 6 69 . 2 85 . 33 154 . 53
1
fQ 3
1
Interpretação: 25% dos entrevistados iriam falar menos que 154.53 minutos
durante um mês, ou, 75% dos entrevistados iriam falar mais que 154.53 minutos
durante um mês.
3.4.2. Decis ( D i )
Os decis dividem a distribuição de um conjunto de dados em 10 partes iguais,
sendo que existem 9 decis.
i*n
1. Calcular a posição do decil: ED , onde i=1, 2, 3, …, 9
10
2. Identificar a classe que contém o valor do decil calculado no ponto anterior,
através da coluna de frequência acumulada – classe D i
3. Calcular o valor do decil com a fórmula:
i*n
F ant
10
D i lD *c (2)
i
fD
i
34
Onde:
l D – Limite inferior da classe do decil
i
fQ
i
– Frequência absoluta simples da classe do decil
c – amplitude de intervalo da classe do decil
i*n
F ant
10 28 11
3. D 7 lD * c 120 . 4 * 25 . 6 120 . 4 27 . 2 147 . 6
7
fD 16
7
Interpretação: 70% dos entrevistados iriam falar menos que 147.6 minutos
durante um mês, ou, 30% dos entrevistados iriam falar mais que 147.6 minutos
durante um mês.
3.4.3. Percentis ( Pi )
Os percentis dividem a distribuição de um conjunto de dados em 100 partes
iguais, sendo que existem 99 centis:
i*n
1. Calcular a posição do percentil: EP , onde i=1, 2, 3, …, 98,99
100
2. Identificar a classe que contém o valor do percentil calculado no ponto
anterior, através da coluna de frequência acumulada – classe Pi
3. Calcular o valor do percentill com a fórmula:
i*n
F ant
100
Pi l P *c (3)
i
fP
i
Onde:
l P – Limite inferior da classe do percentil
i
35
n – Número total de observações
F ant – Frequência acumulada da classe anterior à classe do percentil
fP
i
– Frequência absoluta simples da classe do percentil
c – amplitude de intervalo da classe percentil
i*n
F ant
100 12 3
3. P 30 l P * c 94 . 8 * 25 . 6 94 . 8 28 . 8 123 . 6
30
fP 8
30
Interpretação: 30% dos entrevistados iriam falar menos que 123.6 minutos
durante um mês, ou, 70% dos entrevistados iriam falar mais que 123.6 minutos
durante um mês.
Md=Q2=P50
Q1=P25
Q3=P75
Aula Teórica 06
Medidas de Dispersão ou variabilidade
4. Introdução
36
Suponhamos que aplicado o mesmo teste de estatística 1 a duas turmas do 2º ano de
gestão que tiveram as aulas com o mesmo docente, ambas tivessem tido média 14.
Baseando-nos nesse dado, diríamos que as duas turmas possuem o mesmo nível de
conhecimento, mas analisando atentamente as notas das duas turmas, poderia dar-se
o caso de os estudantes da turma 1 terem tido todos eles 14 revelando
homogeneidade de conhecimento, enquanto que, na turma 2 as notas variaram de 7 a
18, mostrando maior heterogeneidade de conhecimento onde os valores extremos
contribuíram muito para que a média da turma fosse boa.
Por causa de situações como as descritas acima, torna-se necessário visualizar como
os dados estão dispersos. Para tal, iremos fazer uso das chamadas medidas de
dispersão.
As medidas de dispersão são utilizadas para medir o grau de variabilidade, ou
dispersão dos valores em torno da média aritmética. Servem para medir a
representatividade da média e proporcionam conhecer o nível de homogeneidade ou
heterogeneidade dentro de cada grupo analisado, permitindo estabelecer
comparações entre fenómenos da mesma natureza e mostrando até que ponto os
valores se distribuem acima ou abaixo da média
4.1. Variância
N 2 n 2
x i
x i
x
i 1 i 1
2 2
(1) s (2)
N n 1
Variância populacional Variância amostral
37
frequências absolutas f 1 , f 2 , ..., f n ou então, quando os dados estiverem agrupados
numa distribuição de frequência por classes usaremos a variância dos pontos médios
x 1 , x 2 , ..., x n de cada classe, ponderadas pelas frequências absolutas f 1 , f 2 , ..., f n
N 2 n 2
xi * fi xi x * fi
i 1 i 1
2 2
(3) s (4)
N n 1
Variância populacional Variância amostral
É definido como sendo a raiz quadrada da média aritmética dos quadrados dos
desvios em relação a média aritmética de um conjunto de números, isto é, é somar
cada diferença do valor do conjunto de dados pela média, elevada ao quadrado, e
dividi-la pelo número total de observações, isto é, o desvio padrão é a raiz quadrada da
variância.
N
x
2
i
i 1
(3)
N
Da mesma maneira quando os dados estiverem agrupados numa distribuição de
frequência usaremos a fórmula:
N
x
2
i
* fi
i 1
(4)
N
Observação:
Quando se trabalha com uma amostra e não com uma população, como acontece na
grande maioria das situações relacionadas com a inferência estatística, ou então
quando o número de observações não é grande n 30 , o denominador das
expressões (5) e (6) será igual a (n-1), desvio padrão, e não (n) para obter uma melhor
38
estimativa do parâmetro da população e o símbolo do desvio padrão será representado
por s e não .
n n
x x x x * fi
2 2
i i
i 1 i 1
s (5) s (6)
n 1 n 1
Para valores grandes de n não há grande diferença entre o resultado proporcionado
pela utilização de qualquer dos divisores, n ou n 1.
Resolução:
n 2
x i
x
1000 1000
i 1
250
2
s
n 1 5 1 4
3
Resultado obtido no cálculo da média para dados brutos, na aula teórica 4
39
variação de até 15.81 usd acima ou abaixo da média, isto é, os salários podem rondar em
média entre 784.19 usd e 815.81 usd.
xi * fi
6360
i 1
x 79 . 5
n 80
x i
x * fi
80780
i 1
1009 . 75 kwh
2 2
s
n 1 80
40
Como foi dito, a variância e o desvio padrão são medidas de dispersão absolutas, deste
modo só podem ser utilizadas para comparar a variabilidade de dois ou mais conjuntos
de dados quando estes apresentarem a mesma média, mesmo número de observações e
estiverem expressos nas mesmas unidades.
s
CV (7)
x
Muitas vezes a fórmula é expressa em percentagem:
s
CV * 100 (8)
x
Repare-se que o desvio padrão na segunda distribuição tem um peso muito mais
significativo do que na primeira, isto é, a dispersão na 2ª distribuição tem maior efeito
que na 1ª, e no entanto, este é igual em ambas. Ao se determinar o coeficiente de
variação é possível saber de que forma o desvio padrão está para a/o média/valor
médio.
4 4
Nos exemplos dados, o coeficiente de variação é respectivamente 0 ,1 e 0 ,8
40 5
= 0,8 . Ao se interpretar estes valores pode-se afirmar que, na primeira distribuição,
em média, os desvios relativamente à média atingem 10% do valor desta. Na segunda
distribuição, porém, os desvios relativamente à média atingem, em média, 80% do
valor desta. As percentagens mostram o peso do desvio padrão sobre a distribuição.
Dispersão baixa: CV 15 %
Dispersão média: 15 % CV 30 %
Dispersão alta: CV 30 %
41
s 1500
Sexo masculino: CV * 100 * 100 37 . 5 %
x 4000
s 1200
Sexo feminino: CV * 100 * 100 40 %
x 3000
Interpretação: Podemos concluir que o salário médio das mulheres apresenta maior
dispersão relativa (maior variabilidade) em relação a média dos salários, em relação ao
salário médio dos homens, podendo atingir uma dispersão de até 40%.
Quanto a dispersão podemos afirmar que ambos os sexos possuem uma dispersão alta
em relação aos seus valores médios, pois, os seus CV´s estão acima de 30%.
Grupo Médias das notas (de 0-10) Desvio padrão das notas
A 6 2
B 6.2 1.5
Observando estes dados, podemos constatar que as notas são expressas na mesma
unidade de medida, e suas médias são quase iguais ou muito próximas. Neste caso é
válido comparar os valores de s, não se obtendo informação adicional significativa
com o uso do CV. Por isso, não há necessidade de muito esforço de raciocínio para
concluir que o grupo B apresentou menos dispersão em relação ao grupo A, tanto em
termos absolutos como relativos.
Aula Teórica 07
Medidas de Assimetria e Curtose
4.4.Medidas de assimetria
a) Simétrica
42
b) Assimétrica Positiva
c) Assimétrica Negativa
4.4.1. Simetria
Uma distribuição de frequência é simétrica quando a média, mediana e moda são
iguais, ou seja, apresentam um mesmo valor, ou ainda, coincidem num mesmo
ponto.
x Mo Md
4.4.2. Assimetria
Uma distribuição com deformação positiva apresenta-se com uma cauda mais
alongada à direita da ordenada máxima (ordenada correspondente a moda) do que
à esquerda. Neste tipo de distribuições, há uma predominância de valores
superiores ao valor da moda. Os valores da moda concentram-se na extremidade
inferior da escala.
Sendo assim, a moda apresentará um valor menor que a mediana, e esta por sua
vez apresentará um valor menor que a média aritmética. Assim:
Mo Md x
43
c) Curva ou Distribuição de Frequências Assimétrica Negativa
x Md Mo
Trata-se do método mais rudimentar, o qual não permite estabelecer até que ponto
a curva analisada se desvia da simetria. A comparação é bem simples.
x Mo Assimetria Positiva
x Mo Simetria
x Mo Assimetria Negativa
Exemplo 1:
44
Verificar o tipo de assimetria da distribuição de frequências do tempo médio que
40 consumidores de uma empresa de telefonia móvel iriam falar por minuto em um
mês (exemplo 4 da AT4):
de xi (C)
1 69.2|---94.8 82 3 246 3131,6 9394,92 28834880,8
4 5
2 94.8|---120.4 107.6 8 860.8 904,81 7238,48 6549396,97
3 120.4|---146.0 133.2 16 2131.2 20,07 321,12 6445,14
4 146.0|---171.6 158.8 7 1111.6 446,05 3122,35 1392751,69
5 171.6|---197.2 184.4 4 737.6 2182,7 8731,04 19057736,9
6 3
6 197.2|---222.8 210 2 420 5230,1 10460,36 54709615,8
8 7
Total ------- 40 5507.2 39268,27 110550827,
4
xi * fi
5507 . 2
i 1
x 137 . 68
n 40
45
x Mo ). Podemos usá-la para medir assimetria, porém é melhor usarmos em
termos relativos.
onde:
e – Coeficiente de Assimetria;
x – média aritmética;
Mo – Moda;
- desvio-padrão
Classificação da assimetria
e<0 - distribuição assimétrica negativa
e>0 - distribuição assimétrica positiva
e=0 - distribuição simétrica
Nota: é difícil encontrar curvas com grau superior a (-1;+1)
Exemplo 2:
Usando o 1º coeficiente de assimetria, verifique a assimetria dos dados da tabela do
exemplo 1.
Dados
x 137 . 68 ; Mo 132 . 35
40 2
xi x * fi
39268 , 27
i 1
981 , 71 31 , 33
n 40
x Mo 137 , 68 132 , 35
e 0 . 17
31 . 33
46
De acordo com o grau de curtose, podemos ter três tipos de curvas de freqüência.
Curva Leptocúrtica
Curva Mesocúrtica
Curva Platicúrtica
Observações:
1. Quando se trata de Curtose, não há como extrairmos uma conclusão sobre
qual será a situação da distribuição – se mesocúrtica, platicúrtica ou
leptocúrtica – apenas conhecendo os valores da Média, Moda e Mediana.
47
m4 m4
b2 2
4
m2 s
x i
x x i
x * fi
i 1 i 1
mr mr
n n
Dados brutos Dados tabulados
n 2 n 2
x i
x x i
x * fi
i 1 i 1
m2 s m2 s
2 2
Isto é: ou
n n
Para r=4
n 4 n 4
xi x xi x * fi
i 1 i 1
m4 ou m4
n n
Então:
n n
xi x x x * fi
4 4
i
i 1 i 1
m4 m4 n m4 m4 n
b2 2
4
2
b2 2
4
2
m2 s m2 s
n n
xi x xi x * fi
2 2
i 1 i 1
n n
Dados brutos Dados tabulados
48
Usando os dados do exemplo 1, famos classificar distribuição do tempo em
minutos que cosumidores de telefonia móvel iriam falar em um mês quanto a
curtose.
x x * fi
4
i
i 1 110550827 ,4
m4 m4 n 40 2763770 , 69
b2 2
4
2
2
2 , 96
m2 s
n
39268 , 27 933748 ,14
xi x * f i
2
40
i 1
n
Quanto a curtose a dstribuição de frequência do tempo em minutos que
cosumidores de telefonia móvel iriam falar em um mês é uma curva mais
achatada que a curva normal, isto é, é uma curva platicúrtica
Os teoremas de base das probabilidades podem ser demonstrados a partir dos axiomas
das probabilidades e da teoria de conjuntos.
49
regularidade que permitirá construir um modelo probabilístico para analisar o
experimento
Exemplos:
-O lançamento de uma moeda, (cara, coroa);
-O lançamento de um dado (1, 2, 3, 4, 5, 6);
-O lançamento de um par de dados [(1,1), (1,2) ... (1,6), ... (6,1) (6,2)...(6,6)];
a) 0≤P(A)≤1;
b) P(S)=1 <=> P(S)= P(A1)+ P(A2)+ P(A3)+...+ P(Ak)=1. A probabilidade do espaço
amostral ocorrer é um evento certo.
Probabilidade condicionada.
Muitas vezes há necessidade de calcular a probabilidade de ocorrência de um evento B
qualquer, sabendo (ou supondo) que um certo evento A ocorreu previamente. Em
outras palavras queremos calcular a probabilidade de ocorrência de B condicionada à
ocorrência prévia de A.
Sejam “A” e “B” dois eventos associados ao experimento “E”, denota-se por (B/A) a
probabilidade condicionado evento “B” quando “A” tiver ocorrido.
P(B/A)=P(A∩B)/P(A)
P(A/B)=P(A∩B)/P(B)
Nota: Normalmente P(B/A) é diferente de P(A/B)
Exemplo 1
Um lote de 100 artigos tem a seguinte composição: 80 são perfeitos e 20 são
50
defeituosos escolhem-se, sucessivamente, dois artigos ao acaso desse lote sem
reposição.
Calcule a probabilidades do evento : ambos artigos serem defeituosos
Evento A : Primeiro artigo defeituoso ... P(A)=20/100
Evento B : Segundo artigo defeituoso ... P(B/A) = 19/99
Pois quando for se a tirar o segundo artigo a composição do lote é 99 artigos dos quais
19 são defeituosos.
Eventos independentes
Dois ou mais eventos são independentes quando a ocorrência de um dos eventos não
influencia a probabilidade de ocorrência dos outros. Se dois eventos A e B são
independentes então a probabilidade de A ocorrer dado que B ocorreu é igual à própria
probabilidade de ocorrência de A.
Técnicas de Contagem
51
Análise Combinatória é um ramo de Matemática que se ocupa pelo estudo das técnicas
de contagem.
Com base nas técnicas da análise combinatória é possível formar grupos diferentes,
compostos por um número finito de elementos de um conjunto, sob certas
circunstâncias.
Arranjos, Permutações ou Combinações, são os três tipos principais de agrupamentos.
Por convenção 1! = 1 e 0! = 1
Exemplos:
a) 0!=1
b) 1!=1
c) 2! = 1.2 = 2
d) 3! = 1.2.3= 6
e) 4!= 1.2.3.4 = 24
f) 5! = 1.2.3.4.5 = 120
g) 6!= 6.5.4.3.2.1=720
h) 7!= 7.6.5.4.3.2.1 = 5040
i) 8! = 8.7!=8.7.6!=8.7.6.5!= 40320
j) 10! = 1.2.3.4.5.6.7.8.9.10 ou 10! = 10.9.8.7.6.5.4.3.2.1 ou 10! = 10.9.8!
k) 100! = 100.99.98!
200 ! 200 . 199 . 198 !
l) 200 . 199 39800
198 ! 198 !
12 ! 12 . 11 . 10 . 9 ! 12 . 11 . 10
m) =220
9 !. 3! 9 !. 3! 6
n) 3!.3! = (3!) 2 = 36
Simplificação
( n 5 )! 3 ( n 3 ) ( n 5 )( n 4 )( n 3 )! 3 ( n 3 )! ( n 3 )! n 5 ( n 4 ) 3
( n 4 )! ( n 5 )! ( n 4 )( n 3 )! ( n 5 )( n 4 )( n 3 )! ( n 3 )! n 4 ( n 5 )( n 4 )
9 n 20 3 9 n 17
2 2
n n
=
n 4 n 9 n 20 10 n 24
2 2
n
Resolução de equações
52
( n 2 )! ( n 1 )!
24
2
n +4n-21= 0
n!
( n 2 )( n 1 ) n ! ( n 1 ) n !
24 n1 = -7
n!
n ! n 2 ( n 1 ) ( n 1 )
24 n2 = 3 Solução 3
n!
2
n +3n+2+n+1=24
Simplifique
9! 7! 2 n ! 3 ( n 1 )! P ! ( P 1 )!
a) b) c) d) (P N)
7! 4 !. 3! ( n 2 ! ( n 2 ! ( P 2!
2. Determine n nas equações
( n 1 )! 22 ( n 1 )!
a) n!= 20(n-2)! b) 10 c) (n+2)!= 72.n!
n!
n!
A2
n
= 56
( n 2 )!
n ( n 1 )( n 2 )!
56
( n 2 )!
2
n -n-56= 0 Solução 8
( 5 3 )! 2! 2!
53
d) Numa certa rede telefónica a cada telefone corresponde um número de 4
(quatro) algarismos diferentes, o qual pode começar mesmo por 0 (zero). Sabendo
que cada um desses números de 4 (quatro) algarismos diferentes, corresponde a um
e um só telefone , quantos telefones têm a rede.
0 ;1; 2; 3; 4; 5; 6; 7; 8; 9 (são 10 dígitos).
10 ! 10 . 9 . 8 . 7 . 6 !
5040
10
A4 telefones
(10 4 )! 6!
Exercícios Arranjos
1. Determine:
5
A4 A2
7 5 10 8
A3 A2 .A5
A2
5
a) Exame 1999 b) Exame 1994 c) 7
3! 5! A4
2 Determine n sabendo
A 2 240
n
a)
n2 n3
b) A3 10 A 2
n 1 n2 n3
c) A5 9( A4 A3 )
A 7 30 . A 5
n n
d)
n 1 n2
e) 3. A5 48 A 4
n 1
A3 1
f) n
A3 2
A 2 110
n
g)
3. Permutações
Chama-se permutações (sem repetição) de n elementos, os arranjos (sem repetição )
desses elementos tomados n a n. Nas permutações os agrupamentos diferem pela
ordem
Pn = n!
n! n! n!
An n ! Pn
n
( n n )! 0! 1
Exemplos
54
Pn = 20P(n-2)
n!= 20(n-2)!
n(n-1)(n-2)! = 20(n-2)!
n 2 -n – 20 = 0
n1 =-4 e n2 = 5 Solução 5
Exercícios
1. De quantos modos diferentes se podem sentar dez (10) pessoas
a) Se ficarem todas na mesma fila
b) Se ficarem todas em fila, supondo que dois são namorados e exigem
ficar um ao lado do outro
P(n+2) = 720
A p 12
n
4. Combinações
Chamam-se combinações (sem repetição) de n elementos p a p, a todos os conjuntos
que é possível formar de tal modo que os agrupamentos assim obtidos difiram, entre
sí, pelo menos um elemento. Nas combinações os agrupamentos diferem entre sí
pela natureza.
n! n!
n n
C p
ou p
( n p )! p ! ( n p )! p !
55
Exemplos
1. Calcular o número de amostras diferentes de 8 (oito) lâmpadas que se pode tirar
de um lote de 12 lâmpadas.
12 ! 12 ! 12 . 11 . 10 . 9 . 8!
12
C8 = 495
(12 8 )! 8! 4 !. 8! 24 . 8!
10 ! 12 ! 10 . 9 . 8!
10
C8 = 45
(10 8 )! 8! 2 !. 8! 2 . 8!
Calcule
5 8 12 !
a) C3 b) C2 c)
8!
3. Numa festa familiar cada participante aperta a mão do outro. Alguém teve a
paciência de contar os apertos de mão e descobriu que foram exactamente 45
apertos de mão. Quantas pessoas estavam na festa?
4. Numa festa familiar onde participam 20 raparigas e 30 rapazes, de quantas
maneiras se pode “abrir” a sala. (Nota: assuma que só podem abrir a sala duas
pessoas de sexos diferentes).
5. Determinar o valor de n
n 1
36 .C 2
n
A) A4
n2
b) C2 6
n 1
4 .C 3
n
c) C3
56
a) branca
casos possíveis 10
casos favoráveis 3
57
R: 1/9
7- Qual a probabilidade de sair uma carta de “copas” ou de “ouros” quando retiramos
uma carta de um baralho de 52 cartas? R: 1/2
8- No lançamento de um dado, qual a probabilidade de se obter um número não
inferior a cinco? R: 1/3
9- Em um lote de 12 peças, 4 são defeituosas. Sendo retiradas aleatoriamente 2 peças,
calcule:
a) A probabilidade de ambas serem defeituosas; R: 1/11
b) A probabilidade de ao menos uma ser defeituosa. R: 19/33
10- A direcção de uma companhia aérea decidiu contratar duas agências de publicidade
para publicitar os seus serviços; um total de oito agências foram pré-selecionados para
seguidamente se escolherem as duas pretendidas. De quantas maneiras diferentes se
poderão escolher as duas agências.
8! 8 . 7 . 6! 8 .7
C2 4 . 7 28
8
( 8 2 )!. 2 ! 6 !. 2 ! 2
11- Um júri de 12 membros deve ser formado com base num painel composto por 8
homens e 8 mulheres.
a) Quantos júris diferentes é possível formar?
2 5
16 ! 16 . 15 . 14 . 13 . 12 ! 16 . 15 . 14 . 13
C 12 2 . 5 . 14 . 13 140 . 13 1820
16
(16 12 )!12 ! 4 !. 12 ! 4 .3 .2 .1
Casos Possíveis
Dezasseis pessoas tomadas duas a duas
2 5
16 ! 16 . 15 . 14 . 13 . 12 ! 16 . 15 . 14 . 13
C 12 2 . 5 . 14 . 13 140 . 13 1820
16
(16 12 )!12 ! 4 !. 12 ! 4 .3 .2 .1
Casos Favoráveis
Combinações de oito mulheres tomadas oito a oito multiplicada pela combinação
de oito homens tomados quatro a quatro
58
8! 8! 8! 8 . 7 . 6 . 5 . 4! 4 .2 .7 .3 .2 .5
C 8 .C 4 7 . 2 . 5 70
8 8
. .
( 8 8 ). 8! ( 8 4 )!. 4 ! 0 !. 8! 4 !. 4 ! 4 .3 .2
Duas Mulheres
Três Homens
5! 5 . 4 . 3! 5 .2 .2
C2 10
5
Casos Possíveis =
( 5 2 )! 2 ! 3!. 2 ! 2
2! 2!
C2 1
2
Casos Favoráveis =
( 2 2 )! 2 ! 0 !2 !
Probabilidade de sair uma comissão composta por duas mulheres
2
Casosfavor aveis C2 1
5
0 . 1 . 100 % 10 %
CasosPossi veis C2 10
13- Quatro casais estão numa festa. Escolhem-se duas pessoas ao acaso. Qual é a
probabilidade de termos:
59
4! 4!
4 4
.
C 1 .C 1 ( 4 1 )!1! ( 4 1 )!1! 16
P(H M )= 8
57.14%
C2 8! 28
( 8 2 )! 2 !
b) Marido e mulher.
( 4 1 )!1! 3!
Probabilidade de seleccionar um casal (marido e mulher) é igual ao número de
casos favoráveis divididos pelos casos possíveis
4!
4
C1 ( 4 1 )!1! 4 2
P(marido e mulher) = =14.29%
8
C2 8! 28 7
( 8 2 )! 2 !
14- O quadro abaixo apresenta os graus académicos dos professores de uma
Universidade, por sexo. Sorteado um docente ao acaso, qual a probabilidade de que ele
possua as seguintes características:
a) Ser mestre
Casos Possíveis 100
Casos favoráveis 67
P(mestre) = 67/100 = 67%
b) Ser homem sabendo que foi sorteado um mestre
Casos possíveis 67 mestres
Casos Favoráveis (Homens Mestres) 45
P(homem e mestre) = 45/67 = 67.2%
c) Ser mestre sabendo que foi sorteado um homem
Casos possíveis 60 homens
Casos favoráveis (mestre e homem) 45
P(mestre e homem) = 45/60 = 75%
d) Ser mestre e homem
Casos Possíveis 100
Casos favoráveis 45
P (mestre e homem) =45/100 = 45%
e) Não mestre e homem
60
Casos possíveis 100
Casos favoráveis 15
P(~mestre e homem) =15/100 =15%
f) Ser mestre ou homem
P(mestre ou homem) = P(mestre) + P(homem)-P(mestre e homem)
67/100 + 60/100 – 45/100 = 82%
g) Não mestre ou mulher
P(~mestre ou homem) = P(~mestre) + P(homem)-P(~mestre e homem)
33/100 + 60/100 – 15/100 =78%
70
180 100
150
Resumindo
250 assistem a B
a) Qual é a probabilidade deste assistir o canal "A "e não ao canal "B"
61
Casos favoráveis 180
P( A e B) = 100/500 = 20%
P( B) = 250/500 = 50%
uma variável aleatória continua, nesta ultima expressão f(x) é a função densidade de
probabilidade.
Propriedades do valor esperado
Se c= constante; X e Y são variáveis aleatórias quaisquer
a) E(c)= c
b) E(cX)= cE(X)
c) E(X+Y)=E(X)+E(Y)
d) E(X1+ X2+ X3+...+ Xn)= E(X1)+ E(X2)+ E(X3)+...+ E(Xn)
e) Se X e Y são independentes E(X*Y)=E(X)*E(Y)
62
Variância de uma variável aleatória
O valor esperado (simbolizado E(x)) é a média vista na análise exploratória de dados,
utilizando probabilidades ao invés de frequências no cálculo. Analogamente, a
variância (simbolicamente por V(x)) é análoga à variância vista na análise exploratória
de dados, utilizando probabilidades
Seja x uma variável aleatória, denota-se V(X) ou δ2x é dado por
V(X)=E[X-E(X)]2 <=> V(X)=E(X2)-[E(X)]2
Propriedades da variância
Se c= constante; X e Y são variáveis aleatórias quaisquer
a) V(X+c)= V(X)
b) V(cX)= c2*V(X)
c) V(X+Y)=V(X)+V(Y), Se X e Y são independentes
d) V(X1+ X2+ X3+...+ Xn)= V(X1)+ V(X2)+ V(X3)+...+ V(Xn) se X1, X2 X3...Xn forem
independentes
A distribuição Binomial
Distribuição geométrica
63
Por exemplo, suponha um dado que é atirado repetidamente até à primeira vez que
aparece um "1". A probabilidade de distribuição do número de vezes que o dado é
atirado é suportado pelo conjunto infinito { 1, 2, 3, ... } e é uma distribuição geométrica
com p = 1/6.
O valor esperado de uma variável aleatória geometricamente distribuída X é 1/p e a
variância é (1 − p)/p2; E(X)= 1/p e V(X)= (1 − p)/p2
A distribuição Poisson
A distribuição Normal
A figura a seguir mostra como a curva normal é afectada pelos valores numéricos de μ
e δ.
64
A equação da curva Normal é especificada usando dois parâmetros: a média
populacional μ, e o desvio padrão populacional δ, ou equivalentemente a variância
populacional δ2. Denotamos N(μ, δ2) à curva Normal com média μ e variância δ2. A
média refere-se ao centro da distribuição e o desvio padrão ao espalhamento de curva.
Este resultado é usado da seguinte maneira. Suponha que as alturas de uma aldeia
particular podem ser descritas por uma distribuição normal, com média 1.70m e desvio
padrão 0.3. Podemos calcular a proporção da população da aldeia com altura entre
“1.70-2*0.3 = 1.1 e 1.70+2*0.3 =2.3”, por exemplo, como a proporção da área sob a
curva entre
μ±2δ é 95.5%, então em nosso exemplo, cerca de 95.5% do habitantes da aldeia tem
entre 1.1 e 2.3 metros de altura.
Para calcular probabilidades para diferentes valores de μ e δ, a variável X cuja
distribuição é N(μ, δ) é transformada numa forma padronizada Z com distribuição
N(0, 1) (distribuição normal padrão ou reduzida) pois tal distribuição é tabelada. A
quantidade Z é dada por Z=(X- μ)/δ
Exemplo
O resultado de um exame nacional para estudantes recém formados apresentaram uma
média =500 com um desvio padrão δ = 100. Os resultados têm uma distribuição
65
aproximadamente normal. Qual é a probabilidade de que o grau de um indivíduo
aleatoriamente escolhido seja superior a 600?
Trata-se de calcular P(X>600), é necessário primeiro fazer a conversão da
distribuição N(600, 100) em N(0, 1) com ajuda da formula de conversão. Z=(600-
500)/100=1
Consultamos na tabela da distribuição normal reduzida P(Z>1)=1-0.8413=0.1587
Portanto, espera-se que 15.87% dos estudantes tenham o grau superior a 600.
Aula Teórica 8
Estatística Descritiva e Bidimensional
Teoria de Correlação
Coeficiente de Correlação Simples
5. Introdução
Na vida quotidiana costumamos nos deparar com vários casos pelo qual
afirmarmos haver relação entre si.
Por exemplo costumamos afirmar que estão relacionados: o peso de um indivíduo
e a sua idade; a demanda por um produto e o preço do mesmo; as notas de um
indivíduo em determinada cadeira e a boa ou má prestação nos testes, etc.
Essas relações podem ser lineares, quadráticas, logarítmas, e mais.
66
A correlação pode ser linear positiva ou directa, quando o Y tende a aumentar a
medida que X aumenta (figura a), linear negativa ou inversa, quando o Y tende a
diminuir a mediada que X aumenta (figura b) ou não existência de relação linear
quando os pontos apresentam-se dispersos e não parecem estar em torno de uma
recta (figura c).
(c)
(a)
(b)
r xy
n* xi yi xi yi
(1)
n * x 2
i
xi
2
* n * 2
yi yi
2
67
Observação:
O coeficiente de correlação linear, apesar de se expressar em percentagem, ela
não é uma percentagem. Assim uma correlação de 0.3 não corresponde 30% da
correlação perfeita.
Os coeficientes de correlação não constituem uma escala de intervalo, i.é, 0.4 não
é o dobro de 0.2. Da mesma forma que as diferenças entre 0.3 e 0.4 e entre 0.8 e
0.9 não são estatisticamente iguais.
As variáveis x e y devem possuir escalas de intervalo ou de razão, caso contrário,
deve-se aplicar outras estatísticas para medir o grau de associação.
2 2
i xi yi xi yi xi * yi
1 10 2 100 4 20
2 8 4 64 16 32
3 6 6 36 36 36
4 10 8 100 64 80
5 12 10 144 100 120
Total 46 30 444 220 288
r xy
n* xi yi xi yi
5 * 288 46 * 30
0 . 416
n * x 2
i
xi
2
* n * yi
2
yi
2
5 * 444 46
2
* 5 * 220 30
2
68
variáveis o coeficiente de correlação entre elas será o mesmo que o
calculado sem a redução da escala.
3. X e Y são estatisticamente independentes se o coeficiente de correlação
linear entre eles é zero, mas isso não significa independência entre as
variáveis.
4. É apenas uma medida de associação linear ou de dependência linear. Não
tem sentido para descrever relações não lineares. Por exemplo Y=X2, é
uma relação exacta e contudo o r=0.
5. Embora seja uma medida de associação linear entre duas variáveis, ela não
implica necessariamente uma relação de causa e efeito.
Aula Teórica 9
Estatística Descritiva e Bidimensional
Modelo de Regressão Linear Simples
Método dos Mínimos Quadrados
Estimação dos Coeficientes
5.2. Introdução
O termos regressão foi criado por Francis Galton, quando em um artigo famoso
verificou que embora existisse uma tendência para pais altos terem filhos de altura
alta, e pais baixos filhos de estatura baixa, a estatura média das crianças nascidas de
pais com dada altura tendiam a mover-se ou “regredir” para altura média da
população como um todo, isto é, a altura de crianças filhas de pais mais altos ou mais
baixos que o comum, tende a mover-se no sentido da altura média da população.
Esta lei, conhecida como Lei da regressão universal de Galton, foi confirmada por
Karl Pearson que fez uma colecta de mais de 1000 registos de alturas de membros de
grupos familiares. Ele verificou que a altura média do grupo de filhos de pais baixos
era maior que a de seus pais, e a altura média de grupo de filhos de pais altos, era
menor que a de seus pais, constatando desse modo que a altura de filhos de pais altos
e baixos “regrediam” igualmente à altura média de todos os homens.
69
Análise de regressão tem por objectivo estimar o valor médio de uma variável
dependente atravês de uma ou várias variáveis independentes, a partir de n
observações dessas variáveis.
O modelo geral da equação de regressão linear entre duas variáveis tem a seguinte
forma:
Y i * X i i ou Y i 1 2 X i u i (1)
onde:
Y i ou yˆ i variável dependente;
X i ou xˆ i variável independente;
ou a : intercepto do modelo. Caracteriza a variação média de y quando a variável
x é igual a zero.
70
ou b : coeficiente angular da recta de regressão. Caracteriza a variação média de y
4
uˆ i ou i : resíduo. Representa o conjunto de todas as variáveis que explicam o y mas
que não foram incluídas no modelo.
Exemplo 1:
Regressão Linear nas variáveis Regressão não Linear nas variáveis
Y 1 2 X i Y 1 2 X
2
Y e
1 2 X i
i
4
Essas variáveis podem não ser incluídas no modelo por várias razões. para
mais detalhes ver Livro de Econometria de Gujarati. Tecnicamente é conhecido
como termo de erro estocástico.
71
Na maioria das situações práticas, o que temos na verdade é uma amostra de valores
de Y correpondentes a valores fixados de X. Portanto o obejctivo é estimar a função
de regressão populacional a partir de dados amostrais.
As estimativas dos parâmetros e dadas por “a” e “b” podem ser obtidas usando
vários métodos. O método mais usado para ajustar uma linha recta para um conjunto
de pontos ( x 1 , y 1 ), ( x 2 , y 2 ),..., ( x n , y n ) é o método de mínimos quadrados.
Características
1a) A soma dos desvios verticais dos pontos em relação a recta é zero;
2a) A soma dos quadrados desses desvios é mínima.
Para que o ajuste do modelo seja “bom” é necessário que o valor de d seja mínimo
possível.
b
n* xi * yi x * i
yi
(3)
x
2
2
n* xi i
xi x i * x i * y i
2
yi *
a (4)
x1
2
xi
2
n*
ou
a y b* x (5)
Exemplo 3:
i Vendas ( x i ) Lucro ( yi )
2
xi yi
2
xi * yi
5
A diferença di y i yˆ i u i , chama-se desvio em relação a recta de regressão ou resíduo.
72
Total 3691 184 2011501 4318 89802
Nota: Para facilitar os cálculos das estimativas da recta, acrescentamos três novas
colunas na tabela dada.
b
n* x* y x* y
8 * 89802 3691 * 184
0 . 0159
x 3691
2 2
2
n* x 8 * 2011501
xi x i * x i * y i
2
yi * 184 * 2011501 3691 * 89802
a 0 . 0159
x1 3691
2 2
xi
2
n* 8 * 2011501
Ou
a y b * x 23 0 . 0159 * 461 . 38 15 . 66
A recta é: yˆ 15 . 66 0 . 0159 * xˆ
Interpretação:
a 15 . 66, significa que quando a venda do produto for nula, a variação média de
lucro será de 15,66 u.m. Esta interpretação não tem sentido prático, pois não pode
existir lucro sem vendas.
b 0 . 0159
, espera-se que o lucro tenha uma variação média de 0.0159 u.m quando a
venda variar em uma unidade.
2
Podemos expressar R por:
Yˆ
2
i
Y
2
R
Y
2
i
Y
Ou podemos usar a seguinte relação
73
r xy
2 2
R . a formula de r xy foi anteriormente apresentada na ficha da aula teórica 8.
Quando:
R 2 0 , variação explicada de Y é zero, a recta ajustada é paralela ao eixo de
variável X.
R 2 1 , a recta ajustada explicará toda a variação de Y.
Por exemplo, se o poder explicativo for de 98%, isto significa que 98% da variação
de Y é explicada pela variação de X através da função escolhida e apenas 2% é
atribuída a causas aleatórias ou outras variáveis não incluídas no modelo.
74