Você está na página 1de 107

Manual de Estatística Aplicada

ÍNDICE
1. INTRODUÇÃO .............................................….................................... 4
1.1 Definições Gerais ........................................................................ 5
1.1.1. População
1.1.2. Variáveis ou atributos
1.1.3. Processo de amostragem
1.2 A Estatística Descritiva e a Estatística Indutiva .............…...... 6
2. ESTATÍSTICA DESCRITIVA 8
2.1 Variáveis Qualitativas ................................................................. 8
2.2 Variáveis Quantitativas Discretas ............................................. 10
2.3 Variáveis Quantitativas Contínuas ............................................ 11
2.4 Medidas de Localização ............................................................. 13
2.4.1. Média
2.4.2. Mediana
2.4.3. Moda
2.5 Medidas de Ordem ...................................................................... 17
2.6 Medidas de Assimetria ............................................................... 18
2.7 Medidas de Dispersão ................................................................ 19
2.7.1. Dispersão Absoluta
2.7.2. Dispersão Relativa
2.8 Análise de Concentração ........................................................... 21
2.8.1. Curva de Lorenz
2.8.2. Índice de Gini

Manual Técnico de Formando 2


Manual de Estatística Aplicada

2.9 Estatística Descritiva Bidimensional ........................................ 24


2.9.1. Diagrama de dispersão
2.9.2. Regressão simples
2.9.3. Correlação linear
2.9.4. Correlação ordinal
3. ESTATÍSTICA INDUTIVA
3.1 Noções básicas de probabilidades ........................................... 41
3.2 Probabilidade condicionada ...................................................... 44
3.3 Funções de Probabilidade ........................................….............. 46
3.4 Estimação por Intervalos ..........................................….............. 53
3.5 Testes de hipóteses ..................................................….............. 63
3.6 Aplicações Estatísticas: Fiabilidade ......................................... 77
3.6.1. Conceito de fiabilidade
3.6.2. Fiabilidade de um sistema
3.7 Aplicações Estatísticas: Controlo Estatístico de Qualidade .. 82
3.8 Aplicações Estatísticas: Tratamento Estatístico de Inquéritos . 88
3.8.1. Teste de independência do qui-quadrado
3.8.2. Tratamento de inquéritos
BIBLIOGRAFIA 104

Manual Técnico de Formando 3


Manual de Estatística Aplicada

"A estatística é a técnica de torturar os números até que eles confessem".


Autor desconhecido

1. INTRODUÇÃO

Inicialmente, a actividade estatística surgiu como um ramo da Matemática.


Limitava-se ao estudo de medições e técnicas de contagem de fenómenos
naturais e ao cálculo de probabilidades de acontecimentos que se podiam
repetir indefinidamente. Actualmente, os métodos estatísticos são utilizados em
muitos sectores de actividade, tendo como algumas aplicações estudos de
fiabilidade, pesquisas de mercado, testes de controle de qualidade, tratamento
de inquéritos, sondagens, modelos econométricos, previsões, etc.

Exemplo de uma estatística: os valores da inflação entre 1980 e 1990


constituem uma estatística. Fazer estatística sobre estes dados poderia
consistir, por exemplo, em traçar gráficos, calcular a inflação média trimestral
ou prever a inflação para 1991.

A análise de um problema estatístico desenvolve-se ao longo de várias fases


distintas:

(i) Definição do Problema


Saber exactamente aquilo que se pretende pesquisar; estabelecer o
objectivo de análise e definição da população
(ii) Amostragem e Recolha de Dados
Fase operacional. É o processo de selecção e registo sistemático de dados,
com um objectivo determinado. Os dados podem ser primários (publicados
pela própria pessoa ou organização) ou secundários (quando são
publicados por outra organização).

Manual Técnico de Formando 4


Manual de Estatística Aplicada

(iii) Tratamento e Apresentação dos Dados


Resumo dos dados através da sua contagem e agrupamento. É a
classificação de dados, recorrendo a tabelas ou gráficos.
(iv) Análise e Interpretação dos Dados
A última fase do trabalho estatístico é a mais importante e delicada. Está
ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade
principal é descrever o comportamento do fenómeno em estudo (estatística
descritiva). Na estatística indutiva a interpretação dos dados se
fundamentam na teoria da probabilidade.

1.1. Definições Gerais

1.1.1. População

Fazer estatística pressupõe o estudo de um conjunto de objectos bem


delimitado com alguma característica em comum sobre os quais observamos
um certo número de atributos designados por variáveis.
Exemplo: Empresas existentes em Portugal

1.1.2. Variáveis ou atributos

As propriedades de uma população são estudadas observando um certo


número de variáveis ou atributos. As variáveis podem ser de natureza
qualitativa ou quantitativa. As variáveis quantitativas podem ainda dividir-se
entre discretas e contínuas. As variáveis discretas assumem apenas um
número finito numerável de valores. As variáveis contínuas podem assumir um
número finito não numerável ou um número infinito de valores.
Exemplo: um conjunto de empresas pode ser analisado em termos de sector
de actividade (atributo qualitativo), número de trabalhadores (atributo
quantitativo discreto), rácio de autonomia financeira (atributo quantitativo
contínuo), etc

Manual Técnico de Formando 5


Manual de Estatística Aplicada

1.1.3. Processo de amostragem

Para conhecer de forma completa a população, podem efectuar-se:


- recenseamentos (indagação completa de todos os elementos da
população); este processo é, no entanto, tipicamente moroso e
dispendioso, sendo esses os motivos porque os Censos são realizados
apenas em cada 10 anos.
- estudos por amostragem (observação de apenas um subconjunto, tido
como representativo do universo). As técnicas de recolha de amostras
garantem a sua representatividade e aleatoriedade.

1.2. A Estatística Descritiva e a Estatística Indutiva

Para além do ramo de amostragem, a estatística compreende dois grandes


ramos: a estatística descritiva e a estatística indutiva.

A estatística descritiva é o ramo da estatística que se encarrega do tratamento


e análise de dados amostrais. Assim, depois de recolhida a amostra de acordo
com técnicas que garantem a sua representatividade e aleatoriedade, fica
disponível um conjunto de dados sobre o universo “em bruto” ou não
classificados. Para que seja possível retirar qualquer tipo de conclusões, torna-
se necessário classificar os dados, recorrendo a tabelas de frequências e a
representações gráficas, isto é, é preciso tratar os dados. Depois de tratados,
será possível proceder à análise dos dados através de várias medidas que
descrevem o seu comportamento: localização, dispersão, simetria dos dados,
concentração, etc. São disso exemplo indicadores numéricos bem conhecidos
como a média ou a variância.

A estatística indutiva é o ramo da estatística que se ocupa em inferir das


conclusões retiradas sobre a amostra para a população. De facto, a amostra
não é mais do que um passo intermédio e exequível de obter informações
sobre o verdadeiro objecto de estudo, que é o universo. A estatística indutiva
(ou inferência estatística) garante a ligação entre amostra e universo: se algo

Manual Técnico de Formando 6


Manual de Estatística Aplicada

se concluiu acerca da amostra, até que ponto é possível afirmar algo


semelhante para o universo? É nesta fase que se procuram validar as
hipóteses formuladas numa fase prévia exploratória. Claro que o processo de
indução implica um certo grau de incerteza associado à tentativa de
generalização de conclusões da “parte” (amostra) para o “todo” (universo). O
conceito de probabilidade vai ter aqui, então, um papel fundamental. Isto é, não
vai ser possível afirmar com toda a certeza que o comportamento da amostra
ilustra perfeitamente o comportamento do universo, mas apenas que o faz com
forte probabilidade. As inferências indutivas são assim elaboradas medindo, ao
mesmo tempo, o respectivo grau de incerteza. Daí que, na ficha das técnicas
das sondagens eleitorais, por exemplo, apareçam referências ao “nível de
confiança” associado aos resultados e ao “erro” cometido.

O esquema seguinte ilustra a “roda” da disciplina de estatística, relacionando


os seus diferentes ramos:

POPULAÇÃO
OU UNIVERSO Previsões
Amostragem Estimação
Erros

AMOSTRA INFERIR DA AMOSTRA


PARA O UNIVERSO
Inferência
Estatística TRATAMENTO E Estatística
Descritiva ANÁLISE DA AMOSTRA

Gráficos; tabelas; medidas descritivas

Manual Técnico de Formando 7


Manual de Estatística Aplicada

2. ESTATÍSTICA DESCRITIVA

Os resultados da observação de um atributo sobre os elementos do conjunto a


analisar constituem os dados estatísticos. O ramo da estatística que se ocupa
do tratamento, apresentação e análise de dados amostrais denomina-se de
estatística descritiva.

2.1. Variáveis Qualitativas

Os dados qualitativos são organizados na forma de uma tabela de frequências,


que representa o número ni de elementos de cada uma das categorias ou
classes e que é chamado de frequência absoluta. A soma de todas as
frequências é igual à dimensão da amostra (n).

Numa tabela de frequências, além das frequências absolutas, também se


apresentam as frequências relativas (fi), obtida dividindo a frequência absoluta
pelo número total de observações.

Modalidades Frequências absolutas Frequências relativas


Mod. 1 n1 f1

Mod. j nj fj

Mod. n nn fn
Total n: dimensão da amostra 1

ni
fi = ; ni: nº de vezes que cada modalidade da variável foi observada.
n

Manual Técnico de Formando 8


Manual de Estatística Aplicada

Exemplo: 68 empresas agrupadas por sector de actividade

Uma forma de resumir a informação contida nos dados é construir uma tabela
de frequências em que se consideram as diferentes modalidades que o sector
de actividade pode tomar:

Sector de actividade Nº de empresas (ni) % de empresas (fi)


Indústria transformadora 25 36,8%
Construção e obras públicas 6 8,8%
Comércio e serviços 14 20,6%
Financeiro 19 27,9%
Segurador 4 5,9%
Total 68 1

Estes dados podem também ser representados graficamente através de:

Diagrama de barras
Para cada modalidade, desenha-se uma barra de altura igual à frequência
absoluta ou relativa (as frequências relativas são de preferir, pois permitem a
comparação de amostras de diferentes dimensões).

40%

30%

20%

10%

0%
IT COB CS F S

Diagrama sectorial ou circular


Esta representação é constituída por um círculo, em que se apresentam tantos
sectores quantos as modalidades em estudo. O ângulo de cada sector é
proporcional às frequências das classes, fazendo corresponder o total da
amostra (n) a 360º (por exemplo, para a indústria transformadora, o ângulo
será de 360ºx36,8%=132,3º). Geralmente, juntamente com a identificação da
modalidade, indica-se a frequência relativa respectiva.

Manual Técnico de Formando 9


Manual de Estatística Aplicada

6% IT
28% 36% COB
CS
F
S
21% 9%

2.2. Variáveis Quantitativas Discretas

São variáveis que assumem um número finito ou infinito numerável de valores.


A apresentação destas amostras é semelhante às variáveis qualitativas,
fazendo-se uma tabela de frequências e uma representação gráfica recorrendo
ao diagrama de barras.

Valores da variável Frequências absolutas Frequências relativas


X1 n1 f1

Xj nj fj

Xn nn fn
Total n: dimensão da amostra 1
Exemplo: X é o nº de defeituosos por embalagem numa amostra de 200

Nº de defeituosos (X) Nº de embalagens (ni) % de embalagens (fi)


0 80 40%
1 60 30%
2 30 15%
3 20 10%
4 10 5%
Total 200 1

50%

40%

30%

20%

10%

0%
01 12 23 34 45

Manual Técnico de Formando 10


Manual de Estatística Aplicada

Também é possível calcular as frequências (absolutas – Ni - e relativas - Fi)


acumuladas:

Nº defeituosos (X) Nº embalagens (ni) % embalagens (fi) Ni Fi


0 80 40% 80 40%
1 60 30% 80+60 40%+30%
2 30 15% 170 85%
3 20 10% 190 95%
4 10 5% 200 100%
Total 200 1

2.3. Variáveis Quantitativas Contínuas

Como foi dito anteriormente, uma variável (ou atributo) é contínua quando
assume um número infinito não numerável de valores, isto é, podem assumir
qualquer valor dentro de um intervalo.

Neste caso, a construção da tabela compreende duas etapas:


(i) Definição de classes de valores disjuntas, correspondentes a intervalos de
números reais fechados à esquerda e abertos à direita, cuja constituição
obedece a certas regras
(ii) Contagem das observações pertencentes a cada classe

Regra de construção de classes


(pressupõe a formação de classes de igual amplitude)
- Número de classes a constituir
Depende de n = dimensão da amostra
Se n≥25, o número de classes a constituir deve ser 5
Se n<25, o número de classes a constituir deve ser n
- Amplitude comum a todas as classes
Sendo a amplitude total dos dados dada pela diferença entre o valor
máximo e o valor mínimo observados, então a amplitude de cada classe
será:
Valor máximo da variável observado – Valor mínimo da variável observado
Nº de classes a constituir

Manual Técnico de Formando 11


Manual de Estatística Aplicada

Classes de
Frequências absolutas Frequências relativas
valores da variável
[x1; x2[ n1 f1
[x2; x3[
[x3; x4[ nj fj

[xn-1; xn] n fn
Total n: dimensão da amostra 1

Exemplo: Estudo do rácio de autonomia financeira de uma amostra de 68


empresas

Rácio (X) Nº de empresas (ni) % de empresas (fi) Amplit (hi) fi/hi


[0; 0.5[ 4 5.9% 0.5 11.8%
[0.5; 1[ 22 32.4% 0.5 64.7%
[1; 1.5[ 26 38.2% 0.5 76.5%
[1.5; 2[ 10 14.7% 0.5 29.4%
[2; 3[ 4 5.9% 1.0 5.9%
[3; 6] 2 2.9% 3.0 1%
Total 68 1

A distribuição de frequências representa-se através de um histograma.


Um histograma é uma sucessão de rectângulos adjacentes, em que a base é
uma classe e a altura a frequência (relativa ou absoluta) por unidade de
amplitude (ni/ai ou fi/ai), sendo a amplitude de cada classe ai=ei-ei-1. A área total
do histograma é a soma das frequências relativas, isto é, 1.

fi/hi
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6

racio

Manual Técnico de Formando 12


Manual de Estatística Aplicada

1. Esta distribuição permite visualizar o tipo de distribuição e deve salientar


alguns aspectos mais relevantes desta (moda, classe modal, ...). Como
as classes podem ter amplitudes diferentes, para que todos os
rectângulos (colunas) sejam comparáveis é necessário corrigir as
frequências das classes (calculando as frequências que se teria se a
amplitude de todas as classes fosse igual e igual a 1)
2. É preferível representar o histograma com fi/hi do que com ni/hi uma vez
que deste modo é possível comparar distribuições com diferente número
de observações amostrais.

Também é possível calcular as frequências (absolutas – Ni - e relativas - Fi)


acumuladas:
Rácio (X) Nº empresas (ni) % empresas (fi) Ni Fi
[0; 0.5[ 4 5.9% 4 5.9%
[0.5; 1[ 22 32.4% 4+22 5.9%+32.4%
[1; 1.5[ 26 38.2% 4+22+26 76.5%
[1.5; 2[ 10 14.7% 4+22+26+10 91.2%
[2; 3[ 4 5.9% 66 97.1%
[3; 6] 2 2.9% 68 100%
Total 68 1

2.4. Medidas de localização

2.4.1. Média ( X )

É a medida de localização mais usada, sobretudo pela sua facilidade de


cálculo.

Dados não-classificados (não agrupados numa tabela de frequências)


1 n
x = xi Média aritmética simples
n i =1

Dados classificados (isto é, agrupados numa tabela de frequências)


Variáveis discretas

Manual Técnico de Formando 13


Manual de Estatística Aplicada

n n
1
x = ni x i = f i xi Média ponderada dos valores de X
n i =1 i =1

Exemplo 2:
0 x80 + ... + 4 x10
x = = 1,1
200

Dados classificados (isto é, agrupados numa tabela de frequências)


Variáveis contínuas
n n
1
x = ni ci = f i ci Média ponderada dos pontos médios das classes
n i =1 i =1

lim . inf . + lim . sup .


onde ci é o ponto médio de cada classe ( )
2

Exemplo 3:

x = 0,059 x0,25 + ... + 0.029 x 4,5 = 1,2705

A média é uma medida de localização que, geralmente, indica o valor central


da distribuição, entendido como o valor em torno do qual se distribuem os
valores observados. Desta forma, a média é muitas vezes utilizada como valor
representativo da amostra.
No entanto, a média tem o grande inconveniente de ser sensível a valores
muito extremados ou aberrantes da distribuição (outliers). Em casos desses, a
média deixa de ser um valor que aparece na parte central da distribuição para
ser “empurrada” para os extremos. Nestes casos, é preferível recorrer à
informação complementar fornecida por outras medidas de localização, como a
moda e a mediana, que se definem a seguir.

2.4.2. Mediana (Me)

A mediana não se calcula a partir do valor de todas as observações, mas a


partir da posição dessas observações.

Manual Técnico de Formando 14


Manual de Estatística Aplicada

Dados não-classificados
Se tivermos n valores x1, x2, ... xn

Se n fôr ímpar,
Me = x n+1
2

Se n fôr par,
xn + xn
+1
Me = 2 2

2
Exemplo
Para n=5 (ímpar)

8,9 13 13,5 20,2 105,8

Me = x 5+1 = x3 = 13,5
2

Para n=6 (par)

7,2 7,6 11,7 12,5 13,6 191

x6 + x6
+1 x3 + x 4 11,7 + 12,5
Me = 2 2
= = = 12,1
2 2 2

Dados classificados
A mediana é o valor tal que Fi = 0,5

Variáveis discretas
Se existe um valor de xi para o qual Fi = 0,5, então fala-se em intervalo
mediano.
Se não existe nenhum valor de xi para o qual Fi = 0,5, então a mediana é
o primeiro valor para o qual Fi > 0,5.

Manual Técnico de Formando 15


Manual de Estatística Aplicada

Exemplo 2:
Mediana = 1 (com Fi = 0.7, primeiro valor que ultrapassa 0,5), o que quer
dizer que pelo menos em metade das embalagens apareceu 1 artigo
defeituoso ou menos.

Variáveis contínuas
Em geral, determina-se o valor para o qual Fi = 0,5 através de uma regra
de três simples, atendendo a que as frequências acumuladas variam
uniformemente dentro de cada classe.

Exemplo 3:
Classe mediana (classe a que corresponde frequência acumulada 0,5):

1 : Fi =0,383
1,5 : Fi = 0,765
Cálculo da mediana:
0,765 - 0,383 ------------ 1,5 - 1
0,5 – 0,383 -------------- Me – 1
Me = 1+((0,5x0,17)/0,382)= 1,15

Isto é, 50% das empresas apresentam rácio de autonomia financeira


inferior a 1,15.

De uma forma geral:


0.5 − FL inf
Me = L inf + xamp. classe mediana
FL sup − FL inf

2.4.3. Moda (Mo)

Variáveis discretas
A moda é valor de X para o qual fi é máximo, isto é, é o valor mais
frequente da distribuição.

Manual Técnico de Formando 16


Manual de Estatística Aplicada

Exemplo 2:
Mo=0 (com fi=0,4)

Variáveis contínuas
A classe modal é a classe de valores de X para o qual fi/hi é máximo,
isto é, é a classe a que corresponde maior frequência por unidade de
amplitude.
Exemplo 3:
Classe modal: [1-1,5[

2.5. Medidas de ordem

Tal como se definiu para a mediana, é possível definir outros valores de


posição ou valores separadores da distribuição em partes iguais.

Chama-se quantil de ordem p ao valor de x a que corresponde Fi = p.


- Se p=0,01; 0,02;.....0,99, chama-se ao quantil percentil
- Se p=0,1; 0,2;...0,9, chama-se ao quantil decil
- Se p=0,25, 0,5, 0,75, chama-se ao quantil QUARTIL (Q1, Q2 e Q3). A
mediana é uma caso particular dos quartis (coincide com Q2)

Máximo
Variável discreta
O quantil de ordem p é o primeiro valor de x para o qual
Fi>p.
Variável contínua
Calcula-se por uma regra de três simples, como a
25%
mediana. maiores

De uma forma geral:

0.25 − FL inf
Q1 = L inf + xamp. classe Q1
FL sup − FL inf
Q3
0.75 − FL inf 50% mais
Q3 = L inf + xamp. classe Q3 Mediana centrais
FL sup − FL inf
Q1

25%
menores
Manual Técnico de Formando Mínimo17
Manual de Estatística Aplicada

A representação gráfica destas medidas designa-se de diagrama de


extremos e quartis e serve para realçar algumas características da amostra.
Os valores da amostra compreendidos entre os 1º e 3º quartis são
representados por um rectângulo (caixa) com a mediana indicada por uma
barra. Seguidamente, consideram-se duas linhas que unem os meios dos
lados do rectângulo com os extremos da amostra. Utilizando os valores do
exemplo 3 (Q1=0,795; Q3=1.48), resulta o diagrama da página anterior.

Esta distribuição está fortemente concentrada em torno de valores baixos da


variável (rácio de autonomia financeira), já que 75% dos valores se encontram
num espectro muito reduzido. Ao contrário, 25% das empresas correspondem
a um espectro muito amplo, entre 1,48 (Q3) e 6. Isto é, há muitas empresas
com baixo rácio de autonomia financeira (até valores um pouco acima de 1) e
poucas empresas com rácios elevados. A distribuição diz-se enviesada ou
simétrica à esquerda.

Ou seja, a partir deste diagrama, pode reconhecer-se a simetria ou


enviesamento dos dados e a sua maior ou menor concentração:

Dados simétricos Assimetria à direita Assimetria à esquerda

2.6. Medidas de assimetria

A assimetria é tanto maior quanto mais afastados estiverem os valores da


média, mediana e moda. Concretamente, se:
− X = Me = Mo, a distribuição diz-se simétrica
− X > Me > Mo, a distribuição diz-se assimétrica positiva (ou enviesada à
esquerda)
− X < Me < Mo, a distribuição diz-se assimétrica negativa (ou enviesada à
direita)

Manual Técnico de Formando 18


Manual de Estatística Aplicada

(Q3 − Q 2) − (Q 2 − Q1)
Coeficiente de assimetria de Bowley (g’):
Q3 − Q1

Se g’ = 0 ..............a distribuição é simétrica positiva ou equilibrada


Os quartis estão à mesma distância da mediana.
Se g’ > 0 ..............a distribuição é assimétrica positiva ou “puxada” para
a esquerda (se fôr = 1, assimetria é máxima)
A mediana desliza para o lado do Q1,
logo Q3-Q2 > Q2-Q1
Se g’ < 0 ..............a distribuição é assimétrica negativa ou “puxada” para
a direita (se fôr = -1, assimetria é máxima)
A mediana desliza para o lado do Q3,
logo Q2-Q1 > Q3-Q2

Q1 Q2
Q3
Assimétrica positiva

Q1 Q2 Q3
Assimétrica negativa

2.7. Medidas de dispersão

Duas distribuições podem distinguir-se na medida em que os valores da


variável se dispersam relativamente ao ponto de localização (média, mediana,
moda). Apresentam-se de seguida algumas das mais utilizadas, classificadas
consoante a medida de localização usada para referenciar a dispersão das
observações:

2.7.1 Medidas de dispersão absoluta

(i) Em relação à mediana


Amplitude inter-quartis = Q = Q3 – Q1
Significa que 50% das observações se situam num intervalo de
amplitude Q. Quanto maior (menor) a amplitude do intervalo, maior
(menor) a dispersão em torno da mediana.

Manual Técnico de Formando 19


Manual de Estatística Aplicada

(ii) Em relação à média


Variância amostral: mede os desvios quadráticos de cada valor
observado em relação à média, havendo pouca dispersão se os desvios
forem globalmente pequenos, e havendo muita dispersão se os desvios
forem globalmente grandes.

Dados não-classificados

( )
2
1 n
s =
2
xi − x
n i =1

Dados classificados
Variáveis discretas

( ) ( )
2
1 n n
2
s =
2
ni xi − x = fi xi − x
n i =1 i =1

Dados classificados
Variáveis contínuas

( ) ( )
2
1 n n
2
s =
2
ni ci − x = fi ci − x
n i =1 i =1

onde ci é o ponto médio de cada classe i.


Desvio-padrão: Medida de dispersão com significado real, mas que só é
possível calcular indirectamente, através da raiz quadrada da variância.
Está expressa nas mesmas unidades da variável.

2.7.2 Medidas de dispersão relativa

Muitas vezes, avaliar a dispersão através de um indicador de dispersão


absoluta não é conveniente, assim como comparara a dispersão de duas
distribuições, uma vez que estas medidas vêm expressas na mesma unidade
da variável – como é o caso, por exemplo, da variância. Assim, é de esperar
que os valores da variância sejam mais elevados quando os valores da variável
são maiores, o que não significa que a distribuição seja muito dispersa. Para

Manual Técnico de Formando 20


Manual de Estatística Aplicada

comparar diferentes distribuições de frequência são precisas medidas de


dispersão relativa:

Dispersão absoluta
Dispersão relativa =
Medida de localizaçã o em relação à qual está definida

Coeficiente de variação
s
CV = x100%
x

Outras medidas
Q3 − Q1
Q2

Estas medidas não estão expressas em nenhuma unidade, e permitem


comparar dispersões entre duas amostras, pois não são sensíveis à escala
(eventualmente diferente) em que as variáveis estejam expressas.

2.8. Análise da concentração

A noção de concentração apareceu associada ao estudo de desigualdades


económicas, como a repartição do rendimento ou a distribuição de salários. O
fenómeno de concentração está relacionado com a variabilidade ou dispersão
dos valores observados, apesar de não poder ser analisado através das
medidas de dispersão atrás descritas, que apenas medem a dispersão dos
valores em relação a um ponto. O objectivo é determinar como o atributo
(rendimento, salários, número de empresas) se distribui (se de forma mais ou
menos uniforme) pelos diferentes indivíduos da amostra (que devem ser
susceptíveis de serem adicionados, isto é, a análise de concentração não se
aplica a idade, altura, peso, etc).
Se o atributo estiver igualmente repartido pelos indivíduos, temos uma situação
extrema de igual distribuição; e vice-versa de o atributo estiver concentrado

Manual Técnico de Formando 21


Manual de Estatística Aplicada

num só indivíduo, temos uma situação extrema de máxima concentração. Em


geral, interessa medir o grau de concentração em situações intermédias.
Para analisar a concentração, existem dois instrumentos: a Curva de Lorenz e o Índice
de Gini.

2.8.1 Curva de Lorenz

O objectivo é comparar a evolução das frequências acumuladas (Fi = pi) com a


evolução da soma dos valores da variável (qi)

Quadro de dados

Classes de Quantidade Freq.relativa Proporção


ni
valores da variável atributo acumuladas atrib.acumul,
[x1; x2[ n1 yi p1 q1
[x2; x3[
[x3; x4[ nj yj pj qj

[xn-1; xn[ nn yn pn=1 qn=1


Total n

Os pontos (pi;qi) pertencem ao quadrado (0,1) por (0,1). A curva que os une é
a curva de Lorenz. Se houver igual distribuição, a frequência das observações
deve ter uma evolução igual à proporção do atributo correspondente, isto é,
pi=qi. Nesse caso, a curva de Lorenz coincide com a diagonal do quadrado,
que é designada de recta de igual repartição. Quanto mais a curva se afastar
da recta, maior é a concentração. A zona entre a diagonal e acurva de Lorenz
designa-se, por isso, de zona de concentração.

2.8.2 Índice de Gini

O índice de Gini é calculado pela seguinte expressão

Manual Técnico de Formando 22


Manual de Estatística Aplicada

n −1
( pi − qi )
G= i =1
n −1
pi
i =1

Quando G = 0, a concentração é nula, havendo igual repartição. Caso o valor


de G seja 1, a concentração será máxima. O valor de G varia entre 0 e 1, e
quanto maior o seu valor, maior a concentração.

Exemplo
Considere-se a seguinte amostra de dimensão 200, referente aos lucros
obtidos por empresas de um dado sector industrial, expressas numa
determinada unidade monetária.

Lucros ni Lucro total pi (=Fi) qi


[0; 50[ 20 600 0.1 0.02
[50; 100[ 60 4400 0.4 0.16(6)
[100; 200[ 80 14000 0.8 0.63(3)
[200; 300[ 30 7500 0.95 0.883(3)
[300; 500] 10 3500 1 1
Total 200 30000

Curva de Lorenz

0,8

0,6

0,4

0,2

0
0 0,2 0,4 0,6 0,8 1

Manual Técnico de Formando 23


Manual de Estatística Aplicada

n −1
( pi − qi )
0,546(6)
G= i =1
n −1
= = 0,243
2,25
pi
i =1

Tanto pela análise da Curva de Lorenz, como pelo valor do Índice de Gini,
conclui-se que esta amostra apresenta concentração moderada, encontrando-
se os valores razoavelmente repartidos.

2.9. Estatística Descritiva Bidimensional

Numa situação em que se observam pares de valores (xi; yj), pode ter interesse
estudar as relações porventura existentes entre os dois fenómenos,
nomeadamente relações estatísticas. Não se trata de estudar relações
funcionais (isto é, a medida em que o valor de uma variável é determinado
exactamente pela outra), mas sim de estudar a forma como a variação de uma
variável poderá afectar a variação da outra, em média. (por exemplo, o peso e
a altura normalmente estão relacionados, mas a relação não é determinística).
Duas variáveis ligadas por uma relação estatística dizem-se correlacionadas.
Se as variações ocorrem, em média ou tendencialmente, no mesmo sentido, a
correlação diz-se positiva. Se ocorrem em sentidos opostos, a correlação diz-
se negativa.

Trata-se então de estudar se:


- Se existe alguma correlação entre os fenómenos ou variáveis
observadas
- A existir, se é traduzível por alguma lei matemática, nem que
tendencialmente
- A existir, se é possível medi-la

2.9.1 Diagrama de dispersão

Manual Técnico de Formando 24


Manual de Estatística Aplicada

Para ilustrar o estudo de dados bivariados (valores emparelhados), considere-


se o exemplo seguinte referente ao peso e altura de 10 indivíduos:

Indivíduo Peso (kg) Altura (cm)


A 72 175
B 65 170
C 80 185
D 57 154
E 60 165
F 77 175
G 83 182
H 79 178
I 67 175
J 68 173

A representação gráfica dos dados bivariados designa-se de diagrama de


dispersão. O diagrama de dispersão é uma representação gráfica em que cada
par de dados (xi, yj) é representado por um ponto de coordenadas num sistema
de eixos ordenados.

Diagrama de Dispersão

190

180
Altura (cm)

170

160

150
50 60 70 80 90
Peso (kg)

2.9.2 Regressão Simples

Por vezes, a representação gráfica do conjunto de dados bivariados sugere o


ajustamento de uma recta a este conjunto de pontos, indicando a existência de
uma tendencial correlação linear entre as duas variáveis, como é o caso do

Manual Técnico de Formando 25


Manual de Estatística Aplicada

exemplo atrás descrito. A essa recta chama-se recta de regressão de y sobre


x, que permite descrever como se reflectem em y (variável dependente ou
explicada) as modificações processadas em x (variável independente ou
explicativa). Essa recta torna possível, por exemplo, inferir (em média) a altura
de um indivíduo, conhecendo o respectivo peso.
Um dos métodos mais conhecidos de ajustar uma recta a um conjunto de
dados é o Método dos Mínimos Quadrados, que consiste em determinar a recta
que minimiza a soma dos quadrados dos desvios entre os verdadeiros valores
de y e os obtidos a partir da recta que se pretende ajustar. Obtém-se assim a
recta de regressão ou recta dos mínimos quadrados. Assim, se a recta de
regressão obedecer à seguinte fórmula geral:

y = a + bx

o método permite minimizar a soma dos desvios quadráticos yi - (a + bxi).


Assim sendo, obtém-se:
xi y i − n x y
b= 2
e a = y − bx
2
xi − n x

Matematicamente, b designa o declive da recta. Em termos estatísticos, b


corresponde ao coeficiente de regressão de y sobre x, que indica a variação
média de y que acompanha uma variação unitária de x.

O valor de a designa a ordenada na origem, isto é, o valor que y assume


quando x=0.
No exemplo, vem:

Recta de Regressão

190

y = 0,9016x + 109,36
180
Altura (cm)

170

160
Manual Técnico de Formando 26

150
Manual de Estatística Aplicada

A equação desta recta traduz-se em


Altura = 109,36 + 0,9016 x Peso
Isto é, se um indivíduo pesar 70 kg, a altura esperada será de 109,36 + 0,9016
x 70 = 172,472.
Por cada kg de peso adicional, espera-se que a altura do indivíduo aumente
0,9016 cm.

2.9.3 Correlação linear

Quando, quer através do diagrama de dispersão, quer através da recta de


regressão, se verifica a existência de uma associação linear entre as variáveis,
pode-se medir a maior ou menor força com que as variáveis se associam
através do coeficiente de correlação linear r:

s xy n
r= , s xy = ( xi − x)( y i − y )
s xx s yy i =1

Este indicador da correlação tem a vantagem de não depender das unidades


ou da ordem de grandeza em que as variáveis estão expressas. O coeficiente
de correlação linear está sempre compreendido entre –1 e 1.
Se r > 0, então pode dizer-se que existe uma correlação positiva entre as
variáveis, isto é, as variáveis variam no mesmo sentido: um aumento
(diminuição de x) provoca um aumento (diminuição) de y, mas menos que
proporcional.
Se r < 0, então pode dizer-se que existe uma correlação negativa entre as
variáveis, isto é, as variáveis variam em sentidos opostos: um aumento
(diminuição de x) provoca uma diminuição (aumento) de y, mas menos que
proporcional.
Se r = 0, então pode dizer-se que as variáveis não estão correlacionadas
linearmente.
Antes de se efectuar um estudo de correlação, deve-se procurar justificação
teórica para a existência ou inexistência de correlação. Caso contrário, poderá
acontecer que variáveis sem relação de causalidade entre si, variem num certo

Manual Técnico de Formando 27


Manual de Estatística Aplicada

sentido por razões exteriores. A esta correlação ilusória, chama-se correlação


espúria.

Nos extremos, se r = 1 ou se r = -1, então pode dizer-se que existe uma


correlação positiva ou negativa perfeita, respectivamente, entre as variáveis,
isto é, uma variação numa variável provoca na outra uma variação
exactamente proporcional no mesmo sentido ou em sentido contrário. Isto é, a
correlação é máxima.

No exemplo, r = 0,90681871, isto é, existe uma correlação positiva forte entre


as duas variáveis, quase perfeita.

2.9.4 Correlação ordinal

Por vezes, as variáveis vêm expressas numa escala ordinal, isto é, interessa
mais conhecer a ordenação dos valores do que os valores observados
propriamente ditos. Neste caso, em vez do coeficiente de correlação linear,
calcula-se o coeficiente de correlação ordinal:

n
2
di
x y
rs = 1 − 6 i =1
, d i = Ri − Ri
n(n − 1)2

Ordens (“ranks”) das


observações de X e
de Y, respectivamente

Exemplo
Considere que 10 estudantes foram sujeitos a uma prova de avaliação no início
e no final do curso. No quadro abaixo, encontram-se as ordenações desses 10
estudantes segundo as classificações obtidas em cada uma das provas:

Manual Técnico de Formando 28


Manual de Estatística Aplicada

Prova inicial Prova final di


Aluno
Rix Riy Rix - Riy
A 1 1 0
B 3 2 1
C 2 3 -1
D 5 4 1
E 7 6 1
F 8 8 0
G 9 7 2
H 10 9 1
I 6 10 -4
J 4 5 -1

Como não dispomos das classificações dos alunos, mas sim das ordenações
das classificações (do 1º ao 10º classificado), para avaliar a correlação
existente entre as 2 provas é necessário calcular o coeficiente de correlação
ordinal:

n
2
di
6 x(0 + 1 + 1 + 1 + 1 + 0 + 4 + 1 + 16 + 1)
rs = 1 − 6 i =1
= 1− = 0,8424
n(n − 1)2
10 x(100 − 1)

A correlação é positiva e elevada (rs varia entre –1 e 1), isto é, os alunos que
tiveram boa nota na prova inicial tiveram, em média, igualmente boa nota na
prova final.

Manual Técnico de Formando 29


Manual de Estatística Aplicada

ESTATÍSTICA DESCRITIVA
Exercícios resolvidos
Exercício 1
Considere a distribuição de 1000 empresas de um sector de actividade
segundo os resultados líquidos (em milhares de u.m.):

Resultado Líquido Frequência. Relativa (%)


[0; 1[ 10
[1; 3[ 25
[3; 5[ 35
[5; 15[ 15
[15; 25[ 10
[25; 50[ 5
Total 100

a) Represente a distribuição graficamente.


b) Determine a média e a moda da distribuição. Qual o significado dos
valores encontrados?
c) Calcule as frequências acumuladas e represente-as graficamente.
Determine a mediana da distribuição.
d) Determine os quartis da distribuição. Faça a sua representação gráfica.
e) Analise a (as)simetria da distribuição em causa.
f) Analise a concentração através do Índice de Gini e da Curva de Lorenz.

Resolução

a)
fi/hi
0,2
0,18
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
0 10 20 30 40 50 60

Manual Técnico de Formando 30


Manual de Estatística Aplicada

X fi hi fi/hi Fi ci
[0; 1[ 10% 1 0.1 10% 0.5
[1; 3[ 25% 2 0.125 35% 2
[3; 5[ 35% 2 0.175 70% 4
[5; 15[ 15% 10 0.015 85% 10
[15; 25[ 10% 10 0.01 95% 20
[25; 50] 5% 25 0.002 100% 37.5
Total 1

n n
1
b) x = ni c i = f i ci = (0,5 x10%) + (2 x 25%) + ... + (37.5 x5%) = 7,325
n i =1 i =1

Em média, o resultado líquido de uma empresa é de 7325 unidades


monetárias.

A classe modal é aquela a que corresponde maior frequência por unidade de


amplitude. Neste caso, o maior valor de fi / hi é 0,175. correspondente à classe
[3; 5[, isto é, os valores de resultado líquido mais prováveis para uma empresa
situam-se entre 3000 u.m. e 5000 u.m.

c) A representação gráfica das frequências acumuladas (ver tabela) designa-se


de polígono integral:

Fi

0,8

0,6

0,4

0,2

0
0 20 40 60 80 100 120

Classe mediana (classe a que corresponde uma frequência acumulada 0,5): [3; 5[
3 : Fi=0,35
5 : Fi = 0,7

Manual Técnico de Formando 31


Manual de Estatística Aplicada

Cálculo da mediana:
0,7 - 0,35 ------------ 5 - 3
0,5 – 0,35 -------------- Me – 3
Me = 3 + ((2x0,15)/0,35) = 3,857
50% das empresas apresentam resultados líquidos inferiores a 3857 u.m.

d) Classe a que pertence Q1 (classe a que corresponde uma frequência


acumulada 0,25): [1; 3[
1 : Fi=0,1
3 : Fi = 0,35

Cálculo do Q1:
0,35 - 0,1 ------------ 3 - 1
0,25 – 0,1 -------------- Q1 – 1
Q1 = 1 + ((2x0,15)/0,25) = 2,2
25% das empresas apresentam resultados líquidos inferiores a 2200 u.m.

Classe a que pertence Q3 (classe a que corresponde uma frequência


acumulada 0,75): [5; 15[
5 : Fi=0,7
15 : Fi = 0,85

Cálculo do Q3:
0,85 - 0,7 ------------ 15 - 5
0,75 – 0,7 -------------- Q3 – 5
Q3 = 1 + ((10x0,05)/0,15) = 8,333(3)
75% das empresas apresentam resultados líquidos inferiores a 8333 u.m.

e)
(Q3 − Q 2) − (Q 2 − Q1) (8,333 − 3,857) − (3,857 − 2,2)
g' = = = 0,4596 > 0
Q3 − Q1 8,333 − 2,2

A distribuição é assimétrica positiva ou enviesada à esquerda.

Manual Técnico de Formando 32


Manual de Estatística Aplicada

f)

X fi ni ci Atributo pi (=Fi) qi
[0; 1[ 10% 1000x10%=100 0.5 100x0.5=50 0.1 0.007
[1; 3[ 25% 250 2 250x2=500 0.35 0.075 50 + 500 + 1400
[3; 5[ 35% 350 4 1400 0.7 0.266 7325
[5; 15[ 15% 150 10 1500 0.85 0.471
[15; 25[ 10% 100 20 2000 0.95 0.744
[25; 50[ 5% 50 37.5 1875 1 1
Total 1 n=1000 7325

Res.Liq.Totais

(0,1 − 0,007) + ... + (0,95 − 0,744)


G= = 0,47
0,1 + 0,35 + 0,7 + 0,85 + 0,95

A distribuição dos resultados líquidos Curva de Lorenz

apresenta concentração média (G=0,5 1


corresponde ao centro da escala
possível, entre 0 e 1). Por exemplo, 0,8

70% das empresas apresentavam


0,6
resultados até 5000 u.m., mas isso
representava apenas 26,6% do total 0,4

de resultados das empresas da


0,2
amostra, o que sugere um tecido
empresarial com muitas PMEs, mas
0
em que cada uma tem baixo resultado 0 0,2 0,4 0,6 0,8 1

líquido.

Manual Técnico de Formando 33


Manual de Estatística Aplicada

Exercício 2
O quadro abaixo apresenta as vendas e as despesas em publicidade (ambas
em milhares de u.m.) de uma empresa no período de 7 anos:
Ano Vendas Desp. Publicidade
1 10 3
2 13 3
3 18 5
4 19 6
5 25 8
6 30 9
7 35 13

a) Compare as vendas e as despesas em publicidade quanto à dispersão.


b) Analise a correlação existente entre volume e custo de produção.
c) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que
exprima as vendas em função das despesas em publicidade.

Resolução

a) Para comparar a dispersão das duas distribuições, é necessário calcular os


coeficientes de variação (medidas de dispersão relativa):
s
CV =
x

Dados não-classificados
n n
1 1
x = xi = 21,429 y = yi = 6,714
n i =1 n i =1

(xi − x ) (yi − y )
n 2 n 2
2 1 2 1
sx = = 69,9408 sy = = 11,0651
n i =1 n i =1

sx 69,9408 sy 11,0651
CV x = = = 0,39 < CV y = = = 0,495
x 21,429 y 6,714

A dispersão das despesas em publicidade é superior à dispersão das vendas.

Manual Técnico de Formando 34


Manual de Estatística Aplicada

b)
1
s xy [(10 − 21,429)(3 − 6,714) + ... + (35 − 21,429)(13 − 6,714)]
r= = 7 = 0,98
s xx s yy 69,9408 x 11,0651

Existe uma correlação positiva linear forte entre as duas variáveis. Em média,
quando as despesas em publicidade aumentam (diminuem), as vendas
aumentam (diminuem) de forma quase exactamente proporcional.

Recta de Regressão

c)
y = 2,4649x + 4,8782

30

20
Vendas

10

0
3 8 13
Desp. Public.

Manual Técnico de Formando 35


Manual de Estatística Aplicada

ESTATÍSTICA DESCRITIVA
Exercícios para resolver

1. O quadro que se segue descreve a distribuição do rendimento anual (em


milhares de u.m.) de 2500 famílias consideradas representativas da população
de um país:

Rendimento anual Nº de famílias


[0, 1[ 250
[1, 2[ 375
[2, 5[ 625
[5, 15[ 750
[15, 25[ 375
[25, 50[ 125

a) Represente as frequências acumuladas graficamente.


b) Determine o rendimento médio e mediano.
c) Determine os três primeiros quartis. Que indicações lhe dão sobre a
(as)simetria?
d) O que pode concluir quanto à dispersão?
e) Calcule o índice de Gini. O que conclui sobre a concentração do
rendimento?

2. Considere a seguinte tabela que representa a distribuição dos empregados


de uma instituição bancária segundo a remuneração bruta mensal (em milhares
de unidades monetárias):

Frequência. Relativa
Remuneração
(%)
[60; 80[ 7.8
[80; 100[ 15.2
[100; 120[ 31.2
[120; 140[ 19.5
[140; 160[ 7.2
[160; 200[ 8.1
[200; 250[ 5.4
[250, 300[ 2.6
[300; 350] 3.0
Total 100

Manual Técnico de Formando 36


Manual de Estatística Aplicada

a) Calcule os quartis e faça a sua representação gráfica. O que pode


concluir?
b) Analise a dispersão da distribuição em causa.
c) Analise a assimetria da distribuição em causa.

3. Os dados seguintes referem-se ao peso, expresso em gramas, do conteúdo


de uma série de 100 garrafas que, no decurso de um teste, saíram de uma
linha de enchimento automático:

Frequência. Relativa
Peso (em gramas)
(%)
[297; 298[ 8
[298; 299[ 21
[299; 300[ 28
[300; 301[ 15
[301; 302[ 11
[302; 303[ 10
[303; 304[ 5
[304; 305[ 1
[305; 306] 1
Total 100

a) Represente graficamente os dados acima.


b) Calcule as frequências acumuladas e represente-as graficamente.
c) Determine o peso médio, mediano e modal. Qual o seu significado?
d) Determine os quartis da distribuição. Faça a sua representação gráfica.
e) Analise a dispersão do peso das garrafas.

4. Numa faculdade, mediram-se as alturas de 100 alunos do primeiro ano:

Altura (em metros) Nº Alunos


[1,4; 1,5[ 2
[1,5; 1,55[ 10
[1,55; 1,6[ 25
[1,6; 1,65[ 13
[1,65; 1,7[ 17
[1,7; 1,75[ 20
[1,75; 1,8[ 10
[1,8; 1,9] 3
Total 100

Manual Técnico de Formando 37


Manual de Estatística Aplicada

a) Represente graficamente os dados acima.


b) Determine a altura média e a altura modal. Qual o seu significado?
c) Calcule as frequências acumuladas e represente-as graficamente.
d) Determine os quartis da distribuição e diga qual o seu significado.
e) Faça a representação gráfica dos quartis.
f) Analise a dispersão da distribuição.
g) Analise a (as)simetria da distribuição.

5. Em determinada central telefónica, registou-se a duração das chamadas


realizadas em Dezembro de 2001:

Duração (em minutos) Nº Chamadas


[0; 5[ 2000
[5; 10[ 1500
[10; 20[ 1000
[20; 30[ 300
[30; 50] 200
Total 5000

a) Represente graficamente as frequências simples e acumuladas.


b) Determine a duração média das chamadas e respectivo desvio-padrão.
c) Qual a duração da chamada mediana? Qual o significado do valor
encontrado?
d) Sabe-se que as chamadas realizadas durante o ano de 2001
apresentaram uma duração média de 10 minutos, com desvio-padrão de
8,7 minutos. Compare, quanto à dispersão, as chamadas efectuadas em
Dezembro com a s que tiveram lugar durante todo o ano de 2001.

6. Uma empresa coligiu dados relativos à produção de 12 lotes de um tipo


especial de rolamento. O volume de produção e o custo de produção de cada
lote apresentam-se na tabela:

Manual Técnico de Formando 38


Manual de Estatística Aplicada

Lote Volume (unidades) Custo (contos)


1 1500 3100
2 800 1900
3 2600 4200
4 1000 2300
5 600 1200
6 2800 4900
7 1200 2800
8 900 2100
9 400 1400
10 1300 2400
11 1200 2400
12 2000 3800

a) Analise a correlação existente entre volume e custo de produção.


b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que
exprima o custo em função do volume de produção.

7. Um conjunto de empresas do sector da Construção e Obras Públicas


cotadas na Bolsa de Valores foram analisadas relativamente aos seguintes
indicadores:
EPS (Earnings per Share): Resultado Líquido por Acção
PBV (Price/Book Value): Preço / Situação Líquida por Acção

Empresa EPS ($) Custo (mil. u. m.)


1 191 0.9
2 32 1.0
3 104 0.8
4 117 0.8
5 210 1.5
6 95 0.7
7 65 0.9
8 201 1.3
9 81 0.4

a) Analise a correlação existente entre aqueles dois indicadores.


b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que
exprima a variável EPS em função de PBV.

Manual Técnico de Formando 39


Manual de Estatística Aplicada

8. Recolheu-se uma amostra em 17 cidades do país relativamente aos


seguintes indicadores:
Ri: Rendimento médio mensal na cidade i (em 106 unidades monetárias)
Gi: Gasto médio mensal em bens de luxo na cidade i (em 106 unidades
monetárias)

Ri Gi Ri Gi

125 54 144 61
127 56 147 62
130 57 150 62
131 57 152 63
133 58 154 63
135 58 160 64
140 59 162 65
143 59 165 66
169 66

a) Estude a correlação entre rendimento e despesas em bens de luxo.


b) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que
exprima a variável Gi em função de Ri.

Manual Técnico de Formando 40


Manual de Estatística Aplicada

3. ESTATÍSTICA INDUTIVA

A estatística indutiva é o ramo da estatística que se ocupa em inferir das


conclusões retiradas sobre a amostra para a população. Claro que o processo
de indução implica um certo grau de incerteza associado à tentativa de
generalização de conclusões da “parte” (amostra) para o “todo” (universo). O
conceito de probabilidade vai ter aqui, então, um papel fundamental. Isto é, não
vai ser possível afirmar com toda a certeza que o comportamento da amostra
ilustra perfeitamente o comportamento do universo, mas apenas que o faz com
forte probabilidade.
De seguida, serão apresentadas algumas noções simples de probabilidades e
funções de probabilidade, que serão úteis a aplicações de estatística indutiva
relacionadas com controlo estatístico de qualidade e fiabilidade de
componentes e sistemas.

3.1. Noções básicas de probabilidade

A teoria das probabilidades é um ramo da matemática extremamente útil para o


estudo e a investigação das regularidades dos chamados fenómenos
aleatórios. O exemplo seguinte pretende clarificar o que vulgarmente é
designado por experiência aleatória.

Exemplo
No lançamento de uma moeda, os resultados possíveis são “cara” ou “coroa”.
Em cada lançamento não é possível prever o resultado que se irá obter,
embora ele seja determinado por causas bem definidas.

Manual Técnico de Formando 41


Manual de Estatística Aplicada

Deve entender-se como experiência qualquer processo ou conjunto de


circunstâncias capaz de produzir resultados observáveis; quando uma
experiência está sujeita à influência de factores casuais e conduz a resultados
incertos, diz-se que a experiência é aleatória.
Fundamentalmente, as experiências aleatórias caracterizam-se por:
(i) poder repetir-se um grande número de vezes nas mesmas condições
ou em condições muito semelhantes
(ii) cada vez que a experiência se realiza, obtém-se um resultado
individual, mas não é possível prever exactamente esse resultado
(iii) os resultados das experiências individuais mostram-se irregulares,
mas os resultados obtidos após uma longa repetição da experiência
patenteiam uma grande regularidade estatística no seu conjunto

Alguns autores consideram inserido no conceito de experiência aleatória um


outro, o de espaço de resultados. O espaço de resultados corresponde ao
conjunto formado por todos os resultados possíveis de uma experiência
aleatória. Por exemplo, num lançamento de um dado ordinário tem-se que o
espaço de resultados é {1,2,3,4,5,6}.
A importância da definição deste conceito advém sobretudo por ser o meio
empregue para a definição de acontecimentos, que não sei mais que
subconjuntos do espaço de resultados. Por exemplo, no lançamento de um
dado podem definir-se, para além dos 6 acontecimentos elementares
correspondentes à saída de cada uma das faces, outros como “saída de um
número ímpar” definido pelo subconjunto {1,3,5}.
Definidos como conjuntos, aos acontecimentos é aplicável toda a construção
disponível para aqueles, isto é, existe um paralelismo perfeito entre álgebra de
conjuntos e álgebra de acontecimentos:
(i) O acontecimento que contem todos os elementos do espaço de
resultados chama-se acontecimento certo
(ii) O acontecimento que não contem qualquer elemento do espaço de
resultados chama-se acontecimento impossível
(iii) Dois acontecimentos são mutuamente exclusivos se não têm em
comum qualquer acontecimento do espaço de resultados

Manual Técnico de Formando 42


Manual de Estatística Aplicada

(iv) A união de dois acontecimentos A e B representa-se por A ∪ B e é


formado pelos elementos que pertencem a pelo menos um dos dois,
A ou B
(v) A intersecção de dois acontecimentos A e B representa-se por A ∩ B e
é formado pelos elementos comuns a A e B

Probabilidade de um acontecimento é expressa na escala de 0 a 1, sendo 0 a


probabilidade associada a um acontecimento impossível e 1 a probabilidade
associada a um acontecimento certo. A primeira definição foi proposta por
Laplace em 1812. Pode definir-se probabilidade de um acontecimento A
como sendo:
Número de casos favoráveis ao acontecimento A
P(A) =
Número total de casos possíveis na exp. aleatória

Uma das principais críticas a esta definição é a de que ela só é aplicável


quando o espaço de resultados é finito e os seus elementos possuem igual
probabilidade; daí que ela surja muito ligada aos “jogos de azar”, que possuem
essas propriedades. É o que acontece com as duas faces de uma moeda, as
52 cartas de um baralho, as 6 faces de um dado, etc.

Para se analisar a probabilidade de ocorrência de determinados


acontecimentos, deve ter-se em atenção o seguinte:
− Dois acontecimentos são ditos mutuamente exclusivos se não puderem
acontecer ao mesmo tempo; se dois acontecimentos forem mutuamente
exclusivos, então:
P(A ∩ B) = 0
− A probabilidade de união de dois acontecimentos mutuamente
exclusivos é dada por
P (A ∪ B) = P(A) + P(B)
− Para dois acontecimentos quaisquer, vem que
P (A ∪ B) = P(A) + P(B) - P(A ∩ B)
− Dois acontecimentos dizem-se complementares se:
P(A) = 1 – P( A )

Manual Técnico de Formando 43


Manual de Estatística Aplicada

− Dois acontecimentos são ditos independentes se a ocorrência de um


não afectar a probabilidade de ocorrência de outro; a probabilidade de
ocorrência de dois ou mais acontecimentos independentes é o produto
das probabilidades dos respectivos acontecimentos, isto é:
P(A ∩ B) = P(A) x P(B)

Exemplo
Em determinada população, 9,8% das pessoas adquirem a revista A, 22,9% a
revista B e 5,1% ambas.
a) Qual a probabilidade de uma pessoa adquirir pelo menos uma das revistas?
b) Qual a probabilidade de uma pessoa adquirir somente a revista A?

Resolução
a) P(A ∪ B) = P(A)+P(B)-P(A ∩ B) = 0,098+0,229-0,051 = 0,276

b) P(A ∩ B ) = P(A) - P(A ∩ B) = 0,098 – 0,051 = 0,047

Após a apresentação desta definição, convém ainda referir que, numa outra
perspectiva, a da chamada teoria frequencista, a probabilidade de um
acontecimento é definida como sendo o valor para o qual tende a frequência
relativa do acontecimento quando o número de repetições da experiência
aumenta.

3.2. Probabilidade condicionada

Exemplo:
Um grupo de pessoas é classificado de acordo com o seu peso e a incidência
de hipertensão. São as seguintes as proporções das várias categorias:
Obeso Normal Magro Total
Hipertenso 0,1 0,08 0,02 0,2
Não Hipertenso 0,15 0,45 0,2 0,8
Total 0,25 0,53 0,22 1,00
a) Qual a probabilidade de uma pessoa escolhida ao acaso ser hipertensa?

Manual Técnico de Formando 44


Manual de Estatística Aplicada

b) Qual a probabilidade de uma pessoa obesa ser hipertensa?


Resolução
a) Basta ver que a proporção de hipertensos é de 20%
b) Há que tomar em atenção que o que se pretende é a proporção de
0,1
hipertensos na população de obesos, isto é = 0,4 . Por outras palavras,
0,25
pretende-se calcular a probabilidade do acontecimento “ser hipertenso”,
sabendo que ocorreu o acontecimento “ser obeso”. Repare-se que este
quociente resulta da divisão entre a probabilidade de uma pessoa ser
hipertensa e obesa e a probabilidade de uma pessoa ser obesa. Pode
escrever-se que a probabilidade pretendida é dada por:
P( H ∩ O)
P( H / O) =
P (O)
onde P(H/O) é a probabilidade de ocorrer o acontecimento “ser hipertenso”,
sabendo que ocorreu ou condicionado pelo acontecimento “ser obeso”.
Este exemplo corresponde ao cálculo de uma probabilidade condicionada.

Como se viu anteriormente, dois acontecimentos são ditos independentes se a


ocorrência de um não afectar a probabilidade de ocorrência de outro, isto é, se:
P(A / B) = P(A) e se P(B / A) = P(B).

Teorema de Bayes
Seja B um acontecimento que se realiza se e só se um dos acontecimentos
mutuamente exclusivos A1, A2,…An se verifica. Aos acontecimentos A1, A2,…An
dá-se o nome de acontecimentos antecedentes. O teorema de Bayes permite
calcular a probabilidade à posteriori de A1, A2,… An, isto é, a probabilidade de
ocorrência de A1, A2,… An calculadas sob a hipótese de que B (acontecimento
consequente) se realizou. De acordo com este teorema:
P ( Ai ).P ( B / Ai )
P ( Ai / B ) = n
P ( Ai ).P ( B / Ai )
i =1

Este Teorema utiliza-se em situações em que a relação causal está invertida.

Manual Técnico de Formando 45


Manual de Estatística Aplicada

n
P ( Ai ).P ( B / Ai ) designa-se de probabilidade total de ocorrência do
i =1

acontecimento B, isto é, é a probabilidade de ocorrência do acontecimento


consequente B face a todos os possíveis acontecimentos A1, A2,… An que o
podem ter antecedido (ou causado a sua ocorrência).

Exemplo:
Considere duas urnas, A e B. A urna A contém 1 bola branca e 999 bolas
pretas e a urna B contém 1 bola preta e 999 bolas brancas. É escolhida uma
urna ao acaso, da qual é extraída uma bola. Se esta é preta, qual a
probabilidade de que a urna A tenha sido escolhida?

Resolução
Acontecimentos antecedentes
A: escolha da urna A, com probabilidade 50%
B: escolha da urna B, com probabilidade 50%
Acontecimento consequente
C extracção de bola preta, cuja probabilidade depende (está condicionada)
pela urna escolhida
P(C/A) = 999/1000 = 0,999
P(C/B) = 1/1000 = 0,001

P (C ∩ A)
Logo, pelo Teorema de Bayes, vem que P(A/C) =
P ( A) xP (C / A) + P ( B ) xP (C / B )
0,5 x0,999
Substituindo pelos respectivos valores, P(A/C) = = 0,999
0,5 x0,999 + 0,5 x0,001

3.3. Funções de probabilidade

A probabilidade associada aos acontecimentos possíveis numa experiência


aleatória obedecem, por vezes, a um padrão. Se associarmos a uma
experiência aleatória uma variável X (por exemplo, associar aos resultados da
experiência lançamento de um dado - que são 6 (saída de face 1 a 6) – a

Manual Técnico de Formando 46


Manual de Estatística Aplicada

variável X:“Nº da face resultante do lançamento de um dado”), então pode ser


constituída uma lei ou função de probabilidade (f(x)) dessa variável X, tal que
f(x) = P(X=xi)

Por exemplo, para X: nº da face resultante do lançamento de um dado, vem


que:
xi 1 2 3 4 5 6
f(xi) 1/6 1/6 1/6 1/6 1/6 1/6

que se designa por lei uniforme.

Algumas leis de probabilidade servem para explicar (ou aplicam-se a) um maior


número de fenómenos estatísticos do que outras. Entre estas, contam-se a lei
Binomial, a lei de Poisson e a lei Exponencial.

(i) Lei Binomial


Há alguns acontecimentos que são constituídos por um conjunto de
experiências independentes, cada uma das quais com apenas dois estados
possíveis de ocorrência e com uma probabilidade fixa de ocorrência para cada
um deles. Por exemplo, os produtos resultantes de uma fábrica podem ser
classificados como sendo defeituosos ou sendo não defeituosos, e o facto de
um ter saído (ou não) defeituoso não influencia os outros serem (ou não). A
distribuição das duas classes possíveis é discreta e do tipo binomial.
No exemplo anterior, consideremos uma amostra de n artigos retirados da
produção total, em relação aos quais se pretende identificar a variável X: “Nº de
artigos defeituosos nos n que constituem a amostra”. A probabilidade de
ocorrência do acontecimento “artigo é defeituoso” é dada por p: incidência de
defeituosos na produção (convenientemente calculada através de métodos de
estimação). A probabilidade do acontecimento complementar “artigo é não-
defeituoso” é dada por
1–p=q

Manual Técnico de Formando 47


Manual de Estatística Aplicada

A probabilidade associada a x artigos defeituosos é dada por px (p x p x p x


p...x vezes). Se há x defeituosos, restam n-x artigos não-defeituosos, com
probabilidade dada por qn-x. Para calcular o número exacto de combinações de
x artigos defeituosos com n-x artigos não-defeituosos, utiliza-se a figura
“combinações de n, x a x, oriunda das técnicas de cálculo combinatório. Vem
então que a probabilidade de existência de x defeituosos (e logo n-x não
defeituosos) é igual a:
n!
f ( x) = C xn p x q n − x = p x q n− x
(n − p )! p!

sendo que X segue Bi (n;p), sendo n e p os parâmetros caracterizadores da lei.


Um acontecimento deve ter 4 características para que se possa associar a uma
lei binomial:
- número fixo de experiências (n)
- cada experiência ter apenas duas classes de resultados possíveis
- todas as experiências terem igual probabilidade de ocorrência (p)
- as experiências serem independentes

Exemplo:
Se 20% das bobinas de um determinado cabo eléctrico forem defeituosas,
calcule a probabilidade de, entre as 4 bobines necessárias a um determinado
cliente, escolhidas ao acaso uma ser defeituosa.
Resolução:
X: número de bobines defeituosas no conjunto de 4 bobines necessárias a um
determinado cliente (0,1,2,3,4)
n=4 p=0,2 q=1-p=0,8
P(X=1)=C4p1q4-1 = 4*0,2*0,83 = 0,4096 = 41%
1

Em sistemas eléctricos de energia é possível, por exemplo, aplicar a


distribuição binomial quando se pretende calcular a fiabilidade de uma central
eléctrica, com várias unidades iguais e admitindo que cada unidade apenas
pode residir em dois estados, a funcionar ou avariada.

Manual Técnico de Formando 48


Manual de Estatística Aplicada

(ii) Lei de Poisson


A lei de Poisson (ou lei dos acontecimentos raros ou cadenciados) dá a
probabilidade de um acontecimento ocorrer um dado número de vezes num
intervalo de tempo ou espaço fixado, quando a taxa de ocorrência é fixa (por
exemplo, nº de chamadas que chegam a uma central telefónica por minuto; nº
de varias que ocorrem numa máquina por dia). Os números de acontecimentos
de “sucesso” ocorridos em diferentes intervalos são independentes. O
parâmetro caracterizador da distribuição de Poisson é λ, que corresponde ao
número médio de ocorrências por unidade de tempo ou espaço.
Como o número médio de ocorrências do acontecimento é proporcional à
amplitude do intervalo de tempo ou espaço a que se refere, a variável X: “Nº de
ocorrências do acontecimento no intervalo [0,t[” segue lei de Poisson de
parâmetro λt (isto é, se para 1 unidade de tempo o nº médio de ocorrências é
λ, para t unidades de tempo o número médio de ocorrências é λt). A expressão

(λt )x e −λt
x!
dá a probabilidade de acontecerem x ocorrências no intervalo de tempo [0,t[, e
corresponde à expressão da lei de probabilidade de Poisson : Po(λt)

Exemplo:
O número médio de chamadas telefónicas a uma central, por minuto, é 5. A
central só pode atender um número máximo de 8 chamadas por minuto. Qual a
probabilidade de não serem atendidas todas as chamadas no intervalo de
tempo de 1 minuto?

Resolução:
X: número de chamadas telefónicas atendidas numa central, por minuto
(0,1,2,3,4, 5, 6, 7, 8)
λ=5 p=0,2 q=1-p=0,8
−5 x
8
e 5
P(X ≤ 8) = = 0,932 Logo P(X>8) = 1-0,932 = 0,068
x =0 x!

Se X fôr o “Nº de avarias que ocorrem no intervalo de tempo [0,t[”, então a


probabilidade de não ocorrerem avarias nesse intervalo, isto é, a fiabilidade do
componente/sistema como função do tempo, é dada por:

Manual Técnico de Formando 49


Manual de Estatística Aplicada

(λt )0 e −λt = e −λt


0!

(iii) Lei Exponencial


Seja T a variável “Tempo ou espaço que decorre entre ocorrências
consecutivas de um acontecimento”. Então T segue lei exponencial Exp (λ),
sendo
1
λ
o tempo que, em média, decorre entre ocorrências sucessivas do
acontecimento.
Note-se que é possível estabelecer uma relação entre a lei exponencial e a lei
de Poisson. Assim, se X fôr o “Nº de avarias que ocorrem no intervalo de
tempo [0,t[”, e T fôr o “Tempo que decorre entre avarias consecutivas”, então:

P (T>t) = P(tempo que decorre entre avarias exceder t)


= P(até ao instante t, não ocorre qualquer avaria)
− λt
= P (ocorrerem zero avarias no intervalo [0,t[) = P(X=0) = e

A distribuição exponencial é a mais usada em estudos de fiabilidade, já que a


probabilidade de um componente sobreviver até ao instante t é dada por

e − λt
A probabilidade de avariar até ao instante t é dada por

1 − e − λt

Exemplo:
O tempo de funcionamento sem avarias de uma determinada máquina de
produção contínua segue uma lei exponencial negativa com valor esperado
igual a 4,5 horas. Imagine que a máquina é (re)colocada em funcionamento no
instante t=0 horas.
Qual a probabilidade de não ocorrerem avarias antes do instante t=6 horas?
Resolução:
Seja

Manual Técnico de Formando 50


Manual de Estatística Aplicada

T: tempo de funcionamento sem avarias (ou entre avarias consecutivas) de


uma máquina, e
X: numero de avarias que ocorrem no intervalo [0,6[, isto é, num período de 6h
λ=1/4,5 corresponde ao número de avarias por unidade de tempo (por hora)

Logo
1
− *6
P(T ≥ 6) = P(X=0)= e 4,5
= e −1,333 = 0,264

(iv) Lei Normal


A lei Normal tem como parâmetros caracterizadores a média µ e o desvio-
padrão σ. Isto é, os valores observados têm uma determinada tendência
central e uma determinada dispersão em torno da tendência central.
A expressão
1 ( Xi − µ ) 2
1 −
σ2
e 2
σ 2∏

representa a função densidade de probabilidade da distribuição Normal.

Se se fizer o valor médio µ igual a zero e todos os desvios forem medidos em


relação à média, a equação será:
X −µ
Z=
σ

que corresponde a uma distribuição normal estandardizada (0;1) com os


valores tabelados, a qual é caracterizada por uma curva de Gauss:

Manual Técnico de Formando 51


Manual de Estatística Aplicada

Esta distribuição apresenta 99,73% dos valores entre os extremos –3 e 3.

Existem muitos tipos de distribuição, mas a curva normal é a forma de


distribuição mais frequente nos processos industriais para características
mensuráveis, e pode considerar-se como estabelecida pela experiência prática.

Exemplo:
Considere que o comprimento médio de determinado fio condutor é 120, com
desvio padrão 0,5. Qual a percentagem de fio com comprimento superior a 121?
Resolução:
X: comprimento de determinado fio condutor
Calculando a variável reduzida correspondente, vem:
121 − 120
Z= =2
0,5
Consultando a tabela, verifica-se que o valor da função Z é P(X ≤ 2) = 0,9772.
Logo P(X>2) = 1-0,9772 = 2,28%.

Manual Técnico de Formando 52


Manual de Estatística Aplicada

(v) Lei Qui-Quadrado


Considere-se um conjunto de n variáveis aleatórias Zi, obedecendo às
seguintes condições:
- cada variável Zi segue distribuição N(0,1);
- as variáveis Zi são mutuamente independentes

Então, a variável aleatória X, construída a partir da soma das n variáveis Zi


elevadas ao quadrado, segue distribuição Qui-Quadrado com n graus de
liberdade, denotada por
n
X= Z i2 = Z12 + Z 22 + ... + Z n2
i =1

X ∩ χ n2

O termo “Graus de Liberdade” (d.f: degrees of freedom) é habitualmente usado


para designar o número n de parcelas (variáveis Zi) adicionadas. É possível
demonstrar que o valor esperado e a variância da distribuição de uma variável
Qui-Quadrado são respectivamente
µ =n
σ 2 = 2n
A distribuição Qui-Quadrado é uma distribuição assimétrica à esquerda,
aproximando-se da distribuição Normal à medida que n cresce.

Manual Técnico de Formando 53


Manual de Estatística Aplicada

3.4. Estimação por intervalos

Conhecendo-se uma amostra em concreto, é possível estimar os valores dos


seus parâmetros caracterizadores através de métodos probabilísticos.
Por exemplo, suponhamos que numa fábrica produtora de açúcar se pretende
averiguar se o peso dos pacotes produzidos está, em média, dentro das
normas de qualidade exigíveis. Na impossibilidade de medição do peso de
todos os pacotes, pela morosidade e dispêndio de recursos que tal implicaria, a
estatística permite que, a partir da observação de uma única amostra, seja
possível inferir entre que valores varia o peso médio com um grau de confiança
ou probabilidade elevado. Assim, ao recolher um determinado número de
pacotes da produção total aleatoriamente, é possível calcular o peso médio de
acordo com as técnicas de estatística descritiva apreendidas atrás. Claro que
nada nos garante que esse valor coincide com o valor do parâmetro da
população em estudo. De facto, é até provável que não coincida e, mais, se
recolhermos outro conjunto idêntico de pacotes, o valor seja diferente. Isto é,
para cada amostra de dimensão n recolhida, a estimativa do parâmetro
assumiria valores distintos. Então, como retirar conclusões? Como garantir
algum nível de rigor?

O método a estudar neste capítulo – a estimação por intervalos – permite, a


partir da recolha de uma única amostra, aferir entre que valores seria de
esperar que variasse o parâmetro de interesse se nos empenhássemos a
recolher um número infinito de amostras. Isto é, por exemplo, caso o valor
amostral fosse de 1,02 kg, este método poderia, por exemplo, permitir afirmar
que seria altamente provável que o peso dos pacotes produzidos estivesse a
variar entre 0,92 kg e 1,12 kg. E esse resultado tem um determinado nível de
confiança associado: por exemplo, se dissermos que o nível de confiança ou
certeza implicado é de 95%, tal significa que, se nos fosse possível observar
um número infinito de amostras, o intervalo de valores apresentado
corresponderia aos resultados obtidos em 95% delas (os valores mais
usualmente utilizados são 90%, 95% ou 99% de confiança). Caberia depois à

Manual Técnico de Formando 54


Manual de Estatística Aplicada

empresa julgar se esses seriam ou não valores aceitáveis e proceder aos


eventuais reajustes necessários.

A partir do conceito de intervalo de confiança para um parâmetro, é fácil


concluir que a sua especificação implica conhecer:
- o estimador do parâmetro em causa
- a sua distribuição de probabilidade
- uma estimativa particular daquele parâmetro
Como parâmetros de interesse e para efeitos de exemplificação, vão
considerar-se duas tipologias de intervalo: o intervalo de confiança para a
média de uma população normal e o intervalo de confiança para a proporção
de uma população binomial. Para efeitos de simplificação, vão considerar-se
apenas exemplos relativos a amostras de grande dimensão (na prática, n ≥ 100)

(i) Intervalo de confiança para a média µ de uma população normal

Seja X (média amostral) o estimador da média da população. Porque a


distribuição é Normal, a distribuição deste estimador será:
σ
X ∩ N (µ ; )
n
Uma vez que apenas se encontra tabelada a distribuição N(0,1), torna-se
necessário calcular a variável reduzida correspondente:
X −µ
Z= ∩ N (0;1)
σ
n
Esta variável permitirá deduzir a fórmula geral do intervalo de confiança para a
média µ de uma população normal:
σ σ
X −c ;X +c
n n

Isto é, em torno do valor do estimador, é definido um intervalo de variação onde


é possível afirmar que o parâmetro a estimar está contido com um grau de
confiança δ . Esse intervalo de variação depende:

Manual Técnico de Formando 55


Manual de Estatística Aplicada

- da dimensão da amostra (n): quanto maior a dimensão da amostra,


menor a amplitude do intervalo. Este resultado explica-se facilmente: no
limite, se fosse possível observar todo o universo de dados (n= ∞ ), o
valor amostral calculado corresponderia ao valor da população.
- do desvio - padrão da população ( σ ): quanto maior o desvio - padrão,
maior a amplitude do intervalo. Como se sabe, o desvio - padrão é uma
medida que caracteriza a dispersão da distribuição. Quanto maior o seu
valor, maior a variabilidade apresentada pelos dados, sendo natural que
a margem de variação de prever em torno do valor amostral recolhido
seja também, naturalmente, maior.
- do valor crítico (c): quanto maior o valor c, maior a amplitude do
intervalo. O valor crítico reflecte o nível de confiança adoptado.
Naturalmente, para que aumente a confiança de que o valor do
parâmetro a estimar está contido no intervalo, a sua amplitude deve
aumentar também (no limite, se o intervalo se alongasse de - ∞ a + ∞ a
confiança seria total ou 100%). É possível encontrar o valor c na tabela
da normal (pois esta é a lei do estimador), da seguinte forma:
P ( −c ≤ Z ≤ c ) = δ
já que assim é possível definir a fórmula geral do intervalo,
resolvendo a inequação em ordem ao parâmetro, µ :

X −µ σ σ
P (−c ≤ ≤ c) = δ ⇔ P( X − c ≤ µ ≤ X −c )=δ
σ n n
n

Exemplo:
Suponha-se que se tem uma população normal com média µ desconhecida e
desvio - padrão 3, N (µ, 9) e uma amostra de 121 observações. Deduza um
intervalo de confiança para a µ com 95% de confiança.

Resolução:
Para os dados deste exemplo, vem:
n=121
σ =3
c: P (−c ≤ Z ≤ c) = 95% ⇔ D (c) = 95% ⇔ c = 1,96

Manual Técnico de Formando 56


Manual de Estatística Aplicada

e logo

X −c
σ
n
;X +c
σ
n
= X−
1,96 x3
11
;X −
1,96 x3
11
[
= X − 0,535; X + 0,535 ]
[ ]
O intervalo X − 0,535; X + 0,535 contém o verdadeiro valor do parâmetro µ
com probabilidade ou confiança de 95%. Conhecida uma estimativa particular
daquele parâmetro, torna-se possível calcular entre que valores seria de
esperar que, com 95% de confiança, variasse µ .

Se o desvio - padrão da população fôr desconhecido, utiliza-se este intervalo


considerando-se como estimativa de σ o desvio - padrão corrigido da amostra,

( xi − x ) 2
ou seja, s’= , tal que:
n −1

s' s'
X −c ;X +c
n n

(ii) Intervalo de confiança para a proporção p de uma população binomial

Seja p̂ (proporção amostral ou frequência observada na amostra) o estimador


da proporção p de uma população binomial. Sendo a amostra de grande
dimensão, a distribuição deste estimador será:
p(1 − p )
pˆ ∩ N ( p; )
n
Uma vez que apenas se encontra tabelada a distribuição N(0,1), torna-se
necessário calcular a variável reduzida correspondente:
pˆ − p
Z= ∩ N (0;1)
p (1 − p )
n
Esta variável permitirá deduzir a fórmula geral do intervalo de confiança para a
proporção p de uma população binomial:

pˆ (1 − pˆ ) pˆ (1 − pˆ )
pˆ − c ; pˆ + c
n n

(como estimativa de p (1 − p ) foi utilizado pˆ (1 − pˆ ))

Manual Técnico de Formando 57


Manual de Estatística Aplicada

Exemplo:
Numa cidade pretende-se saber qual a proporção da população favorável a
certa modificação de trânsito. Faz-se um inquérito a 100 pessoas, e 70
declaram-se favoráveis.
Determine um intervalo de confiança a 95% para a proporção de habitantes
dessa cidade favoráveis à modificação de trânsito.

Resolução:
n=100
70
p̂ = = 0,7
100
c: P (−c ≤ Z ≤ c) = 95% ⇔ D (c) = 95% ⇔ c = 1,96
e logo

pˆ (1 − pˆ ) pˆ (1 − pˆ ) 0,7 x0,3 0,7 x0,3


pˆ − c ; pˆ + c = 0,7 − 1,96 ;0,7 − 1,96 =
n n 100 100
= [0,6102;0,7898]
O intervalo [0,6102;0,7898] contém o verdadeiro valor do parâmetro p com
probabilidade ou confiança de 95%.
Ou seja, a proporção de habitantes favoráveis à modificação de trânsito está
situada entre 61,02% e 78,98%, com probabilidade de 95%.

Como é óbvio, pretende-se que o resultado possua o máximo de confiança


possível. No entanto, se uma maior confiança é pretendida na estimação, esta
conduz a possibilidades de erro maiores, dado que um elevado nível de
confiança conduz a um intervalo maior e, como tal, a precisão da estimação
diminui.

Exemplo:
Consideremos 3 afirmações de alunos que aguardam a saída das pautas de
um exame de Estatística:

Afirm. 1: “Tenho a sensação que as pautas serão afixadas durante a manhã”


Afirm. 2: “Tenho quase a certeza que as pautas serão afixadas entre as 10h e
as 11h

Manual Técnico de Formando 58


Manual de Estatística Aplicada

Afirm. 3: “Tenho a certeza absoluta que as pautas ou são afixadas às 10h30 ou


já não são afixadas hoje”

Estas 3 afirmações permitem constatar facilmente que se se pretende maior


confiança na estatística, se tem que permitir que a possibilidade de erro
aumente. Por outro lado, se se permitir que o erro diminua, os extremos do
intervalo aumentam, embora o resultado perca alguma precisão. No entanto,
há que ter em atenção que, se um intervalo de confiança tem uma amplitude
demasiado grande, a estimativa não tem utilidade. Cabe ao investigador gerir
este “trade-off”.

Isto leva a uma questão importante: o dimensionamento de amostras. Até aqui,


sempre se assumiu que as dimensões são conhecidas à partida, sem referir
como se determinam. No entanto, a resolução deste problema tem um enorme
interesse prático, já que (i) recolher e tratar uma amostra demasiado grande
para os resultados que se pretendem obter constitui um evidente desperdício
de recursos e (ii) recolher uma amostra cuja dimensão é insuficiente para
retirar conclusões constitui um erro.
A dimensão das amostras aumentará se se pretender garantir maior precisão
ao intervalo e/ou maior grau de confiança.

No capítulo dedicado a aplicações estatísticas, será possível ver como é


possível utilizar o conceito de intervalo de confiança ao controlo estatístico de
processos de qualidade.

Manual Técnico de Formando 59


Manual de Estatística Aplicada

INTERVALOS DE CONFIANÇA
Exercícios

1. Uma máquina fabrica cabos cuja resistência à ruptura (em kg/cm2) é uma
variável com distribuição Normal de média 100 e desvio - padrão 30. Pretende-
se testar uma nova máquina que, segundo indicações do fabricante, produz
cabos com resistência média superior. Para isso, observam-se 100 cabos
fabricados pela nova máquina, que apresentam uma resistência média de 110
kg/cm2. Admita que o novo processo não altera o desvio padrão da resistência
à ruptura dos cabos. Determine um intervalo de confiança a 95% para a
resistência média à ruptura dos cabos produzidos pela nova máquina.

2. Uma máquina de cortar madeira corta pranchas cujo comprimento é uma


variável aleatória normalmente distribuída com desvio padrão 0,09 cm. Foram
efectuadas algumas medidas de prancha efectuadas aleatoriamente:

221,3 219,1 218,7 220 215,1

Construa um intervalo de confiança a 95% para o comprimento médio das


pranchas.

3. Admita-se que a altura dos alunos de uma escola segue distribuição Normal
com variância conhecida e igual a 0,051. Admita-se ainda que foi recolhida
uma amostra aleatória com dimensão n=25 alunos e calculada a respectiva
média amostral, tendo-se obtido o valor de 1,70m. Defina um intervalo que,
com probabilidade 95%, contenha o valor esperado da altura µ.

4. Um construtor civil utiliza um tipo de cimento, fornecido em sacos de 50 kg.


No entanto, os 50 kg podem não ser respeitados, pois existe uma tolerância
para o peso do saco. Contudo, existe uma norma de 4 kg2 em relação à
variância, que é respeitada. O construtor suspeita que os sacos costumam vir

Manual Técnico de Formando 60


Manual de Estatística Aplicada

com menos cimento. Para averiguar se a sua suspeita se verifica, recolheu a


seguinte amostra:

49,4 48,6 51 50,2 49,5 48,7 49 49,1

a) Construa o intervalo de confiança a 95% para a média do peso do


cimento.
b) Qual a amplitude máxima do intervalo para a média do peso de cimento
que é possível obter com esta amostra e com níveis de confiança não
superiores a 99%?

4. Numa fábrica, procura conhecer-se a incidência de defeituosos na produção


de uma máquina. Para tanto, colhe-se uma amostra de dimensão
suficientemente grande (1600 artigos), onde 10% dos artigos são defeituosos.
Determine o intervalo de confiança para a referida proporção com 90% de
confiança.

5. Uma amostra de 20 cigarros é analisada para determinar o conteúdo de


nicotina, observando-se um valor médio de 1,2 mg. Sabendo que o desvio -
padrão do conteúdo de nicotina de um cigarro é 0,2 mg, diga, com 99% de
confiança, entre que valores se situa o teor médio de nicotina de um cigarro.

6. Num lote de 150 peças fabricadas numa determinada máquina encontraram-


se 12 defeituosas. Defina o intervalo de confiança a 95% para a proporção de
peças defeituosas que aquela máquina produz.

7. O gabinete de projectos de uma empresa de material de construção civil


pretende estimar a tensão de ruptura do material usado num determinado tipo
de tubos.

Manual Técnico de Formando 61


Manual de Estatística Aplicada

Com base num vasto conjunto de ensaios realizados no passado, estima-se


que o desvio - padrão da tensão de ruptura do material em causa é de 70 psi.
Deseja-se definir um intervalo de confiança a 99% para o valor esperado da
tensão de ruptura, pretendendo-se que a sua amplitude não exceda 60 psi.
Qual o número de ensaios necessário para definir tal intervalo?

8. O director fabril de uma empresa industrial que emprega 4000 operários


emitiu um novo conjunto de normas internas de segurança. Passada uma
semana, seleccionou aleatoriamente 300 operários e verificou que apenas 75
deles conheciam suficientemente bem as normas em causa. Construa um
intervalo de confiança a 95% para a proporção de operários que conheciam
adequadamente o conjunto das normas uma semana após a sua emissão.

9. A empresa SCB controla regularmente a resistência à ruptura dos cabos por


si produzidos. Recentemente, foram analisadas as tensões de ruptura de 10
cabos SCB-33R, seleccionados aleatoriamente a partir de um lote de grandes
dimensões, tendo sido obtida uma média de 4537 kg/cm2. Existe uma norma
de 112 kg/cm2 em relação à variância, que é respeitada. O director comercial
pretende saber qual o intervalo de confiança, a 95%, para o valor esperado da
tensão de ruptura dos cabos do lote em causa. Defina esse intervalo.

10. Uma amostra de 50 capacetes de protecção, usados por trabalhadores de


uma empresa de construção civil, foram seleccionados aleatoriamente e
sujeitos a um teste de impacto, e em 18 foram observados alguns danos.
Construa um intervalo de confiança, a 95%, para a verdadeira proporção p de
capacetes que sofre danos com este teste. Interprete o resultado obtido.

Manual Técnico de Formando 62


Manual de Estatística Aplicada

3.5. Testes de hipóteses

Todos os dias temos de tomar decisões respeitantes a determinadas


populações, com base em amostras das mesmas (decisões estatísticas). Nesta
tomada de decisões, é útil formular hipóteses sobre as populações, hipóteses
essas que podem ou não ser verdadeiras. A essas hipóteses chamamos
hipóteses estatísticas, as quais geralmente se baseiam em afirmações sobre
as distribuições de probabilidade das populações ou sobre alguns dos seus
parâmetros. Uma hipótese pode então ser definida como uma conjectura
acerca de uma ou mais populações.
Desta forma, os testes de hipóteses podem considerar-se uma segunda
vertente da inferência estatística, tendo por objectivo verificar, a partir de dados
observados numa amostra, a validade de certas hipóteses relativas à
população. O resultado do teste corresponde inevitavelmente a uma das duas
respostas possíveis para cada questão: afirmativa ou negativa. Em ambos os
casos corre-se o risco de errar. Uma das características do teste de hipóteses
é, justamente, a de permitir controlar ou minimizar tal risco.
Nos testes de hipóteses, e ao contrário dos intervalos de confiança, em vez de
procurar uma estimativa ou um intervalo para um parâmetro, admite-se ou
avança-se um valor hipotético para o mesmo, utilizando depois a informação da
amostra para confirmar ou rejeitar esse mesmo valor. A hipótese a testar
denomina-se, pois, de H0 ou de hipótese nula. O objectivo é verificar se os
factos observados a contradizem, levando a optar pela hipótese alternativa H1.
Isto é, a estratégia básica seguida no método de teste de hipóteses consiste
em tentar suportar a validade H1 de uma vez provada a inverosimilhança de H0.

Exemplo:
Registos efectuados durante vários anos permitiram estabelecer que o nível de
chuvas numa determinada região, em milímetros por ano, segue uma lei
normal N(600;100). Certos cientistas afirmavam poder fazer aumentar o nível
médio µ das chuvas em 50 mm. O seu processo foi posto à prova e anotaram-
se os valores referentes a 9 anos:
510 614 780 512 501 534 603 788 650
Que se pode concluir? Adopte um nível de significância de 5%.

Manual Técnico de Formando 63


Manual de Estatística Aplicada

Resolução:
Duas hipóteses se colocavam: ou o processo proposto pelos cientistas não
produzia qualquer efeito, ou este aumentava de facto o nível médio das chuvas
em 50 mm. Estas hipóteses podem formalizar-se do modo seguinte:
H0: µ=600 mm
H1: µ=650 mm

Este é um problema clássico de teste de hipóteses, em que está em causa


aceitar ou rejeitar a hipótese nula, em função dos resultados de uma amostra.
Ao utilizar uma amostra de uma população, estamos a lidar com leis de
probabilidades, logo não é possível de saber se a hipótese nula é verdadeira
ou falsa, mas apenas medir as probabilidades envolvidas na tomada de
decisão.

Podem-se definir 2 formas de especificar Ho e H1:


(i) hipótese simples contra hipótese simples
Ho: θ = θ0
H1: θ = θ1
(ii) hipótese simples contra hipótese composta
Ho: θ = θ0
H1: θ > θ0 ou θ < θ0 ou θ ≠ θ0
Estes testes designam-se respectivamente de teste unilateral à
direita, teste unilateral à esquerda e teste bilateral

Sendo os testes de hipóteses, portanto, um processo de inferência estatística


onde se procuram tomar decisões sobre a população com base numa amostra,
é natural que envolvam alguma margem de erro e que ocorram em situação de
incerteza. Estes erros não podem ser completamente evitados mas, no
entanto, pode-se manter pequena a probabilidade de os cometer. Compete ao
investigador decidir qual a dose de risco de se enganar em que está disposto a
incorrer. Vamos supor uma probabilidade de erro de, por exemplo, 5%. Nesse
caso, e avançada a hipótese nula Ho, o investigador só estaria disposto a
rejeitá-la se o resultado obtido na amostra fizesse parte de um conjunto de
resultados improváveis que teriam apenas, por exemplo, 5 chances em 100 de

Manual Técnico de Formando 64


Manual de Estatística Aplicada

se produzir. Este tipo de formulação é conhecida como postura conservadora.


Ou seja, estamos mais propensos a achar que o novo processo não tem
qualquer efeito sobre o nível das chuvas (isto é, que tudo se mantém igual) do
que investir no novo processo (mudar), arriscando apenas quando houver
evidências da amostra muito fortes a favor do novo. Para que esta decisão
possa ser tomada de uma forma controlada, é conveniente pois que, à partida,
se fixe o valor a partir do qual se considera improvável a validade da hipótese
nula. Tal fixação corresponde à fixação da regra de decisão do teste.

A formalização desta regra passa pela especificação de uma região de região


de rejeição. A essa região, isto é, ao conjunto de valores “improváveis” que
conduzem à rejeição da hipótese nula dá-se o nome de Região Crítica. Ao
limite superior de risco, que na maior parte dos casos é de 10%, 5% ou 1%, dá-
se o nome de Nível de Significância do teste, sendo este que permite definir a
condição de rejeição de Ho. O Nível de Significância designa-se de α e
corresponde, então, à probabilidade de o resultado amostral levar à rejeição de
Ho, supondo Ho verdadeira, isto é, à probabilidade de se estar a cometer aquilo
a que se convenciona chamar de erro de 1ª espécie.
Como veremos no exemplo, existem também erros de 2ª espécie, cuja
probabilidade se designa pela letra β. Em resumo:

Quadro de decisão em condição de incerteza

Hipótese nula Ho

Decisão Hipótese Ho ser verdadeira: Hipótese Ho ser falsa

Aceitar Ho Decisão correcta (1-α) Erro de tipo II


Beta (β)
Rejeitar Ho Erro de tipo I Decisão correcta (1-β)
Alfa (α)

Como decidir? Visto que se trata de testar o valor de µ, a variável de decisão


será X . Considerando Ho verdadeira vem que
100
X ∩ N (600; ).
9

Manual Técnico de Formando 65


Manual de Estatística Aplicada

Em princípio, grandes valores de X são improváveis, pelo que se opta pela


seguinte regra de decisão:
Se X fôr demasiado grande, isto é, superior a um valor crítico c que tem
apenas 5 chances em 100 de ser ultrapassado, opta-se por H1 com
probabilidade 5% de se estar a cometer um erro. Se tal não acontecer,
conserva-se Ho, por falta de provas suficientes para não o fazer.

Logo, sendo
P(Rejeitar Ho / Ho) = α = 5%, vem que

X −µ c − 600
P ( X > c / µ = 600) = 0,05 ⇔ P ( > ) = 0,05 ⇔
σ 100
n 9
100
⇔ c = 600 + 1,645 x = 654,83(3)
3

A regra de decisão é, então, a seguinte:


- rejeitar H0 em favor de H1, se o valor amostral fôr superior a 654,83(3)
- conservar H0 em detrimento de H1 se fôr inferior a 654,83(3)

Isto é, a Região Crítica deste teste, isto é, o conjunto de acontecimentos que


levam à rejeição de H0 corresponde a todos os valores de X >654,83(3).

RA: Região RR: Região


de Aceitação Crítica ou de
Rejeição

RA=(1-α)
RR=α

µ = 600 654,83(3) X

Os dados recolhidos indicavam X =610,2 mm, pelo que a decisão é conservar


H0 , isto é, considerar que o processo científico não produz efeitos.

Manual Técnico de Formando 66


Manual de Estatística Aplicada

No entanto, os erros incorridos não se ficam apenas pelos de 1ª espécie.


Existem também erros de 2ª espécie. Isto é, à partida parte-se do princípio
que H0 é verdadeira e só se rejeitará essa hipótese se ocorrerem
acontecimentos pouco prováveis.
No entanto, é possível alternativamente partir do princípio que é H1 que é
verdadeira, ou seja, considerar que o processo científico é realmente eficaz no
aumento do nível médio das chuvas, mas que, infelizmente, o número de
valores observado não permite observar resultados ou esses resultados foram
insuficientes.
Supondo então que H1 é verdadeira (µ=650 mm), então vem que:
100
X ∩ N (650; )
9

β β
1-β
RA RR

µ = 650 X

A probabilidade de rejeitar H1 erradamente, isto é, de se cometer um erro de 2ª


espécie, vem então igual a:
P(Rejeitar H1 / H1)=β
X −µ 654,83(3) − 650
P ( X ≤ 654,83(3) / µ = 650) = P ( ≤ ) = P ( N (0,1) ≤ 0,14) = 55,57%
σ 100
n 9

É através das probabilidades α e β que se procura o melhor teste de hipóteses,


sendo o teste ideal o que minimiza simultaneamente ambos os valores. No
entanto, e como α e β se referem a realidades opostas e variam em sentido
contrário, tal não é possível. O que na maior parte dos casos se faz é fixar o α
(para amostras de dimensão n) e tentar minimizar β.

Manual Técnico de Formando 67


Manual de Estatística Aplicada

Região de rejeição e de aceitação da hipótese nula

Unilateral Bilateral Unilateral


à esquerda à direita
H1: µ < 600 H1: µ ≠ 600 H1: µ > 600

RA RA
RA
RR RR
RR RR
α/2 α/2
α α
1−α 1−α 1−α

Chama-se potência de um teste à probabilidade de rejeitar H0 quando esta é


falsa. Esta é uma decisão certa, não implica erro, e é complementar do erro de
2ª espécie. Logo, quanto menor o erro de 2ª espécie, maior será o valor da
potência do teste e, logo, maior a sua qualidade (diz-se que o teste é mais
potente) . Quando H1 é uma hipótese composta (>, < ou ≠ ), a potência do teste
é variável, dependendo do valor do parâmetro que não é fixo. Nesse caso fala-
se em função potência do teste = 1 -β (µ1)

Resumindo: passos para construção de um teste de hipóteses:

Passo No 1: Formular as hipóteses nula e alternativa


Passo No 2: Decidir qual estatística (estimador) será usada para julgar a Ho e a
variável de decisão
Passo No 3: Definir a forma da Região Crítica, em função da hipótese H1
Passo Nº 4: Fixar o nível de significância
Passo Nº 5: Construir a Região Crítica em função do nível de significância
Passo Nº 6: Cálculo (eventual) da potência do teste
Passo Nº 7: Calcular a estatística da amostra
Passo No 8: Tomar a decisão: rejeição ou não de Ho

Manual Técnico de Formando 68


Manual de Estatística Aplicada

(i) Teste de hipóteses para a média de uma população normal

Exemplo
Suponha que o director de qualidade pretende averiguar se o peso dos pacotes
de arroz produzidos corresponde ao valor assinalado na embalagem. Seja X a
variável que representa o peso de um pacote de arroz. Suponha que
X ∩ N ( µ ;0,012 ) e que se conhece a seguinte amostra:
1,02 0,98 0,97 1,01 0,97 1,02 0,99 0,98 1,00

Será que, para um nível de significância de 5% se pode dizer que o peso médio
corresponde ao peso de 1 kg assinalado na embalagem?

Conceitos Notação Definição


População Todos os pacotes produzidos

Amostra Os pacotes recolhidos na amostra

Variável X Peso de um pacote de arroz


Parâmetro µ Quantidade média de arroz por pacote produzido
Estimador X Quantidade média de arroz por pacote da amostra

Estimativa Valor da média daquela amostra

Hipótese nula Ho: µ = 1


Hipótese alternativa H1: µ < 1
Erro de tipo I Considerar que o peso médio corresponde ao da
Alfa (α) embalagem quando é inferior
Erro de tipo II Considerar que o arroz contido em cada pacote era inferior
Beta (β) ao indicado quando estava de facto de acordo com o valor
da embalagem

Resolução
Passo 1
Formular as hipóteses:
Ho: µ = 1
H1: µ < 1

Passo 2
A estatística a ser utilizada será a média amostral

Manual Técnico de Formando 69


Manual de Estatística Aplicada

Passo 3
A região crítica é formada por todos os valores menores ou iguais a c

Passo 4
Assumir um nível de significância de 5%

Passo 5
Para α=5%, determinar a região de rejeição e aceitação.
Logo, sendo
P(Rejeitar Ho / Ho) = α = 5%, vem que
X −µ c −1
P ( X < c / µ = 1) = 0,05 ⇔ P ( < ) = 0,05 ⇔
σ 0,01
n 9
0,01
⇔ c = 1 − 1,645 x = 0,9945
3
Logo, RC = ]− ∞;0,9945]

Passo 6
Potência do teste se o verdadeiro valor fôr 0,99:
A probabilidade de rejeitar H1 erradamente, isto é, de se cometer um erro de 2ª
espécie, vem então igual a:
P(Rejeitar H1 / H1)=β. Logo a potência do teste será dada por 1- β:
X −µ 0,9945 − 0,99
P ( X ≤ 0,9945 / µ = 0,99) = P ( ≤ ) = P ( N (0,1) ≤ 1,35) = 91,15%
σ 0,01
n 9

Passo 7
1
Calcular a estatística X = xi = 0,9933
9

Passo 8
Tomar a decisão
Como o valor da amostra foi 0,9933 e é menor que o valor crítico 0,9945,
rejeita-se Ho
Ou seja, considera-se que o arroz contido em cada pacote era inferior ao
indicado. No entanto, há o risco de se mandar parar a produção para revisão
do equipamento sem necessidade. Reduzindo a probabilidade de isso ocorrer
de 5% para 1%, vem:

Manual Técnico de Formando 70


Manual de Estatística Aplicada

α=1% α=5%

RA: Continuar a
produção
RR: Parar a
produção

-∞ 0 +∞
0,9922 0.9945

Valor da amostra: 0,9933

A única mudança será no Valor Crítico, que de 0,9945 para 0,9922. Neste
caso, aceitaremos Ho, ou seja, consideraremos que não há qualquer anomalia
na produção.

(ii) Teste de hipóteses para a proporção de uma população binomial

Seja (x1, x2, …, xn) uma amostra aleatória de uma população com parâmetro p
desconhecido, e considere-se que n é grande (na prática, n>100). Vamos
supor que se pretende testar o valor teórico da percentagem (parâmetro p).
Fixando-se o nível de significância, determina-se a região crítica. Sendo o
estimador a proporção amostral, a variável de decisão é
pˆ − p
Z= ∩ N (0;1)
p (1 − p )
n

Exemplo
Numa cidade, pretende-se saber se metade da população é favorável à
construção de um centro comercial. Faz-se um inquérito a 200 pessoas, e 45%
declaram-se favoráveis. Estes valores contradizem a hipótese?

Conceitos Notação Definição


População Os habitantes da cidade
Amostra Os habitantes inquiridos

Manual Técnico de Formando 71


Manual de Estatística Aplicada

Conceitos Notação Definição


Parâmetro p Percentagem ou proporção de habitantes da
cidade favoráveis à construção de um centro
comercial
Estimador p̂ Percentagem ou proporção de habitantes da
amostra favoráveis à construção de um centro
comercial
Estimativa Valor da proporção daquela amostra

Hipótese nula Ho: p = 0,5


Hipótese alternativa H1: p < 0,5
Erro de tipo I Considerar que a maioria dos habitantes não é favorável à
Alfa (α) construção do centro comercial quando de facto são
Erro de tipo II Considerar que a maioria dos habitantes é favorável à
Beta (β) construção do centro comercial quando são contra

Resolução
Passo 1
Formular as hipóteses:
Ho: p = 0,5
H1: p < 0,5

Passo 2
A estatística a ser utilizada será a proporção amostral, onde o cuidado deve ser
trabalhar com grandes amostras.

Passo 3
A região crítica é formada por todos os valores menores ou iguais a c

Passo 4
Assumir um nível de significância de 5%

Passo 5
Para α=5%, determinar a região de rejeição e aceitação.
Logo, sendo
P(Rejeitar Ho / Ho) = α = 5%, vem que
pˆ − p c − 0,5
P ( pˆ < c / p = 0,5) = 0,05 ⇔ P ( < ) = 0,05 ⇔
p (1 − p ) 0,5(1 − 0,5)
n 200
0,5(1 − 0,5)
⇔ c = 0,5 − 1,645 x = 0,442 Logo, RC = ]− ∞;0,442]
200

Manual Técnico de Formando 72


Manual de Estatística Aplicada

Passo 6
Potência do teste se o verdadeiro valor fôr 0,4:
P(Rejeitar H1 / H1)=β. Logo a potência do teste será dada por 1- β:
pˆ − p 0,442 − 0,4
P ( pˆ ≤ 0,442 / p = 0,4) = P ( ≤ ) = P ( N (0,1) ≤ 1,21) = 88,69%
p (1 − p ) 0,4(1 − 0,4)
n 200

Passo 7
p̂ =0,45

Passo 8
Como o valor amostral 0,45 é maior que o valor crítico 0,442, não se rejeita Ho

RR: Não
construir o α=5%
centro comercial
RA: Continuar a
produção
RR: Parar a
produção

-∞ 0 +∞
Valor amostral: 0,45
0,442
Ou seja, apesar de apenas 45% dos habitantes se terem manifestado a favor
da construção do centro comercial, essa margem não é suficiente para decidir
deixar de o construir.

Manual Técnico de Formando 73


Manual de Estatística Aplicada

TESTES DE HIPÓTESES
Exercícios

1. O peso dos pacotes de farinha de 1 kg, produzidos por uma fábrica, é uma
variável normalmente distribuída, com desvio padrão 0,01. Da produção de
determinado dia é retirada uma amostra de 49 pacotes, com peso médio de
0,998 Kg.
Pode-se afirmar, a um nível de significância de 1%, que o peso médio dos
pacotes de farinha nesse dia não está de acordo com o peso indicado?

2. Numa região onde existem entre os maiores de 18 anos 50% de fumadores,


é lançada uma intensa campanha anti-tabaco.
Ao fim de três meses, realiza-se um mini-inquérito junto de 100 cidadãos com
mais de 18 anos, registando-se 45 fumadores. Pode concluir-se que a
campanha surtiu efeito?

3. Um fabricante afirma que o tempo médio de vida de um certo tipo de bateria


é de 240 horas, com desvio-padrão de 20 horas. Uma amostra de 18 baterias
forneceu os seguintes valores:
237 242 232
242 248 230
244 243 254
262 234 220
225 236 232
218 228 240

Supondo que o tempo de vida das baterias se distribui normalmente, poder-se-


á concluir, com 5% de significância, que as especificações não estão a ser
cumpridas?

Manual Técnico de Formando 74


Manual de Estatística Aplicada

4. Uma empresa de cerâmica tem, em dada secção, fornos controlados por


termóstatos para manter a temperatura no interior dos fornos a 600 graus
centígrados. A experiência tem demonstrado que a variância dos valores da
temperatura no interior desses fornos é de 360.
A empresa fornecedora dos fornos comercializa agora um novo tipo de
controlador, que é anunciado como garantindo que as temperaturas se mantêm
dentro do limite desejado. Foram registadas 5 medidas de temperatura de
fornos regulados para 600º, utilizando novos controladores:
620º 595º 585º 602º 608º

Para 5% de significância, poder-se-á concluir que a temperatura não se afasta


significativamente do valor desejado?

5. O peso dos ovos de chocolate produzidos numa fábrica segue distribuição


normal com variância 90,25. O fabricante diz que o peso médio é de 160 g. Foi
recolhida uma amostra de 100 ovos, cujo peso médio foi de 158, 437 g. Teste,
a um nível de significância de 1%, se a afirmação do fabricante pode ser
considerada verdadeira, ou se, pelo contrário, o verdadeiro peso dos ovos será
menor.

6. Um jornal semanário afirma ter atingido, numa região, a percentagem, até


então nunca atingida por qualquer semanário, de 60% de leitores que
regularmente compram um jornal desse tipo.
Efectuando um inquérito junto de 600 leitores, 55% declararam adquirir, por
hábito, o semanário em causa.
Adoptando um nível de significância de 1%, pronuncie-se quanto à projecção
que o semanário reclama.

7. Um molde de injecção tem produzido peças de um determinado material


isolante térmico com uma resistência à compressão com valor esperado de
5,18 kg/cm2 e variância 0,0625 (kg/cm2)2. As últimas 12 peças produzidas

Manual Técnico de Formando 75


Manual de Estatística Aplicada

nesse molde foram recolhidas e ensaiadas, tendo-se obtido para a resistência


média à compressão o valor de 4,95 kg/cm2.
c) Poder-se-á afirmar, a um nível de significância de 5%, que as peças
produzidas recentemente são menos resistentes do que o habitual?
d) Qual a potência do teste efectuado anteriormente, admitindo que o valor
esperado da resistência à compressão das peças produzidas
recentemente é de 4,90 kg/cm2?

8. Um jornal desportivo noticiou que o número de espectadores de um


programa desportivo que é apresentado na televisão aos domingos à noite está
igualmente dividido entre homens e mulheres.
De uma amostra aleatória de 400 pessoas que vêem regularmente o referido
programa, concluiu-se que 240 são homens.
Pode-se concluir, para um nível de significância de 10%, que a notícia é falsa?

Manual Técnico de Formando 76


Manual de Estatística Aplicada

3.6. Aplicações estatísticas


Fiabilidade de componentes e sistemas

3.6.1 Conceito de fiabilidade

Define-se fiabilidade como sendo a probabilidade de um sistema (ou


componente) desempenhar a função para a qual foi concebido, nas condições
previstas e nos intervalos de tempo em que tal é exigido.
A análise da fiabilidade será, então, um método de quantificar o que se espera
que aconteça e pode ser usada para indicar méritos relativos de sistemas,
tendo em atenção um pré-definido nível de fiabilidade.
A fiabilidade de um componente pode ser obtida a partir da sua taxa de
avarias. Se um sistema fôr constituído por vários componentes, então a
fiabilidade será dependente da fiabilidade dos componentes que compõem
esse mesmo sistema.
É necessário, quando se apresentam os resultados de um estudo de fiabilidade
saber expô-los, pois os interpretadores poderão não ter a noção daquilo que se
está a querer transmitir. Assim, dizer que a fiabilidade de um sistema ou
componente é de 0,998 pode não significar muito; no entanto, se tal facto fôr
traduzido em que, por ano, o sistema em questão estará fora de serviço por
avaria num período de 9 horas já significa alguma coisa.

Como o estudo da fiabilidade se trata de um estudo extremamente importante,


pois que muitas vezes estão em jogo vidas humanas, é importante desenvolver
um estudo de probabilidade relativo ao funcionamento adequado de um
componente ou sistema.

3.6.2 Fiabilidade de um sistema

Ao analisar a fiabilidade de um sistema constituído por vários componentes, é


necessário estudar a fiabilidade desses componentes e a forma como estão
ligados (estrutura do sistema e definição do funcionamento do sistema). De
seguida, são apresentados 3 casos: (i) as associações de componentes em

Manual Técnico de Formando 77


Manual de Estatística Aplicada

paralelo; (ii) a associação de n unidades idênticas em paralelo em que é


apenas necessário o funcionamento de m (m<=n) para o sistema funcionar; (iii)
e as associações em série.

(i) Associação em paralelo


Consideremos vários componentes redundantes e independentes:

Uma vez que os componentes são redundantes, basta apenas um para que o
sistema funcione. Considerando um sistema composto por apenas 2
componentes, se cada um dos componentes estiver no seu período de vida útil,
a fiabilidade do sistema (Rs) é dada por:

Rs = P (funcionar pelo menos um componente)


= P (funcionarem 1 ou 2 componentes)
= 1 – P (não funcionar nenhum)
= 1 – P (não funcionar comp.1 e não funcionar comp.2)
= 1 - P (não funcionar comp.1) x P(não funcionar comp.2)
pois o funcionamento é independente
= 1 – q1 x q2

onde q1 e q2 são, respectivamente as indisponibilidades (isto é, as


probabilidades de não funcionamento) das componentes 1 e 2. Se houver n
componentes ligadas em paralelo, a fiabilidade do sistema é dada por
Rs = 1 - q1 x q2 x q3 x … x qn = 1 - ∏q
i
i

Manual Técnico de Formando 78


Manual de Estatística Aplicada

Veja-se que, no caso de sistemas redundantes, a fiabilidade do sistema


aumenta à medida que aumenta o número de componentes ligadas ao sistema
(que representam como garantias de funcionamento adicionais).

(ii) Associação em paralelo de componentes não redundantes


Se o sistema não fôr redundante, as condições de funcionamento e de avaria
para o sistema têm de ser definidos, isto é, é necessário saber qual o número
mínimo de componentes que necessitam de estar em funcionamento para que
o sistema sobreviva.
Para o efeito, vai considerar-se de novo um sistema composto por quatro
componentes em paralelo. Se as componentes forem todas iguais, com
probabilidade de funcionamento p e de indisponibilidade q, a probabilidade
associada a cada um dos estados possíveis (1, 2, 3 ou 4 componentes, no
mínimo, a funcionar), a fiabilidade do sistema é dada pelo quadro seguinte:

Nº mínimo de componentes
necessárias ao funcionamento do Probabilidade de o sistema funcionar
sistema
4 p4
3 p4 + 4p3q
2 p + 4p3q + 6p2q2
4

1 p4 + 4p3q + 6p2q2 + 4pq3

Ou seja, a fiabilidade do sistema funcionar pode ser calculada recorrendo à lei


binomial. Assim, por exemplo, para um nº mínimo de 3 componentes
necessárias, vem:
Rs = P(pelo menos 3 componentes a funcionar)

= P(funcionarem as 4) + P (funcionarem 3)

= C 44 p 4 q 4− 4 + C 34 p 3 q 4−3

= p 4 + 4 p3q

Por exemplo, se todos os componentes tivessem fiabilidade 0,9 (p=0.9), então


a fiabilidade de um sistema deste tipo seria 94,77%.

Manual Técnico de Formando 79


Manual de Estatística Aplicada

(iii) Associação em série


Quando os componentes se encontram associados em série, para que o
sistema funcione torna-se necessário que todos os componentes se encontrem
em bom estado de funcionamento.

1 2 3

No caso mais vulgar de os componentes serem independentes, a fiabilidade do


sistema é dada por
Rs = p1 x p2 x p3 x ... x pn

No caso de todas as componentes serem iguais

Rs = pn

Facilmente se depreende que a fiabilidade do sistema diminui à medida que


aumenta o número de componentes ligadas em série.
A distribuição exponencial é a mais usada em estudos de fiabilidade, já que a
probabilidade de um componente sobreviver até ao instante t é dada por

e − λt
A probabilidade de avariar até ao instante t é dada por

1 − e − λt

Num sistema com várias componentes em série, em que o componente se


encontra a funcionar no seu período de vida útil, a fiabilidade do sistema é
dada por
n
− λi t
Rs = e i =1

(iv) Outros sistemas


Quando a estrutura do sistema não puder ser enquadrada em nenhuma das
anteriores, terão que ser analisadas técnicas mais gerais, tais como a árvore
de avarias. O método consiste basicamente em identificar todos os modos
possíveis de avaria e controlá-los. Assim, supondo que se pretende analisar a
fiabilidade da iluminação de uma sala com uma lâmpada.

Manual Técnico de Formando 80


Manual de Estatística Aplicada

Se o objectivo fôr calcular a probabilidade de falta de energia (acontecimento


secundário) vem
P (avaria) = P (A ∪ B) = P (A) + P(B) + P(A)xP(B)

Para o acontecimento prioritário (sala às escuras) vem:


P(sala às escuras) = P(falta de energia ∪ lâmpada estragada)
Esta metodologia pode ser aplicada a estudos de fiabilidade de sistemas de
protecção e esquemas de comando (fiabilidade de mísseis e reactores
nucleares, por exemplo).

Sala às
escuras

Falta de Lâmpada
energia estragada

Avaria na Actuação da
rede protecção

Manual Técnico de Formando 81


Manual de Estatística Aplicada

3.7. Aplicações estatísticas


Controlo Estatístico de Qualidade

É do conhecimento geral que nenhum processo de produção executa dois


produtos iguais. Os processos industriais são caracterizados por produzirem
peças cujas características variam dentro de certos valores toleráveis. As
variações são inevitáveis, podendo ser grandes, pequenas, muito ou pouco
dispersas. O conhecimento do tipo, da extensão e da evolução dessas
variações é extremamente importante para podermos garantir que nos é
possível produzir produtos que vão cumprir as especificações, para eles
definidas, a um nível aceitável.

Os testes descritos anteriormente referiam-se em situações em que o estudo


não era cronológico. É simples imaginar situações onde, pelo contrário, o
processo a analisar deva ser monitorado ao longo do tempo. Situações deste
tipo ocorrem em linhas de fabrico de produtos, estudos de conservação de
materiais e máquinas, qualidade de serviços. Duma forma geral, entende-se
por controle de qualidade a monitorização de um processo, cujos resultados de
natureza quantitativa se devem encontrar dentro de determinados limites. Um
processo está sob controle se os resultados estão em conformidade com os
limites impostos; caso contrário, o processo deve ser investigado para que
sejam detectadas as causas do desvio. A "qualidade" pode referir-se a um
valor fixo, que constitui o objectivo desejado (por exemplo, a conformidade da
média relativamente a "limites normais"). A avaliação do processo implica, que
em certos intervalos de tempo se proceda a uma amostragem.
O controlo estatístico de qualidade permite uma intervenção nos processos, no
sentido de se ajustarem e corrigirem os processos, antes de qualquer alteração
não natural passar a fazer efeito de forma contínua. As cartas de controlo são
um instrumento poderoso que permite identificar as causas de variação não
natural nos processos.

Ao definir uma carta de controle para a média, é necessário começar por definir
a norma para µ (µ0) e 2 níveis de controle: os de vigilância “garantida” (limites

Manual Técnico de Formando 82


Manual de Estatística Aplicada

inferior e superior de vigilância: LIV e LSV) e os de controle (limites inferior e


superior de controle: LIC e LSC). Se a média amostral cair fora da área de
tolerância definida pelos LIC e LSC, é por que há alguma anomalia e deve
haver paragem da produção.
Supõe-se que a variável em estudo segue Distribuição Normal, sendo os LIC e
LSC calculados da seguinte forma:


LIC / LSC = µ0 +/-
n
(metodologia baseada na estimação por intervalos estudada atrás)

Ao definir uma carta de controle para a proporção, por exemplo, de


defeituosos, é necessário começar por definir a norma para p (p0) e 2 níveis de
controle: os de vigilância “garantida” (limites inferior e superior de vigilância: LIV
e LSV) e os de controle (limites inferior e superior de controle: LIC e LSC). Se
a proporção amostral cair fora da área de tolerância definida pelos LIC e LSC,
é por que há alguma anomalia e deve haver paragem da produção.
Os LIC e LSC calculados da seguinte forma:

Manual Técnico de Formando 83


Manual de Estatística Aplicada

pˆ (1 − pˆ )
LIC / LSC = p0 +/-
n
(metodologia baseada na estimação por intervalos estudada atrás)
As cartas de controlo são instrumentos fáceis e simples de aplicar pelos
executantes, no sentido de se obter o controlo contínuo do processo. Podem
ser traçadas nos próprios locais de trabalho, dando informações preciosas
sobre os momentos em que são necessárias acções correctivas.
Desde que o processo esteja sob controlo estatístico, as cartas de controlo
permitem prever de forma adequada o comportamento do processo, e melhorar
os processos, com base na informação disponível nas cartas, no sentido de
reduzir a sua variabilidade.

As cartas são elaboradas a partir de medições efectuadas de uma


característica do processo (a média, por exemplo). Os dados são obtidos de
amostras de tamanho constante, geralmente 3 ou 5 unidades, recolhidas
consecutivamente em intervalos de tempo constantes. Deve ser elaborado um
plano de recolha de dados, que deverá ser usado como base para a colheita,
registo e marcação dos dados no gráfico. As amostras a utilizar devem ser de
tamanho racional, isto é, devem ser eficazes para o controlo sem acarretar
esforço demasiado e desnecessário na colheita.

A interpretação dos limites de controlo é a seguinte: se a variabilidade peça a


peça do processo permanecesse constante e nos níveis encontrados, seria
legítimo concluir que na base de um ponto fora dos limites de controlo estariam
causas que importa conhecer e sanear. Um ponto fora do controlo deve
merecer uma análise imediata quanto à causa.

Exemplo
Uma empresa fabrica e comercializa condutores eléctricos cujas condições de
controlo da produção e aceitabilidade a seguir se indicam (relativos à
resistência de um componente em Ω):
- Característica sob controlo: µ
- LIC: 49,8775
- LSC: 50,1225

Manual Técnico de Formando 84


Manual de Estatística Aplicada

- n=16
- σ=0,25
- Proceder-se-á à paragem da produção sempre que os limites de controlo
sejam desrespeitados
- Um condutor é considerado não defeituoso se a sua resistência em Ω
estiver compreendida entre [49,530; 50, 470]

Nestas condições, determine:


a) O valor da norma µ0
b) A probabilidade de se proceder a uma paragem indevida da produção
c) A probabilidade de, estando a norma a ser cumprida, se produzir um
artigo defeituoso.

Resolução
X: resistência de um componente em Ω
X ∩ N ( µ ; (0,25) 2 )

a) LIC = µ − = 49,8775
n

LSC = µ + = 50,1225
n
cσ cσ
Como LIC + LSC = 100 vem que µ − + µ+ = 2 µ = 100
n n
Logo µ=100/2 = 50 Ω

b)
P (parar indevidamente o processo produtivo) =
P( X cair fora dos limites de controlo quando µ=µ0) =

1 - P(49,8775 ≤ X ≤ 50,1225 sendo µ=50) =


49,8775 − 50 50,1225 − 50
1 - P( ≤X ≤ )=
0,25 0,25
16 16

Manual Técnico de Formando 85


Manual de Estatística Aplicada

1- P(-1,96 ≤ X ≤ 1,96) =

Na tabela da Normal, vem D(1,96) = 0,95 donde


1 – 0,95 = 5%

c) P(produzir um artigo defeituoso, sendo a norma respeitada) =


1 – P(49,53 ≤ X ≤ 50,47 sendo µ=50) =
49,53 − 50 50,47 − 50
1 - P( ≤X ≤ )=
0,25 0,25
16 16

1 - P(-1,88 ≤ X ≤ 1,88) =

Na tabela da Normal, vem D(1,88) = 0,9399 donde


1 – 0,9399 = 6,01%

Pode ser mantido um registo das médias amostrais por meio de uma carta
como a representada na figura abaixo, denominada carta de controle de
qualidade.

Média
Amostral Segunda-feira Terça-feira Quarta-feira Quinta-feira Sexta-feira
(cm)
50,1225
• • •
• •
• • •
• •
• • •
50 • • •
• •
• • •
• •
• •
49,8775 •

Cada vez que for calculada uma média amostral, ela será representada por um
ponto particular. Enquanto eles caírem entre o limite inferior, 49,8775 Ω , e o
superior, 50,1225 Ω, o processo está sob controle. Quando um ponto estiver

Manual Técnico de Formando 86


Manual de Estatística Aplicada

fora desses limites de controle (como ocorreu com a terceira amostra tomada
na quinta-feira), há a possibilidade de haver alguma anomalia, o que justifica
uma investigação.
Os limites de controlo especificados são denominados de limites de confiança.
A escolha, em cada caso, depende das circunstâncias particulares de cada
processo.

Manual Técnico de Formando 87


Manual de Estatística Aplicada

3.8. Aplicações estatísticas


Tratamento estatístico de inquéritos

3.8.1 Teste de independência do qui-quadrado

O teste do é muito eficiente para avaliar a associação existente entre


variáveis qualitativas. Trata-se de um teste de hipóteses semelhante aos
anteriormente estudados, mas que se inclui na categoria dos testes não-
paramétricos, isto é, aqueles que não incidem explicitamente sobre um
parâmetro de uma ou mais populações (por exemplo, o valor esperado ou a
proporção, como os estudados anteriormente). No entanto, a lógica de
formulação das hipóteses e de definição de uma regra de decisão é
equivalente aos testes paramétricos. O princípio básico deste método não-
paramétrico é comparar as divergências entre as frequências observadas e as
esperadas.

Este teste encontra aplicabilidade no tratamento estatístico de inquéritos. De


facto, para além do tratamento frequencista dos inquéritos, é por vezes
interessante aferir da existência de relações estatísticas relevantes entre as
diversas questões (por exemplo, testar se há alguma coerência entre quem
respondeu à opção 1 da pergunta X e à opção 2 da pergunta Y). O estudo
destas relações encontra aplicabilidade no campo das análises de mercado,
em que o objectivo é proceder à sua segmentação. A existência de
associações entre as questões permite determinada um vector comum entre
grupos de inquiridos que responderam de forma semelhante a certo tipo de
questões (concluir algo como que os habitantes de uma dada área foram
sempre os que assinalaram determinado tipo de respostas e constituem, por
isso, um segmento geográfico autónomo e com características próprias de
entre o total dos inquiridos).

De uma maneira geral, pode dizer-se que dois grupos se comportam de modo
semelhante se as diferenças entre as frequências observadas e as esperadas
em cada categoria forem muito pequenas ou próximas de zero.

Manual Técnico de Formando 88


Manual de Estatística Aplicada

Exemplo:
Um pesquisador deseja verificar se há associação entre três cursos de uma
universidade e dependência de drogas. Entrevistou 120 alunos, sendo 25 de
Medicina, 35 de Farmácia e 60 de Biologia, perguntando sobre o uso de
drogas, admitindo somente duas respostas: sim ou não. Após o processamento
dos dados, chegou-se à seguinte tabela de distribuição de frequências:

Medicina Farmácia Biologia Total


Usa drogas 10 20 30 60
Não usa drogas 15 15 30 60
Total 25 35 60 120

As tabelas como aquela na qual se apresentam os resultados referentes ao


exemplo são habitualmente designadas de tabelas de contingência. Admita-
se que os resultados que nela figuram resultam de amostras aleatórias. Tais
resultados representam o número de observações incluídas nas diferentes
combinações das classes nas quais as duas variáveis em estudo se exprimem.

Mod. 1 Mod. 2 … Mod. n Total


Modalidade 1 n11 n12 … … n1.
Modalidade 2 n21 n22 … … n2.
… … … … … …
Modalidade n … … … nnn ni.
Total n.1 n.2 … n.j n

onde
nij: frequência observada na célula ij
n.j: frequência marginal observada na modalidade j
ni.: frequência marginal observada na modalidade i
n: dimensão da amostra

Manual Técnico de Formando 89


Manual de Estatística Aplicada

O objectivo do teste é o de verificar se as duas variáveis em questão são ou


não relacionadas. As hipóteses nula e alternativa são então as seguintes:
Ho: As variáveis são independentes
H1: As variáveis não são independentes

As frequências observadas são obtidas directamente dos dados da amostra,


enquanto que as frequências esperadas são calculadas a partir destas, sob o
pressuposto de que Ho é verdadeira, isto é, admitindo a hipótese de
independência.
Na prática, a frequência esperada é calculada pela multiplicação do total da
coluna respectiva pelo total da linha a que pertence, dividindo-se o produto pela
dimensão total da amostra:
n i . * n. j
eij =
n

O é calculado da seguinte forma:


(nij − eij ) 2
=
i j eij

Note-se que o numerador faz referência à diferença entre frequência observada


e frequência esperada, que deverá ser calculada para cada célula da tabela.
Quando as frequências observadas são muito próximas das esperadas, o valor
do numerador é pequeno; no entanto, quando as discrepâncias são grandes, o

valor do numerador passa a ser grande e, consequentemente, o assume


valores altos. Ou seja, quando há fortes discrepâncias entre o que de facto foi
observado e o que seria de esperar sob a hipótese de independência, a

variável de decisão assume um valor elevado e há motivos ou significância


estatística para rejeitar Ho.

No teste qui-quadrado compara-se o valor calculado com o valor crítico


fornecido em uma tabela, considerando o nível de significância adoptado e os
graus de liberdade GL ou d.f. (obtidos por (número de linhas-1)*(número de
colunas-1)).

Manual Técnico de Formando 90


Manual de Estatística Aplicada

Tome-se o caso de GL (d.f.) = 4:

Para o nível de significância de 5%, obtém-se da

tabela de valores críticos da (ver página seguinte):

Rejeita-se a hipótese nula se for maior que o valor crítico fornecido na

tabela.

Resolução:
Como pode ser observado, entre os 120 alunos incluídos no estudo há um
número igual (60) que afirma usar e não usar drogas. No entanto, a distribuição
entre os vários cursos não ocorre de forma homogénea.

Medicina Farmácia Biologia Total


Usa drogas 10 20 30 60
Não usa drogas 15 15 30 60
Total 25 35 60 120

Os dados são do tipo qualitativo, pois cada aluno entrevistado foi classificado
sob uma determinada categoria. Neste caso, pode usar-se o teste do qui-
quadrado com duas hipóteses de trabalho:
Ho: Não há associação entre tipo de curso e dependência de drogas
H1: Há associação entre tipo de curso e dependência de droga

Manual Técnico de Formando 91


Manual de Estatística Aplicada

Se o obtido fôr maior ou igual ao crítico, Ho deverá ser rejeitada.

Para o cálculo do recomendam-se os seguintes passos:

n i . * n. j
1. Calcular as frequências esperadas eij =
n
Por exemplo, se as duas variáveis fossem independentes, seria de esperar que
o número de estudantes de Medicina a admitir usar drogas fosse de:
ni. * n. j 25 * 60
eij = = = 12,5
n 120
2. As frequências esperadas deverão ser anotadas nas correspondentes
células:
Medicina Farmácia Biologia Total
Usa drogas nij 10 20 30 60
eij 12,5 17,5 30,0
Não usa drogas nij 15 15 30 60
eij 12,5 17,5 30,0
Total 25 35 60 120

(nij − eij ) 2
3. A seguir aplica-se a fórmula = = …=1,7
i j eij

4. Determinam-se os graus de liberdade na tabela


Os graus de liberdade da tabela são calculados multiplicando
(número de linhas-1)*(número de colunas-1)= (2-1)*(3-1)=2 GL

5. Por último, compara-se o valor do observado obtido (1,7) com o valor do

crítico, considerando os graus de liberdade (GL) e o nível de significância


adoptado (ver tabela anexa).

Vem que o obsv.=1,7 é menor do que o valor obtido a partir da tabela, que
é 5,991 (cruzamento da linha 2 com a coluna 0,05). Assim sendo, a hipótese Ho
não pode ser rejeitada, concluindo-se que, no grupo estudado, não há
associação entre as variáveis. Em média, a proporção de alunos que usam ou
não drogas não varia entre os cursos.

Manual Técnico de Formando 92


Manual de Estatística Aplicada

Observação:
Caso 20% ou mais das células tenham frequências esperadas menores que 5,
ou haja uma ou mais frequências esperadas com valores menores ou igual a 1,

não se deve usar o teste do . Uma boa alternativa para estes casos é o
agrupamento de linhas e colunas adjacentes, desde que tenha algum sentido
lógico.

3.8.2 Tratamento de inquéritos

Exemplo
A empresa BrasFruta Lda está a instalar-se em Portugal com um produto
inovador, um concentrado de fruta semelhante a um sumo de fruta natural. A
intenção é vender o produto em cafés, esplanadas e bares que passariam a
dispor de uma imitação perfeita de um sumo acabado de fazerva um preço
vantajoso.
Através de um estudo qualitativo com consumidores, conseguiu-se apurar que
existia uma grande sensibilidade ao preço. Apesar de haver uma preferência
generalizada por sumos naturais face a refrigerantes, os consumidores
mostravam-se cépticos em relação à qualidade quando se falav em preços
baixos.
Entendeu-se então levantar a seguinte questão: “a sensibilidade ao preço é
afectada pelo poder de compra dos clientes?” Numa sondagem efectuada a
1973 clientes potenciais, confrontaram-se os inquiridos com três alternativas:
adquirir sumo natural a preço elevado, adquirir sumo natural a preço baixo ou
adquirir refrigerantes. A sondagem revelou que, dos clientes classes A/B/C1,
598 pagariam um preço mais elevado pelo sumo natural, enquanto 212 não
estariam dispostos a gastar tanto. Em relação aos 977 clientes das classes
C2/D/E, 164 só consumiriam sumo natural se o preço fosse baixo e 285
preferiam refrigerante.

Cruzaram-se então os dados e construiu-se a tabela que se segue:

Manual Técnico de Formando 93


Manual de Estatística Aplicada

Preço Elevado Preço Baixo Refrigerante Total


A/B/C1 598 212 186 996
C2/D/E 528 164 285 977
Total 1126 376 471 1973

As conclusões foram retiradas pelo recurso à análise correlacionada através do


teste do qui-quadrado. Estes testes foram elaborados sobretudo com o intuito
de segmentar o mercado. As frequências foram utilizadas para analisar o
mercado como um todo e para interpretar o resultado dos testes de correlação,
para os quais se convencionou a adopção de um nível de significância de 5%,
considerado razoável face aos valores normalmente utilizados.

Para o cálculo das frequências esperadas, procedeu-se à aplicação de


n i . * n. j
eij = , de que resultou a seguinte tabela:
n
Preço Elevado Preço Baixo Refrigerante Total
A/B/C1 nij 598 212 186 996
eij 568.4 189.8 237.8
C2/D/E nij 528 164 285 977
eij 557.6 186.2 233.2
Total 1126 376 471 1973

Ho: As variáveis são independentes


H1: As variáveis não são independentes

crítico (GL=2; α=0,05)=5,991

observado = 31,141

Vem que o obsv.=31,141 é maior do que o valor obtido a partir da tabela,


que é 5,991 (cruzamento da linha 2 com a coluna 0,05). Assim sendo, a
hipótese Ho será rejeitada, concluindo-se que, no grupo estudado, não há
associação entre as variáveis. Em média, o poder de compra do consumidor
influencia a sensibilidade ao preço.

Manual Técnico de Formando 94


Manual de Estatística Aplicada

Sempre que surgir alguma dificuldade em validar os testes, as diferentes


alternativas por questão devem ser agregadas (isto é, o número de classes era
reduzido) de modo a diminuir os graus de liberdade associados, mas
garantindo a manutenção de menos de 20% de ei<5 ou de nenhum ei<1.
Relações estatisticamente relevantes, mas sem qualquer lógica subjacente ou
demasiado óbvias, não foram consideradas.

Manual Técnico de Formando 95


Manual de Estatística Aplicada

 
      ! " ! #$&%'($ )"*+, - ./0120

0.995 0.975 0.9 0.5 0.1 0.05 0.025 0.01 0.005 0.001

1 0.000 0.001 0.016 0.455 2.706 3.841 5.024 6.635 7.879 10.827
2 0.010 0.051 0.211 1.386 4.605 5.991 7.378 9.210 10.597 13.815
3 0.072 0.216 0.584 2.366 6.251 7.815 9.348 11.345 12.838 16.266
4 0.207 0.484 1.064 3.357 7.779 9.488 11.143 13.277 14.860 18.466
5 0.412 0.831 1.610 4.351 9.236 11.070 12.832 15.086 16.750 20.515
6 0.676 1.237 2.204 5.348 10.645 12.592 14.449 16.812 18.548 22.457
7 0.989 1.690 2.833 6.346 12.017 14.067 16.013 18.475 20.278 24.321
8 1.344 2.180 3.490 7.344 13.362 15.507 17.535 20.090 21.955 26.124
9 1.735 2.700 4.168 8.343 14.684 16.919 19.023 21.666 23.589 27.877
10 2.156 3.247 4.865 9.342 15.987 18.307 20.483 23.209 25.188 29.588
11 2.603 3.816 5.578 10.341 17.275 19.675 21.920 24.725 26.757 31.264
12 3.074 4.404 6.304 11.340 18.549 21.026 23.337 26.217 28.300 32.909
13 3.565 5.009 7.041 12.340 19.812 22.362 24.736 27.688 29.819 34.527
14 4.075 5.629 7.790 13.339 21.064 23.685 26.119 29.141 31.319 36.124
15 4.601 6.262 8.547 14.339 22.307 24.996 27.488 30.578 32.801 37.698
16 5.142 6.908 9.312 15.338 23.542 26.296 28.845 32.000 34.267 39.252
17 5.697 7.564 10.085 16.338 24.769 27.587 30.191 33.409 35.718 40.791
18 6.265 8.231 10.865 17.338 25.989 28.869 31.526 34.805 37.156 42.312
19 6.844 8.907 11.651 18.338 27.204 30.144 32.852 36.191 38.582 43.819
20 7.434 9.591 12.443 19.337 28.412 31.410 34.170 37.566 39.997 45.314
21 8.034 10.283 13.240 20.337 29.615 32.671 35.479 38.932 41.401 46.796
22 8.643 10.982 14.041 21.337 30.813 33.924 36.781 40.289 42.796 48.268
23 9.260 11.689 14.848 22.337 32.007 35.172 38.076 41.638 44.181 49.728
24 9.886 12.401 15.659 23.337 33.196 36.415 39.364 42.980 45.558 51.179
25 10.520 13.120 16.473 24.337 34.382 37.652 40.646 44.314 46.928 52.619
26 11.160 13.844 17.292 25.336 35.563 38.885 41.923 45.642 48.290 54.051
27 11.808 14.573 18.114 26.336 36.741 40.113 43.195 46.963 49.645 55.475
28 12.461 15.308 18.939 27.336 37.916 41.337 44.461 48.278 50.994 56.892
29 13.121 16.047 19.768 28.336 39.087 42.557 45.722 49.588 52.335 58.301
30 13.787 16.791 20.599 29.336 40.256 43.773 46.979 50.892 53.672 59.702

Manual Técnico de Formando 96


Manual de Estatística Aplicada

FIABILIDADE
Exercícios

1. Num centro comercial, está instalado um sistema de 10 máquinas para


utilização de cartão multibanco. Diz-se que o sistema está em funcionamento
se pelo menos uma das máquinas funciona. Suponha que cada máquina
funciona independentemente das outras e a probabilidade de funcionamento de
cada máquina é 85%. Calcule a probabilidade do sistema estar em
funcionamento.

2. Quatro componentes de um sistema encontram-se associados de acordo


com a figura junta. Estão no seu período de vida útil e as taxas médias de
avarias são 10-4
avarias/hora (A), 2x10-5 avarias/hora (B e C) e 5x10-5 avarias/hora (D).

B
A D
C

Calcule a probabilidade do sistema estar em funcionamento após 5 000 horas.

3. Foram ensaiadas durante 3 000 horas, sem que se verificasse qualquer


avaria, cinco unidades idênticas de um equipamento que se sabe ter uma curva
de sobrevivência que obedece a uma distribuição exponencial, com um MTBF
de 17 500 horas.
Calcule a fiabilidade do equipamento.

4. O tempo de funcionamento sem avarias de uma determinada máquina de


produção contínua segue uma lei exponencial negativa com valor esperado
igual a 4,5 horas. Imagine que a máquina é (re)colocada em funcionamento no
instante t=0 horas.

Manual Técnico de Formando 97


Manual de Estatística Aplicada

a) Qual a probabilidade de não ocorrerem avarias antes do instante t=6


horas?
b) Admitindo que a máquina se encontrava em funcionamento no instante
t=4 horas, qual a probabilidade de não ocorrerem avarias até t=6 horas?
c) Qual a probabilidade de se verificarem 2 avarias durante as primeiras 6
horas de funcionamento da máquina?

5. Sabe-se que um determinado modelo de lâmpadas apresenta no período de


vida útil (3625 horas) um MTBF de 12 000 horas. Calcular:

a) A probabilidade de falha de uma ou mais lâmpadas, num conjunto de 10,


no período de vida útil.
b) Quantas lâmpadas, de um conjunto de 1 000, estarão provavelmente em
funcionamento após 2 000 horas de utilização.

6. Num grande centro comercial existem 3 telefones públicos, colocados


estrategicamente a fim de satisfazer adequadamente os utentes. A observação
prolongada do funcionamento dos telefones levou a concluir que as
probabilidades dos 3 telefones, T1, T2 e T3 se encontrarem avariados são,
respectivamente, 0,15, 0,2 e 0,25 e que as avarias são independentes. O grupo
de telefones satisfaz minimamente o serviço se pelo menos 2 estiverem sem
avarias.

a) Qual a probabilidade de pelo menos dois destes telefones estarem sem


avarias?
b) Acha que esta zona está bem servida de telefones?

Manual Técnico de Formando 98


Manual de Estatística Aplicada

CONTROLE ESTATÍSTICO DE QUALIDADE


Exercícios

1. A empresa “TRADECHO, SA” mantém um diferendo com os seus principais


clientes, que afirmam que os produtos produzidos (em série) por esta empresa
não obedecem às normas de qualidade estabelecidas e que são:
- a norma para o comprimento médio das peças é de 20 cm;
- a norma para a variância é de 4;
- a amplitude do intervalo de controle para a média deve ser de 1,96;
- a dimensão das amostras a extrair é de 16
Afirmam os clientes que a probabilidade de parar indevidamente o processo
produtivo é superior àquela que decorre das normas.

a) Determine a probabilidade referida.


b) Represente a carta de controle para a média
c) A recolha de 5 amostras forneceu os seguintes resultados para a média:

20,05 19,90 20,00 20,30 20,15

Qual a medida a tomar?

2. Numa empresa procede-se ao exame das condições de produção relativas à


duração (em horas) das lâmpadas fabricadas (produção em série). Sabe-se
que o desvio-padrão da duração de uma lâmpada é de 100 horas.
O Departamento de Produção construiu o seguinte intervalo para a duração
média de uma lâmpada, a partir de uma amostra de dimensão 100:

[983,55; 1016,45]

parando-se o processo produtivo se o valor médio amostral se situar fora deste


intervalo.
a) Calcule o valor adoptado para a norma (µ0)
b) Determine a probabilidade de se parar indevidamente o processo
produtivo.

Manual Técnico de Formando 99


Manual de Estatística Aplicada

3. O novo Conselho de Administração da empresa de componentes eléctricas


“Alta Tensão, SA” resolveu efectuar um estudo aprofundado sobre o controle
estatístico de qualidade das peças produzidas. Assim, definiu com o director de
produção os aspectos considerados relevantes no controle da duração média
das componentes:
- o limite superior de qualidade (LSC) deve ser de 10,8 milhares de horas
- a amplitude do intervalo não deve exceder 1,96 milhares de horas
- a probabilidade de se parar indevidamente a produção é de 5%

Sabe-se ainda que o desvio padrão da duração de uma componente é de 4 mil


horas.

a) Determine a dimensão da amostra que é necessário recolher para


cumprir as condições definidas.
b) Calcule a norma.

4. O director de produção da empresa DISLIX, SA pretende implementar


um sistema de controle interno de qualidade de um determinado tipo de
geradores fabricados em série. Para tal, procede à verificação da produção de
energia eléctrica (em kws/hora). tendo e vista a construção de um intervalo de
controle para a produção média de energia de um gerador que cumpra os
seguintes objectivos:
- Norma de produção para a média: 10
- A amplitude do intervalo não deve exceder 3,92
- A probabilidade de se parar indevidamente a produção não deve
exceder 5%
Sabe-se que o desvio padrão da produção da energia eléctrica de um gerador
é de 4 kws/hora e que a variável segue distribuição Normal.

a) Determine a dimensão mínima da amostra a utilizar para o controle de


produção.
b) Represente a carta de controle para a média.

Manual Técnico de Formando 100


Manual de Estatística Aplicada

TRATAMENTO ESTATÍSTICO DE INQUÉRITOS


Exercícios

1. Numa sondagem efectuada recentemente a 1 973 clientes de um dado


banco, pretendia-se averiguar quais as preferências dos clientes do sexo
masculino e do sexo feminino por 3 produtos financeiros alternativos (A,B e C).
A sondagem revelou que, dos clientes do sexo feminino, 598 preferiam o
produto A e 212 o produto B. Em relação aos 977 clientes do sexo masculino,
164 afirmaram preferir o produto B e 285 o produto C.
Represente adequadamente e interprete a informação contida nestes dados.
Utilize um nível de significância de 1%.

2. Aos exames de primeira época de determinada disciplina compareceram 105


alunos, dos quais 20 não tinham prestado qualquer prova durante o ano. O
número de aprovações foi de 33, das quais 3 foram de alunos que não tinham
efectuado provas durante o ano.
Diga, com base nestes elementos, se, para um nível de significância de 5%, se
pode afirmar que existe independência entre a comparência (ou não) a provas
durante o ano de aprovação (ou não) em exame.

3. Com o objectivo de testar se existe relação entre a formação do gerente de


uma dependência bancária e a respectiva “performance”, construiu-se a
seguinte tabela de contingência, relativa a 300 balcões de diferentes bancos:

Formação
Gerente Média Superior
Vol. Negócios
Baixo 44 52
Médio 55 43
Elevado 51 55

Que conclui, a um nível de significância de 1%?

Manual Técnico de Formando 101


Manual de Estatística Aplicada

4. Pretendendo-se analisar o comportamento do volume de divisas ao longo do


ano, deu-se particular atenção à influência exercida pelas remessas de
emigrantes. Assim, o ano foi dividido em duas épocas: Época de Ponta,
compreendendo os meses de vinda de emigrantes (Verão e Natal) e Época
Normal (restantes meses).
Assim, observou-se o nível de Disponibilidades Líquidas sobre o Exterior (DLX)
para cada mês, tendo-se obtido:

Volume DLX Baixo/Médio Elevado


Época
Normal 150 50
Ponta 20 80

A um nível de significância de 5%, que pode concluir?

5. Num estudo que pretendia averiguar a existência de relação entre a


procura de moeda e a taxa de juro, procedeu-se à recolha periódica de
elementos sobre essas variáveis, construindo-se a seguinte tabela de
contingência:

Taxa juro Reduzida Média Elevada


Proc. Moeda
0-10 20 30 200
10-45 20 400 30
45-70 250 30 20

Utilizando um nível de significância de 5%, que conclusão pode tirar?

6. Um investigador seleccionou três amostras de estudantes, A, B e C, que


fazem parte de um determinado projecto de estudo e aplicou-lhes uma escala
de atitudes com o objectivo de conhecer as suas opiniões em relação ao
projecto.
Os resultados obtidos para uma amostra de 140 estudantes foram os
seguintes:

Manual Técnico de Formando 102


Manual de Estatística Aplicada

Grupo de
Tipo estudantes A B C
de atitude
Atitude negativa 30 30 10
Atitude positiva 10 20 40

Utilizando um nível de significância de 5%, que conclusão pode tirar?

Manual Técnico de Formando 103


Manual de Estatística Aplicada

BIBLIOGRAFIA

Murteira, Bento; Black, George; “Estatística Descritiva”, Mc-Graw-Hill

Murteira, Bento; “Análise Exploratória de Dados”, Mc-Graw-Hill

Murteira, Bento; “Probabilidades e Estatística”, Vol. I, II, Mc-Graw-Hill

Oliveira, Tiago; “Probabilidades e Estatística”, Vol. I, II, Mc-Graw-Hill

Guimarães, Rui C.; Sarsfield Cabral, J. A.; “Estatística”, Mc-Graw-Hill

Kreyszig, Erwin; “Introductory Mathematical Statistics”, Wiley

Fisz, Marek; “Probability Theory and Mathematical Statistics”, Wiley

Mood, Graybill and Boes; “Introduction to the Theory of Statistics”, McGraw-Hill

Wonanacot, T.H.; Wonnacot; R.J.; “Introductory Statistics”, Wiley

Siegel, A. F.; “Practical Business Statistics”, 3ª ed., Irwin, Boston

Manual Técnico de Formando 104

Você também pode gostar