Você está na página 1de 36

UNIVERSIDADE FEDERAL DO PARANÁ

CURSO DE ESPECIALIZAÇÃO EM INFORMÁTICA


ÊNFASE EM INTELIGÊNCIA COMPUTACIONAL

DISCIPLINA PROBABILIDADE E ESTATÍSTICA

Prof. Paulo Ricardo Bittencourt Guimarães


Departamento de Estatística – UFPR

PROGRAMA

I. CÁLCULO DE PROBABILIDADES: CONCEITOS BÁSICOS E


DEFINIÇÕES (3 aulas)

TEORIA MATEMÁTICA DOS CONJUNTOS


EXPERIMENTO
ESPAÇO AMOSTRAL
EVENTOS
DEFINIÇÃO DE PROBABILIDADE E PROPRIEDADES
VARIÁVEL ALEATÓRIA DISCRETA E CONTÍNUA

II. AJUSTAMENTO DE DISTRIBUIÇÕES DE PROBABILIDADE (3


aulas)

DIST. DISCRETAS DE PROBABILIDADE: BINOMIAL E POISSON


DIST. CONTÍNUAS DE PROBABILIDADE: EXPONENCIAL E NORMAL
BONDADE DO AJUSTE: TESTE KOLMOGOROV-SMIRNOV E TESTE DE
LILLIEFORS

III. NOÇÕES DE AMOSTRAGEM (2 aulas)

AMOSTRA ALEATÓRIA
TÉCNICAS DE AMOSTRAGEM: ALEATÓRIA, SISTEMÁTICA E
ESTRATIFICADA
ERRO AMOSTRAL E NÍVEL DE CONFIANÇA
CÁLCULO DE TAMANHO AMOSTRAL

IV. ANÁLISE EXPLORATÓRIA DE DADOS (2 aulas)

CÁLCULO DE MEDIDAS DESCRITIVAS


TABELA DE FREQÜÊNCIA E HISTOGRAMA
GRÁFICO BOX-PLOT

1
V. INFERÊNCIA ESTATÍSTICA (3 aulas)

ESTIMAÇÃO POR INTERVALO: INTERVALO DE CONFIANÇA PARA MÉDIA E


PARA PROPORÇÃO
TESTES DE HIPÓTESES PARA MÉDIAS E PROPORÇÕES
ANÁLISE DO P-VALOR

VI. ANÁLISE DE REGRESSÃO E CORRELAÇÃO (2 aulas)

REGRESSÃO SIMPLES
REGRESSÃO MÚLTIPLA
ANÁLISE DE CORRELAÇÃO

SISTEMA DE AVALIAÇÃO

2 listas de exercícios

2
ESTATÍSTICA

 A maioria das pessoas pensam que Estatística é uma simples coleção de


números, tem a ver com gráficos e Censo Demográfico;

 A origem da palavra Estatística tem a ver com uma coleção de


informações populacionais e econômicas de interesse do Estado;

 Na verdade é muito mais que isso! É um conjunto de técnicas de análise


de dados, cientificamente formuladas, aplicáveis a quase todas as áreas do
conhecimento que nos auxiliam no processo de tomada de decisão; E isto
hoje em dia é muito importante!

 Hoje em dia as portas do mercado de trabalho estão muito mais abertas


aos profissionais que, por exemplo, tem habilidades em línguas
estrangeiras. Da mesma forma, profissionais que tem uma cultura básica de
Estatística são muito valorizados exatamente pelo seu preparo para tomada
de decisão. Mas o que significa isso?

 Desenvolver uma cultura estatística significa desenvolver a habilidade


de planejar um estudo controlando todos os aspectos que possam causar
variações na resposta de interesse e, com base em metodologia científica
ser capaz de realizar inferências que facilitem a tomada de decisão. Tem
muito a ver com Lógica e Bom Senso!

 O profissional que trabalha com Estatística lida geralmente com uma


amostra, ou seja, com uma pequena parcela da população, pela facilidade,
pela limitação de tempo e custo mais baixo. Não precisamos comer a
panela inteira de arroz para provar se está ou não bem temperada!

 Apesar da Estatística ser considerada uma ciência exata, seus resultados


estão sempre associados à uma pequena margem de erro, exatamente por
estarem baseados em uma amostra. O profissional de estatística deve ter a
habilidade de controlar esta margem de erro através de procedimentos de
Amostragem.

 A utilização de técnicas estatísticas foi incrementada com o grande


avanço da computação eletrônica. Hoje existem centenas de softwares
estatísticos que facilitam a utilização das técnicas. No entanto se não
houver a habilidade de interpretação das informações do “output” do
computador, a confusão estará formada!

3
 Alguns exemplos de aplicação de técnicas estatísticas: Pesquisa
Eleitoral, Pesquisa de Mercado, Controle de Qualidade, Índices
Econômicos, além do desenvolvimento de medicamentos, formas de
tratamento, sementes mais eficientes, etc, ou seja, tudo que é “comprovado
cientificamente” deve passar por procedimentos estatísticos.

 Neste curso nos focaremos no estudo de técnicas de Tomada de Decisão


que é o interesse principal desta Especialização em Inteligência
Computacional;

 Para isso é muito importante que tenhamos contato com elementos


básicos que nos ajudem a entender como os métodos estatísticos foram
desenvolvidos. O Cálculo de Probabilidades é a “origem matemática” de
todos os métodos estatísticos.

 É importante que tenhamos contato também com alguns procedimentos


de descrição de conjuntos de dados, bem como de modelagem de dados;

4
I. CÁLCULO DE PROBABILIDADES: CONCEITOS BÁSICOS E
DEFINIÇÕES

TEORIA MATEMÁTICA DOS CONJUNTOS

Um conjunto é uma coleção de objetos, usualmente representados


por letras maiúsculas. Por exemplo:

A = { 1, 2, 3, 4}  2A

B é o conjunto de todos os números reais entre 0 e 1. Implica que 0,05


pertence a B

C = { x / -1  x  1 }  2C

O conjunto Universo (fundamental) é o conjunto de todos os objetos


que estejam sendo estudados e é usualmente representado pela letra U.

O conjunto vazio (nulo) é o conjunto que não possui nenhum


elemento, representado pelo símbolo .

Quando o conjunto A é um subconjunto de B escrevemos A  B.

EXERCÍCIO: Suponha-se que U = todos os números reais, A = { x / x 2 +


2x – 3 = 0}, B = { x / (x-2) (x 2 + 2x – 3) = 0 } e C = { x / x = -3, 2, 1 }.
Estabeleça as relações entre A, B e C usando os sinais  e =.

Operações com conjuntos

A  B é a união de todos os elementos que pertencem a A, pertencem a B


ou a ambos os conjuntos.

C  D é a interseção entre o conjunto C e D, ou seja, é um novo conjunto


formado por todos os elementos que pertencem a C e pertencem a D.

Ac é o complementar de A, ou seja, é um novo conjunto formado por todos


os elementos que não pertencem a A.

5
Estas operações podem ser graficamente representadas pelo diagrama de
Venn através da definição da região sombreada:

EXPERIMENTO ALEATÓRIO ( )

Entende-se por experimento aleatório (não-determinístico) a


observação de um determinado fenômeno de interesse cujos resultados não
são previsíveis com 100% de certeza, como as leis da Física e da
Matemática. Alguns exemplos serão dados aqui:

1.Jogue um dado e observe o número mostrado na face para cima

2. Uma asa de avião é fixada por um grande número de rebites. Conte o


número de rebites defeituosos.

3. Meça a resistência à tração de uma barra metálica.

4. Conte o tempo que se leva para conseguir conexão à Internet em


diferentes horas do dia.

5. Tábuas percorrem uma esteira através de um equipamento detetor de


defeitos. Conte o número de tábuas que passam até que surja a primeira
defeituosa.

6
ESPAÇO AMOSTRAL (S)

Para cada experimento aleatório temos associado um espaço amostral


que é o conjunto de todos os resultados possíveis deste experimento.

Ex:

S1 = { 1, 2, 3, 4, 5, 6}

S2 = { 0, 1, 2, 3, ..., M} onde M é o número de rebites utilizado

S3 = {T / T  0 }

S4 = { t / t  0 }

S5 = { 1, 2, 3, ... }

EVENTOS

É um conjunto resultados possíveis, geralmente representado por um


subconjunto do espaço amostral. É o fenômeno de interesse que se quer
estudar através do Cálculo de Probabilidades.

Ex: Em um experimento envolvendo um máquina de caça-níqueis deseja-se


investigar o aparecimento dos resultados que favorecem a banca.

7
DEFINIÇÃO DE PROBABILIDADES E PROPRIEDADES

Definição: Seja  um experimento. Seja S um espaço amostral associado a


. A cada evento A associaremos um número real representado por P(A) e
denominado Probabilidade de A, que satisfaça as seguintes propriedades:

(1) 0  P(A)  1
(2) P(S) = 1
(3) Se A e B forem eventos mutuamente exclusivos,
P(A  B) = P(A) + P(B)

(4) Se A1, A2, ..., An, ... forem, dois a dois, eventos mutuamente exclusivos,
então,


P(U i 1
Ai )  P ( A1 )  P ( A2 )    P ( An )  

obs: Caso A e B sejam dois eventos quaisquer, então

P( A  B )  P( A)  P( B )  P ( A  B) (demonstração)

Na verdade a utilização da definição de Probabilidade e das


operações com eventos servem para organizar o raciocínio do Cálculo de
Probabilidades, mais ou menos como é feito com um fluxograma.

Agora aproveitaremos as operações de conjuntos descritas


anteriormente para o cálculo de probabilidades que envolvem eventos de
nosso interesse. Tentemos responder intuitivamente a questão abaixo para
depois formalizar o procedimento de cálculo:

a) Para ter a certeza do nascimento de pelo menos um menino, um casal


planeja ter 5 bebês. Qual a chance de sucesso?
b) Peças que saem de uma linha de produção são marcadas defeituosas (D)
ou não defeituosas (N). As peças são inspecionadas e sua condição
registrada. Isto é feito até que duas peças defeituosas consecutivas sejam
fabricadas ou que quatro peças tenham sido inspecionadas, aquilo que
ocorrer em primeiro lugar. Calcule a probabilidade do experimento ser
interrompido antes do lote inteiro ter sido inspecionado.

8
Como forma de organização do raciocínio de cálculo devemos seguir
alguns passos:

1) Descrever o espaço amostral e o seu tamanho (n);


2) Definir o evento de interesse no problema;
3) Verificar o número de eventos que são favoráveis ao evento de
interesse (nA);
4) Calcular P(A) = nA / n

Mas atenção: Isto só vale se todos os resultados do espaço amostral


forem equiprováveis!
Caso os evento A e B não sejam equiprováveis use:

P( A  B )  P( A)  P( B )  P ( A  B)

Outros procedimento de organização são utilizados como: regras de


Multiplicação, regras de Adição, Permutações e Arranjos, e
Combinações. São os chamados Métodos de Enumeração ou Técnicas
de Contagem.

Obs:

n ! = n . (n-1) . (n-2) . ... . 1 é o fatorial de n.


n!
P ( n, r )  é a permutação de n elementos tomados r a r.
(n  r )!
n n!
   é a combinação de n elementos tomados r a r.
 r  ( n  r )!r!

Outros resultados importantes:

P( A  B)
a) P( A / B )  é a probabilidade de ocorrência do evento A dado
P( B)
que o evento B ocorreu

b) Se A e B são eventos independentes, então P  A  B   P ( A).P ( B )

9
VARIÁVEIS ALEATÓRIAS: DISCRETAS E CONTÍNUAS

Def. de Variável Aleatória: Seja S um espaço amostral associado a um


experimento aleatório. Uma função X, que associe a cada elemento de S
um número real é denominada variável aleatória.

Variável Aleatória Discreta:

Um a v.a será discreta se o número de resultados possíveis que ela


poderá assumir for finito ou infinito enumerável.

Exemplo: Contagem da ocorrência de um fenômeno em um certo


número de repetições ou em um certo espaço de tempo.

Seja X uma v.a. discreta e xi um certo valor de X. A probabilidade de


ocorrência de xi é dada por P(X = xi) = p(xi), onde:
 p(xi)  0
 a soma de todos os p(xi) é igual a 1.

Variável Aleatória Contínua:

Um a v.a será contínua se o número de resultados possíveis que ela


poderá assumir for infinito não enumerável.

Exemplo: Mensuração do tempo entre a ocorrência de duas quedas de


energia elétrica numa grande cidade.

Seja Y uma v.a. contínua que assume valores reais dentro de um


intervalo . Agora substituiremos a função p definida para uma v.a.
discreta pela função f , para todos os valores dentro do intervalo citado
acima. Desta forma:
 f(yi)  0

  f ( y )dy  1


 para quaisquer valores a e b dentro do intervalo citado, teremos


P a  Y  b    f ( y ) dy que é basicamente o cálculo de uma área
b

abaixo de uma curva.

10
EXERCÍCIOS COMPLEMENTARES

1) Dez fichas numeradas de 1 até 10 são misturadas em uma urna. Duas


fichas numeradas (X,Y) são extraídas da urna, sucessivamente e sem
reposição. Qual é a probabilidade de que seja X + Y = 10?

2) Um lote é formado de 10 artigos bons, 4 com defeitos menores e 2


com defeitos graves. Um artigo é escolhido ao acaso. Ache a
probabilidade de que:
a) ele não tenha defeitos
b) ele não tenha defeitos graves
c) ele ou seja perfeito ou tenha defeitos graves

3) Um produto é montado em 3 estágios. No primeiro estágio, existem


5 linhas de montagem; no segundo estágio e no terceiro estágio,
existem 6 linhas de montagem. De quantas maneiras diferentes
poderá o produto se deslocar durante o processo de montagem?

4) Determinado composto químico é obtido pela mistura de 5 líquidos


diferentes. Propõe-se despejar um líquido em um tanque e, em
seguida, juntar os outros líquidos sucessivamente. Todas as
seqüências possíveis devem ser ensaiadas para verificar-se qual delas
dará o melhor resultado. Quantos ensaios devem ser efetuados?

5) A probabilidade de um certo homem viver mais 10 anos é 1/4 e a


probabilidade de sua esposa viver mais 10 anos é 1/3. Encontre a
probabilidade de:

i) ambos estarem vivos dentro de 10 anos;


ii) ao menos um estar vivo dentro de 10 anos;
iii) nenhum estar vivo dentro de 10 anos;
iv) somente a esposa estar viva dentro de 10 anos.

6) Um certo tipo de míssil acerta no alvo com probabilidade 0,3.


Quantos mísseis deveriam ser lançados para que houvesse pelo
menos uma probabilidade de 80% de acertar no alvo?

II. AJUSTAMENTO DE DISTRIBUIÇÕES DE PROBABILIDADE


11
No estudo do comportamento de diversos fenômenos é interessante
que estes sejam modelados para possibilitar o cálculo de probabilidades.
Esta modelagem utiliza resultados decorrentes da observação de diversas
repetições do fenômeno (ou do experimento). Assim, o ajuste de uma
distribuição de probabilidade é uma grande ferramenta auxiliar na tomada
de decisão. Existem inúmeras distribuições de probabilidade, cada uma
adequada a um certo tipo de experimento (ou conjunto de dados). Veremos
aqui as distribuições mais comuns, divididas em duas classes: Distribuições
discretas e contínuas. Em seguida, veremos um procedimento que nos
permite testar se determinada distribuição de probabilidade é
estatisticamente adequada a uma certa amostra (conjunto de dados).

DIST. DISCRETAS DE PROBABILIDADE: BINOMIAL E POISSON

Retornemos à definição de v.a. discreta: Seja X uma v.a. discreta e x i


um certo valor de X. A probabilidade de ocorrência de xi é dada por
P(X = xi) = p(xi), onde:
 p(xi)  0
 a soma de todos os p(xi) é igual a 1.

Como as v.a.s discretas X assumem valores inteiros (geralmente), as


probabilidades associadas a esses valores (xi) são pontuais de forma que a
distribuição de probabilidade será representada por quantidades de massa
localizadas nos pontos xi.

DISTRIBUIÇÃO DE PROBABILIDADE BINOMIAL


12
Mais uma vez, tentemos resolver intuitivamente: Suponha que peças
saiam de uma linha de produção e sejam classificadas como defeituosas (D)
ou como não-defeituosas (N). Admita que 3 dessas peças sejam escolhidas
ao acaso e classificadas como D ou N. Se a probabilidade de uma peça ser
defeituosa é 0,2 calcule a probabilidade de obtermos 0, 1, 2 ou 3 peças
defeituosas.

Considere, agora, a seguinte definição:

Seja  um experimento e A um evento associado a . Considere ainda


P(A) = p, denominada Probabilidade de ocorrência de A, que satisfaça as
seguintes propriedades:

 ocorrem n repetições independentes do experimento ;


 a probabilidade p é sempre constante para cada repetição;
 a v.a. X será definida como sendo o número de vezes que o evento A
ocorre
 P(AC) = 1 – P(A) = q

Então,

 n
P ( X  k )    p k q n  k , k = 0, 1, 2, ..., n.
k 

Agora a resolução da questão acima fica muito mais simples. Basta


definirmos:

 n=3
 p = 0,2
 A = “ocorrência de peça defeituosa”

 3  3
P ( X  0)    p 0 q 3  0,512 P ( X  1)    p 1 q 2  0,384
 0 1
 3  3
P ( X  2)    p 2 q 1  0,096 P ( X  3)    p 3 q 0  0,008
 2  3

EXERCÍCIOS:

13
1) De um lote que contém 25 peças, das quais 5 são defeituosas, são
escolhidas 4 ao acaso. Seja X o número de defeituosas encontradas.
Estabeleça a distribuição de probabilidade de X, quando:

a) as peças foram escolhidas com reposição;


b) as peças foram escolhidas sem reposição.

2) Suponha que a máquina 1 produza (por dia) o dobro das peças que
são produzidas pela máquina 2. No entanto, 4% das peças fabricadas
pela máquina 1 tendem a ser defeituosas, enquanto que somente
cerca de 2% de defeituosas produz a máquina 2. Admita que a
produção diária das duas máquinas seja misturada. Um amostra
aleatória de 10 peças é extraída da produção total. Qual será a
probabilidade de que essa amostra contenha duas peças defeituosas?

3) Seja X uma v.a. com distribuição binomial, baseada em 10 repetições


de um experimento. Se p = 0,3, calcule as seguintes probabilidades:

a) P(X8) b) P(X=7) c) P(X>6)

4) Suponha que 5% de todas as peças que saiam de uma linha de


produção sejam defeituosas. Se 10 dessas peças forem escolhidas e
inspecionadas, qual será a probabilidade de que no máximo 2
defeituosas sejam encontradas?

DISTRIBUIÇÃO DE PROBABILIDADE POISSON

14
Na distribuição binomial, a v.a . X é o número de “sucessos” que
ocorrem em n tentativas independentes do experimento. Podemos
considerar agora uma variável aleatória X igual ao número de “sucessos”
que ocorrem num intervalo contínuo.

Por exemplo:
 número de chamadas X que uma telefonista recebe num intervalo de uma
hora;
 o número de falhas em 1 m2 de tecidos;
 o número de vezes que um computador “trava” em um intervalo de 8
horas.

Uma variável aleatória assim, assume valores inteiros, ou seja,


X=0, 1, 2, 3, 4, ... .

Um fenômeno ou experimento de Poisson tem as seguintes


características:

 o número de sucessos que ocorrem num intervalo contínuo é


independente daqueles que ocorrem em qualquer outro intervalo
disjunto;
 em intervalos de mesmo comprimento a probabilidade de ocorrência de
um mesmo número de “sucessos” é igual;
 em intervalos muito pequenos, a probabilidade de mais de um “sucesso”
é desprezível.

Nessas condições, a variável aleatória X = número de sucessos


que ocorrem num determinado intervalo contínuo de tem distribuição de
Poisson com parâmetro  e função de probabilidade dada por:

e  . x
p( x )  Pr(X  x ) 
x!
, para x = 0, 1, 2, ... ,

onde  é a média de sucessos no intervalo considerado.

EXERCÍCIO:

15
1) O número de navios petroleiros que chegam a determinada refinaria,
a cada dia, tem distribuição de Poisson, com parâmetro  = 2. As
atuais instalações do porto podem atender a três petroleiros por dia.
Se mais de 3 navios aportarem por dia, os excedentes deverão seguir
para outro porto.

(a) Em um dia, qual é a probabilidade de se Ter de mandar


petroleiros para outro porto? (0,145)
(b) De quanto deverão as atuais instalações ser aumentadas para
permitir manobrar todos os petroleiros, em aproximadamente
90% dos dias? (4)
(c) Qual é o número esperado de petroleiros a chegarem por dia? (2)
(d) Qual é o número mais provável de petroleiros a serem atendidos
diariamente? (1 ou 2)
(e) Qual é o número esperado de petroleiros a serem atendidos
diariamente? (1,785)
(f) Qual é o número esperado de petroleiros que voltarão a outros
portos diariamente? (0,215)

16
DIST. CONTÍNUAS DE PROBABILIDADE:
EXPONENCIAL E NORMAL

DISTRIBUIÇÃO DE PROBABILIDADE EXPONENCIAL

A distribuição exponencial envolve probabilidades ao longo do


tempo ou da distância entre ocorrências num intervalo contínuo. Por
exemplo, a exponencial é usada como modelo do tempo entre falhas de
equipamento elétrico, tempo entre a chegada de clientes a um
supermercado, tempo entre chamadas telefônicas, etc. Há estreita relação
entre a distribuição exponencial e a de Poisson. Na verdade, se um
processo de Poisson tem média de  ocorrências durante um intervalo, o
espaço (ou tempo) entre ocorrências naquele intervalo é de 1/. Por
exemplo, se as chamadas telefônicas ocorrem em média de 6 por hora,
então o tempo médio entre as chamadas será de 1/6 de hora, ou seja, 10
minutos.

Uma variável aleatória contínua X é exponencialmente


distribuída se, sua f.d.p. for do tipo

 e x se x  0
f(x)  
0 se x  0

As probabilidades exponenciais se expressam em termos de


tempo ou distância até que um evento ou ocorrência se verifique, ou seja, a
variável aleatória X representa o tempo necessário até a ocorrência de um
determinado evento .
Deste modo, com o emprego da fórmula,

P(X > x) = e-x

podemos calcular a probabilidade de que o tempo ou a distância antes da


primeira ocorrência de um evento seja maior que um dado espaço (ou
tempo) x e, a probabilidade de uma ocorrência de um evento em x ou antes
de x é dada por:
P(X  x) = 1- e-x

17
Exemplo:
O tempo de vida X (em horas) das lâmpadas elétricas fabricadas
por certa companhia é uma variável aleatória, tendo uma f.d.p. dada por

ke0,002x se x  0
f(x)  
0 se x  0

(a) Calcular o valor de k.


(b) Qual é a probabilidade do tempo de vida, de uma lâmpada dessa
companhia, ser superior a 600 horas?
(c) Qual é o tempo médio de vida esperado?

DISTRIBUIÇÃO DE PROBABILIDADE NORMAL

A distribuição normal é a mais importante das distribuições


contínuas de probabilidade, e tem sua origem associada aos erros de
mensurações. A distribuição normal desempenha papel preponderante na
estatística, e os processos de inferência nela baseados têm larga aplicação.

A distribuição normal tem sua função densidade de probabilidade


(f.d.p.) dada por

 x  2
1 
f  x  e 2 2
 2
Notação: X ~ N(; 2)

São propriedades da distribuição normal:

(1) A distribuição é simétrica em relação a x = , pois f(x) é uma função


par.
(2) A função f(x) tem um ponto de máximo para x = .
(3) A função f(x) é duplamente assintótica ao eixo das abscissas, ou seja,
lim f (x )  0 e lim f (x )  0
x  x 

(4) A função f(x) admite dois pontos de inflexão para x =   .


(5) A função de distribuição acumulada é dada por

18
2
x 1  x 
1  . 
2  
F(x ) 
 2 e dx


A função F(x), dada acima, pode ser colocada numa forma mais
simples, considerando-se a transformação

x
z

,

que é a variável normal padronizada ou reduzida Z.

Notamos que a transformação utilizada consiste em adotarmos


uma nova distribuição normal de média  = 0 e variância 2 = 1 ou desvio
padrão  = 1. Portanto,

Z ~ N(0; 1).

Assim, a f.d.p. da variável normal padronizada será dada por

z2
1 2
g(z) = e ,    z   .
2

A distribuição normal padronizada pode ser tabulada utilizando-


se métodos de integração numérica.

Exemplo:
Uma indústria fabrica peças mecânicas cujas medidas dos
diâmetros externos são normalmente distribuídas com média 40,0 mm e
desvio padrão de 2,0 mm. Calcular a percentagem de peças defeituosas
fabricadas, sabendo-se que o setor de controle de qualidade dessa indústria
classifica como defeituosas aquelas peças cujos diâmetros externos:
(a) são inferiores a 37,0 mm.
(b) são superiores a 44,0 mm.
(c) se desviam mais de 2,0 mm da média.
(d) Calcular os limites 40  c mm, tais que, a % de refugos (peças
defeituosas) não seja superior a 12,6%.
(e) Nas condições do item (d), qual seria o novo desvio padrão, se a % de
refugos não fosse superior a 1,1%?
BONDADE DO AJUSTE:

19
TESTE KOLMOGOROV-SMIRNOV E TESTE DE LILLIEFORS

TESTE KOLMOGOROV-SMIRNOV

Este teste de aderência proposto em 1933 avalia a concordância entre


a distribuição observada da amostra e uma determinada distribuição
teórica. Avalia se os dados amostrais se aproximam razoavelmente de uma
determinada distribuição. Para isso utiliza-se a função distribuição
acumulada observada, compara com a teórica e determina o ponto em que
essa distribuição mais divergem, ao fim testar se essa divergência é
aleatória ou não

Seja F0  X  uma distribuição teórica acumulada e S n  X  uma


distribuição observada em uma amostra de n observações
(distribuição empírica)

Encontra-se a seguir o maior valor das diferenças entre F0  X 


e S n  X  , ou seja,

D  máx F0  X   S n  X 

Compara-se o valor observado com o valor crítico bilateral.

20
Exemplo: Verifique se os dados abaixo podem ser ajustados por uma
distribuição de Poisson com média igual a 1,2.

Xi fi
0 15
1 25
2 10
3 5
4 4
5 1

Depois
F0  X i  Sn  X i  F0  X i  - S n  X i 
0,3012 0,250 0,0512
0,6626 0,666 0,0041
0,8794 0,833 0,0461
0,9661 0,917 0,0494
0,9921 0,983 0,0088
0,9983 1,000 0,0017

H 0 : Os dados seguem uma distribuição Poisson (1,2) ou F  F0  X 


Ha : Os dados não seguem uma distribuição Poisson (1,2) ou F  F0  X 

Conclusão: D  máx F0  X i   S n  X i   0,0512 com isto a P ( D  0,0512)  0,20


então não podemos rejeitar a hipótese nula.

Exercício: As produções médias de um experimento envolvendo adubação


em milho encontram-se tabuladas abaixo

Classes fi xi F  xi  S  xi  F  xi  - S  xi 
2700-3000 13 2850 0.333 0.111 0.222
3000-3300 18 3150 0.397 0.265 0.132
3300-3600 24 3450 0.464 0.470 0.006
3600-3900 32 3750 0.536 0.743 0.207
3900-4200 17 4050 0.603 0.906 0.303
4200-4500 11 4350 0.667 1.00 0.333
117

21
Podemos admitir que a produção média segue uma distribuição normal
com média   3.600 e  2  3.000.000 ?

Conclusão: Para n = 117 a P  D  0,333  0,01 os dados não se aderem à


distribuição Normal proposta.

TESTE DE LILLIEFORS

No caso em que se deseja testar normalidade e a média e a variância


não são previamente especificadas mas sim estimados através dos dados da
amostra, deve-se utilizar o teste de Lilliefors.

Este teste tem procedimento análogo ao Kolmogorov – Smirnov


porém utiliza uma tabela própria e mais adequada a este tipo de situação.

22
III – NOÇÕES DE AMOSTRAGEM

AMOSTRA ALEATÓRIA

Consideremos uma população e observando alguns elementos


queremos obter informações a respeito da mesma. Estes elementos são
obtidos de forma aleatória (em geral independentes) o que chamaremos de
amostra aleatória.
É preciso garantir que a amostra ou as amostras que serão usadas
sejam obtidas por processos adequados. Se erros forem cometidos no
momento de selecionar os elementos da amostra, o trabalho todo ficará
comprometido e os resultados finais serão provavelmente bastante
viesados. Devemos, portanto, tomar especial cuidado quanto aos critérios
que serão usados na seleção da amostra.
O que é necessário garantir, em suma, é que a amostra seja
representativa da população. Isso significa que, com exceção de pequenas
discrepâncias inerentes à aleatoriedade sempre presente, em maior ou
menor grau, no processo de amostragem, a amostra deve possuir as mesmas
características básicas da população, no que diz respeito à(s) variável(is)
que desejamos pesquisar.
A necessidade da representatividade da amostra não é difícil de
entender. O que talvez não seja fácil é saber quando temos uma amostra
representativa ou não. Veremos adiante algumas recomendações sobre
como proceder para garantir, da melhor forma possível, a
representatividade da amostra.
Os problemas de amostragem podem ser mais ou menos
complexos, dependendo das populações e das variáveis que se deseja
estudar. Na indústria, onde amostras são freqüentemente retiradas para
efeito de controle de qualidade dos produtos e materiais, em geral os
problemas de amostragem são mais simples de resolver. Por outro lado, em
pesquisas sociais, econômicas ou de opinião, a complexidade dos
problemas de amostragem é normalmente bastante grande. Em tais casos,
extremo cuidado deve ser tomado quanto à caracterização da população e
ao processo usado para selecionar a amostra, a fim de evitar que os
elementos desta constituam um conjunto com características
fundamentalmente distintas das da população.
No caso de questionários serem distribuídos, muita atenção é
também requerido em sua elaboração, visando evitar perguntas capciosas
ou inibidoras, o que viria a distorcer os resultados.
23
Em resumo, a obtenção de soluções adequadas para o problema
de amostragem exige, em geral, muito bom senso e experiência. Além
disso, é muitas vezes conveniente que o trabalho do estatístico seja
complementado pelo de um especialista do assunto em questão.
Veremos a seguir, algumas recomendações básicas referentes ao
problema de amostragem e a apresentação das principais técnicas de
amostragem.

AMOSTRAGEM PROBABILÍSTICA

Existem dois tipos de amostragem: a probabilística e a não


probabilística.
A amostragem será probabilística se todos os elementos da
população tiverem probabilidade conhecida, e diferente de zero, de
pertencer à amostra. Caso contrário, a amostragem será não probabilística.
Segundo essa definição, a amostragem probabilística implica um
sorteio com regras bem determinadas, cuja realização só será possível se a
população for finita e totalmente acessível.
A utilização de uma amostragem probabilística é a melhor
recomendação que se deve fazer no sentido de se garantir a
representatividade da amostra, pois o acaso será o único responsável por
eventuais discrepâncias entre população e amostra.
A seguir, damos algumas das principais técnicas de amostragem
probabilística.

AMOSTRAGEM ALEATÓRIA SIMPLES

Esse tipo de amostragem, também chamada simples ao acaso,


casual, simples, elementar, randômica, etc., é equivalente a um sorteio
lotérico. Nela, todos os elementos da população têm igual probabilidade de
pertencer à amostra, e todas as possíveis amostras têm também igual
probabilidade de ocorrer.
Sendo N o número de elementos da população e n o número de
elementos da amostra, cada elemento da população tem probabilidade n N
de pertencer à amostra. A essa relação n N denomina-se fração de
amostragem. Por outro lado, sendo a amostragem feita sem reposição, o

24
 N
que suporemos em geral, existem
 possíveis amostras, todas

 n
igualmente prováveis.

Na prática, a amostragem simples ao acaso pode ser realizada


numerando-se a população de 1 a N, sorteando-se, a seguir, por meio de um
dispositivo aleatório qualquer, n números dessa seqüência, os quais
corresponderão aos elementos sorteados para a amostra. Esse sorteio pode
ser feito utilizando a tabela de números aleatórios.

AMOSTRAGEM SISTEMÁTICA

Quando os elementos da população se apresentam ordenados e a


retirada dos elementos da amostra é feita periodicamente, temos uma
amostragem sistemática.
Assim, por exemplo, em uma linha de produção, podemos, a
cada dez itens produzidos, retirar um para pertencer a uma amostra da
produção diária.
A principal vantagem da amostragem sistemática está na grande
facilidade na determinação dos elementos da amostra. O perigo em adotá-la
está na possibilidade da existência de ciclos de variação da variável de
interesse, especialmente se o período desses ciclos coincidir com o período
de retirada dos elementos da amostra. Por outro lado, se a ordem dos
elementos na população não tiver qualquer relacionamento com a variável
de interesse, então a amostragem sistemática terá efeitos equivalentes à
amostragem casual simples, podendo ser utilizada sem restrições.

AMOSTRAGEM ESTRATIFICADA

Muitas vezes a população se divide em subpopulações ou


estratos, sendo razoável supor que, de estrato para estrato, a variável de
interesse apresente um comportamento substancialmente diverso, tendo,
entretanto, comportamento razoavelmente homogêneo dentro de cada
estrato. Em tais casos, se o sorteio dos elementos da amostra for realizado
sem se levar em consideração a existência dos estratos, pode acontecer que
os diversos estratos não sejam convenientemente representados na amostra,
25
a qual seria mais influenciada pelas características da variável nos estratos
mais favorecidos pelo sorteio. Evidentemente, a tendência à ocorrência de
tal fato será tanto maior quanto menor o tamanho da amostra. Para evitar
isso, pode-se adotar uma amostragem estratificada.
Constituem exemplos em que uma amostragem estratificada
parece ser recomendável, a estratificação de uma cidade em bairros,
quando se deseja investigar alguma variável relacionada à renda familiar; a
estratificação de uma população humana em homens e mulheres, ou por
faixas etárias; a estratificação de uma população de estudantes conforme
suas especificações, etc.
AMOSTRA DE CONVENIÊNCIA

A amostra de conveniência é formada por elementos que o


pesquisador reuniu simplesmente porque dispunha deles. Então, se o
professor tomar os alunos de sua classe como amostra de toda a escola,
estará usando uma amostra de conveniência.
Os estatísticos têm muitas restrições ao uso de amostras de
conveniência. Mesmo assim, as amostras de conveniência são comuns na
área de saúde, onde se fazem pesquisas com pacientes de uma só clínica ou
de um só hospital. Mais ainda, as amostras de conveniência constituem,
muitas vezes, a única maneira de estudar determinado problema.
De qualquer forma, o pesquisador que utiliza amostras de
conveniência precisa de muito senso crítico. Os dados podem ser
tendenciosos. Por exemplo, para estimar a probabilidade de morte por
desidratação não se deve recorrer aos dados de um hospital. Como só são
internados os casos graves, é possível que a mortalidade entre pacientes
internados seja maior do que entre pacientes não-internados.
Conseqüentemente, a amostra de conveniência, constituída, neste exemplo,
por pacientes internados no hospital, seria tendenciosa.
Finalmente, o pesquisador que trabalha com amostras sempre
pretende fazer inferência, isto é, estender os resultados da amostra para
toda a população. Então é muito importante caracterizar bem a amostra e
estender os resultados obtidos na amostra apenas para a população de onde
a amostra proveio.

26
ERRO AMOSTRAL E NÍVEL DE CONFIANÇA

Uma das etapas do planejamento amostral é a definição do erro


amostral e do nível de confiança desejado pelo pesquisador, no
levantamento a ser realizado. Estas são informações que poderão levar à
um aumento ou redução do tamanho amostral, dependendo dos recursos
disponíveis para realização da pesquisa. Trataremos abaixo desses
conceitos especificamente para o caso em que estamos interessados em
estimar uma proporção populacional.

1) ERRO AMOSTRAL

Imagine que para estimação de um proporção (ou porcentagem)


tenhamos interesse em atingir uma certa precisão para nossa estimativa de
mais ou menos  %. Isto significa que se o nosso levantamento
proporcionar uma estimativa de P % então poderemos afirmar que a
porcentagem da população deve estar entre

P– < P < P + (1)

com uma certa margem (ou nível) de confiança;

2) NÍVEL DE CONFIANÇA

Imagine agora que o levantamento amostral acima tenha sido


realizado com a definição de um nível de confiança de (1 - ) ou (1 - ) X
100 %. Isto significa que se realizarmos 100 levantamentos semelhantes, o
intervalo definido acima (1) conterá o verdadeiro valor da população em (1
- ) X 100 % das vezes.
O nível de confiança é exatamente o oposto do nível de significância
() de forma que o efeito causado pelo aumento ou diminuição dessas
quantidades pode ser melhor representado na tabela abaixo:

Erro amostral Nível de confiança Nível de significância Tamanho amostral


   
   

27
CÁLCULO DE TAMANHO AMOSTRAL

Desta forma uma expressão que poderá nos ajudar na definição do


tamanho que uma amostra deve ter para satisfazer algumas condições pré-
estabelecidas é dada por:

Z 2 pq
n0 
2

onde:

Z é o valor da variável padronizada para um nível de significância . É o


valor da distribuição Normal padronizada cuja área à direita é de  %;

p é uma pré-estimativa definida a partir de informações que o pesquisador


possui acerca desse parâmetro. Geralmente é desconhecida e portanto
assume-se que ela é igual a 0,5;

q é o complemento de p, ou seja, q = 1 – p;

 é o erro amostral definido pelo pesquisador;

n0 é o tamanho amostral sugerido.

Sugere-se ainda que seja realizada uma correção no caso de estarmos


trabalhando com uma população finita, da seguinte forma:

n0
n
1   0 
n
 N

IV - ANÁLISE EXPLORATÓRIA DE DADOS

28
Antes de abordarmos as técnicas de análise exploratória de dados
é importante que conceituemos o que chamamos de medidas descritivas.
Existem duas categorias de medidas descritivas:
 Medidas de posição ou tendência central: servem para dar uma idéia
acerca dos valores médios da variável em estudo.
 Medidas de dispersão: servem para dar uma idéia acerca da maior ou
menor concentração dos valores da variável em estudo.

Nota: Quando as medidas de tendência central e as de dispersão são


calculadas sobre a população, elas são chamadas de parâmetros. Por outro
lado, quando essas medidas são obtidas considerando-se uma amostra
retirada de uma população, elas são chamadas de estatísticas.

Medidas de Posição ou de Tendência Central

Como o próprio nome indica, a medida de tendência central visa


a determinar o centro da distribuição. Essa determinação depende, portanto,
da definição de centro da distribuição. Todavia, o centro de um conjunto de
valores não está definido e pode ser interpretado de várias maneiras, cada
uma das quais descreve uma propriedade da distribuição, que pode ser
razoavelmente chamada de tendência central.
São medidas de tendência central:
 média aritmética
 mediana
 moda

Média Aritmética ( X )

Dada uma distribuição de freqüências, chama-se de média


aritmética desta distribuição, e representa-se por X , a soma de todos os
valores da variável, dividida pela freqüência total (número total de
observações). a média aritmética será:

k k
 xi . fi  xi . fi
i 1 i 1
X k 
n
.
 fi
i=1
Da própria definição segue que a média aritmética de uma
distribuição de freqüências:
 é da natureza da variável considerada;

29
 sempre existe, e quando calculada admite um único valor;
 não pode ser calculada quando os dados estiverem agrupados em classes
e a primeira ou última classe tiverem extremos indefinidos;
 sofre muito a influência de valores aberrantes.

~
Mediana (Md ou X )

A mediana é uma quantidade que, como a média, também


procura caracterizar o centro da distribuição de freqüências, porém, de
acordo com um critério diferente. Ela é calculada com base na ordem dos
valores que formam o conjunto de dados.
A mediana é a realização que ocupa a posição central da série de
observações quando estas estão ordenadas segundo suas grandezas
(crescente ou decrescente).
Dada uma distribuição de freqüências e supondo-se os valores da
variável dispostos em ordem crescente ou decrescente de magnitude, há
três casos a considerar:

1o. A variável em estudo é discreta e n é ímpar. Neste caso a mediana


n 1
será o valor da variável que ocupa o posto de ordem 2
.

2o. A variável é discreta e n é par. Neste caso, não existe na graduatória


um valor que ocupe o seu centro, isto é, a mediana é indeterminada, pois
qualquer valor compreendido entre os valores que ocupam os postos
n n2
2
e
2
pode ser considerado o centro da graduatória.

O problema é resolvido por uma convenção que consiste em tomar


como mediana da graduatória a média aritmética dos valores que ocupam
n n2
os postos 2
e
2
.

3o. A variável é contínua. Neste caso, determina-se a mediana


calculando-se aquele valor da variável que divide a freqüência total n em
duas partes iguais, não se levando em consideração se n é par ou ímpar.

Existem casos nos quais o emprego da mediana faz-se necessário, como


por exemplo quando existem valores aberrantes, pois estes têm sobre a
mediana influência muito menor do que sobre a média aritmética.

30
Nota: Além da mediana que, por definição, divide um conjunto ordenado
de valores em duas partes iguais, existem outras medidas que dividem o
conjunto de valores em 4, 10 e 100 partes iguais. Conquanto estas medidas
não sejam de tendências central, elas podem ser consideradas medidas de
posição, uma vez que fornecem pontos à esquerda ou à direita, dos quais
são encontradas frações da freqüência total. Estas medidas são os quartis,
os decis e os percentis.
Os três quartis são definidos como os valores que dividem o
conjunto ordenado de valores em 4 partes iguais; 25% dos valores são
menores do que o primeiro quartil, que é denotado por Q1; 50% dos valores
caem abaixo do segundo quartil, Q2 (mediana), e 75% dos valores são
menores que o terceiro quartil, Q3.
Os decis são valores que dividem o conjunto ordenado de valores
em 10 partes iguais, isto é, 10% das observações caem abaixo do primeiro
decil, denotado por D1, etc.
Os percentis são valores que dividem o conjunto ordenado de
valores em 100 partes iguais, isto é, 1% das observações caem abaixo do
primeiro percentil, denotado por C1, etc.

Moda (Mo ou X
 )

Dada uma distribuição de freqüências, a moda é o valor da


variável que corresponde à freqüência máxima, isto é, é o valor mais
freqüente.
Conquanto o seu resultado seja o mais simples possível, a moda
nem sempre existe e nem sempre é única. Quando numa distribuição
existem poucos valores da variável, muito freqüentemente não há valores
repetidos, com o que nenhum deles satisfaz à condição de moda.

Nota: É interessante notar que a moda pode ser usada como uma medida de
tendência central também no caso de a variável considerada ser de natureza
qualitativa. De fato, quando se diz que as doenças cardíacas constituíram a
causa principal de mortalidade em certo ano, isto quer dizer que na
distribuição dos óbitos, segundo a causa mortis, às doenças cardíacas
correspondeu um maior número de óbitos, isto é, a rubrica “doenças
cardíacas” é a moda da distribuição.

Medidas de Dispersão

Sejam A e B duas localidades com mesma renda média por


habitante. Este simples fato de igualdade das duas médias permite concluir
31
que a situação econômica das duas localidades é a mesma? Evidentemente
que não, pois esta igualdade poderia existir mesmo que A fosse
perfeitamente estabilizada no sentido de que todos os seus habitantes
tivessem praticamente a mesma renda (igual à renda média por habitante) e
B tivesse uns poucos indivíduos com rendas extraordinariamente altas e a
maioria com rendas baixas. Este simples exemplo basta para mostrar que o
conhecimento da intensidade dos valores assumidos por uma grandeza, isto
é, da posição de uma distribuição, não é suficiente para a sua completa
caracterização.
O fato de em A todos os indivíduos terem a mesma renda pode
ser traduzido dizendo que em A as rendas não variam de indivíduo para
indivíduo, ou ainda que a distribuição das rendas não apresentam
variabilidade. Analogamente, o fato de em B alguns indivíduos terem
rendas muito elevadas em detrimento da grande maioria, que tem rendas
muito baixas, pode ser expresso dizendo-se que em B as rendas variam ou
que a distribuição das rendas apresentam variabilidade.
Neste sentido, várias medidas foram propostas para indicar o
quanto os dados se apresentam dispersos em torno da região central.
Caracterizam, portanto, o grau de variação (variabilidade) existente no
conjunto de dados.

Amplitude de Variação ( R )

Uma das medidas mais elementares é a amplitude, a qual é


definida como sendo a diferença entre o maior e o menor valores do
conjunto de dados:
R = xmax - xmin .

Evidentemente esta medida é muito precária, pois a amplitude


não dá informe algum a respeito da maneira pela qual os valores se
distribuem entre os valores extremos.

Variância (S2)

32
  xi  X
2
2
S = Var (X ) 
n -1

Desvio Padrão (S)


S =   xi  X
2
,
n -1

Considerações sobre o desvio-padrão:

 O desvio-padrão é uma quantidade essencialmente positiva


 O desvio-padrão só é nulo se todos os valores da distribuição forem
iguais entre si, isto é, se não houver variabilidade.
 O desvio-padrão é da mesma natureza da variável X e depende também
de sua magnitude.

Se deseja-se comparar duas distribuições quanto à variabilidade,


deve-se usar medidas de variabilidade relativa, tais como o ceficiente de
variação de Pearson (CV), o qual é dado por:

S
CV 
X
,

o qual independe da natureza e magnitude da variável X.


Esse resultado é multiplicado por 100, para que o coeficiente de
variação seja dado em porcentagem.

Para entender como se interpreta o coeficiente de variação,


suponha-se que, estudando-se as distribuições de pesos de recém-nascidos
e de adultos, fosse verificado que ambas têm a mesma variabilidade
(medida através do desvio-padrão) igual a 500gramas, supondo-se, ainda,
que os pesos dos recém-nascidos variam de 2.200 a 4.800 gramas (com um
peso médio de 3.500 gramas) enquanto os dos adultos variam de 40 a 90
quilos (com um peso médio de 60 quilos).
Conquanto em termos absoluto as duas distribuições tenham a
mesma variabilidade, é fácil perceber que 500 gramas têm significado bem
diferentes nas duas distribuições. De fato, no caso dos recém-nascidos, o
coeficiente de variação de Pearson será igual a

500
CV 
3500
= 0,1429 = 14,29%

refletindo uma variabilidade relativa muito maior que para os adultos, onde
o coeficiente de variação de Pearson vale
33
500
CV 
60000
= 0,0083 = 0,83%.

Um coeficiente de variação igual a 14,29% indica que a


dispersão dos dados em relação à média é muito grande, ou seja, a
dispersão relativa é alta. Já um coeficiente de variação de 0,83% indica que
a dispersão dos dados em relação à média é pequena. Em outras palavras,
diferenças de 500 gramas são relativamente mais importantes no grupo de
recém-nascidos, que tem média 3500 gramas do que no grupo de adultos,
que tem média de 60000gramas. Então o coeficiente de variação mede a
dispersão em ralação à média.

UMA TÉCNICA DE ANÁLISE EXPLORATÓRIA DE DADOS:


O BOX-PLOT

As técnicas estatísticas clássicas foram concebidas para serem as


melhores possíveis, assumindo um conjunto de pressupostos rígidos. Sabe-
se que estas técnicas se comportam deficientemente a medida que este
conjunto de pressupostos não é satisfeito.
As técnicas de Análise Exploratória de Dados contribuem para
aumentar a eficácia da análise estatística, de forma fácil e rápida.
Geralmente devem ser aplicadas antes da formulação das hipóteses
estatísticas para identificar padrões e características dos dados.
Dentre estas técnicas destaca-se o Box-plot (ou caixa de
bigodes), uma representação gráfica de valores, conhecidos como resumo
de 5 números. Esta técnica nos revela uma boa parte da estrutura dos dados,
através da visualização de características como:
 Tendência central
 Dispersão
 Assimetria
 Comprimento das caudas
 Outliers

Detalharemos agora o procedimento para construção de um box plot


para um conjunto de dados, através de um exemplo relacionado com o
Censo dos E.U.A de 1960:

34
Cidade População Cidade População
Nova Iorque 778 Washington 76
Chicago 355 St. Louis 75
Los Angeles 248 Milwaukee 74
Filadélfia 200 San Francisco 74
Detroit 167 Boston 70
Baltimore 94 Dallas 68
Houston 94 New Orleans 63
Cleveland 88

Para a construção do box-plot é necessário que sejam calculadas as


medidas que compõe o resumo de 5 números:
 A Mediana (88)
 Os Quartis Q1 e Q3 (74 e 184)
 O Mínimo e o Máximo (63 e 778)

As barreiras de outliers serão obtidas através do cálculo:

3 3
Q1  dF (1) e Q3  dF (2)
2 2

onde dF = Q3 – Q1

Isto significa que os valores inferiores a (1) ou superiores a (2) serão


considerado outliers ou valores discrepantes. O Box-plot irá nos apresentar
a localização (mediana), a dispersão (comprimento da caixa), a assimetria
(pela distância dos quartis à mediana), o peso das caudas e os outliers
(Chicago e Nova Iorque):

Observe que a barreira inferior de outliers é –91. Entretanto na


representação gráfica, substituiremos este valor pelo mínimo observado
(63). As expressões utilizadas para as barreiras de outliers são de certo
modo arbitrárias, mas a experiência dos autores desta técnica indicou que

35
esta definição serve perfeitamente para a identificação de valores que
requerem uma atenção especial.

36