Você está na página 1de 75

1

Estatística Descritiva

1.1 Definições e Conceitos em Estatística

a) Estatística: é a ciência que se preocupa em tirar conclusões de um todo com base em uma parte do todo. Por meio dela é possível coletar, apresentar, analisar e interpretar um conjunto de dados.

b) Censo: é um estudo estatístico que resulta da observação de todos os indivíduos da população relativamente a diferentes atributos pré-definidos. Teoricamente, no censo, tem-se a informação precisa de uma variável em estudo, enquanto na estatística tem-se uma previsão da ocorrência da variável.

c) Divisão da Estatística: A estatística básica pode ser dividida em duas áreas:

Estatística descritiva: descreve resumidamente um conjunto de dados, utilizando ta- belas, gráficos, medidas de posição e de dispersão.

Exemplos: Velocidade de processamento de um computador; tempo de espera para ser atendido em uma loja; opinião das pessoas quanto a violência no país; temperatura mensal de uma cidade.

Estatística Indutiva ou Inferência Estatística: representa o estudos dos dados de amostras com o objetivo de entender ou tirar conclusões sobre o comportamento da população a partir das amostras.

Exemplo: Suponha que se deseja calcular a voltagem necessária para que um dispositivo elétrico chegue a falhar. Para isso, submete-se uma amostra de tais dispositivos a voltagens cada vez mais elevadas, até falhar cada dispositivo da amostra. Com base nos resultados, pode-se estimar a probabilidade de falha nos dispositivos, a cada voltagem.

d) Dados de observação: são valores (realizações) assumidos por uma variável e observada pelo pesquisador

e) População: conjunto de indivíduos ou objetos que possuem pelo menos uma característica comum observável.

Exemplos: Todos os eleitores do Brasil; Todos os cidadãos que possui TV;

f) Amostra: é um subconjunto finito da população que mantém as mesmas características desta população.

Exemplos: 3000 eleitores; Cidadãos entrevistados pelo serviço de televisão;

g) Variável: é uma característica que pode assumir diferentes valores de indivíduo para indivíduo.

Variáveis qualitativas: são aquelas para as quais uma medição numérica não é pos- sível e, apresentam como possíveis realizações uma qualidade ou atributo do indivíduo pesquisado.

Variáveis quantitativas: são aquelas para as quais é possível realizar uma contagem ou mensuração.

Variáveis nominais: utilizadas quando não existe nenhuma ordenação nas possíveis realizações.

1

Exemplos: Sexo (Feminino ou masculino), estado civil (Solteiro, casado, divorciado, viúvo), naturalidade (Uberlândia, Monte Alegre, Araguari), etc.

Variáveis ordinais: utilizadas quando os seus possíveis resultados podem ser ordenados por algum critério especifico.

Exemplos: Grau de instrução de um indivíduo (Ensino Médio, graduação, pós-graduação), classe social (Baixa, média, alta), classificação de um produto (regular, bom, ótimo) etc.

Variáveis discretas: assumem valores específicos, e geralmente estão relacionadas a dados de contagem e associadas com o conjunto dos números inteiros.

Exemplos: Número de filhos de um casal, número de acidentes ocorridos em uma determinada rodovia, número de moradores de uma residência, etc.

Variáveis contínuas: assumem infinitos valores dentro de um intervalo, e estão asso- ciadas em geral, com os números reais e relacionadas a medições.

Exemplos: Estatura de um indivíduo, temperatura de uma cidade, produção de uma cultura, etc.

h) Dados Brutos: são os dados de observação sem nenhuma observação lógica.

i) Dados elaborados ou rol: são os dados de observação em ordem crescente ou decrescente.

j) Amplitude Total(A): é a diferença entre o maior valor observado e o menor valor observado.

A = X (n) X (1) = maior valor observado - menor valor observado.

Apresentação dos dados

A organização, sumarização e descrição de dados podem ser feitas por meio dos métodos tabulares e gráficos.

1.2 Distribuição de Frequências:

Uma distribuição de frequência é um sumário tabular dos dados que mostra o número (frequência) de itens em cada uma das classes ou categorias não sobrepostas.

Tipos de frequências

a) Frequência Absoluta (f i ): é o número de vezes que o indivíduo aparece na amostra

b) Frequência Relativa (f r ): fr = f i , em que n é o número de observações, ou seja,

n

n =

k

f i , sendo k o número de classes ou categorias.

i=1

c) Frequência Percentual (f p ): f p = f r × 100:

d) Frequência Acumulada (F i ): indica o número de dados que possuem valores menores ou maiores, ou então iguais ao limite superior de cada classe.

Algoritmo para construção da distribuição de frequências para variáveis quantita- tivas

a) Calcular a Amplitude Total (A): A = X (n) X (1) ;

b) Calcular o número de classes (k): k = n se n 100; k = 5logn se n > 100. Em ambos os casos deve-se escolher o número inteiro mais próximo;

2

c) Calcular a amplitude da Classe (C): C =

d) Calcular o limite inferior da primeira classe (LI 1 a ): LI 1 a = X (1) ;

e) Organizar as classes e contar as frequências;

A

k1 ;

Observações:

1. Os intervalos das classes podem se classificar em: abertos(]a,b[ ou a b) de modo que os limites da classe não pertencem a ela; fechados ([a,b] ou a b) em que os limites da classe pertencem a ela ou mistos ([a,b[ ou a b)no qual um dos limites pertence à classe, e o outro, não;

2. Por questões de ordem prática e estética, sugere-se utilizar de 5 a 20 classes;

3. As frequências simples são representadas por letras minúsculas e as frequências acumula- das por letras maiúsculas;

4. No caso de variáveis discretas, quando a amplitude total das observações é pequena, cada valor é adotado como sendo uma classe, e nestes casos, o algoritmo apresentado não é utilizado;

5. Para determinados cálculos estatísticos, todos os pontos de uma classe podem ser repre- sentados pelo ponto médio da classe. O ponto médio da classe i x i ) é calculado pela média dos limites da classe. Esse critério é conhecido como hipótese tabular básica.

Exemplos:

1. Uma pesquisa foi realizada para verificar a preferência dos consumidores em uma cidade quanto aos cinco tipos de refrigerantes: coca-cola(C), fanta(F), pepsi-cola(P), sprite(S) e Guaraná(G), obtendo os seguintes dados:

F

C

C

F

P

P

C

G

C

F

C

S

C

F

C

F

C

S

P

C

C

P

C

S

G

P

F

P

C

C

P

G

P

C

P

G

S

C

C

P

a) Classificar a variável;

b) Obter a distribuição de frequências;

2. Para facilitar um projeto de ampliação da rede esgoto de um certo bairro, as autoridades tomaram uma amostra de tamanho 36 dos 270 quarteirões que compõem a região em estudo, e foram encontrados os seguintes números de casas por quarteirão:

15

27

22

36

13

29

23

45

15

18

16

25

26

10

34

23

27

44

20

30

21

32

16

34

14

20

17

24

25

26

17

25

36

22

42

29

a) Classificar a variável;

b) Colocar os dados em rol;

c) Construir a distribuição de frequências;

d) Obter as frequencias acumuladas “Abaixo de” e “Acima de”;

3

3.

Um estudo apresentou informações sobre a tecnologia dos aparelhos domésticos e sua utilização por pessoas de 12 anos ou mais. Os dados a seguir referem-se ao número de horas de uso de computadores pessoais durante uma semana para uma amostra de 50 pessoas:

1,5

1,6

1,6

2,0

2,8

3,0

3,1

3,1

3,1

3,3

3,4

3,5

3,7

3,7

3,9

3,9

4,0

4,1

4,1

4,1

4,1

4,2

4,3

4,4

4,7

4,8

5,4

5,6

5,7

5,7

5,7

5,9

5,9

6,1

6,1

6,1

6,2

7,1

7,2

7,6

8,8

9,5

10,3

10,3

10,4

10,4

10,8

11,1

12,1

12,9

a) Classificar a variável em estudo;

b) Construir a distribuição de frequências;

1.3 Representações gráficas:

Variáveis contínuas:

a) Histogramas: é um gráfico de colunas justapostas, no qual a variável contínua, dividida em classes, é representada no eixo horizontal. No eixo vertical, marcam-se as freqüências relativas ou percentuais de cada classe, construindo as colunas.

b) Polígono de frequências: são segmentos de retas que tem suas extremidades correspon- dentes ao ponto médio da classe e a coordenada y da extremidade será proporcional a frequência da classe.

c) Gráfico da frequência acumulada (ogiva): são gráficos construídos a partir da dis- tribuição de frequências acumuladas. No caso das variáveis continuas, utiliza-se linhas contínuas.

d) Histogramas com amplitudes de classes desiguais: se a distribuição de frequências possuir amplitudes de classes desiguais, deve-se fazer um ajuste de frequências antes de construir o histograma. Esse procedimento garante a proporcionalidade das áreas entre as diferentes classes. As correções das frequências são realizadas por meio das densidades de frequências (d.f), ou seja, substituindo a frequência da classe i pela df i , dada por:

df i = f i /C i .

Exemplos:

1. A distribuição de frequências abaixo refere-se ao preço em reais das refeições por quilo de 25 restaurantes próximo a UFU:

Preço das refeições (R$)

f i

f r

f p

10

13

1

0,04

4

13

16

4

0,16

16

16

19

12

0,48

48

19

22

6

0,24

24

22

25

2

0,08

8

Total

25

1,00

100

Pede-se:

a) Interpretar a distribuição de frequências;

b) Construir o histograma e o polígono de frequências;

c) Calcular as frequências acumuladas e construir o gráfico correspondente (ogivas).

4

2.

Considere a seguir a distribuição de 130 empresas classificadas segundo o número de empregados:

Número de Empregados

f i

0

20

10

20

40

30

40

80

60

80

160

30

Construir o histograma para esses dados;

Variáveis discretas:

a) Gráfico de linhas: para as variáveis discretas a representação gráfica conveniente para as frequências simples é o gráfico de linhas, pois só ocorre frequências nos pontos fixos, ou seja, não existe a continuidade.

b) Gráfico de frequências acumuladas: são gráficos construídos a partir das frequências acumuladas e no caso discreto, assume um aspecto de escadas.

Exemplos:

1. O setor pessoal de uma empresa brasileira registrou os seguintes números de faltas de funcionários em uma semana do mês de julho/2010:

Com base nestes dados:

Número de faltas

f i

2 2

3 3

4 8

5 5

6 2

Total

20

a) Construir o gráfico de linhas;

b) Obter as frequências acumuladas e representar graficamente as frequências acu-

muladas;

Outras representações gráficas:

a) Gráfico de setores: compara as partes estudadas com o todo, sendo apresentado em porcentagens sobre a forma de setores em circulo e indicado para representar variáveis qualitativas.

b) Ramos e folhas: são os gráficos construídos com os valores observados. Trata-se da dis- posição em rol dos dados, com base no isolamento de um algarismo mais significativo, denominado galho (por exemplo, dezena), e de algarismos menos significativos, denomi- nados folhas (por exemplo, unidades).

c) Gráfico de barras: similar ao histograma, possuindo o objetivo de apresentar as frequên- cias sob a forma de barras horizontais ou verticais, separadas entre si. Os dados podem ser nominais ou quantitativos (agrupados em classes ou não).

d) Gráficos de pontos (dispersão): é usado em estudos de correlação, permitindo vi- sualizar o grau de associação entre duas variáveis quantitativas medidas em um mesmo indivíduo. Cada par de observações é representado por um ponto (x,y) do sistema de coordenadas cartesianas.

5

e) Gráfico Box-plot: é um dos mais usados gráficos da estatística e fornece ideias sobre as medidas de posição, dispersão, assimetria, caudas e dados discrepantes.

Exemplos:

1. Uma pesquisa foi realizada com o objetivo de verificar o estado de procedência dos alunos matriculados na área de exatas na UFU, obtendo os seguintes resultados:

Estado

f p

Ângulo(graus)

MG

62

SP

17

GO

14

Outros

7

Total

100

Representar essas informações em um gráfico de setores.

2. Os dados abaixo referem-se ao número de quartos ocupados diariamente num hotel de praia durante o mês de janeiro:

55

49

37

57

46

40

64

35

73

62

61

43

72

48

54

69

45

78

46

59

40

58

56

49

42

62

53

46

81

52

Represente os dados através de um gráfico de ramos e folhas.

3. Utilizando as informações do exemplo 1, construa um gráfico de barras.

4. Um estudo realizado em 5 cidades mineiras verificou que o número de filhos de 50 famílias pode ser representado pela tabela a seguir:

Número de filhos

f i

f r

f p

1

14

0,28

28

2

18

0,36

36

3

12

0,24

24

4

6

0,12

12

Total

50

1

100

Esboçar o gráfico de barras para esses dados.

5. Os dados a seguir foram obtidos num estudo sobre a relação entre a resistência (ohms) e o tempo (min) que certos resistores sobrecarregados levam para falhar.

Resistência

33

36

30

44

34

25

40

28

40

46

Tempo

39

36

34

51

36

21

45

25

45

36

Verifique, por meio do diagrama de dispersão, a relação existente entre a resistência e o tempo de falha.

1.4 Interpolações em tabelas de distribuição de frequências:

Exemplo: A tabela a seguir representa a distribuição de salários em uma empresa:

Salários

fa

7,50 10,50 10,50 13,50 13,50 16,50 16,50 19,50

14

17

11

8

Total

50

a) Qual a % de funcionários que ganham mais de 13,50 salários?

b) Qual a % de funcionários que ganham entre 8 e 12 salários?

6

1.5

Natureza da distribuição de frequências:

a) Simétrica: 50% das observações estão abaixo do valor central e 50% acima.

b) Assimétrica à direita: maioria dos valores estão concentrados à esquerda da distribuição.

c) Assimétrica a esquerda: maioria dos valores estão concentrados a direita da distribuição.

d) Multimodal: vários picos de frequência.

1.6 Técnicas de somatório

Dada as variáveis X i e Y j (i = 1,2, · · · , n), (j = 1,2, · · · , m) e

n


a)

i=1

X i = x 1 + x 2 + ··· + x n

b)

n

m

i=1

j=1

X i Y j = x 1 y 1 + x 1 y 2 + ··· + x n y m

c)

n

i=1

X

i

m

j=1

Y j = (x 1 + x 2 + ··· + x n )(y 1 + y 2 + ··· + y m )

d)

n

i=1

2

X

i

= x 2 + x 2

1

2 + ··· + x

2

n

e) (

n

i=1

n

X i ) 2 = (x 1 + x 2 + ··· + x n ) 2


f)

g)

i=1

n

i=1

k = k + k + · · · + k

= nk

kX i = kx 1 + kx 2 + · · · + kx n = k

n

i=1

X

i

a constante k, temos:

1.7 Medidas de posição

As medidas de posição ou de tendência central constituem uma forma mais sintética de apresentar os resultados contidos nos dados observados, pois representam um valor central, em torno do qual os dados se concentram. Portanto, constitui como objetivo ao obter as medidas de posição, encontrar um único valor, em um conjunto de valores observados, que seja representante desse conjunto. As medidas de posição mais empregadas são a média, a mediana e a moda.

a) Média aritmética (x¯): É uma medida de fácil compreensão, mais comum e simples de ser calculada.

n

x i

i) Dados não agrupados: x¯ =

k

i=1

n

x¯ i f i

ii) Dados agrupados: x¯ =

i=1

n

, em que x¯ i é o ponto médio da classe i;

7

Observação:

1. Nas distribuições de frequências, assume-se a hipótese de que todas as observações contidas em uma classe são consideradas iguais ao ponto médio da classe.

Exemplos:

1. O número de peças defeituosas observado em amostras retiradas diariamente da linha de produção de uma indústria, durante uma semana foi de: 10, 14, 13, 15, 16, 18 e 12 peças. Calcular o número médio de peças defeituosas por dia desta semana avaliada.

2. Considere os números de gols por partida em um determinado campeonato de futebol, agrupados e apresentados na sequência. Calcule o número médio de gols por partida.

N o de gols por partida

f i

0 7

1 12

2 16

3 12

4 9

5 2

6 2

Total

60

3. Para a distribuição de frequências que representa a força de ruptura em libras por polegada quadrada (psi) da garrafas descartáveis de um litro de refrigerante, calcular a média.

Classes

f i

86,6 147

1

147

208

6

208

269

13

269

330

8

330

390

2

Total

30

Propriedades da média aritmética:

1. A soma dos desvios (SD) de um conjunto de dados em relação a sua média é nula.

2. A soma dos quadrados dos desvios de um conjunto de dados em relação a uma constante k é mínima se e somente se k= x¯.

3. Somando ou subtraindo uma constante k a cada valor observado, a média do novo conjunto de dados ficará somada ou subtraída da constante k, em relação a média inicial.

4. Multiplicando ou dividindo-se cada valor observado por uma constante k a nova média ficará multiplicada ou dividida por k.

b) Outros tipos de média:

1. Média Ponderada (x¯ p ): essa média associa as observações x 1 , x 2 , ··· , x n determinadas ponderações ou pesos que dependem da importância atribuída a cada uma das observa- ções.

x¯ p =

n

i=1

n

w i x i

i=1

w i

w 1 x 1 + w 2 x 2 + ··· + w n x n

=

w 1 + w 2 + ··· + w n

8

,

sendo w i o peso da observação i.

2. Média Geométrica (G): utilizada para representar variáveis assimétricas a direita, pois nestes casos, a média aritmética, por ser muito inflacionada pelos valores extremos, não representa bem a variável.

G =

x 1 .x 2 . · · · .x n

n

ou ainda

logG =

1

n (logx 1 + logx 2 + · · · logx n )

3. Média Harmônica (H): utilizada para variáveis que apresentam periodicidade, ou seja, uma variação harmônica como por exemplo, ondas de rádio, variação de preços, entres outros.

Exemplos:

H =

n

n

i=1

1/x i

1. Suponha que uma indústria realizou ao longo dos últimos três meses cinco compras de determinada matéria prima:

Compra

Custo por quilo (R$)

Quantidade Quilos

1

3

1200

2

3,40

500

3

2,80

2750

4

2,90

1000

5

3,25

800

Deseja-se obter informações sobre o custo médio por quilo da matéria prima. Qual é esse custo médio?

2. Sabe-se que os multiplicadores de crescimento anual de consumo de um determinado serviço telefônico foram iguais a 1,2; 1,8; 2,7; 0,9; 1,5; 2,3 e 0,7. Calcular a média aritmética, geométrica e harmônica.

c) Mediana(Md): é a realização que ocupa a posição central de um conjunto de dados ordenados. Ou seja, abaixo da mediana deverão estar 50% dos elementos analisados e acima da mediana deverão estar 50% dos dados analisados.

i) Dados não agrupados: O valor da mediana depende da quantidade n de elementos presentes no conjunto de dados. Se o número de dados for ímpar a mediana será igual ao valor central. No caso de números de dados par a mediana será dada pela média aritmética entre os dois valores centrais. Matematicamente, a mediana é definida como:

Md =

ii) Dados agrupados:

se n é ímpar x (n+1)/2 x ( n ) +x ( n+2 2 )
se n é ímpar
x (n+1)/2
x ( n
) +x ( n+2
2
)
2
se n é par
2
M d = LI + 0,5n−F i .C
f
Md

em que:

LI é o limite inferior da classe mediana; F i é a frequência acumulada das classes anteriores a classe mediana;

9

f Md é a frequência da classe mediana;

C é a amplitude da classe mediana;

n é o número de observações e classe mediana é a classe onde se encontra o indivíduo mediano.

Exemplos:

1. Os preços em reais para uma amostra de aparelho de ar condicionado são: 500, 840, 470, 480, 420, 440 e 440. Calcular a mediana.

2. O peso de mancais produzidos por um processo de fundição está sendo estudado. Uma amostra de seis mancais foi medida, resultando nos seguintes pesos: 1,18; 1,21; 1,19; 1,17; 1,20 e 1,21. Obter a mediana.

3. Utilizando novamente os dados referente aos números de gols por partida em um campeonato de futebol, calcular a mediana desses valores:

N o de gols por partida

f i

0 7

1 12

2 16

3 12

4 9

5 2

6 2

Total

60

4. Suponha que a renda familiar em salários mínimos de uma amostra com 72 traba- lhadores pudesse ser representada segundo a tabela:

Calcular a mediana.

Classe

f i

1

2

13

2

4

22

4

6

18

6

8

7

8

10

8

10 12

4

Total

72

d) Moda(Mo): é o valor que ocorre com maior frequência entre os valores observados. Em um conjunto de dados, pode existir mais de uma moda ou não ter nenhum valor modal.

i) Dados não agrupados: é o valor que aparece repetido mais vezes.

ii) Dados agrupados: Se os dados encontram-se em uma distribuição de frequência, procede- se das seguintes formas:

utilização de fórmula:

Mo = LI +

1

1 + 2 .C,

em que: LI é o limite inferior da classe modal; 1 é a diferença entre a frequência da classe modal e a frequência da classe imediatamente inferior; 2 é a diferença entre a frequência da classe modal e a frequência da classe posterior;

C amplitude da classe modal e classe modal é a classe de maior frequência.

10

utilização do ponto médio da classe modal:

Mo = LI + LS

2

,

em que: LI é o limite inferior da classe modal e LS é o limite superior da classe modal

utilização do método geométrico:

Observações:

1. Quando o método geométrico é utilizado, a moda tenderá para o limite inferior ou superior da classe modal a medida que o valor da frequência da classe anterior for maior que a d posterior ou a frequencia da classe posterior for maior que a da anterior, respectivamente. Se as classes anterior e posterior a classe modal tiverem a mesma frequência, então a moda será o ponto médio da classe.

2. As propriedades (3) e (4) da média aritmética também são válidas para a mediana e a moda.

Exemplos:

1. Durante o mês de setembro de um certo ano, o número de acidentes por dia em um certo trecho da rodovia, apresentou os seguintes valores:

0 0

0

0

0

1

1

1

1

1

1 1

1

1

1

1

2

2

2

2

2 2

2

2

3

3

3

4

4

6

Qual é a moda de acidentes por dia?

2. Determine a moda para os seguintes conjuntos de dados:

a) 150, 155, 157, 160, 160, 163, 165, 165, 170

b) 10, 12, 14, 15, 16, 19, 21

3. Considere os dados amostrais do número de circuitos defeituosos em um sistema composto por 4 circuitos. Uma amostra de 19 sistemas foi coletada, obtendo os seguintes dados:

Número de circuitos defeituosos

f i

1

10

2

7

3

1

4

1

Total

19

Determinar a moda, ou seja, o número modal de circuitos defeituosos por sistema.

4. O quadro a seguir representa a distribuição de frequências do peso (kg) de pessoas de uma certa faixa etária:

Peso

f i

40

45

3

45

50

8

50

55

16

55

60

12

60

65

7

65

70

3

70

75

1

Total

50

Calcular a moda e interpretar.

11

1.8

Relação entre, x¯, M d e Mo

a) Se x¯ = M d = Mo: Distribuição simétrica

b) Se x¯ > M d > Mo : Distribuição assimétrica à direita.

c) Se x¯ < M d < Mo: Distribuição assimétrica à esquerda.

1.9 Separatrizes (Quartis)

Se um conjunto de dados é organizado em rol, o valor central ou a média entre os dois valores centrais foi definido como a mediana. Por extensão desse conceito de mediana, pode-se pensar nos valores que dividem o conjunto em quatro partes iguais, e teremos os quartis (Q 1 , Q 2 , Q 3 ). O quartil Q 2 coincide com a mediana. Podemos ainda ter os decis que dividem os dados ordenados em 10 (D 1 ,

, P 99 ).

D 2 ,

D 9 ) conjuntos iguais, ou os percentis que os dividem em 100 partes iguais (P 1 , P 2 , Desse modo, segue que: Q 2 = D 5 = P 50 = Md; P 75 = Q 3 ; P 25 = Q 1 .

,

Cálculo do p-ésimo percentil:

1. Organize os dados em rol e calcule o índice (i): i = 100 n, em que p é o percentil procurado e n o número de observações.

2. Se i não for um número inteiro, arredonde-o para cima. Esse número denomina a posição do p-ésimo percentil.

3. Se i for um número inteiro, o p-ésimo percentil será a média dos valores nas posições i e i + 1.

p

Exemplos:

1. As notas finais de nove alunos em uma determinada disciplina são iguais a: 89,88, 94, 65, 42, 73, 66, 66 e 35. Calcular e interpretar os quartis.

2. Os sálarios dos empregados de uma indústria são: 2710, 2755, 2850, 2880, 2880, 2890, 2920, 2940, 2950, 3050, 3130 e 3325. Determine os quartis e o 85 o percentil.

1.10 Medidas de dispersão

Sabemos que sucessivas realizações de um fenômeno não produzem o mesmo resultado. Por exemplo, o desempenho de consumo do carro não é o mesmo para cada tanque de combustível. Existe uma variabilidade nos resultados que nesse caso pode depender de vários fatores como tipo de estrada, marca do combustível, condições climáticas, desgaste do veiculo com o tempo, entre outras. Dessa forma, resumindo o conjunto de dados em uma única medida de posição, não se tem ideia dessa variabilidade. Assim, é necessário obter uma medida que nos indique o quanto os dados se encontram dispersos em torno da região central, ou da média, sendo a medida de dispersão usada para esse fim.

Exemplo:

Três grupos de alunos submeteram-se a um teste, obtendo as seguintes notas:

Grupo

A:

{1, 8, 10, 10, 11, 12, 18}

x¯ A = 10;

M d A

= 10;

Mo A = 10

Grupo

B:

{1, 2, 10, 10, 10, 13, 24}

x¯ B = 10;

M d B = 10;

Mo B = 10

Grupo

C:

{10, 10, 10, 10, 10, 10, 10} x¯ C = 10;

M d C = 10;

Mo C = 10

12

A média, a mediana e a moda são iguais, mas os três grupos apresentam comportamento dife- renciado. O grupo C é mais homogêneo e o grupo B é o que apresenta a maior variação das notas. Nesse caso a variabilidade que é distinta nos três grupos não pode ser identificada apenas com as medidas de posição, seria necessário uma medida de dispersão. As principais medidas de dispersão são: a amplitude total, a variância e o desvio padrão, o coeficiente de variação e o erro padrão da média.

a) Amplitude total (A): corresponde a diferença entre a maior (máximo) e a menor observação (mínimo) de um conjunto de dados.

i) Dados não agrupados: A = X (n) X (1) ;

ii) Dados agrupados: A = x¯ k x¯ 1 , em palavras, é a diferença entre o ponto médio da última classe e o ponto médio da primeira classe.

Exemplos:

1. Encontre a amplitude total do conjunto de dados: 2, 3, 3, 5, 5, 5, 8, 10 e 12.

2. Utilizando o exemplo da distribuição de frequências do peso (kg) de pessoas de uma certa faixa etária, calcular a amplitude total:

Peso

f i

40

45

3

45

50

8

50

55

16

55

60

12

60

65

7

65

70

3

70

75

1

Total

50

Problemas associados a esta medida:

1. Não considera todas as observações no cálculo;

2. Não se tem ideia do comportamento dos dados entre os extremos;

3. Apresenta muita variação de uma amostra para outra, mesmo que ambas sejam extraídas da mesma população.

Características desejadas em uma medida de dispersão:

1. Considera todas as observações no cálculo;

2. É facilmente calculável e compreensível;

3. Deve estar exposta o menos possível as flutuações das amostras.

b) Variância(s 2 ) e desvio padrão(s):

i)

Dados não agrupados: s 2 = Soma de quadrados dos desvios (SQD)

n1 =

n

i=1

(x i x¯) 2

n1

;

Desenvolvendo a soma de quadrados dos desvios e aplicando algumas propriedades algébricas,

obtém-se que: s 2 =

n

i=1

x

2

i

n

i=1

x i 2

n

n1

.

13

ii) Dados agrupados: s 2 =

Observações:

k

i=1

x¯

i 2 f i

k

i=1

x¯ i f i 2

n

n1

1. O desvio padrão (s) é definido como sendo a raiz quadrada positiva da variância, ou

seja, s = s 2 ;

2. Quanto as unidades dessas medidas de dispersão, tem-se que o desvio padrão possui a mesma unidade dos dados, enquanto a variância tem a unidade dos dados elevada ao quadrado. Para a variância a unidade não tem significado físico por estar ao quadrado, o que dificulta a interpretação

Exemplos:

1. Os dados a seguir referem-se a produção, em toneladas, de um certo produto de uma indústria:

50

280

560

170

180

500

250

200

1050

240

180

1000

1100

120

420

510

480

90

870

360

Calcular a produção média da indústria, variância e desvio padrão.

2. Uma inspeção feita em uma amostra de 30 embalagens, cada uma contendo uma dúzia de ovos, ao serem transportados de uma granja até o local destinado, apresentou os seguintes número de ovos danificados:

Número de ovos quebrados

f i

0

13

1

9

2

3

3

3

4

1

5

1

Total

30

Determinar a variância.

3. Um estudo foi realizado para investigar a quantidade (em milhões) de passageiros transportados em diferentes épocas do ano por uma grande empresa de transporte urbano:

Classes

f i

1,5 4,5 4,5 7,5 7,5 10,5 10,5 13,5 13,5 16,5

5

10

12

6

7

Total

40

Pede-se: Determinar a média e o desvio padrão.

Propriedades da variância e do desvio padrão:

1. Somando-se ou subtraindo-se uma constante k a cada observação, a variância e o desvio padrão não se alteram.

2. Multiplicando-se ou dividindo-se cada observação por uma constante k, a nova vari- ância ficará multiplicada ou dividida por k 2 , e o novo desvio por k.

14

3. A variância de uma constante é igual a zero.

4. A variância e o desvio padrão são sempre positivos, e são usados todos os valores observados em seu cálculo.

c) Coeficiente de variação: Conjuntos de dados com diferentes unidades de medida, ou mesmo para uma única unidade, se os conjuntos de dados possuem médias diferentes, suas variabilida- des não podem ser comparadas pela variância ou desvio padrão. Uma medida de variabilidade que não depende desses fatores é o coeficiente de variação, que não possui unidade de medida e pode ser calculado pela fórmula:

Exemplos:

CV =

s

x¯ 100.

1. Uma pesquisa sobre temperatura ( o C) e pressão (atm) em uma caldeira industrial mostrou os seguintes resultados:

T( o C)

400

450

350

500

600

550

P(atm)

40

52

37

67

70

72

a) Calcular a média e o desvio padrão para cada variável;

b) Que atributo apresenta maior variabilidade?

2. Numa empresa, o salário médio dos homens é de R$4000, com desvio padrão de R$1500, e o das mulheres e em média R$3000, com desvio padrão de R$1200. Qual salário apresenta maior variabilidade?

d) Erro padrão da média (s x¯ ): é uma medida de dispersão que mede a precisão com que a média amostral foi calculada. Quanto menor for seu valor, mais provável será a chance de obter a média da amostra nas proximidades da média da população. O erro padrão da média é dado por:

s x¯ =

s

n

Observe que se n → ∞ s x¯ 0

Exemplo:

1. Em um estudo sobre a acidez de algumas soluções, o ph de um certo produto foi medido, obtendo os seguintes resultados:

5,1

5,3

5,2

5,5

4,9

6,2

6,0

5,8

5,3

5,0

5,1

5,4

5,1

6,1

5,6

5,4

5,8

5,7

5,5

5,1

a) Calcular o erro padrão da média usando as duas primeiras linhas dos dados;

b) Agora, utilize todos os dados;

15

2 Probabilidade

Neste capítulo serão abordados os conceitos de probabilidade que dão suporte para o estudo de estatística e experimentação. Quando fala-se de probabilidade, pretende-se identificar a chance de ocorrência de um determinado resultado de interesse, em situações nas quais não é possível calcular com exatidão o valor real do evento. Desta forma, trabalha-se com chances ou probabilidades.

2.1 Conceitos

a) Experimento aleatório: consiste em um experimento que pode ser efetuado repetidas vezes, sob as mesmas condições de realização, mas cujos resultados não são essencialmente os mesmos em todas as repetições.

Exemplos:

1. Lançamento de uma moeda ou dado;

2. Tempo de vida útil de um componente eletrônico;

3. Número de chamadas telefônicas que chegam a uma central em um intervalo de tempo;

b) Espaço amostral (Ω) : conjunto formado por todos os resultados possíveis de um experimento.

c) Evento: é um subconjunto do espaço amostral.

Exemplos:

1. Uma fábrica produz determinado artigo. Da linha de produção são retirados três artigos, e cada um é classificado como bom (B) ou defeituoso (D). Qual o espaço amostral associado a esse experimento? Se A é definido como sendo “dois artigos bons”, quais são os elementos pertencentes a esse evento?

2. Qual o espaço amostral associado a um experimento que consiste em determinar o tempo de decomposição industrial em um aterro sanitário? Se A é o evento “o tempo de decomposição está entre dois e doze anos”, como pode ser representado esse evento?

2.2 Operações de conjuntos

As operações com conjuntos podem ser aplicadas aos eventos. Então define-se:

a) Evento interseção (A B): é o conjunto formado pelos resultados que pertencem aos eventos A e B simultaneamente.

b) Evento união (A B): é o evento formado pelos resultados de A ou B, ou seja, os resultados que pertencem a pelo menos um dos eventos.

¯

c) Evento complementar ( A ou A c ): é o evento formado pelos resultados que não pertencem

ao evento considerado.

d) Evento mutuamente exclusivo: Dois eventos são mutuamente exclusivos se e somente se A B = .

Se a união de n eventos mutuamente exclusivos é o próprio , temos que tais eventos formam uma partição de .

16

2.3

Definição e axiomas de probabilidade

Probabilidade: a definição clássica de probabilidade nos diz que a probabilidade de ocorrer o evento A é definida como:

Exemplos:

P(A) = números de casos favoráveis

números de casos possíveis

= A

=

n

N

1. Qual a probabilidade de se retirar dois ou mais artigos bons, no experimento que tem por finalidade classificar os artigos da linha de produção de uma fábrica?

2. Qual a probabilidade de obter duas caras em duas jogada de uma moeda?

Axiomas de Probabilidade:

Axioma 1: A probabilidade de um certo evento ocorrer corresponde a um número não ne- gativo, ou seja, P (A) 0.

Axioma 2: A probabilidade de ocorrer todo o espaço amostral é igual a um, isto é, P (Ω) = 1.

Axioma 3: Se A 1 , A 2 , ···, A n são eventos mutuamente exclusivos, P (A 1 A 2 A n ) = P(A 1 ) + P(A 2 ) + ··· + P(A n )

A partir desses axiomas, pode-se enunciar as seguintes propriedades, que são úteis no cálculo de probabilidades:

Propriedade 1: 0 P (A) 1, evento A .

Propriedade 2: P () = 0

Propriedade 3: Se A 1 A 2 , então P (A 1 ) P(A 2 )

Propriedade 4: P (A c ) = 1 P(A)

Propriedade 5: P (A 1 A 2 ) = P(A 1 ) + P(A 2 ) P(A 1 A 2 )

Exemplos:

1. Suponha que o seguinte quadro represente uma possível divisão de alunos matriculados na UFU em um determinado semestre:

Sexo

Cursos

Masculino (M)

Feminino (F)

Total

Engenharia (E) Matemática (MT) Química (Q) Computação (C)

70

40

110

15

15

30

10

20

30

20

10

30

Total

115

85

200

Calcular:

a) A probabilidade de uma pessoa selecionada aleatoriamente estar matriculada em engenharia;

17

b) P(M)?

c) P(MT M)?

d) P(E C)?

e) P(Q c )?

2. Considere um experimento e os eventos A e B associados a este experimento. Seja P(A)= 1/2; P(B)= 1/3 e P (AB)= 1/4. Calcule:

a) P (A c );

b) P (A B);

c) P (A c B c );

d) P (A c B c );

e) Qual a probabilidade que B ocorra e A não ocorra.

2.4 Análise Combinatória

Nem sempre é possível enumerar o espaço amostral. Nestes casos, deve-se usar a análise combi- natória como processo de contagem. Nas combinações estamos interessados somente em selecionar objetos sem nos preocuparmos com a ordem. Assim, o número total de combinações de n objetos

selecionados dentre os N objetos distintos, denotado por N é: N =

n

n

Exemplos:

N!

n!(N n)! .

1. Em um congresso científico existem 15 engenheiros e 12 arquitetos. Qual a probabili- dade de se formar uma comissão com cinco membros, na qual figurem 3 engenheiros e 2 arquitetos?

2. Suponha que num lote com 20 peças existam 5 defeituosas, e escolhemos 4 peças do lote ao acaso. Qual é a probabilidade de se escolher duas peças defeituosas na amostra?

2.5 Probabilidade Condicional e Independência

2.5.1 Probabilidade Condicional

Algumas vezes, as probabilidades necessitam ser reavaliadas à medida que informações adicionais

se tornam disponíveis. Uma maneira de incorporar informação adicional em um modelo de probabi-

lidade é considerar que o resultado gerado é um elemento de um dado evento. Esse evento, denotado por B, define as condições em que se sabe que o resultado é satisfatório. Então, as probabilidades podem ser revistas de modo a incluir esse conhecimento. A probabilidade de um evento A, sabendo qual será o resultado do evento B, é dada por P (A/B) e é chamada de probabilidade condicional de

A dado B. Desse modo, a probabilidade condicional P (A/B) é definida como:

 

P (A/B) = P(A P(B) B)

com

P (B) =

0

Analogamente,

 

P (B/A) = P(B P(A) A)

com

P (A) =

0

Dessas expressões é possível definir a regra do produto de probabilidade:

P (A B) = P (B)P (A/B) = P (A)P (B/A)

18

Exemplos:

1. Utilizando os dados dos alunos matriculados em uma universidade, determine: Sabendo que uma pessoa selecionada ao acaso está matriculada em matemática, qual a probabili- dade que ela seja do sexo masculino?

2. Num certo colégio, 4% dos homens e 1% das mulheres têm mais de 1,75 de altura. 60% dos estudantes são mulheres. Um estudante é escolhido ao acaso e tem mais de 1,75m. Qual é a probabilidade de que seja homem?

2.5.2

Eventos independentes

Da regra do produto de probabilidades, surge a definição de eventos independentes. Dois eventos A e B são independentes se e somente se P (A/B) = P (A) ou P (B/A) = P (B). Assim, se A e B forem independentes, temos:

P (A/B) = P(A P(B) B)

=P (A B) = P (A/B)P (B) =P (A B) = P (A)P (B)

Generalizando, vários eventos são independentes entre si, se forem independentes dois a dois, ou ainda: P (A B ∩ · · · ∩ W ) = P (A)P (B) · · · P (W )

Exemplos:

1. Suponha que três componentes de um sistema elétrico funcionam em série. O sistema funcionará se os componentes, 1, 2 e 3 funcionam simultaneamente. Suponha ainda que cada componente funcione independentemente e que p i é a probabilidade do componente i funcionar, qual a probabilidade do sistema funcionar?

2. Suponha agora que um outro sistema é constituído por 4 componentes. Neste sistema os componentes 1 e 2 funcionam em série, e estes mesmos componentes funcionam em paralelo com os componentes 3 e 4, que por sua vez funcionam em série. A probabilidade de cada um dos componentes funcionar é de 0,90. Determinar a confiabilidade deste sistema funcionar.

3. A probabilidade de que um homem esteja vivo daqui a 30 anos é 2/5; a de sua mulher é de 2/3. Determinar a probabilidade de que daqui 30 anos:

a) ambos estejam vivos;

b) somente o homem esteja vivo;

c) pelo menos um esteja vivo;

2.6 Teorema de Bayes

É um importante teorema que expressa uma probabilidade condicional em função de outras pro- babilidades condicionais.

Teorema de Bayes: Sejam B 1 , B 2 , ··· B n uma partição de , ou seja, B i B j = , i = j e B 1 B 2 ∪ ··· ∪ B n = Ω. Considerando A um evento qualquer e conhecendo-se P (B i ) e P (A/B i ), temos que:

P(B i /A) =

P(B i )P (A/B i )

n

i=1

[P(B i )P (A/B i )]

19

Exemplos:

1. Durante o mês de dezembro, a probabilidade de chover é de 10%. Um time ganha um jogo em um dia chuvoso, com 40% de probabilidade, e em um dia sem chuva, com 60% de pro- babilidade. Tendo esse time ganho um jogo em um dia de dezembro, qual a probabilidade de ter chovido nesse dia?

2. Considere cinco urnas cada uma com seis bolas. Duas dessas urnas (tipo C 1 ), tem três bolas brancas, duas outras urnas (tipo C 2 ), tem duas bolas brancas e a última (tipo C 3 ) tem seis bolas brancas. Escolhe-se uma urna ao acaso e retira-se uma bola desta. Qual a probabilidade de que a urna escolhida seja do tipo C 3 , sabendo-se que a bola retirada á branca?

3. Para selecionar seus funcionários, uma empresa oferece aos candidatos um curso de trei- namento. Ao final eles são submetidos a uma prova e 25% são classificados como bons (B), 50% como médios (M) e os restantes 25% como fracos (F). Para facilitar a seleção, a empresa pretende substituir o treinamento por um teste contendo questões de conhe- cimentos gerais e específicos. Para isso, gostaria de conhecer qual a probabilidade de um indivíduo aprovado no teste ser considerado fraco, caso fizesse o curso. De acordo com os resultados receberam os conceitos aprovado (A) ou reprovado (R). Sabendo que P (A/B) = 0,80; P (A/M ) = 0,50; e P (A/F ) = 0,20, encontrar P (F/A).

20

3

Variáveis aleatórias unidimensionais

Neste capítulo será apresentado o conceito de variável aleatória unidimensional, tanto para o caso discreto quanto para o caso contínuo, e também será definida as principais funções que regem as variáveis aleatórias.

3.1 Definição de Variáveis Aleatórias Unidimensionais

Considere um experimento aleatório e o espaço amostral associado a esse experimento. Uma função que associa valores reais aos eventos do espaço amostral é definida como uma variável aleatória (v.a.). Geralmente, as letras maiúsculas são utilizadas para representar a variável aleatória, e as letras minúsculas os valores que esta variável aleatória pode assumir. Por exemplo, se a variável aleatória é representada por X, as realizações dessa variável aleatória é representada pelos valores x 1 , x 2 , ··· , x n . As variáveis aleatórias podem se classificar em discretas e contínuas. A variável aleatória discreta é aquela que assume valores finitos, ou infinito enumerável, de valores, já a variável aleatória contínua é aquela que assume um número infinito não enumerável de valores, ou seja, são valores oriundos de grandezas mensuradas em uma escala real.

3.1.1 Variável Aleatória Discreta

Uma variável discreta X pode ser definida como aleatória discreta se a cada um de seus valores se associa uma probabilidade P (X).

Exemplos:

1. Se um experimento consiste no lançamento de um dado, a função: X: “o dobro do valor obtido menos um”, define uma variável aleatória discreta, que pode assumir seis valores possíveis: 1, 3, 5, 7, 9 e 11 com probabilidade igual a 1/6.

2. Se um experimento consiste em observar o número de carros vendidos durante um dia em uma garagem, conforme tabela abaixo:

Vendas de carros

Dias

P (X)

0 54

54/300 = 0,18

1 117

117/300 = 0,39

2 72

72/300 = 0,24

3 42

42/300 = 0,14

4 3

3/300 = 0,01

5 12

12/300 = 0,04

Total

300

1,00

e Y for definido como sendo “o número de carros vendidos em um dia”, Y poderá assumir os valores 0, 1, 2, 3, 4 e 5 com probabilidade 0,18; 0,39; 0,24; 0,14; 0,01 e 0,04, respectivamente.

Distribuição de Probabilidade

Para cada valor x 1 , x 2 , ··· , x n que a variável aleatória X assume serão atribuídos números reais, representando as probabilidades de a variável aleatória X ser igual a esses valores. Essas proba-

devem

bilidades serão denotadas por P (X = x 1 ) = p 1 , P(X = x 2 ) = p 2 , ··· , P(X = x n ) = p n , e satisfazer às seguintes condições:

a)

0 p i 1 i = 1,2, · · · , n.

21

n


b)

i=1

p i = 1.

As probabilidades p i , i = 1,2, · · · , n formam o que se denomina função de probabilidade da variável aleatória X.

Para quaisquer valores de a e b, tem-se que P (a < X < b) =

b

x i >a

P(X = x i ).

Para os exemplos dados anteriormente, as distribuições de probabilidade nestes casos são:

 

X

1

3

5

7

9

11

 

P(X = x)

1/6

1/6

1/6

1/6

1/6

1/6

1,00

 

Y

 

0

1

2

3

4

5

 

P(Y = y)

0,18

0,39

0,24

0,14

0,01

0,04

1,00

3.1.2 Variável Aleatória Contínua

A variável aleatória é dita contínua se corresponder a dados de medida, pertencentes aos R. O conceito de v.a. contínua será mais bem entendido por meio dos seguintes exemplos:

1. Se um experimento consiste em verificar as alturas de 30 universitários, a função: X: “Altura de um universitário”, define uma variável aleatória contínua, que pode assumir quaisquer valores entre 130 e 220 cm.

2. Se um experimento consiste em mensurar os pesos dos 30 universitários, a função: Y : “Peso de um universitário”, define uma variável aleatória contínua, que pode assumir quaisquer valores entre 60 e 130 kg.

3. Se um experimento consiste em verificar a durabilidade de um lote de 50 pneus, a função:

Z: “tempo de vida útil de um pneu”, define uma v.a. contínua, que pode assumir quaisquer valores entre 50.000 e 70.000 km.

Com base nos exemplos apresentados, a variável aleatória contínua está vinculada a dados oriun- dos de uma mensuração que resultam a um intervalo de números reais.

Função Densidade de Probabilidade

Se a variável aleatória X é contínua, define-se uma função, denotada por f (x), e denominada função densidade de probabilidade (f.d.p.) da variável aleatória X, que representa, fisicamente, a curva das probabilidades de todos os infinitos valores de X. Deste modo, áreas serão usadas para representar as probabilidades, e probabilidades são valores numéricos positivos, portanto, a função densidade deve estar inteiramente acima do eixo x. Uma função de densidade de probabilidade é construída de modo que a área abaixo da curva até o eixo x seja igual a 1, quando calculada para a amplitude de X para o qual f (x) foi definida. Se essa amplitude de X for um intervalo finito, é sempre possível estender o intervalo para incluir o conjunto inteiro dos reais, definindo-se f (x) como sendo igual a zero em todos os pontos nas porções estendidas do intervalo. Isso é válido pois uma variável contínua X tem uma probabilidade zero de assumir exatamente qualquer um de seus valores. Essa função f (x) deve satisfazer às seguintes propriedades:

a) f (x) 0, para todo x R

22


b)

+

−∞

f (x)dx = 1

c) P (a x b) = P (a x < b) = P (a < x b) = P (a < x < b) =

a

Exemplo:

b

f (x)dx, a e b.

1. Suponha que o erro na temperatura de reação (em 0 C), para um experimento de labo- ratório controlado, seja a variável aleatória contínua X, que tem a seguinte função de densidade de probabilidade:

f(x)

=

x

2

3

0,

,

se 1 < x < 2 caso contrário

a) Verifique se as propriedades (a) e (b) de f (x) são satisfeitas;

b) Determine a P (0 < X 1)

3.2 Função Repartição ou Função de Distribuição Acumulada

A função de distribuição acumulada nos fornece a probabilidade de que a variável em questão esteja abaixo de um determinado valor. Em geral, ela é representada por F (X) ou φ(X). Assim, F(X) = P(X x).

Variável Aleatória Discreta:

Para uma variável aleatória discreta a função de distribuição acumulada será definida como:

F(x) = P(X x) = P(X = x i ) para −∞ < x < +.

x i <x

Variável Aleatória Contínua:

Para uma variável aleatória contínua a função de distribuição acumulada será definida como:

F(x) = P(X x) =

x

−∞

f (t)dt para −∞ < x < +.

Propriedades da Função Repartição ou Função de Distribuição Acumulada

i)

0 F (X) 1

ii)