Você está na página 1de 74

Pr ofa .

Re gin a M a r ia Sigolo Be r n a r din e lli

Est a t íst ic a

Ge st ã o Fina nc e ira / Ge st ã o de Re c ursos


H um a nos / Logíst ic a / M a rk e t ing
REGINA MARIA SIGOLO BERNARDINELLI

ESTATÍSTICA
Ensino a Distância — E a D

Revisão 09/2008
LISTA DE FIGURAS

Figura 1. Classificação de uma Variável 9


Gráfico 1. Setores 16
Gráfico 2. Colunas 16
Gráfico 3. Histograma 17
Gráfico 4. Polígono de Freqüências 18
Gráfico 5. Curva Normal 41
Gráfico 6. Probabilidade 42
Gráfico 7. Normal Padrão ou Normal Reduzida 42
Figura 2. Intervalo de Confiança – Média Populacional 49
Gráfico 8. Correlação Linear Positiva 55
Gráfico 9. Correlação Linear Negativa 55
Gráfico 10. Correlação Nula 56
LISTA DE TABELAS

Tabela 1. Informações de Questionário Estudantil – Dados Brutos 10


Tabela 2. Variável Sexo 11
Tabela 3. Variável Toler 12
Tabela 4. Variável Idade 12
Tabela 5. Variável Peso 13
Tabela 6. Variável TV 14
Tabela 7. 1ª Lista de Exercícios – Exercício 3 19
Tabela 8. 1ª Lista de Exercícios – Exercício 5 20
Tabela 9. 1ª Lista de Exercícios – Exercício 7 21
Tabela 10. 1ª Lista de Exercícios – Exercício 8 21
Tabela 11. 1ª Lista de Exercícios – Exercício 9 22
Tabela 12. Exemplo 1 – Variável Idade 26
Tabela 13. Exemplo 2 – Variável Peso 27
Tabela 14. Exemplo 1 – Variável Idade 32
Tabela 15. Exemplo 2 – Variável Peso 33
Tabela 16. 2ª Lista de Exercícios – Exercício 4 34
Tabela 17. 2ª Lista de Exercícios – Exercício 7 35
Tabela 18. Exemplo 1 – Correlação Linear 56
Tabela 19. Exemplo 1 – Correlação Linear 57
Tabela 20. Exemplo 2 – Correlação Linear 58
Tabela 21. Exemplo 2 – Correlação Linear 59
Tabela 22. 3ª Lista de Exercícios – Exercício 11 62
Tabela 23. Normal Padrão 63
1

SUMÁRIO

APRESENTAÇÃO 1
1. INTRODUÇÃO 2
2. NOÇÕES BÁSICAS 3
2.1. Arredondamento de Dados 3
2.2. População e Amostra 4
2.2.1. População 4
2.2.2. Amostra 4
2.2.3. A Escolha da Amostra 4
3. ORGANIZAÇÃO DE DADOS 7
3.1. Tipos de Variáveis 8
3.1.1. Variáveis Qualitativas 8
3.1.1.1. Variável Qualitativa Nominal 8

3.1.1.2. Variável Qualitativa Ordinal 8


3.1.2. Variáveis Quantitativas 8
3.1.2.1. Variáveis Quantitativas Discretas 9
3.1.2.2. Variáveis Quantitativas Contínuas 9
3.2. Distribuição de Freqüências 11
3.2.1. Exemplos 11
3.2.1.1. Tabela de Freqüência para a Variável Sexo 11
3.2.1.2. Tabela de Freqüência para a Variável Toler 12
3.2.1.3. Tabela de Freqüência para a Variável Idade 12
3.2.1.4. Tabela de Freqüência para a Variável Peso 13
3.2.1.5. Tabela de Freqüência para a Variável TV 14
4. GRÁFICOS ESTATÍSTICOS 15

4.1. Gráfico de Setores ou Disco ou Pizza ou Diagrama Circular 15

4.2. Gráfico de Colunas ou Barras 16

4.3. Histograma 17
4.4. Polígono de Freqüências 17
4.5. 1ª Lista de Exercícios 18
5. MEDIDAS 23
5.1. Medidas de Posição 23

5.1.1. Medidas de Posição para um Conjunto de Dados 23

5.1.1.1. Média Aritmética ou simplesmente Média ( x ) 23

5.1.1.2. Mediana (md) 24

5.1.1.3. Moda (mo) 25


5.2. Medidas de Dispersão 28

5.2.1. Medidas de Dispersão para um Conjunto de Dados 28

5.2.1.1. Amplitude Total (R) 29


5.2.1.2. Variância ( σ 2 (população ) ou S 2 (amostra) ) 29

5.2.1.3. Desvio Padrão ( σ (população ) ou S (amostra) ) 30

5.2.1.4. Coeficiente de Variação ( CV ) 31

5.3. 2ª Lista de Exercícios 33


6. PROBABILIDADES 37

6.1. Definições 37

6.1.1. Fenômeno Determinístico 37

6.1.2. Fenômeno Aleatório ou Probabilístico 37

6.1.3. Espaço Amostral (S) 38

6.1.4. Evento (E) 38


6.1.5. Probabilidade 38
6.2. Propriedades 39
6.3. Outras Definições 39
6.3.1. Variável Aleatória Discreta 39

6.3.2. Função Discreta de Probabilidade 39

6.3.3. Variável Aleatória Contínua 40

6.3.4. Função Contínua de Probabilidade 40


7. VARIÁVEIS ALEATÓRIAS CONTÍNUAS 41

7.1. Modelo Normal ou Distribuição Normal 41

7.1.1. Gráfico 41

8. ESTIMAÇÃO 45

8.1. Estimação por Intervalo 45


8.1.1. Intervalo de Confiança para a Média Populacional (variância 46
conhecida)

8.1.2. Intervalo de Confiança para a Proporção 50

8.1.3. Intervalo de Confiança para a Média Populacional (variância 51


desconhecida)

9. CORRELAÇÃO 54

9.1. Correlação Linear Simples 54

9.1.1. Coeficiente de Correlação de Pearson 54

9.1.2. Correlação Linear Positiva 55

9.1.3. Correlação Linear Negativa 55

9.1.4. Correlação Nula 56

9.2. 3ª Lista de Exercícios 60


9.3. Respostas – Listas de Exercícios 64
9.3.1. 1ª Lista de Exercícios 64

9.3.2. 2ª Lista de Exercícios 65

9.3.3. 3ª Lista de Exercícios 66

REFERÊNCIAS 67 74
1

APRESENTAÇÃO

Esta apostila reúne os principais tópicos de Estatística, de forma condensada e


objetiva, com a finalidade de orientar o aluno do CURSO SEMIPRESENCIAL no
desenvolvimento do conteúdo dessa disciplina.
Em sua elaboração não tive a pretensão de demonstrar as diversas fórmulas
matemáticas nela existentes, mas sim, de mostrar suas aplicações nos diversos assuntos
abordados.
É, portanto, um guia indispensável para acompanhar as aulas BREEZE.
A disciplina ESTATÍSTICA tem, por objetivo, fornecer ao aluno subsídios que o
auxiliem nas demais disciplinas do CURSO SEMIPRESENCIAL, bem como desenvolver-
lhe a capacidade de utilizar os diversos métodos estatísticos e raciocínio necessário para
interpretação e análise de pesquisas na área a que se destina.

Profª. Regina Maria Sigolo Bernardinelli


2

1. INTRODUÇÃO

A palavra “estatística”, de origem latina, significou por muito tempo “ciência dos
negócios do Estado”. Os que governavam, sentindo necessidade de informações,
organizavam departamentos que tinham a responsabilidade de fazer essas investigações.
As sociedades modernas acumulam grande quantidade de dados numéricos relativos a
eventos sociais, econômicos, científicos, esportivos etc.
Desse modo notamos que o uso da pesquisa é bastante comum nas várias atividades
humanas.

Exemplos:

1º) O índice de analfabetismo no Brasil.


2º) A mortalidade infantil no Nordeste brasileiro.
3º) A porcentagem de crianças vacinadas na última campanha de vacinação.
4º) A pesquisa realizada pelas indústrias, entre os consumidores, para o lançamento de um
novo produto.
5º) As pesquisas eleitorais, fornecendo elementos para que os candidatos direcionem suas
campanhas.
6º) As pesquisas utilizadas pelas emissoras de TV, mostrando a preferência dos espectadores,
para organizar sua programação.
A realização de uma pesquisa envolve muitas etapas como: a escolha da amostra, a
coleta e a organização dos dados, o resumo e a apresentação desses dados, e também a
interpretação dos resultados para a obtenção de conclusões e tomada de decisões razoáveis.
Todas essas etapas são trabalhadas com métodos científicos pela Estatística.
O tratamento estatístico de um conjunto de dados pode envolver dois processos
distintos, isto é, a descrição dos dados e o estabelecimento de conclusões sobre a população a
partir dos dados obtidos por amostragem. Para tanto, temos:

Estatística Descritiva: utiliza métodos numéricos e gráficos para mostrar os padrões de


comportamento dos dados, para resumir a informação contida nesses dados e para apresentar
a informação de forma conveniente.
Inferência Estatística: utiliza dados de amostras para obter estimativas sobre a população.
3

2. NOÇÕES BÁSICAS

2.1. ARREDONDAMENTO DE DADOS

De acordo com a Fundação IBGE (Instituto Brasileiro de Geografia e Estatística), o


arredondamento é feito da seguinte forma:
a) Quando o primeiro algarismo a ser abandonado é 0, 1, 2, 3, ou 4, fica inalterado o último
algarismo a permanecer.
Exemplo: aproximação de uma casa decimal: 53,24 passa a 53,2.

b) Quando o primeiro algarismo a ser abandonado é 6, 7, 8 ou 9, aumenta-se de uma unidade


o algarismo a permanecer.
Exemplos: aproximação de uma casa decimal: 42,87 passa a 42,9
25,08 passa a 25,1
53,99 passa a 54,0

c) Quando o primeiro algarismo a ser abandonado é 5, há duas soluções:


• Se ao 5 seguir em qualquer casa um algarismo diferente de zero, aumenta-se uma
unidade ao algarismo a permanecer.
Exemplos: aproximação de uma casa decimal: 2,352 passa a 2,4
25,6501 passa a 25,7
76,25002 passa a 76,3

• Se o 5 for o último algarismo ou se ao 5 só se seguirem zeros, o último algarismo a ser


conservado só será aumentado de uma unidade se for ímpar.
Exemplos: aproximação de uma casa decimal: 24,75 passa a 24,8
24,65 passa a 24,6
24,75000 passa a 24,8
24,6500 passa a 24,6
4

2.2. POPULAÇÃO E AMOSTRA

2.2.1. População: é o conjunto de todos os elementos envolvidos no fenômeno a ser


estudado.
2.2.2. Amostra: é o conjunto de elementos retirados da população para a realização do
estudo. É, portanto, um subconjunto da população.

Exemplos:

1º) Queremos obter informações sobre a audiência de certo programa de TV, na Grande São
Paulo.
População: é o conjunto de todos os domicílios da Grande São Paulo que possuem TV.
Amostra: é o conjunto dos domicílios que serão visitados.
2º) Estudar a procedência dos candidatos a uma certa universidade.
População: conjunto de todos os candidatos à referida universidade.
Amostra: conjunto dos candidatos que serão entrevistados.
3º) Queremos fazer um estudo sobre a idade dos alunos do curso de Publicidade e Propaganda
de uma determinada universidade.
População: todos os alunos do curso de Publicidade e Propaganda.
Amostra: uma classe do primeiro ano do curso de Publicidade e Propaganda.
Quando são obtidos dados de toda uma população, dizemos que foi feito um
recenseamento, e a este conjunto de dados damos o nome de censo.
Quando os dados são obtidos de parte da população, foi feita uma amostragem.

2.2.3. A Escolha da Amostra

Os métodos de escolha da amostra devem garantir a representatividade do grupo. É


necessário escolher, no mínimo, 10% do número total dos elementos da população e garantir
por meio de um critério de seleção, que nenhum elemento tenha maior chance de ser
escolhido do que outro. Desse modo, podemos recorrer a diferentes formas de amostragem:
amostragem aleatória simples, amostragem sistemática e amostragem estratificada
proporcional.
Vejamos o procedimento através de dois exemplos.
5

Exemplo 1: Suponhamos uma pesquisa sobre o nível de escolaridade de um grupo de


oitocenta pessoas. Vamos escolher uma amostra com no mínimo oitenta pessoas (10% de
800), selecionadas através de:

a) Amostragem Aleatória Simples: em primeiro lugar, elaboramos uma lista com os


oitocentos nomes dos elementos da população numerados de 1 a 800, para serem submetidos
a um sorteio. Bolas ou cartões, também numerados de 1 a 800, são colocados em uma urna e
bem misturados. Em cada etapa do sorteio, todo número ainda não escolhido tem a mesma
probabilidade de ser sorteado. Esse processo não é muito prático para grandes populações,
quando podemos então trabalhar com uma numeração de 0 a 9, sorteando os números por
meio de blocos de três algarismos e tomando o cuidado de repor na urna todo algarismo dela
1
retirado. Como temos dez algarismos, cada um deles tem de probabilidade de aparecer
10
em determinada posição. Sempre que um bloco de algarismos indicar um elemento já
selecionado, ou um elemento que não exista na população, será descartado.
Suponhamos que os seguintes algarismos foram obtidos no sorteio:
2 4 3 5 6 4 7 2 0 0 3 5 8 1 1 0 0 5
1 9 8 6 4 3 5 2 4 7 8 9 7 7 6 5 4 2
2 3 0 1 2 1 1 6 7 8 9 1 0 3 4 5 6 7
2 2 8 8 1 9 0 0 6 0 7 2 1 0 5 6 4 3
Agrupando-os em blocos de três, teremos os números:
243 564 720 035 811 005 198 643 524 789 776 542 230
121 167 891 034 567 228 819 006 072 105 643.
Observem que devemos descartar 811, 891 e 819, porque não pertencem à população,
e 643 porque já foi selecionado.
Continuamos o sorteio, até completarmos os 80 elementos da amostra.

b) Amostragem Sistemática: sorteamos um número de 1 a 10, ao acaso. Supondo que tenha


sido obtido o número 6, ele será o primeiro elemento da amostra e os demais serão
determinados em intervalos de dez unidades. Nossa amostra, então, será:
6 16 26 36 46 56 66 76 86 96 106 ... 796
Este tipo de amostragem é simples de ser realizado e, aconselhável no caso de
amostras muito grandes.
6

Exemplo 2: Na escola Sapequinha, quer fazer-se um estudo sobre o peso dos alunos de 7 anos
de idade. Existem 120 crianças na faixa de 7 anos de idade distribuídas em cinco classes, do
seguinte modo: a primeira série A tem 20 alunos com 7 anos, a primeira B tem 15, a C tem
35, a D, 30 e a E tem 20. Vamos escolher uma amostra com no mínimo 12 crianças (10% de
120), selecionadas através de:

c) Amostragem Estratificada Proporcional: sorteamos os nomes das crianças em quantidades


proporcionais ao número de crianças com 7 anos de cada classe, que constituem os estratos da
amostra. Vamos agora determinar a porcentagem de crianças com 7 anos, em cada classe, em
relação à população (120 crianças).
120 → 100%⎫ 20 ⋅ 100
⎬ ⇒ 120 ⋅ a = 20 ⋅ 100 ⇒ a = ⇒ a = 16,7%
20 → a ⎭
A:
120

120 → 100%⎫ 15 ⋅ 100


⎬ ⇒ 120 ⋅ b = 15 ⋅ 100 ⇒ b = ⇒ b = 12,5%
15 → b ⎭
B:
120
De modo análogo, determinamos as porcentagens para as classes C, D e E, obtendo:
C: c = 29,2% D: d = 25% E: e = 16,7%
Para calcularmos quantas crianças de cada classe serão sorteadas, para uma amostra de 12
crianças, fazemos:

⋅ 12 = 0,167 ⋅ 12 = 2,004 = 2
16,7
A: 16,7% de 12 =
100
B: 12,5% de 12 = 0,125 . 12 = 1,5 = 2
C: 29,2% de 12 = 0,292 . 12 = 3,504 =3 (neste caso, arredondamos para 3, ao invés de 4,
porque o total de crianças da amostra é 12).
D: 25% de 12 = 0,25 . 12 = 3
E: 16,7% de 12 = 0,167 . 12 = 2,004 = 2
Deste modo, obtivemos a quantidade de elementos de cada estrato e o total da amostra.
7

3. ORGANIZAÇÃO DE DADOS

Dado um conjunto de dados, vamos estudar como devemos “tratar” os valores,


numéricos ou não, a fim de extrair informações a respeito de uma ou mais características de
interesse.
Suponhamos, por exemplo, que um questionário foi aplicado a alunos do 1º ano de
uma escola fornecendo as seguintes informações:
Id: identificação do aluno
Turma: A ou B
Sexo: feminino (F) ou masculino (M)
Idade: em anos
Alt: altura em metros
Peso: em quilogramas
Filhos: nº de filhos na família
Fuma: hábito de fumar: sim (S) ou não (N)
Toler: tolerância ao cigarro: (I) indiferente; (P) incomoda pouco; (M) incomoda muito
Exerc.: horas de atividade física, por semana
Cine: nº. de vezes que vai ao cinema por semana
Op Cine: opinião a respeito das salas de cinema na cidade: (B) regular a boa; (M) muito boa
TV: horas gastas assistindo TV, por semana
Op TV: opinião a respeito da qualidade da programação na TV: (R) ruim; (M) média; (B)
boa; (N) não sabe.
O conjunto de informações, após a tabulação do questionário ou pesquisa de campo, é
denominado de tabela de dados brutos e contém os dados da maneira que foram coletados
inicialmente. (Tabela 1)
Cada uma das características perguntadas aos alunos, tais como o peso, a idade, a
altura, etc. é denominada de variável e, como podemos observar, tem naturezas diferentes
quanto aos possíveis valores que podem assumir.

3.1. TIPOS DE VARIÁVEIS

Existem dois tipos de variáveis: quantitativas (variáveis numéricas) e qualitativas


(variáveis não numéricas).
8

3.1.1. Variáveis Qualitativas

Seus valores representam uma qualidade (ou atributo) do indivíduo pesquisado.

Exemplos: sexo, turma, estado civil, grau de instrução, hábito de fumar etc.

Dentre as variáveis qualitativas, ainda existem dois tipos:

3.1.1.1. Variável Qualitativa Nominal

Não existe ordenação em seus possíveis resultados.

Exemplos: sexo, turma, hábito de fumar.

3.1.1.2. Variável Qualitativa Ordinal

Existe uma certa ordem em seus possíveis resultados.

Exemplos: tamanho (P, M, G); classe social (baixa, média, alta); grau de instrução (1º grau,
2º grau, grau superior); estado civil.

3.1.2. Variáveis Quantitativas

Seus valores são numéricos resultantes de uma contagem ou mensuração.

Exemplos: número de filhos, salário, peso, altura etc..

Dentre as variáveis quantitativas ainda existem dois tipos:


9

3.1.2.1. Variáveis Quantitativas Discretas

Seus possíveis valores formam um conjunto finito ou enumerável de números que


resultam freqüentemente de uma contagem.

Exemplos: número de filhos, idade (em anos), cine (número de vezes que vai ao cinema por
semana).

3.1.2.2. Variáveis Quantitativas Contínuas

Seus possíveis valores formam um intervalo de números reais que resultam


normalmente de uma mensuração.

Exemplos: peso, altura, salário.

ESQUEMA

Variável

Qualitativa Quantitativa

Nominal Ordinal Discreta Contínua

Figura 1.: Classificação de uma Variável


10

INFORMAÇÕES DE QUESTIONÁRIO ESTUDANTIL

Id Turma Sexo Idade Alt Peso Filho Fuma Toler Exerc Cine OpCine TV OpTV
1 A F 17 1,60 60,5 2 Não P 0 1 B 16 R
2 A F 18 1,69 55,0 1 Não M 0 1 B 7 R
3 A M 18 1,85 72,8 2 Não P 5 2 M 15 R
4 A M 25 1,85 80,9 2 Não P 5 2 B 20 R
5 A F 19 1,58 55,0 1 Não M 2 2 B 5 R
6 A M 19 1,76 60,0 3 Não M 2 1 B 2 R
7 A F 20 1,60 58,0 1 Não P 3 1 B 7 R
8 A F 18 1,64 47,0 1 Sim I 2 2 M 10 R
9 A F 18 1,62 57,8 3 Não M 3 3 M 12 R
10 A F 17 1,64 58,0 2 Não M 2 2 M 10 R
11 A F 18 1,72 70,0 1 Sim I 10 2 B 8 N
12 A F 18 1,66 54,0 3 Não M 0 2 B 0 R
13 A F 21 1,70 58,0 2 Não M 6 1 M 30 R
14 A M 19 1,78 68,5 1 Sim I 5 1 M 2 N
15 A F 18 1,65 63,5 1 Não I 4 1 B 10 R
16 A F 19 1,63 47,4 3 Não P 0 1 B 18 R
17 A F 17 1,82 66,0 1 Não P 3 1 B 10 N
18 A M 18 1,80 85,2 2 Não P 3 4 B 10 R
19 A F 20 1,60 54,5 1 Não P 3 2 B 5 R
20 A F 18 1,68 52,5 3 Não M 7 2 B 14 M
21 A F 21 1,70 60,0 2 Não P 8 2 B 5 R
22 A F 18 1,65 58,5 1 Não M 0 3 B 5 R
23 A F 18 1,57 49,2 1 Sim I 5 4 B 10 R
24 A F 20 1,55 48,0 1 Sim I 0 1 M 28 R
25 A F 20 1,69 51,6 2 Não P 8 5 M 4 N
26 A F 19 1,54 57,0 2 Não I 6 2 B 5 R
27 B F 23 1,62 63,0 2 Não M 8 2 M 5 R
28 B F 18 1,62 52,0 1 Não P 1 1 M 10 R
29 B F 18 1,57 49,0 2 Não P 3 1 B 12 R
30 B F 25 1,65 59,0 4 Não M 1 2 M 2 R
31 B F 18 1,61 52,0 1 Não P 2 2 M 6 N
32 B M 17 1,71 73,0 1 Não P 1 1 B 20 R
33 B F 17 1,65 56,0 3 Não M 2 1 B 14 R
34 B F 17 1,67 58,0 1 Não M 4 2 B 10 R
35 B M 18 1,73 87,0 1 Não M 7 1 B 25 B
36 B F 18 1,60 47,0 1 Não P 5 1 M 14 R
37 B M 17 1,70 95,0 1 Não P 10 2 M 12 N
38 B M 21 1,85 84,0 1 Sim I 6 4 B 10 R
39 B F 18 1,70 60,0 1 Não P 5 2 B 12 R
40 B M 18 1,73 73,0 1 Não M 4 1 B 2 R
41 B F 17 1,70 55,0 1 Não I 5 4 B 10 B
42 B F 23 1,45 44,0 2 Não M 2 2 B 25 R
43 B M 24 1,76 75,0 2 Não I 7 0 M 14 N
44 B F 18 1,68 55,0 1 Não P 5 1 B 8 R
45 B F 18 1,55 49,0 1 Não M 0 1 M 10 R
46 B F 19 1,70 50,0 7 Não M 0 1 B 8 R
47 B F 19 1,55 54,5 2 Não M 4 3 B 3 R
48 B F 18 1,60 50,0 1 Não P 2 1 B 5 R
49 B M 17 1,80 71,0 1 Não P 7 0 M 14 R
50 B M 18 1,83 86,0 1 Não P 7 0 M 20 B

Tabela 1: Informações de questionário estudantil – dados brutos


11

3.2. DISTRIBUIÇÃO DE FREQÜÊNCIAS

A partir da tabela de dados brutos (Tabela 1), vamos construir uma nova tabela com
as informações resumidas, para cada variável, denominada tabela de freqüência, que conterá
os valores da variável e suas respectivas contagens, as quais são denominadas freqüências
absolutas ou simplesmente, freqüências.

No caso de variáveis qualitativas ou quantitativas discretas, a tabela de freqüência


consiste em listar os valores possíveis da variável, numéricos ou não e fazer a contagem na
tabela de dados brutos do número de suas ocorrências.

Notação: n i → freqüência do valor i

n → freqüência total = ∑ n i

Para efeito de comparação com outros grupos ou conjuntos de dados, é conveniente

trabalharmos com a freqüência relativa, definida por fi = i .


n
n

3.2.1. Exemplos:

3.2.1.1. Tabela de Freqüência para a Variável Sexo (extraída da Tabela 1):

fi ⋅ 100 (%)
fi = i
Sexo ni n Sexo: variável qualitativa nominal.
n

F 37 0,74 74

M 13 0,26 26

Total n=50 1,00 100

Tabela 2: Variável Sexo

Note que, para variáveis cujos valores possuem ordenação natural (qualitativas
ordinais e quantitativas em geral), incluímos na tabela de freqüência uma coluna contendo as
freqüências acumuladas (fac) (quando o número de valores i for maior do que 2). A
freqüência acumulada até um certo valor é obtida pela soma das freqüências de todos os
valores da variável, menores ou iguais ao valor considerado.
12

3.2.1.2. Tabela de Freqüência para a Variável Toler (extraída da Tabela 1):

fi ⋅ 100 (%) fac (%)


fi = i
Toler ni fac n Toler: variável qualitativa ordinal.
n

I 10 10 0,20 20 20

P 21 31 0,42 42 62

M 19 50 0,38 38 100

Total n = 50 1,00 100

Tabela 3: Variável Toler

3.2.1.3. Tabela de Freqüência para a Variável Idade (extraída da Tabela 1):

fi ⋅ 100 (%)
fi = i
Idade ni fac n fac (%) Idade: variável quantitativa
n discreta.

17 9 9 0,18 18 18 Observe através da fac que 90%

18 22 31 0,44 44 62 dos alunos têm idades até 21 anos.

19 7 38 0,14 14 76

20 4 42 0,08 8 84

21 3 45 0,06 6 90

22 0 45 0,00 0 90

23 2 47 0,04 4 94

24 1 48 0,02 2 96

25 2 50 0,04 4 100

Total n = 50 1,00 100

Tabela 4: Variável Idade

A variável Peso, classificada como quantitativa contínua, apresenta valores que podem
ser qualquer número real num certo intervalo.
13

Pela Tabela 1, verificamos que os valores variam entre 44,0 kg e 95,0 kg e como
existe um grande número de valores diferentes, vamos construir faixas ou classes de valores
e contar o número de ocorrências em cada faixa.

Não existe uma regra formal para determinar o número de faixas ou classes a serem
utilizadas. Entretanto, deve-se observar que com um pequeno número de classes, perde-se
informação, e com um número grande de classes, o objetivo de resumir os dados fica
prejudicado. No geral, é conveniente trabalharmos com 5 a 8 faixas de mesma amplitude,
devendo ressaltar que faixas de tamanho desigual podem ser convenientes para representar
valores nas extremidades da tabela.

Para a variável Peso, usaremos faixas de amplitude 10 e iniciaremos com 40,0 kg.

3.2.1.4. Tabela de Freqüência para a Variável Peso (extraída da Tabela 1):

fi ⋅ 100 (%)
fi = i
Peso ni fac n fac (%) Ponto Médio
n

40,0 ├─ 50,0 8 8 0,16 16 16 45,0

50,0 ├─ 60,0 22 30 0,44 44 60 55,0

60,0 ├─ 70,0 8 38 0,16 16 76 65,0

70,0 ├─ 80,0 6 44 0,12 12 88 75,0

80,0 ├─ 90,0 5 49 0,10 10 98 85,0

90,0 ├─ 100,0 1 50 0,02 2 100 95,0

Total n = 50 1,00 100

Tabela 5: Variável Peso

Peso: variável quantitativa contínua.

Observe pela fac que 76% dos alunos pesam menos que 70,0 kg e 100 – 88 = 12%
têm peso maior ou igual a 80,0 kg.

Na Tabela 5 temos 6 faixas ou classes ou intervalos. Consideremos, por exemplo, a 1ª


classe ou intervalo: 40,0 ├─ 50,0, onde temos:

li + ls 40 + 50 90
Limite inferior (li): 40,0 Ponto Médio (PM) = ( = = 45 )
2 2 2
14

Limite superior (ls): 50,0

Amplitude ou tamanho do intervalo (h): h = ls – li; (h = 50,0 – 40,0 = 10,0)

O símbolo ├─ : indica que o intervalo é fechado à esquerda e aberto à direita (40,0 faz parte
dessa classe, mas 50,0 não; 50,0 está na 2ª classe).

Na Tabela 1, a variável TV (quantitativa discreta) tem valores inteiros entre 0 e 30 e


uma tabela representando tais valores e respectivas freqüências seria muito extensa e pouco
prática. Por esse motivo, trataremos essa variável como quantitativa contínua, criando, por
exemplo, faixas de amplitude 6 para representar seus valores.

3.2.1.5. Tabela de Freqüência para a Variável TV (extraída da Tabela1):

fi ⋅ 100 (%)
fi = i
TV ni fac n fac (%) TV: variável quantitativa
n discreta que foi “tratada” como

0 ├─ 6 14 14 0,28 28 28 contínua.

6 ├─ 12 17 31 0,34 34 62 Observe que na última


classe, o intervalo é fechado à
12 ├─ 18 11 42 0,22 22 84
esquerda e à direita, incluindo
18 ├─ 24 4 46 0,08 8 92

24 ├─┤30 4 50 0,08 8 100

Total n = 50 1,00 100

Tabela 6: Variável TV

Portanto, o valor 30, e não tendo assim, que abrir mais uma classe por causa de um único
valor. Outra sugestão seria usar uma amplitude maior nessa última classe, por exemplo,
24 ├─ 36 que inclui o valor 30.
15

4. GRÁFICOS ESTATÍSTICOS

A organização dos dados em tabelas de freqüência proporciona um meio eficaz de


estudo do comportamento de características de interesse.

Muitas vezes, a informação contida nas tabelas pode ser mais facilmente visualizada
através de gráficos. Vamos definir quatro tipos básicos de gráficos: setores ou pizza, colunas
ou barras, histograma e polígono de freqüências.

4.1. GRÁFICO DE SETORES OU DISCO OU PIZZA OU DIAGRAMA CIRCULAR

Adapta-se muito bem às variáveis qualitativas, mas também pode ser usado para as
variáveis quantitativas discretas.

Fazendo uso do computador para o traçado do gráfico, basta conhecer as porcentagens


de cada valor da variável. Se ao contrário, formos traçar o gráfico com o auxílio de compasso
e transferidor, precisamos determinar a medida em graus, de cada setor correspondente aos
valores da variável, lembrando que o disco todo mede 360°.

Exemplo: Gráfico de Setores para a Variável Toler (Tabela 3)

I: 20% P:42% M: 38%

100% → 360°⎫
⎬ ⇒ 100 ⋅ x = 20 ⋅ 360
20% → x ⎭
20 ⋅ 360
x= ⇒ x = 72°
100

Procedemos de maneira análoga para os valores de P e M.


16

Gráfico de Setores: Variável Toler

I
20%
M
38%

P
42%

Gráfico 1: Setores

4.2. GRÁFICO DE COLUNAS OU BARRAS

Adapta-se melhor às variáveis discretas ou qualitativas ordinais.

Utiliza o plano cartesiano com os valores da variável no eixo das abscissas e as


freqüências ou porcentagens no eixo das ordenadas.

Exemplo: Gráfico de Colunas para a Variável Idade (Tabela 4)

Gráfico de Colunas: Variável


Idade

30

20
ni

10 22
9 7
0 4 3 0 2 1 2
Idade

Gráfico 2: Colunas
17

4.3. HISTOGRAMA

É utilizado para variáveis quantitativas contínuas.

Consiste em retângulos contíguos ou adjacentes onde a base, colocada no eixo das


abscissas, corresponde aos intervalos das classes e a altura, colocada no eixo das ordenadas é
dada pela freqüência absoluta ou relativa das classes.

Observação: a área de um histograma é proporcional à soma das freqüências absolutas. No


caso de trabalharmos com as freqüências relativas, a área será igual à constante de
proporcionalidade.

Exemplo: Histograma para a Variável Peso (Tabela 5)

Histograma: Variável Peso

25 22
20

15
ni

10 8 8
6 5
5
1
0
40,0 50,0 60,0 70,0 80,0 90,0 100,0
Peso

Gráfico 3: Histograma

4.4. POLÍGONO DE FREQÜÊNCIAS

É também utilizado para variáveis quantitativas contínuas.

Para construir o polígono de freqüências, admitem-se como representantes de cada


classe os pontos médios de cada intervalo que as definem. Após obter os pontos (ponto médio,
freqüência correspondente) em relação a cada intervalo, estes são ligados entre si por meio de
18

segmentos de retas, sendo que o primeiro e o último deles são ligados ao eixo das abscissas,
na metade de classes hipotéticas, imediatamente anterior à primeira e posterior à última.

Exemplo: Polígono de Freqüências para a Variável Peso (Tabela 5)

Polígono de Freqüências: Variável Peso


(55,0; 22)
25

20

15
ni

10 (75,0; 6) (85,0; 5)
(45,0; 8) (65,0; 8) (95,0; 1)
5

0
40,0 50,0 50,0 60,0 60,0 70,0 70,0 80,0 80,0 90,0 90,0 100,0

Pe so

Gráfico 4: Polígono de Freqüências

4.5. 1ª Lista de Exercícios

1) Arredonde cada um dos numerais abaixo, conforme a precisão pedida:


a) para o décimo mais próximo:
23,40 234,7832 45,09
48,85002 78,85 12,35
120,4500 129,98 199,97
b) para o centésimo mais próximo:
46,727 28,255 299,951
253,65 123,842 37,485
c) para a unidade mais próxima:
26,6 128,5 68,2
67,5 49,98 39,49
d) para a dezena mais próxima:
42,3 59 446,4
19

265,31 265,0 265


295 302,7 2995,000
2) Na Escola São Leopoldo, para estudar a preferência em relação a refrigerantes, sortearam-
se 150 estudantes, entre os 1000 matriculados. Responda:

a) Qual é a população envolvida na pesquisa?

b) Que tipo de amostragem foi utilizado e qual é a amostra considerada?

3) A população envolvida em uma pesquisa sobre a incidência de cárie dentária em escolares


da cidade de Morro Grande é apresentada na Tabela 7:

Escola População

A 500

B 250

C 440

D 360

Total 1550

Tabela 7

Baseando-se nesses dados, estratifique uma amostra com 200 elementos.

4) Em uma cidade com 30.000 habitantes deseja-se fazer uma pesquisa sobre a preferência
por tipo de lazer entre pessoas de 20 anos de idade, levando em conta o sexo a que pertencem.

a) Qual a população envolvida na pesquisa?

b) Supondo que na cidade haja 5.500 mulheres e 6.000 homens com 20 anos, determine uma
amostra com 1.200 pessoas.

5) Em uma fábrica foram testadas 400 lâmpadas; a duração delas aparece na distribuição por
freqüência da Tabela 8:
20

Duração Número de

(em horas) lâmpadas

300 ├─ 400 14

400 ├─ 500 46

500 ├─ 600 58

600 ├─ 700 76

700 ├─ 800 68

800 ├─ 900 62

900 ├─ 1000 48

1000 ├─ 1100 22

1100 ├─ 1200 6

Total 400

Tabela 8

a) Complete a tabela dada com as demais colunas que você conhece.

b) Qual a amplitude de cada classe?

c) Qual o limite inferior da 3ª classe?

d) Qual o limite superior da 8ª classe?

e) Qual o ponto médio da 5ª classe?

f) Qual a freqüência relativa da 6ª classe?

g) Qual a porcentagem de lâmpadas com durabilidade máxima de 500 horas?

h) Qual a porcentagem de lâmpadas com durabilidade de 900 horas ou mais?

6) Com relação às variáveis: Turma, Alt, Filhos, Fuma, Exerc, Cine, Op Cine, Op TV, da
(Tabela 1)

a) Classifique essas variáveis.

b) Faça a distribuição de freqüência para cada uma delas.

c) A variável Exerc, poderia ser tratada de forma diferente com relação à sua classificação?
Justifique sua resposta e em caso afirmativo, construa a nova distribuição de freqüência.
21

d) Construa os gráficos que melhor se adaptam a cada uma das variáveis acima.

7) Quinze pacientes de uma clínica de ortopedia foram entrevistados quanto ao número de


meses previstos de fisioterapia, se haverá (S) ou não (N) seqüelas após o tratamento e o grau
de complexidade da cirurgia realizada: alto (A), médio (M) ou baixo (B). Os dados são
apresentados na Tabela 9:

Pacientes 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Fisioterapia 7 8 5 6 4 5 7 7 6 8 6 5 5 4 5

Seqüelas S S N N N S S N N S S N S N N

Cirurgia A M A M M B A M B M B B M M A

Tabela 9

a) Classifique cada uma das variáveis.

b) Para cada variável, construa a tabela de freqüência e faça uma representação gráfica.

c) Para o grupo de pacientes que não ficaram com seqüelas, faça um gráfico de barras para a
variável Fisioterapia. Você acha que essa variável se comporta de modo diferente nesse
grupo?

8) Os dados da Tabela 10 referem-se ao salário (em salários mínimos) de 20 funcionários


administrativos em uma indústria.

10,1 7,3 8,5 5,0 4,2 3,1 2,2 9,0 9,4 6,1

3,3 10,7 1,5 8,2 10,0 4,7 3,5 6,5 8,9 6,1

Tabela 10

a) Construa uma tabela de freqüência, agrupando os dados em intervalos de amplitude 2 a


partir de 1.

b) Construa o histograma.

9) Um grupo de estudantes do ensino médio foi submetido a um teste de matemática


resultando em:
22

Nota Freqüência

0 ├─ 2 14

2 ├─ 4 28

4 ├─ 6 27

6 ├─ 8 11

8 ├─ 10 4

Tabela 11

a) Construa o histograma.

b) Se a nota mínima para aprovação é 5, qual será a porcentagem de aprovação?


23

5. MEDIDAS

Nosso interesse é caracterizar o conjunto de dados através de medidas que resumam a


informação, por exemplo, representando a tendência central dos dados ou a maneira pela qual
estes dados estão dispersos.

5.1. MEDIDAS DE POSIÇÃO

Se estivermos numa parada de ônibus e nos pedirem alguma informação sobre a


demora em passar um determinado ônibus, ninguém imagina que poderíamos dar como
resposta uma tabela de freqüências que coletamos no último mês. Quem perguntou deseja
uma resposta breve e rápida que sintetize a informação que dispomos e não uma completa
descrição dos dados. É para isto que servem as medidas de posição.

As medidas de posição ou medidas de tendência central para um conjunto de dados


qualquer (população ou amostra) são: a média, a mediana e a moda.

5.1.1. Medidas de Posição para um Conjunto de Dados

Seja uma variável X com observações representadas por x1 , x 2 , x 3 , K , x n .

5.1.1.1. Média Aritmética ou simplesmente Média ( x )

É a soma dos valores da variável dividida pelo número total de observações.

∑ xi ∑ ( n i⋅ x i )
n

x1 + x 2 + L + x n
x= = i =1
(dados não agrupados); x= (dados agrupados)
n n n

Exemplo: Calcular a média aritmética dos valores: 9, 12, 8, 6, 14, 11, 5


24

9 + 12 + 8 + 6 + 14 + 11 + 5 65
x= = = 9,29
7 7

Para calcularmos a média quando os dados estão agrupados em classes, representamos


todos os valores de cada classe pelo ponto médio da classe.

5.1.1.2. Mediana (md)

É o valor da variável que ocupa a posição central dos dados ordenados. Temos duas
considerações a fazer:

a) O número de observações (n) é ímpar: a mediana será o valor da variável que ocupa a
n +1
posição de ordem .
2

Exemplo: Calcular a mediana dos valores: 9, 12, 8, 6, 14, 11, 5.

Em primeiro lugar, vamos organizar os dados em ordem crescente:

5, 6, 8, 9, 11, 12, 14

n +1 8
n = 7 (ímpar) ∴ = = 4 ∴ a mediana é o 4º elemento da seqüência ⇒ md = 9
2 2

b) O número de observações (n) é par: não existe portanto um valor que ocupe o centro;
convencionou-se que a mediana será a média aritmética dos valores que ocupam as posições

+1.
n n
de ordem e
2 2

Exemplo: Calcular a mediana dos valores já ordenados: 6, 8, 9, 11, 12, 14

n = 6 (par) ∴ =3 e + 1 = 4 ∴ a mediana será dada pela média aritmética entre o


n n
2 2

9 + 11 20
3º e 4º elementos da seqüência ⇒ md = = = 10
2 2

Para calcularmos a mediana quando os dados estão agrupados em classes, não levamos
em consideração se n é par ou ímpar e procedemos do seguinte modo:
25

n
1º) Calcula-se .
2

2º) Pela freqüência acumulada, identifica-se a classe que contém a mediana.

− fac ) ⋅ h
n
3º) Aplica-se a fórmula: md = limd +
(
2 , onde:
ni md

li md = limite inferior da classe md n = nº total de elementos da amostra

fac = freqüência acumulada da classe anterior à classe md

h = amplitude da classe md ni md = freqüência da classe md

5.1.1.3. Moda (mo)

É o valor da variável mais freqüente da distribuição.

Exemplo: Calcular a moda para o seguinte conjunto de dados: 65, 87, 49, 58, 65, 65, 67, 83,
87, 79, 87.

mo = 65 (aparece 3 vezes) e mo = 87 (aparece 3 vezes). Temos duas modas, portanto a


distribuição é bimodal. Quando a distribuição não apresentar moda, será chamada de amodal;
se tiver uma só moda, recebe o nome de unimodal, e se apresentar várias modas será
multimodal.

Para calcularmos a moda quando os dados estão agrupados em classes, usaremos o


seguinte processo:

1º) Identifica-se a classe modal (a que possuir maior freqüência).

Δ1
2º) Aplica-se a fórmula: mo = li mo + ⋅ h , onde:
Δ1 + Δ 2

li mo = limite inferior da classe modal

Δ1 = diferença entre a freqüência da classe modal e a imediatamente anterior

Δ 2 = diferença entre a freqüência da classe modal e a imediatamente posterior


26

Exemplos

1) Calcule média, mediana e moda para a variável Idade. (Tabela 12) (Ver Tabela 4):

Idade ( x i ) ni fac ni ⋅ xi
x=
∑ (n i⋅x i ) = 945 = 18,9 (média)
n 50
17 9 9 153
n = 50 é par, portanto, a mediana será a
18 22 31 396
média aritmética dos dois valores

= 25 e + 1 = 26 . Pela
19 7 38 133 n n
centrais
2 2
20 4 42 80
fac observamos que o valor da
21 3 45 63
freqüência acumulada até 18 é igual a
22 0 45 0 31, e portanto o 25º elemento é igual

23 2 47 46 ao 26º elemento e ambos correspondem

24 1 48 24 ao valor da variável igual a 18

18 + 18
∴ md = = 18 (mediana)
25 2 50 50

∑ (n i ⋅ x i ) = 945
2
Total n = 50

Tabela 12

Para o cálculo de mo, olhamos a maior freqüência (22) que corresponde à idade de 18anos.

∴ mo = 18 (moda)

2) Calcule média, mediana e moda para a variável Peso. (Tabela 13) (Ver Tabela 5)
27

Peso ni fac Ponto Médio ( x i ) ni ⋅ xi

40,0 ├─ 50,0 8 8 45,0 360,0

50,0 ├─ 60,0 22 30 55,0 1210,0

60,0 ├─ 70,0 8 38 65,0 520,0

70,0 ├─ 80,0 6 44 75,0 450,0

80,0 ├─ 90,0 5 49 85,0 425,0

90,0 ├─ 100,0 1 50 95,0 95,0

Total n = 50 ∑ (n i ⋅ x i ) = 3060,0

Tabela 13

x=
∑ ( n i ⋅ x i ) = 3060,0 = 61,2 (média)
n 50

= = 25 . Pela fac (30), a 2ª classe contém a mediana, isto é, o intervalo 50,0 ├─ 60,0.
n 50
2 2

− fac ) ⋅ h ( − 8 ) ⋅ 10
(25 − 8 ) ⋅ 10
n 50
md = li md + 2 = 50,0 + 2 = 50,0 + =
(
ni md 22 22

50,0 + = 57,73 (mediana)


170
22

n i = 22 ⇒ classe mod al : 2 ª

Δ1
mo = li mo + ⋅h
Δ1 + Δ 2

22 − 8
mo = 50,0 + ⋅ 10 = 50,0 + ⋅ 10 = 50,0 + 5 = 55,0 (moda)
14
(22 − 8) + (22 − 8) 2.14

Observação

As medidas de posição podem ser utilizadas em conjunto para auxiliar a análise dos dados,
mas existem situações em que uma pode ser mais conveniente do que a outra. Por exemplo,
28

quando existe um ou mais valores muito discrepantes, a média é muito influenciada por este
valor e se torna inadequada para representar o conjunto de dados, sendo melhor trabalhar com
a mediana. Por outro lado, para conjuntos de dados muito numerosos, a ordenação é custosa e
a mediana se torna difícil de calcular.

5.2. MEDIDAS DE DISPERSÃO

Um bairro nobre da capital paulista inclui uma das maiores favelas de São Paulo. O
que podemos dizer da renda média do bairro? Certamente, os altos rendimentos de alguns
residentes serão suficientes para fazer a média atingir um patamar comparável às melhores
economias do mundo, porém a discrepância entre os diversos valores deve ser muito grande.
O que podemos estar esquecendo é a variabilidade dos valores da variável e isto não é captado
pela média e sim pelas medidas de dispersão.

As medidas de dispersão ou de variabilidade servem para quantificar a variabilidade


dos valores da variável, isto é, a dispersão dos dados, ou a forma como os valores de cada
conjunto se espalham ao redor das medidas de tendência central.

5.2.1. Medidas de Dispersão para um Conjunto de Dados

Sejam x1 , x 2 , x 3 , K , x n os valores assumidos por uma variável X.

Consideremos, por exemplo, as séries:

A: 10, 10, 11, 12, 12, 13, 14, 14, 14, 15 com x = 12,5 e md = 12,5

B: 7, 7, 8, 9, 12, 13, 13, 16, 17, 23 com x = 12,5 e md = 12,5

Observamos que essas séries não são homogêneas apesar de ambas terem o mesmo
valor para a média e mediana. É preciso, pois, calcular as constantes de dispersão que medem
os afastamentos dos valores dessas séries em torno do valor central.

Dentre as medidas de dispersão ou de variabilidade mais usadas, temos: amplitude


total, variância, desvio padrão e coeficiente de variação.
29

5.2.1.1. Amplitude Total (R)

É a diferença entre o maior e o menor valor de um conjunto de dados.

R = x máx. − x mín.

Exemplos:

Para a série A: R = 15 – 10 = 5

Para a série B: R = 23 – 7 = 16

A utilização da amplitude total como medida de dispersão é muito limitada, pois só


leva em consideração dois valores de todo o conjunto de dados.

5.2.1.2. Variância ( σ 2 (população) ou S 2 (amostra) )

Para medir a dispersão dos valores de uma variável em torno da média, é interessante
estudar o comportamento dos desvios de cada valor em relação à média, isto é, d i = x i − x .
Na determinação de cada desvio d i , estaremos medindo a dispersão entre cada x i e a média

∑ di = ∑ ( x i − x ) = 0 . Para contornar o
n n
x . Porém se somarmos todos os desvios, teremos
i =1 i =1

problema, resolveu-se considerar o quadrado de cada desvio ( x i − x ) 2 . Assim, defini-se:

Variância: é a média aritmética dos quadrados dos desvios.

∑ ( xi − μ ) 2 ∑ di2
N N

σ2= i =1
= i =1
(dados não agrupados) Para uma população,
N N
onde μ é a média da

∑ ( xi − μ ) 2 ⋅ ni ∑ di2 ⋅ n i
N N população e N é o
tamanho da população
σ2= i =1
= i =1
(dados agrupados)
N N

∑ ( xi − x ) 2
n

S2= i =1
(dados não agrupados) Para uma amostra,
n
onde x é a média da
amostra e n é o
tamanho da amostra
30

∑ ( xi − x ) 2 ⋅ ni
n

S2= i =1
(dados agrupados)
n

A seguir estão outras fórmulas que podem ser usadas para facilitar o cálculo da
variância populacional e amostral.

σ = ∑ x i − μ (dados não agrupados) S = ∑ x i2 − ( x ) 2 (dados não agrupados)


21 N 2 2 2 1
n

N i =1 n i =1

σ2= ∑ ( n i ⋅ x i2 ) − μ 2 (dados agrupados) S 2 = ∑ ( n i ⋅ x i2 ) − ( x ) 2 (dados agrupados)


1 N 1 n
N i =1 n i =1

Exemplos:

Para a série A: S 2 = ∑ x i − ( x ) 2 = ⋅ 1591 − 156,25 = 159,1 − 156,25 = 2,85


1 n 2 1
n i =1 10

Para a série B: S 2 = ∑ x i − ( x ) 2 = ⋅1799 − 156,25 = 179,9 − 156,25 = 23,65


1 n 2 1
n i =1 10

5.2.1.3. Desvio Padrão ( σ (população ) ou S (amostra) )

O desvio padrão é a raiz quadrada da variância.

É assim definido para que a unidade original da variável, se houver, seja mantida, pois,
pela fórmula do cálculo da variância, a unidade é elevada ao quadrado.

σ= σ 2 (desvio padrão populacional)

S= S 2 (desvio padrão amostral)

Exemplos:

Para a série A: S = 2,85 = 1,69

Para a série B: S = 23,65 = 4,86


31

Observação: o desvio padrão define em torno da média populacional ou amostral um


intervalo [μ – σ, μ + σ ] ou [ x − S , x + S ] de amplitude 2σ ou 2S, respectivamente,
chamado zona de normalidade.

5.2.1.4. Coeficiente de Variação ( CV )

O coeficiente de variação é uma medida relativa da dispersão que serve para


comparar o grau de concentração em torno da média de conjuntos de dados distintos.

σ
CV = ⋅100% (para população) CV = ⋅100% (para amostra)
S
μ x

Exemplos:

Para a série A: CV = ⋅100% = 13,52 %


1,69
12,5

Para a série B: CV = ⋅100% = 38,88 %


4,86
12,5

Vemos, portanto, que há maior variação na série B do que na A, pois o CV na série B é bem
maior que na série A.

Exemplos

1) Calcule amplitude total, variância, desvio padrão e coeficiente de variação para a variável
Idade. (Tabela14) (Ver Tabela 12):
32

Idade ( x i ) ni fac ni ⋅ xi n i ⋅ x i2

17 9 9 153 2601

18 22 31 396 7128

19 7 38 133 2527

20 4 42 80 1600

21 3 45 63 1323

22 0 45 0 0

23 2 47 46 1058

24 1 48 24 576

25 2 50 50 1250

Total n = 50 ∑ (n i ⋅ x i ) = 945 ∑ ( n i ⋅ x i2 ) = 18063

Tabela 14

R = 25 – 17 = 8 (amplitude total)

S 2= ∑ ( n i ⋅ x i2 ) − ( x )2 Já foi calculado em 5.1.1. (Exemplo1): x = 18,9


1 n
n i =1

S 2= ⋅18063 − (18,9 ) 2 = 361,26 − 357,21 = 4,05 (variância)


1
50

S= S 2 = 4,05 = 2,01 (desvio padrão)

CV = ⋅100% = ⋅100% = 10,63% (coeficiente de variação)


S 2,01
x 18,9

2) Calcule amplitude total, variância, desvio padrão e coeficiente de variação para a variável
Peso. (Tabela 15) (Ver Tabela 13):
33

Peso ni fac Ponto Médio ni ⋅ xi n i ⋅ x i2


( xi )

40,0 ├─ 50,0 8 8 45,0 360,0 16200,0

50,0 ├─ 60,0 22 30 55,0 1210,0 66550,0

60,0 ├─ 70,0 8 38 65,0 520,0 33800,0

70,0 ├─ 80,0 6 44 75,0 450,0 33750,0

80,0 ├─ 90,0 5 49 85,0 425,0 36125,0

90,0 ├─ 100,0 1 50 95,0 95,0 9025,0

Total n = 50 ∑ (n i ⋅ x i ) = 3060,0 ∑ ( n i ⋅ x i2 ) = 195450,0

Tabela 15

R = 95,0 – 44,0 = 51,0 kg (amplitude total - Tabela 1)

S 2= ∑ ( n i ⋅ x i2 ) − ( x ) 2 Já foi calculado em 5.1.1. (Exemplo2): x = 61,2kg


1 n
n i =1

S 2= ⋅195450,0 − ( 61,2 ) 2 = 3909,0 − 3745,44 = 163,56kg 2 (variância)


1
50

S= S 2 = 163,56 = 12,79kg (desvio padrão)

CV = ⋅100% = ⋅100% = 20,90% (coeficiente de variação)


S 12,79
x 61,2

5.3. 2ª LISTA DE EXERCÍCIOS

1) Vinte e cinco residências de um certo bairro foram sorteadas e visitadas por um


entrevistador que, entre outras questões, perguntou sobre o número de televisores. Os dados
foram os seguintes:

2, 2, 2, 3, 1, 2, 1, 1, 1, 1, 0, 1, 2, 2, 2, 2, 3, 1, 1, 3, 1, 2, 1, 0 e 2.

Organize os dados numa tabela de freqüência e determine todas as medidas de posição e de


dispersão.
34

2) Num experimento, 15 coelhos foram alimentados com uma nova ração e seu peso avaliado
no fim de um mês. Os dados referentes ao ganho de peso (em quilogramas) foram os
seguintes:

1,5; 1,6; 2,3; 1,7; 1,5; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 1,7; 2,5 e 2,2.

a) Utilizando os dados brutos, determine as medidas de posição e de dispersão desse conjunto.

b) Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de 1,5.

c) Calcule, a partir da tabela de freqüência e com o ponto médio como representante de cada
faixa, as medidas de posição e de dispersão. Comente as diferenças encontradas com o item
(a).

d) Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento mais conveniente: o de
(a) ou o de (c) ?Justifique.

3) A pulsação de 10 estudantes no início de uma prova de estatística foram as seguintes (em


batimentos por minuto): 80, 91, 84, 86, 93, 88, 80, 89, 85 e 86. Calcule as medidas de posição
e de dispersão desse conjunto de dados.

4) Num estudo sobre consumo de combustível, 200 automóveis do mesmo ano e modelo
tiveram o seu consumo observado durante 1000 quilômetros. A informação obtida é
apresentada na Tabela 16 em km/litro.

Faixas Freqüência

7 ├─ 8 27

8 ├─ 9 29

9 ├─ 10 46

10 ├─ 11 43

11 ├─ 12 55

Tabela 16
35

Determine as medidas de posição e de dispersão do consumo.

5) Se a média das alturas de um grupo de pessoas é 175 cm e o desvio padrão é 20 cm, uma
pessoa com estatura de 150 cm está dentro da normalidade? Por quê?

6) Numa escola, duas turmas conseguiram os seguintes resultados:

Turma A: x = 45 , S = 10

Turma B: x = 45 , S = 3,5

Responda:

a) Qual a turma mais homogênea? Por quê?

b) Um aluno com média 40 é considerado normal na turma A? E na turma B? Por quê?

7) Na aplicação de um teste de motricidade, conseguiram-se os resultados da Tabela 17.

Pontos ni

5├─ 10 2

10├─ 15 4

15├─ 20 10

20├─ 25 15

25├─ 30 9

30├─ 35 5

Tabela 17

Responda:

a) Qual é a média aritmética?

b) Qual é o desvio padrão?

c) Qual a zona considerada de normalidade?

d) Uma criança que obteve 28 pontos é considerada com motricidade normal? Por quê?

8) Na pesagem de 20 crianças de quinta série, obtiveram-se os seguintes resultados, em kg:

38 40 45 42 45 40 43 38
36

45 45 40 41 41 38 46 32

48 46 42 43 44 50 38 40

Nesse grupo de crianças, um menino com 35 kg seria considerado com peso normal? Por quê?
37

6. PROBABILIDADES

Neste capítulo não existe a pretensão de um estudo completo sobre a teoria das
probabilidades, mas sim do conhecimento de alguns conceitos que serão aplicados
posteriormente.

6.1. DEFINIÇÕES

6.1.1. Fenômeno Determinístico

É aquele em que repetindo um experimento, nas mesmas condições, o resultado


esperado é sempre o mesmo.

Exemplo: se um corpo percorre uma distância de 120 km, com velocidade média de 60 km/h,
podemos determinar, pelas leis da Física, que ele gastará 2 horas para percorrer o referido
espaço, e isto sempre ocorrerá, desde que sejam mantidas as mesmas condições.

6.1.2. Fenômeno Aleatório ou Probabilístico

É aquele cujo resultado não pode ser previsto com certeza, ainda que mantidas as
mesmas condições de realização.

Exemplo: no lançamento de um dado, não podemos dizer, com certeza, qual será o resultado.
Só podemos saber que é provável que ocorra o resultado 1, ou 2, ou 3, ou 4, ou 5, ou 6.

A maioria dos fenômenos tratada pela Estatística é de natureza aleatória ou


probabilística. Na própria escolha da amostra, temos um fenômeno probabilístico.

Veremos que modelos podem ser estabelecidos para quantificar as incertezas das
diversas ocorrências.
38

6.1.3. Espaço Amostral (S)

É o conjunto de todos os resultados possíveis de um certo fenômeno aleatório.

6.1.4. Evento (E)

É um subconjunto do espaço amostral.

Exemplo: lançamos uma moeda duas vezes. Se C indica cara e R, coroa, temos:

S = {(C, C); (C, R); (R, C); (R, R)} (Espaço Amostral)

Seja o evento “obtenção de faces iguais”. Temos: E = {(C, C); (R, R)} (Evento)

Seja o evento “obtenção de cara no 1º lançamento”. Temos: E = {(C, C); (C, R)} (Evento)

Exemplo: um experimento consiste em retirar uma lâmpada de um lote e medir seu tempo de
vida antes de se queimar. Um espaço amostral conveniente é: S = {t: t ≥ 0}, isto é, o conjunto
de todos os números reais não negativos. Seja o evento “o tempo de vida da lâmpada é
inferior a 20 horas”. Temos: E = {t: 0 ≤ t < 20}. Este é um exemplo de espaço amostral
contínuo, enquanto os outros anteriores são discretos.

6.1.5. Probabilidade

É a relação entre o número de possíveis resultados de E e todos os possíveis resultados


do experimento. Indicamos: P(E)

n º de resultados que produzem E


P(E) =
n º de resultados possíveis na exp eriência

= .
2 1
No caso dos dois eventos acima, P(E) =
4 2
39

6.2. PROPRIEDADES

Sendo o modelo probabilístico um modelo teórico para as freqüências relativas,


podemos verificar algumas das propriedades a seguir:

• Como toda freqüência relativa é um número entre 0 e 1, temos que: 0 ≤ P(E) ≤ 1, para
qualquer evento E.

• Considerando o espaço todo S e o conjunto vazio como eventos, temos:

P(S) = 1 (evento certo) e P(Ø) = 0 (evento impossível)

6.3. OUTRAS DEFINIÇÕES

6.3.1. Variável Aleatória Discreta

Uma quantidade X, associada a cada possível resultado do espaço amostral S, é


denominada de variável aleatória discreta, se assume valores num conjunto enumerável de
pontos do conjunto real, com certa probabilidade de ocorrência.

6.3.2. Função Discreta de Probabilidade

A função que atribui a cada valor x1 , x 2 , x 3 , K, x n da variável aleatória X sua

probabilidade de ocorrência p1 , p 2 , p3 , K, p n , respectivamente, é denominada de função


discreta de probabilidade ou, simplesmente, função de probabilidade.

Notação: p ( x i ) = P ( X = x i ) = pi , i = 1, 2, 3, K ou ainda

X x1 x2 x3 K

pi p1 p2 p3 K

Uma função de probabilidade satisfaz: 0 ≤ pi ≤ 1 e ∑ pi = 1 .


40

6.3.3. Variável Aleatória Contínua

Uma quantidade X, associada a cada possível resultado do espaço amostral S, é


denominada de variável aleatória contínua, se assume valores num intervalo do conjunto
dos números reais, com certa probabilidade de ocorrência.

Exemplos: renda, salário, tempo de uso de um equipamento, área atingida por certa praga
agrícola.

6.3.4. Função Contínua de Probabilidade

Função contínua de probabilidade ou função densidade de probabilidade para


uma variável aleatória contínua X é toda função f (X) que satisfaz a duas condições:

a) f (X) ≥ 0, para todo X ∈ ( −∞, + ∞ ) ;

b) a área definida por f (X) é igual a 1.


41

7. VARIÁVEIS ALEATÓRIAS CONTÍNUAS

Dentre os principais modelos teóricos para variáveis aleatórias contínuas (definição


6.3.3), estudaremos o modelo normal, pois, vários fenômenos tais como estatura, QI,
orientação política, desgaste dos pisos, etc., aproximam-se, na prática, muito bem desse
modelo.

7.1. Modelo Normal ou Distribuição Normal

Dizemos que uma variável aleatória contínua X tem distribuição normal com
parâmetros μ e σ2, respectivamente a média e a variância da distribuição,

− ∞ < μ < +∞ e 0 < σ 2< +∞ , se a sua função densidade de probabilidade (definição


6.3.4) é dada por:

f ( X) = ⋅ e− ( X −μ) / 2 ⋅ σ , para −∞ < X < +∞ .


1 2 2

σ 2π

Notação: X ~ N( μ , σ 2 ) , significa: X tem distribuição normal com parâmetros μ e σ 2 .

7.1.1. Gráfico

f(X)

0 μ-σ μ μ+σ X

Gráfico 5: Curva Normal

Observando-se o gráfico, temos:


42

a) f ( X ) é simétrica em relação a μ, isto é, f (μ + X ) = f (μ – X ), para todo X, −∞ < X < +∞ .

b) f ( X ) → 0 quando X → ±∞ .

c) o valor máximo de f ( X ) se dá para X = μ, isto é, a curva normal é unimodal e


média ( μ ), mediana ( Md ) e moda ( Mo ) coincidem.

d) E ( X ) = μ ( valor esperado ou média)

e) Var ( X ) = σ 2 ( variância)
f(X)
Como calcular P ( a ≤ X ≤ b)?

0 μ a b X
Gráfico 6: Probabilidade

As probabilidades para o modelo normal são calculadas com o auxílio de tabelas, e,


para evitarmos a multiplicação desnecessária de tabelas para cada par de valores
( μ , σ 2 ) ,utiliza-se uma transformação que conduz sempre ao cálculo de probabilidades com

uma variável de parâmetros ( 0 , 1 ), isto é, μ = 0 (média) e σ 2 = 1 (variância).

X−μ
Desse modo, se X ~ N( μ , σ 2 ) , definimos uma nova variável Z =
σ
, para qual

demonstra-se que μ ( Z ) = 0 e σ 2 ( Z ) = 1.

Logo Z ~ N( μ , σ 2 ) e é denominada de Normal Padrão ou Normal Reduzida.

f(Z)

-1 0 1 Z

Gráfico 7: Normal Padrão ou Normal Reduzida

Agora, para calcularmos P ( a ≤ X ≤ b), fazemos a seguinte transformação:


43

a −μ b−μ
≤Z≤ ) , onde X ~ N( μ , σ 2 ) .
σ σ
P ( a ≤ X ≤ b) = P (

Portanto, quaisquer que sejam os valores de μ e σ, utilizamos a Normal Padrão para


obter probabilidades com a distribuição normal.

Os valores P ( 0 ≤ Z ≤ z ), z ≥ 0 são tabelados.

Pela simetria da curva normal, podemos calcular valores de probabilidades em outros


intervalos e também temos que a probabilidade de estar à direita (ou à esquerda) de zero é 0,5.
Como a probabilidade é sempre um nº compreendido entre 0 e 1, a tabela contém apenas a
parte decimal.

Exemplo

1) As alturas de 10.000 alunos têm distribuição aproximadamente normal, com média 170 cm
e desvio padrão 5 cm. Qual a probabilidade de termos:

a) Alunos com alturas entre 165 cm e 170 cm.

b) Entre 165 cm e 180 cm.

c) Entre 168 cm e 185 cm.

d) Menores que 160 cm.

e) Maiores que 180 cm.

f) Qual o número esperado de alunos com altura superior a 165 cm?

Resolução

Variável X: altura, com X ~N ( 170, 25 ); μ = 170 cm e σ 2 = 25.

a −μ b−μ
≤Z≤
σ σ
P ( a ≤ X ≤ b) = P ( )

165 − 170 170 − 170


a) P ( 165 < X < 170 ) = P ( <Z< ) = P ( -1< Z < 0 ) (na tabela não
5 5
existem valores negativos; pela simetria da curva normal, a área representada por
P ( -1 < Z < 0 ) é igual à área representada por P ( 0 < Z < 1 ) = 0,3413 (Tabela da Normal
Reduzida) ∴ P ( 165 < X < 170 ) = 34,13%.
44

165 − 170 180 − 170


b) P ( 165 < X < 180 ) = P ( <Z< ) = P ( -1 < Z < 2 ) =
5 5
= P ( -1 < Z < 0 ) + P (0 < Z < 2 ) = P (0 < Z < 1 ) + P ( 0 < Z < 2 ) (Tabela da Normal
Reduzida)

= 0,3413 + 0,4772 = 0,8185 ∴ P ( 165 < X < 180 ) = 81,85%.

168 − 170 185 − 170


c) P ( 168 < X < 185 ) = P ( <Z< ) = P ( - 0,4 < Z < 3 ) =
5 5

= P (- 0,4 < Z < 0 ) + P ( 0 < Z < 3 ) = P ( 0 < Z < 0,4 ) + P ( 0 < Z < 3 ) (Tabela da Normal
Reduzida) = 0,1554 + 0,4987 = 0,6541 ∴ P ( 168 < X < 185 ) = 65,41%

160 − 170
d) P ( X < 160 ) = P ( Z < ) = P ( Z < - 2 ) = P ( Z > 2 ) (pela simetria da Normal)
5

P ( Z > 2 ) = 0,5 – P ( 0 < Z < 2 ) = 0,5 – 0,4772 = 0,0228 ∴ P ( X < 160 ) =2,28%

180 − 170
e) P ( X > 180 ) = P ( Z > ) = P ( Z > 2 ) = 0,5 – P ( 0 < Z < 2 ) = 0,5 – 0,4772 =
5
0,0228

∴ P ( X > 180 ) = 2,28%


165 − 170
f) P ( X > 165 ) = P ( Z > ) = P ( Z > - 1 ) = P ( Z < 1 ) (pela simetria da Normal)
5

P ( Z < 1 ) = 0,5 + P ( 0 < Z < 1 ) = 0,5 + 0,3413 = 0,8413 ∴ P ( X > 165 ) = 84,13%.

Como são 10.000 alunos, teremos: 10.000 . 0,8413 = 8.413 alunos é o número esperado de
alunos com altura superior a 165 cm.
45

8. ESTIMAÇÃO

A estimação faz parte da Inferência Estatística que tem por objetivo fazer
generalizações sobre uma população com base em dados de uma amostra.

Existem dois tipos de estimação: por ponto e por intervalo.

Na estimação por ponto é proposto um único valor para substituir o parâmetro (dado
da população). Assim, o estimador por ponto da média aritmética populacional μ é a média
aritmética amostral x ; o estimador por ponto da variância populacional σ 2 é a variância
amostral S2 .

8.1. ESTIMAÇÃO POR INTERVALO

A estimação por ponto não permite julgar qual a possível magnitude do erro que
estamos cometendo ao substituir o parâmetro por um único valor. Daí surge a idéia de
construir intervalos de confiança, que são baseados na distribuição amostral do estimador
pontual, incorporando à estimativa pontual do parâmetro informações a respeito de sua
variabilidade.

Um intervalo de confiança é determinado por dois valores que são os seus limites,
chamados “limites de confiança”, que com certa probabilidade incluam o verdadeiro valor do
parâmetro da população.

Logo, a estimação por intervalo consiste na fixação de dois valores tais que γ seja a
probabilidade de que o intervalo, por eles determinado, contenha o verdadeiro valor do
parâmetro.

γ é chamado de coeficiente de confiança ou nível de confiabilidade.

1 – γ é o nível de significância ou nível de incerteza ou ainda grau de desconfiança.

Portanto, a partir de informação de amostra, devemos calcular os limites de um


intervalo, que em γ % dos casos inclua o valor do parâmetro a estimar e em (1 – γ)% dos
casos não inclua o valor do parâmetro.
46

8.1.1. Intervalo de Confiança (IC) para a Média Populacional (variância conhecida)

Consideremos, inicialmente, o intervalo de confiança para a média μ (desconhecida)


de uma certa população Normal, com variância conhecida σ 2 . Supondo uma amostra X de

σ2
tamanho n, com valores X1 , X 2 , K, X n , temos que X ~ N ( μ , ) , onde X é a média
n
amostral.

Fixado um valor γ tal que 0 < γ <1, definimos o intervalo de confiança para μ, com
coeficiente de confiança γ, como:

⎡ ⎤
IC (μ , γ ) = ⎢X − z γ . σ X ; X + z γ . σ X ⎥ = X − z γ . σ X ≤ μ ≤ X + z γ . σX , onde:
⎢⎣ 2 2 ⎥⎦ 2 2

X é a média amostral.

γ
z γ é obtido da tabela da Normal Padrão, localizando o valor de no corpo da tabela e
2
2

obtendo o valor z γ nas margens correspondentes.


2

σ
σX = é o desvio padrão da média amostral.
n

Os “limites de confiança” citados anteriormente são os números obtidos por


X − z γ . σX e X + z γ . σX .
2 2

A expressão IC (μ , γ ) envolve a quantidade X que é uma variável aleatória, e sendo


assim, o intervalo obtido também é aleatório, com probabilidade γ de conter o verdadeiro
valor da média populacional μ.

Assim, uma interpretação conveniente para o intervalo de confiança é: se obtivermos


várias amostras de mesmo tamanho, e, para cada uma delas calcularmos os correspondentes
intervalos de confiança com coeficiente de confiança γ, esperamos que a proporção de
intervalos que contenham o valor de μ seja igual a γ.
47

Exemplo

Suponha que os comprimentos de jacarés adultos de uma certa raça siga o modelo Normal
com média μ desconhecida e variância igual a 0,01 m 2 . Uma amostra de dez animais foi
sorteada e forneceu média 1,69 m. Desejamos uma estimativa para o parâmetro desconhecido
μ, com coeficiente de confiança de 95%.

Identificando os dados do problema, temos: σ 2 = 0,01; n = 10; X = 1,69; γ = 95%;

σ2
X ~ N (μ , )
n

γ
γ = 95% ⇒ γ = ⇒ γ = 0,95 ∴ = 0,475 ( localizamos este valor no corpo da tabela da
95

Normal Padrão e encontramos o valor de z γ = 1,96 ).


100 2

σ
σX = =
0,1
n 10

IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ]
2 2

IC (μ , 95% ) = [1,69 − 1,96 ⋅ ; 1,69 + 1,96 ⋅


0,1 0,1
]
10 10

IC (μ , 95% ) = [ 1,63 ; 1,75 ]

Concluindo, podemos dizer que em 100 intervalos construídos, 95 contêm a


verdadeira média e, de modo geral, admitimos que o intervalo calculado é um dos que contém
a verdadeira média μ. Por essa razão, além de informar o intervalo obtido, devemos também
fornecer o índice de confiança utilizado.

Observações:

• A amplitude do intervalo de confiança é dada pela diferença entre o extremo superior


e inferior, isto é, X + z γ . σ X − (X − z γ . σ X ) = 2 z γ . σ X
2 2 2

• A semi-amplitude, ou seja, z γ . σ X nos fornece o erro envolvido na estimação.


2
48

• Se a população for finita e de tamanho N conhecido, e se a amostra de tamanho n dela


σ N−n
retirada for sem reposição, então: σ X =
N −1
.
n

Exemplo

De uma população de 1.000 elementos com distribuição aproximadamente normal com


σ 2 = 400 , tira-se uma amostra de 25 elementos, obtendo-se X = 150 . Fazer um IC para μ, ao
nível de 5%.

Identificando os dados do problema, temos: N = 1000; σ 2 = 400 ; n = 25; X = 150 ;


1 – γ = 5%.

σ N−n
X ~ N (μ, σ 2X ) , com σ X =
N −1
.
n

γ
1 – γ = 5% ⇒ 1 − γ = = 0,05 ⇒ γ = 1 − 0,05 = 0,95 ∴ = 0,475 (localizamos este valor
5
100 2
no corpo da tabela da Normal Padrão e encontramos o valor de z γ = 1,96)
2

σ N − n 20 1000 − 25
σX = = = 4. = 3,95
975
N −1 1000 − 1
. .
n 5 999

IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ]
2 2

IC (μ , 95%) = [150 – 1,96 . 3,95 ; 150 + 1,96 . 3,95]

IC (μ , 95%) = [142,26 ; 157,74]


49

Esquema para melhor compreensão

População

X amostra n

σ
( μ , σ2 ) x1 ± 1,96
n

amostra n

σ
x 2 ± 1,96
n

amostra
M

σ
x k ± 1,96
n

σ σ
μ − 1,96
μ
μ + 1,96
n n
x1
x2
xk

Figura 2: Intervalo de Confiança – Média Populacional


50

8.1.2. Intervalo de Confiança para a Proporção

pq
Quando o tamanho da amostra ( n ) for grande, temos: p̂ ~ N (p, ) , onde p̂ é a
n
proporção amostral e q = 1 – p. Consideramos uma amostra grande quando n > 30.

Fixado um valor γ tal que 0 < γ <1, definimos o intervalo de confiança para p, com
coeficiente de confiança γ, como:

IC (p , γ ) = [ p̂ − z γ . σ p̂ ; p̂ + z γ . σ p̂ ] = p̂ − z γ . σ p̂ ≤ p ≤ p̂ + z γ . σ p̂ , onde:
2 2 2 2

p̂ é a proporção amostral.

γ
z γ é obtido da tabela da Normal Padrão, localizando o valor de no corpo da tabela e
2
2

obtendo o valor z γ nas margens correspondentes.


2

σ p̂ = é o desvio padrão da proporção amostral, com q̂ = 1 − p̂ .


p̂ . q̂
n

Exemplo

Suponha que em n = 400 provas obtemos k = 80 sucessos. Vamos obter um intervalo de


confiança para p, com coeficiente de confiança γ = 90%.

Identificando os dados do problema, temos: p̂ = = 0,2 ⇒ q̂ = 1 − p̂ = 1 − 0,2 = 0,8 ;


80
400
n = 400; γ = 90%

pq
pˆ ~ N ( p , )
n

γ
γ = 90% ⇒ γ = ⇒ γ = 0,90 ∴ = 0,45 ( localizamos este valor no corpo da tabela da
90

Normal Padrão e encontramos o valor de z γ = 1,64).


100 2

σ pˆ = = = = = 0,02
pˆ . qˆ 0,2 . 0,8 0,16 0,4
n 400 400 20
51

IC (p , γ ) = [ p̂ − z γ . σ p̂ ; p̂ + z γ . σ p̂ ]
2 2

IC (p , 90%) = [0,2 – 1,64 . 0,02 ; 0,2 + 1,64 . 0,02]

IC (p , 90%) = [ 0,167 ; 0,233 ]

Observação:

• Para a Proporção, o erro envolvido na estimação é dado por: z γ . σ p̂


2

8.1.3. Intervalo de Confiança (IC) para a Média Populacional (variância desconhecida)

Para estimarmos a média de uma população normal com variância desconhecida,


quando o tamanho (n) da amostra for grande, n > 30, substituímos σ 2 pela variância amostral
S2 e usamos a distribuição normal.

Fixado um valor γ tal que 0 < γ <1, definimos o intervalo de confiança para μ, com
coeficiente de confiança γ, como:

IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ] , onde:
2 2

X é a média amostral.

γ
z γ é obtido da tabela da Normal Padrão, localizando o valor de no corpo da tabela e
2
2

obtendo o valor z γ nas margens correspondentes.


2

σX =
S
é o desvio padrão da média amostral, com
n

( ∑ x i )2
n

S = S2 e S2 = {∑ xi − i =1
} ou S2 = {∑ xi − n X }
1 n 2 1 n 2
n − 1 i =1 n − 1 i =1
2

n
52

Exemplos

1) De uma população normal com parâmetros desconhecidos, tiramos uma amostra de


tamanho 100, obtendo-se X = 112 e S = 11. Fazer um IC para μ ao nível de 10%.

Identificando os dados do problema, temos: n = 100; X = 112 ; S = 11; 1 – γ = 10% = 0,10

γ
1 – γ = 0,10 ⇒ γ = 0,90 ⇒ = 0,45 (localizamos este valor no corpo da tabela da Normal
2
Padrão e encontramos o valor de z γ = 1,64 )
2

σX = = = = 1,1
S 11 11
n 100 10

IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ]
2 2

IC (μ , 90%) = [112 – 1,64 . 1,1 ; 112 + 1,64 . 1,1]

IC (μ , 90%) = [110,20 ; 113,80]

2) A altura dos homens de uma cidade apresenta distribuição normal. Para estimar a altura
média dessa população, levantou-se uma amostra de 150 indivíduos obtendo-se

∑ x i = 25800 cm e ∑ x i = 4440075 cm . Ao nível de 2%, determinar um IC para a altura


150 150
2 2
i =1 i =1

média dos homens da cidade.

Vamos inicialmente determinar a média e a variância amostrais. Temos: n = 150

∑ xi ∑ xi
n 150

X= i =1
= i =1
= = 172 cm
25800
n 150 150

( ∑ x i )2 ( ∑ x i )2
n 150

S = { ∑ x i2 − i =1
}= { ∑ xi − i =1
}= {4440075 − } = 16,61
1 n 1 150 1 (25800) 2
n − 1 i =1 150 − 1 i −1
2 2
n 150 14 9 150

∴ S = S2 = 16,61 = 4,08 cm
53

γ
1 – γ = 2% = 0,02 ⇒ γ = 0,98 ⇒ = 0,49 (localizamos este valor no corpo da tabela da
2
Normal Padrão e encontramos o valor de z γ = 2,32 )
2

σX = = = 0,33
S 4,08
n 150

IC (μ , γ ) = [ X − z γ . σ X ; X + z γ . σ X ]
2 2

IC (μ , 98%) = [172 – 2,32 . 0,33 ; 172 + 2,32 . 0,33]

IC (μ , 98%) = [171,23 cm ; 172,77 cm] = [1,71 m ; 1,73 m]

Logo, podemos afirmar com uma certeza de 98% que, apesar dos parâmetros populacionais
serem desconhecidos, a altura média dos homens dessa cidade está compreendida entre 1,71m
e 1,73 m.
54

9. CORRELAÇÃO

É o estudo da existência e do grau de relação entre variáveis, tendo por objetivo medir
e avaliar o grau de relação existente entre duas variáveis aleatórias. Por exemplo, o peso pode
estar relacionado com a idade das pessoas; o consumo das famílias pode estar relacionado
com sua renda; as vendas de uma empresa e os gastos promocionais podem relacionar-se;
bem como a demanda de um determinado produto e seu preço.

9.1. CORRELAÇÃO LINEAR SIMPLES

Procura medir a relação entre as variáveis X e Y através da disposição dos pontos


(X, Y) em torno de uma reta.

9.1.1. Coeficiente de Correlação de Pearson

É o instrumento de medida da correlação linear.

∑ XY − ∑ n ∑
( X) ( Y)
rXY =

⎢∑ X −
(∑ X) ⎤ ⎡
⎥ ⎢∑ Y −
(∑ Y) ⎤
, onde n = número de observações e

2 2

⎢ n ⎥⎢ n ⎥
2 2

⎣ ⎦⎣ ⎦
− 1 ≤ rXY ≤ 1 .
55

9.1.2. Correlação Linear Positiva

A correlação será positiva quando valores crescentes de X estiverem associados a


valores crescentes de Y, ou valores decrescentes de X estiverem associados a valores
decrescentes de Y.

0 X

Gráfico 8: Correlação Linear Positiva ( 0 < rXY < 1 )

Quando todos os pontos pertencerem à reta, a correlação é chamada correlação


linear perfeita positiva e rXY = 1 .

9.1.3. Correlação Linear Negativa

A correlação será negativa quando valores crescentes de X estiverem associados a


valores decrescentes de Y, ou valores decrescentes de X estiverem associados a valores
crescentes de Y.
Y

0 X

Gráfico 9: Correlação Linear Negativa ( − 1 < rXY < 0 )


56

Quando todos os pontos pertencerem à reta, a correlação é chamada correlação


linear perfeita negativa e rXY = −1 .

9.1.4. Correlação Nula

A correlação será nula quando não houver relação entre as variáveis X e Y, ou seja,
quando as variações de X e Y ocorrerem independentemente não existe correlação entre
elas.

0
Gráfico 10: Correlação Nula ( rXY = 0 )
X

A correlação será tanto mais forte quanto mais próximo estiver o resultado de + 1 ou
de – 1 e será tanto mais fraca quanto mais próximo o resultado estiver de zero.

Exemplos

1) Calcular o coeficiente de correlação linear entre as variáveis X e Y, usando os dados da


Tabela 18.

Observação: para maior facilidade, construiremos uma tabela, onde a partir dos valores de X
e Y, determinaremos todas as somas necessárias (Tabela 19)

Y 10 8 6 10 12

X 2 4 6 8 10

Tabela 18
57

∑ XY − ∑ n ∑
( X) ( Y) Y X X2 Y2 XY
rXY =

⎢∑ X −
(∑ X) ⎤ ⎡
2
⎥ ⎢∑ Y −
(∑ Y) ⎤
2
⎥ 10 2 4 100 20
⎢ n ⎥⎢ n ⎥
2 2

⎣ ⎦⎣ ⎦

30 ⋅ 46
8 4 16 64 32
288 −
rXY = = = 0,42
12
40 ⋅ 20,8
5
⎡ 30 ⎤ ⎡ 462 ⎤
⎢220 − ⎥ ⎢444 −
6 6 36 36 36

2

⎣ 5 ⎦⎣ 5 ⎦
10 8 64 100 80

12 10 100 144 120

Total 46 30 220 444 288

Tabela 19

A correlação linear entre as variáveis X e Y é positiva , porém baixa.

2) A Tabela 20 mostra os resultados de uma pesquisa com 10 famílias de uma determinada


região.
58

Famílias Renda Poupança Número de Filhos Média de Anos de Estudo da


Família

A 1000,00 4000,00 8 3

B 1500,00 7000,00 6 4

C 1200,00 5000,00 5 5

D 7000,00 20000,00 1 12

E 8000,00 20000,00 2 16

F 10000,00 30000,00 2 18

G 2000,00 8000,00 3 8

H 3000,00 8000,00 2 8

I 1000,00 3000,00 6 4

J 6000,00 15000,00 1 8

Tabela 20

Calcular o coeficiente de correlação linear entre Poupança e Número de Filhos das dez
famílias.

∑ XY − ∑ n ∑
( X) ( Y)
rXY =

⎢∑ X −
(∑ X) ⎤ ⎡
2
⎥ ⎢∑ Y −
(∑ Y) ⎤
2

⎢ n ⎥⎢ n ⎥
2 2

⎣ ⎦⎣ ⎦
59

Poupança (X) Número de X2 Y2 XY


Filhos (Y)

4000,00 8 16000000,00 64 32000,00

7000,00 6 49000000,00 36 42000,00

5000,00 5 25000000,00 25 25000,00

20000,00 1 400000000,00 1 20000,00

20000,00 2 400000000,00 4 40000,00

30000,00 2 900000000,00 4 60000,00

8000,00 3 64000000,00 9 24000,00

8000,00 2 64000000,00 4 16000,00

3000,00 6 9000000,00 36 18000,00

15000,00 1 225000000,00 1 15000,00

∑ X = 120000,0 ∑ Y = 36 ∑ X2 = 2152000000, ∑ Y 2 = 184 ∑ XY = 292000,


0 00 00

Tabela 21

∑ XY − ∑ n ∑
( X) ( Y)
rXY =

⎢∑ X −
(∑ X) ⎤ ⎡
2
⎥ ⎢∑ Y −
(∑ Y) ⎤
2

⎢ n ⎥⎢ n ⎥
2 2

⎣ ⎦⎣ ⎦
60

120000 ⋅ 36
292000 −
− 140000
rXY = = = −0,71
712000000 ⋅ 54,4
10
⎡ 14400000000 ⎤ ⎡ 1296 ⎤
⎢2152000000 − ⎥ ⋅ ⎢184 − 10 ⎥
⎣ 10 ⎦ ⎣ ⎦

A correlação linear entre as variáveis X e Y é forte e negativa, isto é, famílias com poupança
alta têm menor número de filhos.

9.2. 3ª LISTA DE EXERCÍCIOS

1) Seja X ~ N (4 , 1). Determine:

a) P (X ≤ 4)

b) P (4 < X < 5)

c) P (2 ≤ X < 5)

d) P (5 ≤ X ≤ 7)

e) P (X ≤ 1)

f) P (0 ≤ X ≤ 2)

2) Para X ~ N (90 , 100), obtenha:

a) P (X ≤ 115)

b) P (X ≥ 80)

c) P (X ≤ 75)

d) P (-10 ≤ X – 90 ≤ 10)

e) O valor de a tal que P (90 – a ≤ X ≤ 90 + a) = γ, γ = 0,95

3) Para X ~ N (-5 , 10), calcule:

a) P (-5 < X ≤ -2)

b) P (X + 5 < -2) + P (X + 5 > 2)


61

4) Uma clínica de emagrecimento recebe pacientes adultos com peso seguindo uma
distribuição Normal de média 130 kg e desvio padrão 20 kg. Para efeito de determinar o
tratamento mais adequado, os 25% pacientes de menor peso são classificados de “magros”,
enquanto os 25% de maior peso de “obesos”. Determine os valores que delimitam cada uma
dessas classificações.

5) Por analogia a produtos similares, o tempo de reação de um novo medicamento pode ser
considerado como tendo distribuição Normal com desvio padrão igual a 2 minutos (a média é
desconhecida). Vinte pacientes foram sorteados, receberam o medicamento e tiveram seu
tempo de reação anotado. Os dados foram os seguintes (em minutos): 2,9; 3,4; 3,5; 4,1; 4,6;
4,7; 4,5; 3,8; 5,3; 4,9; 4,8; 5,7; 5,8; 5,0; 3,4; 5,9; 6,3; 4,6; 5,5 e 6,2. Obtenha um intervalo de
confiança para o tempo médio de reação. Use γ = 96%.

6) Uma amostra aleatória de 625 donas-de-casa revela que 70% delas preferem a marca X de
detergente. Construir um intervalo de confiança para p = proporção das donas-de-casa que
preferem X com coeficiente de confiança γ = 90%.

7) Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina. Uma
amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg. Construa um
intervalo de confiança para a média populacional μ com coeficiente de confiança γ = 95%.

8) Deseja-se fazer uma pesquisa para saber a aceitação de um novo produto no mercado. Qual
é o número de pessoas que deve ser entrevistado com 7% de erro e 95% de segurança?

9) Deseja-se fazer uma pesquisa junto a uma empresa para saber o interesse dos funcionários
em realizar cursos no exterior. Existem 3 mil funcionários, sendo 1,8 mil com mais de dez
anos de empresa e 1,2 mil com menos. Qual deve ser o tamanho da amostra probabilística
estratificada sabendo-se que em cursos semelhantes 5% dos funcionários acima de dez anos e
10% dos com menos de dez anos de empresa participaram. Considerar 2% de erro e 95,5% de
segurança.

10) Com relação à Tabela 20, calcule:

a) O coeficiente de correlação linear entre Renda Familiar e Poupança.

b) O coeficiente de correlação linear entre Renda Familiar e Número de Filhos.


62

c) O coeficiente de correlação linear entre Média dos Anos de Estudo e Número de Filhos.

d) O coeficiente de correlação linear entre Renda Familiar e Média dos Anos de Estudo.

11) A Tabela 22 mostra o volume de vendas (em 1000 unidades) e os gastos promocionais
(em 100000 reais). Calcular a correlação entre as duas variáveis.

Vendas 80 90 95 95 100 110 115 110 120 130

Promoção 2 4 5 6 8 8 10 10 12 15

Tabela 22

12) Querendo se estimar a média de uma população X com distribuição normal, levantou-se
uma amostra de 100 observações obtendo-se X = 30 e S = 4. Ao nível de 90%, determinar o
limite de confiança para a verdadeira média da população.

13) Um pesquisador deseja estabelecer o peso médio dos jovens entre 14 e 20 anos. Apesar de
desconhecer a média e o desvio padrão populacional, sabe por literatura da área que a
distribuição dos pesos é aproximadamente normal. Retira-se uma amostra casual simples de
60 jovens obtendo peso médio de 67 kg e desvio padrão de 9 kg.

a) Ao nível de 5% de significância, estabelecer um IC para o peso médio populacional.

b) Qual o tamanho da amostra que o pesquisador deveria tomar para ter uma probabilidade de
95% de certeza de cometer um erro de 1,5 kg?
63

Tabela 23: Normal Padrão


64

9.3. RESPOSTAS – LISTAS DE EXERCÍCIOS

9.3.1. 1ª Lista de Exercícios

1) a) 23,4; 48,9; 120,4; 234,8; 78,8; 130,0; 45,1; 12,4; 200,0

b) 46,73; 253,65; 28,26; 123,84; 299,95; 37,48

c) 27; 68; 128; 50; 68; 39

d) 40; 270; 300; 60; 260; 300; 450; 260; 3000

2) a) População: 1000 alunos matriculados; b) Amostragem aleatória simples; Amostra: 150


alunos sorteados.

3) A: 64; B: 32; C: 58; D: 46;

4) a) População: pessoas de 20 anos; b) F: 574; M: 626

5) a) PM: 350; 450; 550; 650; 750; 850; 950; 1050; 1150

fac: 14; 60; 118; 194; 262; 324; 372; 394; 400

f i : 0,04; 0,11; 0,14; 0,19; 0,17; 0,16; 0,12; 0,05; 0,02

f i . 100%: 4; 11; 14; 19; 17; 16; 12; 5; 2

b) 100horas; c) li = 500; d) ls = 1100; e) PM = 750; f) f i = 0,16; g) 15%; h) 19%

6) a) Qualitativa Nominal; Quantitativa contínua; Quantitativa Discreta; Qualitativa


Nominal;

Quantitativa Discreta; Quantitativa Discreta; Qualitativa Ordinal; Qualitativa Ordinal;

c) Sim, como quantitativa contínua, pois existe um número grande de valores diferentes.
Sugestão: iniciar em 0 com amplitude de classe igual a 2.
65

d) Setores; Histograma e Polígono de Freqüência; Colunas; Setores; Colunas ou Histograma e


Polígono de Freqüências; Colunas; Setores ou Colunas; Setores ou Colunas.

7) a) Fisioterapia: quantitativa discreta

Seqüelas: qualitativa nominal

Cirurgia: qualitativa ordinal

b) Fisioterapia: gráfico de colunas

Seqüelas: gráfico de setores

Cirurgia: gráfico de colunas

c) Gráfico de colunas

O número de meses de Fisioterapia diminuiu para os pacientes sem seqüelas.

9) b) 34%

9.3.2. 2ª Lista de Exercícios

1) Média: 1,56; Mediana: 2; Moda: 1 e 2.

2) a) Média: 1,88; Mediana:1,8; Moda: 1,5

c) Média: 1,93; Mediana: 1,8; Moda: 1,6 e 1,8; As diferenças não foram grandes. A solução
(a) é mais exata.

d) O de (c), pois sem o computador é praticamente impossível organizar 500 dados brutos.

3) Média: 86,20 bat / min; Variância: 16,36 ( bat / min)2 ; Desvio Padrão: 4,04 bat / min.

4) Média: 9,85; Variância: 1,88; Desvio Padrão: 1,37.

5) Não, porque a zona de normalidade está entre 155 cm e 195 cm.


66

6) a) B, pois o desvio padrão é menor

b) É considerada normal em A, pois a zona de normalidade está entre 35 e 55. Em B, não,


pois a zona de normalidade está entre 41,5 e 48,5

7) a) Média: 21,9; b) Desvio Padrão:6,34; c) Zona de normalidade: 15,56 a 28,24; d) Sim,


pois 28 está dentro da zona de normalidade.

8) Não, pois está fora da zona de normalidade.

9.3.3. 3ª Lista de Exercícios

1) a) 0,5000; b) 0,3413; c) 0,8185; d) 0,1574; e) 0,0013; f) 0,0228

2) a) 0,9938; b) 0,8413; c) 0,0668; d) 0,6826; e) 19,6

3) a) 0,3289; b) 0,5286

4) Magros: 116,6 kg; Obesos: 143,4 kg

5) Média: 4,745; [ 3,828; 5,662 ]

6) [ 0,677; 0,732 ]

7) IC (μ , 95%) = [ 30,26 ; 32,74 ]

8) 196

9) 377; 515

10) a) 0,9835; b) -0,7586; c) -0,736; d) 0,947

11) 0,9817

12) IC (μ, 90%) = [29,34; 30,66]

13) a) IC (μ, 95%) = [64,723; 69,278]; b) n = 139


67

REFERÊNCIAS

BUSSAB, W. O. & MORETTIN, P. A., Estatística Básica 4 ed. – São Paulo: Atual, 1987.

NAZARETH, H. R. S, Curso Básico de Estatística 4 ed. – São Paulo: Ática, 1991.

TOLEDO, G. L. & OVALLE, I. I., Estatística Básica 2 ed. – São Paulo: Atlas, 1985.

MAGALHÃES, M. N. & LIMA, A. C. P., Noções de Probabilidade e Estatística 6 ed. –


São Paulo: Edusp, 2004.

CARVALHO, L. R., Apostila de Bioestatística – Botucatu – S P: UNESP, 2000.

MORETTIN, L. G., Estatística Básica – Vol. 2 – Inferência – São Paulo: Pearson Makron
Books, 2000.

Você também pode gostar