Você está na página 1de 89

ESTATÍSTICA APLICADA

Autora: Janine Velloso do Amaral

Belo Horizonte / 2015


Disciplina: Estatística Aplicada
Autor: Janine Velloso

ESTRUTURA DA UNIDADE DE EDUCAÇÃO A DISTÃNCIA DO CENTRO UNIVERSITÁRIO NEWTON PAIVA

REITOR
JOÃO PAULO BARROS BELDI

VICE-REITORA
JULIANA SALVADOR FERREIRA DE MELLO

DIRETOR DE EDUCAÇÃO A DISTÂNCIA


EDUARDO PENNA DE SÁ

EQUIPE DE PRODUÇÃO
ANTÔNIO HENRIQUE RIBEIRO DALBEM
LUCIANA REGINA VIEIRA

ORIENTAÇÃO PEDAGÓGICA
MARIA LUIZA QUEIROZ BRAGA
REGINA MARCIA DE JESUS PAREDES

AUXILIAR ADMINISTRATIVO
MARILIA APARECIDA OLIVEIRA BICALHO
SIMONE DE SOUZA

REVISORA DE TEXTO
MARIA DE LOURDES SOARES MONTEIRO RAMALHO

SECRETARIA ACADÊMICA VIRTUAL


LUANA DOS SANTOS ROSSI
MARIA LUIZA AYRES

ATENDIMENTO AO ALUNO

POLO CARLOS LUZ 800 – BELO HORIZONTE


MIRIÃ NERES PEREIRA
FLÁVIA CRISTINA DE MORAIS
JAQUELINE MARA DE VARGAS
MARCIA DE SOUZA PARREIRAS MOREIRA

Unidade de Educação a Distância | Newton 2|P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Sumário

Unidade 1 ................................................................................................................7
Unidade 2 ................................................................................................................27
Unidade 3 ................................................................................................................44
Unidade 4 ................................................................................................................64
Unidade 5 ................................................................................................................77

Unidade de Educação a Distância | Newton 3|P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Legenda

Sintese Referências Bibliográficas


Nosso Tema

Reflexão
Saiba mais Material complementar

Atividade Dica
Importante

Unidade de Educação a Distância | Newton 4|P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Nosso Tema

Você já ouviu falar em estatística? Alguns podem dizer que não, mas é pouco provável. Talvez
apenas não tenham associado às informações que lêem nos jornais, ouvem nos rádios ou que
assistem pela TV com o conceito de estatística.

Em nosso dia a dia, a estatística está sempre presente. Por exemplo, quando você assiste à previsão
do tempo, aos cálculos de temperatura máxima, mínima e à previsão de chuva, tudo isso está
relacionado a cálculos estatísticos.

Na área econômica, temos os indicadores econômicos como o IPC (Índice de Preços ao


Consumidor), o PIB (Produto Interno Bruto) e muitos outros. Todos esses números são calculados
com base estatística e visam descrever o panorama econômico de um país em determinado período.

Outro exemplo muito importante é o Censo Populacional feito pelo IBGE (Instituto Brasileiro de
Geografia e Estatística). O censo populacional é uma pesquisa feita com toda a população de um
país. Ele coleta informações sobre as condições de vida da população (escolaridade, saúde,
saneamento básico, entre outros).

Mas qual a importância desse estudo?

A partir da análise dos dados coletados pelo Censo, o governo avalia suas políticas públicas nas
áreas da saúde, educação, distribuição de renda etc., e é capaz de redirecionar recursos e criar
novas políticas que atendam as necessidades da população.

No campo empresarial, a estatística está presente de diversas formas. Pode estar no controle de
qualidade numa linha de produção, na pesquisa de opinião de consumidores sobre um novo produto.
Esses são apenas alguns exemplos.

Nesta unidade, você encontrará uma introdução ao estudo de estatística. Nosso objetivo é que
conheça alguns conceitos e definições, base para nosso estudo. Vamos em frente!

Unidade de Educação a Distância | Newton 5|P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Reflexão

Você deve estar se perguntando: “Por que estudar estatística?”

Como futuro profissional da área de gestão, você deverá ser capaz de criar e avaliar estratégias,
ações internas e externas que visem não só à permanência de sua empresa no mercado de forma
competitiva, mas, também, ao crescimento dela.

 Mas como fazer isso?


 Quais as necessidades dos meus colaboradores?
 Quais as necessidades dos meus clientes?
 Qual a posição da minha empresa em relação aos concorrentes?
 O que fazer para aumentar os lucros?
 O que fazer para diminuir os custos?

Essas e outras questões podem ser respondidas com o auxílio da estatística.

Unidade de Educação a Distância | Newton 6|P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Unidade 1: Introdução

1. Conteúdo Didático

1.1. Introdução

Estatística é uma ciência que compreende todo um conjunto de métodos para coletar, organizar,
resumir, apresentar, analisar um (ou mais) conjunto(s) de dados de tal modo que permitam quantificá-
los, qualificá-los ou ordená-los para que possamos concluir, deduzir ou predizer propriedades,
eventos ou estados futuros.

Para facilitar o entendimento, a estatística pode ser dividida em três grandes áreas:

 Estatística descritiva: responsável pelo tratamento preliminar dos dados, resumo,


apresentação e análise de dados.
 Probabilidade: estudo de fenômenos de caráter aleatório, aqueles de resultados possíveis,
mas incertos.
 Inferência: aplicação de técnicas que permitem extrapolar resultados da pesquisa feita num
pequeno grupo (amostra) para um grupo maior (população).

Ao longo do curso, iremos trabalhar com as duas primeiras áreas Estatística Descritiva e
Probabilidade, a Inferência é uma área mais avançada da Estatística e não será tratada em nossa
disciplina.

1.2. Arredondamento de dados

Ao longo de nosso curso, faremos muitos cálculos que necessitarão de arredondamento de


resultados. Para fazer o arredondamento de números devemos observar algumas regras. Veja a
seguir!

Para fazer arredondamentos, devemos definir primeiramente qual o número de casas decimais
desejado. De maneira geral, utilizamos arredondamento de uma ou duas casas. Essa definição é feita
pelo pesquisador levando em consideração a natureza dos dados e objetivos da pesquisa.

Existem, apenas, duas regras para arredondamento que devem ser observadas.

 Se o primeiro número a ser desprezado for 0, 1, 2, 3 ou 4 devemos manter o útlimo a


permanecer.

Unidade de Educação a Distância | Newton 7|P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

 Se o primeiro número a ser desprezado for 5, 6, 7, 8 ou 9 devemos aumentar o último a


permanecer em uma unidade.

Veja alguns exemplos:

Arredonde para o décimo mais próximo o resultado das operações:


5  6  8,33333333  8,3
15  8  1,875  1,9

1.3. Variáveis

Numa pesquisa ou estudo, a característica ou o fenômeno de interesse recebe o nome de variável


(MAGALHÃES E LIMA, 2001). Por exemplo, quando perguntamos a idade dos alunos numa turma, a
variável em questão é a idade. Quando retiramos alguns parafusos numa linha de produção para
avaliar o peso, a variável em questão é peso.

As variáveis podem ser classificadas como:

Qualitativa: quando caracterizam, tipificam ou atribuem uma qualidade ao elemento pesquisado;


Quantitativa: quando surgem da contagem, mensuração ou medição.

As variáveis qualitativas podem ser classificadas em:

 Nominal, quando indicam categorias mutuamente exclusivas (como sexo, religião,


nacionalidade e todas as questões cuja resposta é sim ou não);
 Ordinal, quando indicam possição hierárquica ou sequência classificatória (como classes
sociais, lista de concursos);
 Intervalar, quando utiliza intervalos de valores para classificar (como filmes em péssimo, ruim,
bom, ótimo ou excelente).

As variáveis quantitativas podem ser classificadas em:

 Discretas, quando assumem valores a partir de contagem (geralmente números inteiros);


 Contínuas, quando podem assumir qualquer valor num dado intervalo, como medidas de
peso e estatura, por exemplo.

Unidade de Educação a Distância | Newton 8|P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Nominal

Qualitativa Ordinal

Intervalar
Variável

Discreta
Quantitativa
Fonte: Autora Contínua

Exemplos de variável qualitativa: sexo (nominal), naturalidade (nominal),


nacionalidade (nominal), opinião sobre qualidade de serviço (intervalar:
muito bom, bom, regular e ruim), colocação na tabela do campeonato de
futebol (ordinal: 1º lugar, 2º lugar), etc.

Exemplos de variável quantitativa:


 Discreta: idade, número de filhos, número de alunos numa turma, etc.
 Contínua: peso, estatura, área, volume, etc.

Vamos agora definir alguns conceitos que serão utilizados em nosso estudo.

1.4. População e amostra

Nos estudos estatísticos, o objetivo é conhecer ou descrever características ou propriedades para um


conjunto de dados, para, a partir daí, tirar conclusões.

Ao conjunto de todos os elementos que possuem uma (ou um conjunto) de características em


comum, de interesse da pesquisa, ou seja, objeto de estudo, damos o nome de população
( DOWING; CLARK, 2003).

Muitas vezes não é possível pesquisar todos os elementos de uma população. A população pode ser
grande e de difícil acesso aos pesquisadores, gerando um custo muito alto, ou ainda, grandes
volumes de dados que podem dificultar ou demorar muito para serem analisados.

Como seria possível uma empresa entrevistar todos os seus consumidores? – um problema de tempo
e dinheiro. Existem, ainda, razões éticas, por exemplo, nas pesquisas feitas com seres vivos. Ou,

Unidade de Educação a Distância | Newton 9|P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

ainda, situações, onde é realmente impossível, como no caso do exame de sangue de uma pessoa.
Não poderíamos extrair todo o sangue para que fosse feita a pesquisa, não é mesmo?

E, então, se não podemos acessar todos os elementos ou indivíduos da


população, o que fazer? Utilizamos uma parte dessa população. Esse
subconjunto de elementos ou indivíduos, que pertence à população, recebe o
nome de amostra.

População Amostra

 
 
 

Fonte: Autora

Existem regras a serem seguidas para seleção de amostras: são as técnicas de amostragem. Veja no
próximo tópico.

1.4.1. Técnicas de amostragem

Para que possamos tirar conclusões sobre uma população, tendo como base dados obtidos numa
amostra, devemos garantir que a amostra represente a população como um todo. Caso contrário,
poderíamos chegar a conclusões equivocadas (MILONE, 2004).

Um exemplo claro de como o plano de amostragem é importante, foi o acontecido numa pesquisa de
intenção de voto em 1936, durante as eleições presidenciais dos Estados Unidos da América,
publicada no Literary Digest. O Literary ouviu a opinião de 2 milhões de pessoas (...). A pesquisa
predisse uma fácil vitória para Alfred Landon, quando, na realidade, Franklin D. Roosevelt venceu por
ampla margem (DOWNING & CLARK, 2003, pág.177). Ao fazer a seleção da amostra, foi utilizada a
lista telefônica. Acontece que, naquele tempo, as pessoas que possuíam telefone não representavam
a população adequadamente; logo, essa não era uma amostra representativa (DOWNING & CLARK,
2003).Mas como garantir uma amostra representativa?

Ocorre que o melhor sistema de escolha de amostra consiste em não adotar


qualquer sistema – em outras palavras, a amostra deve ser selecionada de modo
completamente aleatório. O sistema deve ser delineado de modo completamente
aleatório. O sistema deve ser delineado de modo que todos tenham a mesma
chance de serem incluídos na amostra. E não somente isso – o sistema deve ser
planejado de modo que cada amostra que possamos conceber tenha a mesma

Unidade de Educação a Distância | Newton 10 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

chance de ser a amostra que efetivamente escolhemos. (DOWNING & CLARK,


2003, p.169).

Apesar das amostras aleatórias, ou seja, de elementos sorteados ao acaso geralmente


representarem adequadamente uma população, devemos ressaltar certos casos.

Seja qual for o método, o importante é a chance de dada característica populacional


aparecer na amostra: método ruim é aquele em que tal chance é muito diferente da
proporção populacional; método bom é aquele em que a amostra é representativa,
isto é, parece uma miniatura da população em estudo, denunciando suas
propriedades e proporções. (MILONE, 2004, p. 13).

As amostras podem ser probabilísticas ou não probabilísticas.

A primeira prevê seleção ao acaso, equivalente a um sorteio, uma seleção aleatória dos elementos da
amostra, em que cada elemento da população tem uma chance de participar da amostra, conhecida e
diferente de zero. Os três principais métodos de amostragem probabilística são: Amostragem
Aleatória Simples, Amostragem Sistemática e Amostragem Estratificada.

Amostragem probabilística é a seleção de elementos ao acaso. Pode ser realizada com


reposição, em que o elemento é sorteado e volta à população, podendo ser sorteado novamente; ou
sem reposição, em que o elemento selecionado não retorna à população. Na prática, utilizamos
primordialmente a amostragem sem reposição – suponha que cada elemento seja uma pessoa que
irá responder a um questionário. Fica sem sentido e incômodo ao entrevistado responder a um
mesmo questionário mais de uma vez.

A amostragem não probabilística é aquela determinada pelo pesquisador, por isso é subjetiva e
depende do julgamento de quem a realiza. Pode ser intencional, quando o elemento é selecionado
pelo pesquisador; ou voluntária, quando os elementos populacionais apresentam-se
espontaneamente para o estudo (MILONE, 2004, pág. 15). Esse tipo de amostragem pode ainda ser
chamada de amostragem por conveniência (DOWNING & CLARK, 2003, pág. 178):

Unidade de Educação a Distância | Newton 11 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Amostragem aleatória simples

Probabilística Amostragem sistemática

Amostragem estratificada

Amostragem

Intencional
Não probabilística
Voluntária

Fonte: Autora

Veja a seguir como funcionam as técnicas de amostragem!

1.4.2. Amostragem não probabilística

Mas se o pesquisador selecionar os elementos a serem entrevistados ou


observados, não será? possível tender o resultado ao desejado, sem refletir,
necessariamente, a realidade?

Sim, de fato isso é verdade! Mas um pesquisador comprometido com a verdade e, consciente de seu
papel na sociedade, não age dessa maneira. Mesmo que tenha selecionado, ele mesmo,
intencionalmente os elementos da amostra, não significa que o estudo tenha sido tendencioso. Esse
tipo de amostragem é indicado para populações pequenas ou conhecidas a fundo pelo pesquisador
ou, ainda, quando o estudo trata de assunto delicado ou constrangedor (MILONE, 2004, pág. 15).

É difícil convencer uma transeunte a dar informações sobre sua vida sexual, por exemplo, ou a tomar
um novo medicamento que será testado num grupo de pessoas. Daí a importância desse tipo de
amostragem. Mas devemos tomar cuidado quanto às generalizações feitas com dados coletados em
amostras não probabilísticas, pois eles não podem ser submetidos à inferência estatística, já que
essa técnica aplica-se somente a amostras probabilísticas. Contudo, não perdem o efeito de retratar
uma realidade, devemos apenas informar de maneira criteriosa como a amostra foi selecionada e o
motivo de se optar pela amostragem não probabilística.

Vejamos agora como funcionam as técnicas de amostragem probabilísticas.

1.4.3. Amostragem aleatória simples

É a seleção de elementos para composição de amostra por sorteio ao acaso. Nela, todos os
elementos têm igual chance de serem selecionados. Para que seja realizada, é necessária uma

Unidade de Educação a Distância | Newton 12 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

listagem ou banco de dados com todos os elementos da população, o que pode, em alguns casos,
ser um empecilho. O sorteio é equivalente a escrever o nome ou número identificador de cada
elemento da população em um papel, colocar numa urna e sacar os elementos para constituir a
amostra; porém é uma tarefa difícil, dependendo do número de elementos da população. Para
simplificar e agilizar, utilizamos a tabela de números aleatórios (TNA) ou a geração de números
aleatórios por programas de computador (o Excel é um deles) para substituir o sorteio.

Para fazer um sorteio utilizando a tabela de números aleatórios (TNA), o pesquisador escolhe um
número de linha e coluna para o início da leitura, determinando também o sentido em que a leitura
seguirá. A seleção de elementos, no sorteio, deve respeitar o tamanho da amostra e a natureza da
codificação atribuída aos elementos da população.

Vejamos a TNA apresentada abaixo. Ela contém 25 linhas numeradas para facilitar a localização dos
números e 45 colunas, agrupadas em 9 colunas. Observe!

Cada coluna da
tabela possui 5
colunas de
Nº das linhas números.

TNA – Tabela de números aleatórios

1 32426 18772 76910 52223 05238 68340 83545 45972 09442


2 67794 12710 42460 24780 90030 02961 99571 10659 00589
3 21256 08828 23715 26783 59980 89226 13119 19586 76089
4 80360 59202 44605 90518 97349 88563 98942 00781 92871
5 34071 34511 57120 93221 40697 10655 66882 34698 89237
6 32881 71932 63989 58772 21742 46193 81901 50005 20858
7 43091 69604 00583 50492 07066 11961 87265 51507 70217
8 19070 54599 35352 13977 88932 26457 60040 79605 23543
9 04717 73548 32490 08310 30442 95401 57403 56354 70997
10 42311 73906 51389 08515 48005 81686 61784 47462 49884
11 60279 98234 81917 24828 57425 96298 63694 14805 16525
12 18021 57 8 06 35893 30858 77669 11701 38324 23343 74036
13 07024 96703 45757 97743 59126 92698 06885 56983 48849
14 00349 41304 68570 51571 98947 77465 02813 10057 92704
15 52314 44815 53961 76310 62141 10876 31555 56342 54702
16 96071 18088 62008 99879 37250 50233 59561 98799 27858
17 35300 70566 54528 41787 14514 60591 83810 73565 03702
18 99013 14385 96209 88567 33500 27295 90170 36321 33600
19 28832 80419 18474 57848 50193 67892 89323 62861 74689
20 77111 61381 44258 79367 82524 92661 47739 19420 42051
21 69763 60054 13373 60715 99063 17709 46003 74304 57209
22 19353 87117 93237 03310 27611 85279 42926 16244 56277
23 94208 35632 60830 32594 29330 75521 10978 92870 96173
24 40720 35067 14705 36686 10027 00682 21659 14780 71530
25 34357 38587 84847 03914 64454 24832 93534 54344 33008
Fonte: Autora

Unidade de Educação a Distância | Newton 13 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Vamos, como exemplo, localizar o número na 12ª linha e 8ª coluna. O número indicado é o 8. A partir
daí, o sorteio pode continuar para baixo, seguindo o sentido da coluna (o próximo seria 7) ou para a
direita seguindo a linha (o próximo seria 0, que representa o número 10) ou em qualquer outra
direção preestabelecida pelo pesquisador.

Perceba que, fazendo o sorteio de números de um algarismo, poderíamos sortear no máximo 10


elementos sem repetição, (1 a 9, e o 0 representa o número 10), mas, e se nossa população possuir
80 elementos? Temos que garantir que todos participem do sorteio! Então, sortearemos números de
dois algarismos, utilizando a coluna indicada e a seguinte. Para o exemplo citado, caso fossem
sorteados números de dois algarismos, o primeiro seria o 80 (8ª e 9ª colunas), veja na tabela!

11 60279 98234 81917


12 18021 57 80 6 35893
13 07024 96703 45757
14 00349 41304 68570
15 52314 44815 53961
16 96071 18088 62008
17 35300 70566 54528
Fonte: Autora

Como faremos amostragem sem repetição, caso o número sorteado seja repetido ou esteja fora da
população (por exemplo: população com 80 elementos, sorteado o elemento 97), ele será
desconsiderado ou ignorado, continuando o sorteio até completar o número de elementos da
amostra.

Vamos a um exemplo!

Os custos médios (em reais) de determinado produto, produzido em um mesmo setor, com a
utilização de um mesmo processo, foram observados e registrados em 30 diferentes remessas. Os
valores são apresentados a seguir. Extraia uma amostra aleatória simples de tamanho n = 6. TNA 13 a
L e 13a C.

146 119 118 116 136 106


153 122 139 118 143 116
106 129 122 127 145 120
117 133 141 130 146 124
131 136 141 133 144 133
Fonte: Autora

O primeiro passo é codificar a população, atribuindo um número a cada elemento. O sentido da


numeração é preestabelecido pelo pesquisador. Aqui utilizaremos o número da esquerda para direita.

Unidade de Educação a Distância | Newton 14 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

1 146 2 119 3 118 4 116 5 136 6 106


7 153 8 122 9 139 10 118 11 143 12 116
13 106 14 129 15 122 16 127 17 145 18 120
19 117 20 133 21 141 22 130 23 146 24 124
25 131 26 136 27 141 28 133 29 144 30 133

Essa será a numeração a ser sorteada. Precisamos de 6 elementos (numerados de 1 a 30),


sorteados pela TNA 15a L e 13a C (consideraremos as colunas 13 e 14, pois precisaremos de
números com dois algarismos), seguindo o sentido da coluna para baixo. Como os elementos da
população estão numerados de 1 a 30, o sorteio será de números de dois algarismos, desprezando
os números repetidos e maiores de 30.

Sorteio: o primeiro número é o 9, mas queremos com dois algarismos, logo é 96, que não faz parte da
população e será ignorado. Seguimos as colunas para baixo, o próximo é 00 (que representa o 100 e
também não faz parte da população e será desprezado), continuamos assim até obter a quantidade
de elementos válidos desejada.

Observe a leitura da tabela!

14 00349 41304 68570 51571


15 52314 44815 53 96 1 76310
16 96071 18088 62 00 8 99879

17 35300 70566 54 52 8 41787


O número 00 aqui representa o 100,
18 99013 14385 96 20 9 88567 assim como na leitura de números com 3
19 28832 80419 18 47 4 57848 algarismos o 000 representa o 1000 e,
assim, sucessivamente.
20 77111 61381 44 25 8 79367
21 69763 60054 13 37 3 60715
22 19353 87117 93 23 7 03310
23 94208 35632 60 83 0 32594
24 40720 35067 14 70 5 36686
25 34357 38587 84 84 7 03914

1 32426 18772 7691 0 5 2223


Leitura: 96, 00, 52, 20, 47, 25, 37, 23, 83, 70, 84. A
2 67794 12710 4246 0 2 4780
tabela chegou ao final e, ainda, não completamos
3 21256 08828 2371 5 2 6783 a amostra, assim “pularemos” para as próximas
4 80360 59202 4460 5 9 0518 duas colunas (15ª e 16ª), iniciando na 1ª linha.
Observe!
5 34071 34511 5712 0 9 3221
6 32881 71932 63989 58772 Continuando a leitura: 05, 02, 52, 09. Assim,
7 43091 69604 00583 50492 completamos os 6 elementos válidos da amostra.
8 19070 54599 35352 13977
Vamos ver como fica a amostra.

9 04717 73548 32490 08310


10 42311 73906 51389 08515
11 60279 98234 81917 24828
Fonte: Autora
Leitura da tabela (sorteio): 96, 00, 52, 20, 47, 25, 37, 23, 83, 70, 84, 05, 02, 52, 09. Os elementos em
azul são os válidos; então, teremos: 20, 25, 23, 05, 02 e 09.

Unidade de Educação a Distância | Newton 15 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Para determinar a amostra, fazemos a correspondência do número sorteado e o elemento da


população que ele representa.

Amostra: 133, 131, 146, 136, 119 e 139.

1.4.4. Amostragem sistemática

A amostragem sistemática pressupõe um intervalo regular para a tomada de elementos para compor
a amostra: como entrevistar duas pessoas a cada hora, ou retirar 5 aparelhos para inspeção a cada 2
horas na linha de produção de uma fábrica.

Esse intervalo regular pode ser estabelecido pelo pesquisador ou calculado a partir do tamanho da
N
amostra que se deseja, através da razão , onde N é o tamanho da população e n é o tamanho da
n
amostra. Vejamos um exemplo!

A demanda pelo produto X, na primeira semana de dez/06, em 35 estabelecimentos comerciais,


revelou os seguintes valores (em número de caixas). Extraia uma amostra sistemática de tamanho
7.

35 19 20 22 36 42 25
42 20 28 24 23 29 33
37 14 22 35 30 30 38
39 29 27 21 27 32 49
18 26 24 33 34 29 39

Primeiro, nós iremos codificar a população, atribuindo um número para identificar cada elemento.

1 35 2 19 3 20 4 22 5 36 6 42 7 25
8 42 9 20 10 28 11 24 12 23 13 29 14 33
15 37 16 14 17 22 18 35 19 30 20 30 21 38
22 39 23 29 24 27 25 21 26 27 27 32 28 49
29 18 30 26 31 24 32 33 33 34 34 29 35 39

Aqui o intervalo será definido de acordo com o tamanho da amostra; logo, para uma população de 35
35
elementos com uma amostra de 7, o intervalo será de  5 , ou seja, a seleção será de 5 em 5.
7
Mas qual será o primeiro elemento? Ele pode ser sorteado pela TNA, seguindo orientações do
pesquisador. Atenção, nesse caso, apesar da população conter 35 elementos, o sorteio será apenas
do 1º elemento, que poderá ser 1, 2, 3, 4 ou 5, por causa do intervalo (de 5 em 5), logo o sorteio será
de um número com um algarismo, de 1 a 5. Vamos utilizar a TNA 23ª linha e 26ª coluna. Veja!

Unidade de Educação a Distância | Newton 16 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

23 94208 35632 60830 32594 29330 7 5521


24 40720 35067 14705 36686 10027 0 0682
25 34357 38587 84847 03914 64454 2 4832

O número que aparece na indicação de linha e coluna é o 7, mas não pode ser utilizado (tem que ser
de 1 a 5); o próximo (abaixo do 7) é o zero que representa 10, também não serve; logo abaixo vem o
2. Esse será o nosso primeiro elemento.

Com isso, nossa amostra será composta pelos elementos de número: 2, 7, 12, 17, 22, 27 e 32
(começando pelo 2 e seguindo intervalo de 5 em 5). Agora é só fazer a correspondência dos números
selecionados com os elementos da população.

Amostra: 19, 25, 23, 22, 32, 33.

1.4.5. Amostragem estratificada

A amostragem estratificada baseia-se na subdivisão da população em estratos (subgrupos). Esses


subgrupos da população possuem uma característica comum que os identifica a um único estrato.
São exemplos de estratos: masculino e feminino; classe socioeconômica, religião, etnia, etc. É
necessário, para a aplicação dessa técnica, o conhecimento da população em relação aos estratos e
à participação de cada um na população.

Nesse tipo de amostragem, a proporção de cada estrato apresentada na população é respeitada


dentro da amostra. Por exemplo, numa universidade, onde 60% dos alunos são do sexo feminino e
40% do sexo masculino, haverá uma amostra selecionada, onde as proporções de 60% feminino e
40% masculino serão mantidas.

Para isso, os elementos da população são separados previamente. O cálculo do número de


elementos a serem selecionados dentro de cada estrato é feito com base no tamanho da amostra e
na composição da população. Então, segue uma amostragem aleatória simples dentro de cada
estrato.

Observe o exemplo!

Os dados abaixo referem-se ao tempo de execução (minutos) de uma dada etapa em um processo
produtivo, quando foi observado o desempenho de 53 operários em três diferentes turnos.

Unidade de Educação a Distância | Newton 17 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Turno I:

81 50 86 92 91 91 88 87 86 86
91 87 88

Turno II:

94 94 97 96 96 96 90 94 93 95
97 95 96 97 93

Turno III:

100 98 100 98 108 110 103 105 114 107


98 109 107 109 104 107 106 102 104 99
100 99 191 99 100

Considere cada turno como um estrato e extraia uma amostra estratificada proporcional de tamanho
9.

Devemos, em primeiro lugar, identificar os elementos da população, em cada um dos estratos.

Turno I :

1 8 2 5 3 8 4 9 5 9 6 9 7 8 8 8 9 8 10 8
1 0 6 2 1 1 8 7 6
11 9 12 8 13 8
1 7 8

Turno II:

1 9 2 9 3 9 4 9 5 9 6 9 7 9 8 9 9 9 10 9
4 4 7 6 6 6 0 4 3
11 9 12 9 13 9 14 9 15 9
7 5 6 7 3

Turno III:

1 100 2 98 3 100 4 98 5 108 6 110 7 103 8 105 9 114 10 107

11 98 12 109 13 107 14 109 15 104 16 107 17 106 18 102 19 104 20 99

21 100 22 99 23 191 24 99 25 100

O segundo passo é determinar o número de elementos a ser selecionado dentro de cada estrato.Para
isso, calculamos por regra de três simples:

Unidade de Educação a Distância | Newton 18 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Nove está para 53 assim como x está para 13. Nove é


o tamanho da amostra, 53 é o tamanho da população,
9  53
Para o primeiro 13 é o número de elementos do estrato “Turno I” e x
estrato
X  13
representa o número de elementos do turno I.
Turno I

53.x  9.13
53 x  117
117
x Como x deve ser um número inteiro, arredondamos
53
para 2.
x  2,2
x2

Nove está para 53 assim como x está para 15. Nove é o


Para o segundo 9  53
estrato tamanho da amostra, 53 é o tamanho da população, 15 é
X  15
o número de elementos do estrato “Turno II” e y
Turno II
representa o número de elementos do turno II.
53. y  9.15
53 y  135
135
y
53
y  2,5 Como y deve ser um número inteiro, arredondamos
para 3.
y3

Nove está para 53 assim como z está para 25. Nove é o


Para o primeiro 9  53
estrato tamanho da amostra, 53 é o tamanho da população, 25 é
Z  25
o número de elementos do estrato “Turno III” e z
Turno III
representa o número de elementos do turno III.
53.z  9.25
53 z  225
225
z
53
z  4,2
Como z deve ser um número inteiro, arredondamos
z4 para 4.

Fonte: Autora

Agora, faremos o sorteio dos elementos de cada estrato, respeitando a quantidade calculada
anteriormente. Para o sorteio de cada estrato, utilizaremos uma indicação de linha e coluna diferente,
pré-estabelecida pelo pesquisador, seguindo a leitura no sentido da coluna para baixo.

Turno I: 2 elementos (1 a 13) TNA 4ª linha 8ª coluna.


Fazendo a leitura da tabela na linha indicada e utilizando a 8ª e 9ª colunas, pois a população está
numerada de 1 a 13, os números válidos são: 08 e 05.

Unidade de Educação a Distância | Newton 19 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Turno II: 3 elementos (1 a 15) TNA 8ª linha 12ª coluna.


Seguindo o mesmo processo para o turno I, os elementos válidos no sorteio são: 13, 08 e 05.

Turno III: 4 elementos (1 a 25) TNA 1ª linha 7ª coluna.


Da mesma maneira, os elementos válidos para esse turno são: 19, 13, 05 e 04.

Com isso, a amostra será formada pelos elementos:


Turno I: 87 e 91
Turno II: 96, 94 e 96
Turno III: 104, 107, 105 e 98

Apesar de conter duas vezes o 96, não há repetição de elementos, já que eles são referentes a
elementos distintos da população. É o mesmo que acontece quando duas pessoas numa turma têm a
mesma idade, o valor é o mesmo, mas os elementos da população são distintos. Isso vale para todas
as técnicas estudadas aqui.

Vejamos, agora, o que é o método estatístico e suas fases.

1.5. O método estatístico

Engana-se aquele que pensa que a estatística começa com as informações em mãos. O método
estatístico tem fases que vão desde a preparação até a conclusão final da pesquisa. Então, vamos ao
conhecimento de cada uma delas.

1.5.1. Fases do método estatístico

Para Crespo (1995, p. 14 e 15), as fases do método estatístico são:

Toda pesquisa começa com uma pergunta. A resposta a essa pergunta consiste
I. I. Planejamento do objetivo da pesquisa. No planejamento, é feita a delimitação do problema, a
construção do objetivo, a elaboração do cronograma de atividades, a planilha de
custos, a determinação da população e da amostra (se for o caso), como os dados
serão analisados (manualmente ou por computador), tipo de informação
(questionário ou observação), modelo para registro das informações coletadas; em
suma, todos os passos a serem dados desde a pergunta inicial até sua resposta.

A coleta de dados é o segundo momento do método. Após a conclusão do


II. Coleta de
planejamento, fazemos a coleta de dados. Existem diversos meios de se coletar
Dados
dados. Um dos mais utilizados é o questionário, que pode ser aplicado por um
entrevistador pessoalmente ou por telefone, ou pode ser enviado por correio ou e-

Unidade de Educação a Distância | Newton 20 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

mail. Esses últimos possuem o inconveniente de muitos questionários não serem


devolvidos. Ao elaborar um questionário, devemos levar em consideração alguns
aspectos importantes como a forma e o tipo de pergunta que será feita ao
respondente. De maneira geral, a informação do questionário relata aquilo que o
entrevistado acha conveniente responder; então, evite perguntas constrangedoras;
garanta ao entrevistado o anonimato das respostas. Assim, ele vai se sentir mais
confortável para responder com honestidade às questões.

Após a coleta dos dados, passamos à crítica. Essa etapa visa eliminar, do
III. Critica
conjunto de questionários respondidos ou do conjunto de observações, possíveis
falhas, sejam questionários incompletos ou dados ilegíveis.

IV. Apuração Na etapa de apuração de dados, processamos as informações manual ou


dos Dados eletronicamente. Hoje, são raras as apurações manuais, dada a grande variedade
de recursos tecnológicos para apuração de dados.

Após a apuração dos dados, passamos aos cálculos pertinentes e elaboramos


V. Sumarização
tabelas e gráficos para apresentar os resultados. Existem normas para
dos Dados
apresentação de tabelas e gráficos em textos científicos, estabelecidas pela ABNT
(Associação Brasileira de Normas Técnicas) e pelo IBGE que devem ser
observadas na elaboração de textos científicos e acadêmicos.

Como última etapa, temos a análise dos resultados. É nessa fase que será feita
VI. Análise dos
Resultados a conclusão da pesquisa levando em conta o seu objetivo e os resultados obtidos.
Podemos ainda ir mais fundo na análise de dados, utilizando inferência estatística.

Mas, como a estatística será utilizada em administração de empresas? Umas das principais
atividades, senão a principal, de um gestor é a tomada de decisão. A estatística aparece, nesse
cenário, como uma ferramenta que irá fornecer subsídios para decidir. Ela pode ser utilizada como
sondagem, obtendo e analisando dados que possibilitem avaliação da situação atual, que visem ao
estabelecimento de metas para criar melhorias. Pode ser usada também como método para
verificação ou avaliação de planos de ações já implementados, possibilitando a adequação de
recursos humanos, financeiros ou de materiais.

Unidade de Educação a Distância | Newton 21 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

1.6. Evolução histórica

Vimos alguns conceitos importantes para o estudo de Estatística, agora um


pouco da história desse conteúdo tão vasto e interessante.

A estatística remonta aos primórdios da história humana. Os egípcios e os persas já registravam


informações relativas a grupos sociais em 3000 a.C. A princípio, sua utilização estava ligada à
cobrança de impostos e às práticas militares e governamentais.

A partir do século XVI, aparecem as primeiras análise sistemáticas, com o surgimento de tábuas,
tabelas e números relativos.

Consideramos que, por volta do século XVII, iniciaram-se os estudos formais sobre probabilidade.
Segundo Milone (2004), o surgimento dos estudos preliminares sobre o assunto aconteceu por causa
da populariadade dos jogos de azar que utilizavam dados e cartas de baralho, gerando, na
comunidade da época, certa curiosidade. De fato, é nessa época que surgem as indagações de Méré
(1607-1684) – jogador, filósofo e homem das letras – e Pascal (1623–1662) – filósofo, físico e
matemático – sobre jogos de azar; mas é na correspondência trocada entre Pascal e Fermat (1601-
1665) que ambos chegam a um mesmo resultado para o problema da divisão das apostas, questão
teórica proposta por Méré (Milone, 2004, p. 345).

Com a evolução dos estudos sobre probabilidade, surgem as distribuições de probabilidade e


modelagem matemática, base da inferência estatística que permite a extrapolação de conclusões
sobre uma parte do conjunto para o todo.

Atualmente, são muitos os recursos tecnológicos apropriados pela estatística. Os mais acessíveis e
simples são as calculadoras científicas, que permitem cálculos diretos com a utilização de banco de
dados armazenados na memória interna. Para saber como operar as funções estatísticas da sua
calculadora, leia o manual! Cada calculadora funciona de maneira diferente.

Temos ainda programas de análise de dados, elaboração de tabelas e gráficos, como o Excel. Nele é
possível executar todos os cálculos da estatística descritiva, como média e desvio padrão; e ainda
programas específicos de tratamento estatístico de informações como o Minitab que consiste em uma
poderosa ferramenta de análise e apresentação de dados.

Bom pessoal, encerramos a parte introdutória do conteúdo, na próxima unidade iremos trabalhar as
formas de apresentação de dados estatísticos que são muito utilizadas mas, às vezes, sem atenção
devida às normas. Até lá!

Unidade de Educação a Distância | Newton 22 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

2. Teoria na Prática

Agora é hora de praticar! Utilize os conceitos trabalhados para solucionar as questões!


Sempre que necessário, consulte o texto didático e bom trabalho!

Observe a reportagem abaixo:

Pesquisa traça o perfil do usuário da internet


A pesquisa verificou que a utilização da Internet
IBGE contou 32,1 milhões de usuários da internet no estava mais concentrada nos grupos etários mais
país, que é dominada pelos jovens jovens. No grupo de 15 a 17 anos de idade, 33,9%
das pessoas acessaram essa rede, sendo este
inte e um por cento (32,1 milhões) da população de resultado maior que os das demais faixas etárias.
10 anos ou mais de idade acessaram pelo menos Esse percentual foi declinando com o aumento da
Vuma vez a Internet em algum local - domicílio, local faixa de idade, atingindo 7,3% no contingente de 50
de trabalho, estabelecimento de ensino, centro anos ou mais de idade. A proporção de pessoas que
público de acesso gratuito ou pago, domicílio de acessaram a Internet no grupo etário de 10 a 14
outras pessoas ou qualquer outro local - por meio de anos (24,4%) ficou acima daqueles das idades a
microcomputador. partir de 30 anos, tanto na parcela feminina como na
masculina.
As informações fazem parte do suplemento da
Pesquisa Nacional por Amostra de Domicílios -
PNAD de 2005 sobre acesso à Internet e posse de Fonte: Disponível em:
telefone móvel celular para uso pessoal, divulgada http://www.jornaldoestado.com.br/index.php?VjFSQ1
nessa sexta-feira, 23. VtUXlWa1pqU0ZKUFVrZDRUMWxYYzNoTk1WRjN
WV3RLYVZadVFsWlVWVkpUVkRKU05rMUVhejA9
O levantamento, realizado pelo IBGE, em parceria Acesso em 14/05/2007
com o Comitê Gestor da Internet no Brasil - CGI.br,
mostrou também que o rendimento, o nível de
instrução e a idade apresentam reflexos evidentes
no acesso à Internet. Dentre os 32,1 milhões de
pessoas que acessaram a Internet, em 2005, a
maior parte era de homens(16,2 milhões), tinha
entre 30 a 39 anos (5,8 milhões), 13,9 milhões eram
estudantes, 20 milhões integravam a população
ocupada e 4,2 milhões era de trabalhadores de
serviços administrativos.

Segundo a pesquisa, os internautas tinham em


média 28 anos de idade, 10,7 anos de estudo e um
rendimento médio mensal domiciliar per capita de
R$1.000,00. Além disso, metade dos internautas
utilizou a rede no domicílio em que morava e 39,7%
em seu local de trabalho. A conexão discada à
Internet mostrou-se mais difundida que a banda
larga.

1/3 dos jovens de 15 a 17 anos são internautas

Os usuários da Internet apresentaram perfil bastante


distinto daquele das pessoas que não utilizaram a
rede. As diferenças entre esses dois grupos se
tornam evidentes no confronto de suas
características de idade, nível de instrução e
rendimento. A idade média da população de 10 anos
ou mais de idade, usuária da Internet, situou-se em
28,1 anos, sendo expressivamente menor que a das
pessoas que não usaram esta rede (37,5 anos).

Unidade de Educação a Distância | Newton 23 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Nessa reportagem, verificamos o resultado de uma pesquisa realizada pelo IBGE em parceria com
CGI – Comitê Gestor da Internet no Brasil. A PNAD – Pesquisa Nacional por Amostra de Domicílio,
como o próprio nome sugere, é baseada em amostra, e a população referência do estudo é a
população brasileira, todos os habitantes do nosso país.

Com as informações apresentadas, podemos identificar algumas variáveis de interesse do estudo.


Quais são elas?
Idade, local onde o acesso foi realizado (domicílio, local de trabalho, estabelecimento de ensino,
centro público gratuito ou pago, domicílio de outra pessoa), rendimento, nível de instrução
(apresentado em anos de estudo), sexo, tipo de conexão utilizada no acesso (discada ou banda
larga).

Qual a classificação de cada uma dessas variáveis?


Idade: quantitativa discreta; local de acesso: qualitativa nominal; rendimento: quantitativa contínua;
nível de instrução: quantitativa contínua; sexo: qualitativa nominal; tipo de conexão: qualitativa
nominal.

O jornal Correio de Uberlândia apresentou uma reportagem sobre o mesmo assunto no caderno
Cidade, no dia 24/03/2007, divulgando dados da mesma pesquisa, com o seguinte título e chamada: “
Pesquisa mapeia uso da internet: Segundo o IBGE, cerca de 79% dos brasileiros nunca acessaram
a net.”

Que diferenças você percebe ao comparar os títulos e as chamadas das duas reportagens? Não
existe certo e errado na divulgação de resultados de pesquisas. Há diferenças na interpretação e
enfoque dado aos dados. Podemos perceber que a chamada da segunda reportagem tem um cunho
mais negativo, destacando o percentual de brasileiros que nunca acessaram a internet. Observe que
a mesma informação está na primeira linha da primeira reportagem, mas sem alarde.

Esse exemplo ilustra como devemos ser cautelosos ao apresentar dados. Uma simples alteração de
escala na construção de um gráfico pode destacar equivocadamente um comportamento de queda ou
ascensão acentuado. O mesmo aconteceu no caso tratado. A informação é a mesma, com a mesma
fonte; porém o destaque da informação é diferente em cada uma das reportagens.

Unidade de Educação a Distância | Newton 24 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

3. Síntese

O que vimos nesta unidade?

Estatística é um conjunto de métodos para coletar, organizar, resumir, apresentar e analisar um ou


mais conjunto de dados e deles extrair conclusões.

População é o nome dado ao conjunto de todos os elementos que possuem uma ou mais
características de interesse do estudo.

Amostra é um subconjunto, ou seja, uma parte da população.

Variável é o fenômeno ou característica de interesse do estudo. São classificadas da seguinte forma:

Nominal

Qualitativa Ordinal

Intervalar

Variável

Discreta

Quantitativa
Contínua

Sobre amostras e técnicas de amostragem:

Toda amostra deve ser representativa para que possamos, com base nos dados observados na
amostra, predizer ou concluir sobre a população.

A amostragem é probabilística quando todos os elementos da população têm chance conhecida e


diferente de zero de serem selecionados; e é não probabilística, quando os elementos da população
são escolhidos ou selecionados pelo pesquisador.

A amostragem probabilística pode ser selecionada com reposição, quando os elementos sorteados
voltam para a urna ou podem ser considerados mais de uma vez na leitura da TNA (tabela de
números aleatórios); ou sem reposição em que cada elemento só pode ser sorteado uma única vez,

Unidade de Educação a Distância | Newton 25 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

não retornando à população quando é sorteado, ou é desconsiderado quando seu número aparece
novamente na leitura da TNA.

As três principais técnicas de amostragem probabilística são:

 Amostragem Aleatória Simples: elementos sorteados ao acaso, com utilização de tabela de


números aleatórios, recursos computacionais ou outro sistema.
 Amostragem Sistemática: os elementos da amostra são selecionados, respeitando um
intervalo regular entre eles.
 Amostragem Estratificada: a população é separada em subgrupos, o número de elementos
sorteados de cada estrato obedece à composição proporcional da população em relação ao
tamanho da amostra desejada. Para a seleção dos elementos, é feito sorteio entre os
elementos de cada estrato.

A amostragem não probabilística é subjetiva e depende do bom senso do pesquisador quanto à


seleção dos elementos da amostra. Sua utilização não significa, necessariamente, que o estudo é
tendencioso. Ela pode ser intencional, quando o elemento é selecionado pelo pesquisador; ou
voluntária, quando os elementos populacionais apresentam-se espontaneamente para o estudo
(MILONE, 2004, pág. 15). Esse tipo de amostragem pode ainda ser chamada de amostragem por
conveniência (DOWNING & CLARK, 2003, pág. 178).

Unidade de Educação a Distância | Newton 26 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Unidade 2: Sumarização e Apresentação de Dados

1 Conteúdo Didático

1.1 Introdução

Quando realizamos um estudo, ou pesquisa, fazemos a coleta de dados. Após a coleta, é feita a
apuração dos dados, ou seja, organizamos as informações. Mas como apresentar o resultado do
estudo?

Para isso utilizamos as tabelas e gráficos!

Sumarizar significa resumir, condensar as tabelas e gráficos que, assim, servem para apresentar os
dados das pesquisas coletados.

Para tirar conclusões sobre um conjunto de dados coletados, devemos organizá-los, mas, mesmo
após a organização, o volume de dados pode ser muito grande dificultando sua interpretação. Então,
para facilitar, construímos tabelas. As tabelas podem ser as séries estatísticas ou distribuição de
frequência que estudaremos nesta unidade.

Além das tabelas, as informações obtidas numa pesquisa podem ser


apresentadas através de gráficos que foram retirados do site:
http://www.sei.ba.gov.br/images/releases_mensais/pdf/norma_tabular/norma
s_apresentacao_tabular.pdf

A elaboração de tabelas e gráficos deve seguir algumas regras que iremos estudar a seguir.

Vamos lá!

Unidade de Educação a Distância | Newton 27 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

1.2 Séries estatísticas

Séries Estatísticas são tabelas que trazem dados resumidos de um estudo ou pesquisa em função da
época, do local ou de uma categoria (CRESPO, 1995).

Mas qual é a diferença entre quadro e tabela?

Tanto os quadros como as tabelas dispõem as informações em linhas e colunas, porém, as tabelas
permitem cálculos e leituras em diversas direções, enquanto os quadros apenas apresentam dados.

Além disso, as tabelas exigem um rigor técnico de apresentação. Para trabalhos e publicações
científicas, as tabelas devem seguir as Normas de Apresentação Tabular do IBGE.

1.2.1 Classificação

Podemos classificar as séries estatísticas de acordo com a variação dos dados apresentados, essa
variação ocorre em função do período, do local ou de espécie.

Quando uma série estatística apresenta dados com variação do período, ou tempo, recebe o nome
de histórica (ou cronológica ou temporal). Essa variação pode ser expressa em anos, meses, dias ou
qualquer outra unidade temporal necessária.

Exemplo:

População brasileira – 1920/2000

Ano População
(em milhões)
Neste exemplo,
os dados sobre 1920 30,6
a população 1940 41,2
brasileira estão
apresentados 1950 51,9
em função do
tempo, logo 1960 70,2
recebe a
1970 93,1
classificação de
série histórica. 1980 121,1
1991 146,8
2000 166,1
Fonte: Censo Demográfico do IBGE.

Unidade de Educação a Distância | Newton 28 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Série geográfica (ou territorial ou espacial) apresenta informações em função do local: cidades,
estados, países, etc. A época e o fenômeno estudados mantêm-se constantes.

Exemplo:

Áreas continentais - 2008


Continente
Área (106 km2)
Esta série é
classificada Ásia 43,608
como
geográfica, África 30,335
pois apresenta
a área em América do Norte 23,434
função do América do Sul 17,611
continente.
Antártida 13,340
Europa 10,498
América Central 1,915

Oceania 8,923
Fonte: Atlas Mundial Folha de S. Paulo.

Já a série específica (ou categórica) mantém fixos o local e o período do estudo, variando a categoria
dos dados. Observe o exemplo abaixo:

Número de correspondências
da semana
Esta tabela apresenta
a quantidade de Tipo Quantidade
correspondências E-mails 1932
recebidas em função
do tipo (espécie ou Cartas 94
categoria), por isso é Fax 44
classificada como
série categórica. Total 2070
Fonte: Revista Veja 20/04/2004

Todos os exemplos anteriores apresentam séries simples, ou seja, tabelas que contêm apenas duas
colunas. Existem séries que necessitam de tabelas com maior número de colunas, são as chamadas
séries conjugadas ou séries mistas. A classificação das séries conjugadas segue o mesmo critério
das séries simples (histórica, geográfica ou específica), mas a sua classificação será composta por
dois nomes, por exemplo, histórico-geográfica ou específico-geográfica. Acompanhe os exemplos a
seguir e veja como é feita a classificação de séries conjugadas.

Unidade de Educação a Distância | Newton 29 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Exemplos:

Variação de
lugar.

Número de municípios das regiões brasileiras – 1940/2001


Variação
Região 1940 1950 1960 1970 1980 1990 1997 2001 de
tempo.
Norte 88 99 120 143 153 298 449 449
Nordeste 584 609 903 1.376 1.375 1.509 1.787 1.792
Sudeste 641 845 1.085 1.410 1.410 1.432 1.666 1.668
Sul 181 224 414 717 719 873 1.159 1.188
Centro-Oeste 80 112 244 306 317 379 446 463
Fonte: IBGE

A série acima apresenta número de municípios em função da região e do ano. Por isso, será
classificada como série histórico-geográfica.

Variação de
lugar.

Terras Indígenas – Brasil – 2000


Variação
Região Demarcadas Não demarcadas de
categoria
Norte 175 131
Nordeste 42 25
Sudeste 23 5
Sul 28 33
Centro-Oeste 31 13
Total 299 207
Fonte: IBGE, Diretoria de Geociências

Por apresentar dados sobre terras indígenas em função da região e de categoria (demarcadas e não
demarcadas), essa série é classificada como específico-geográfica.

Para classificar séries estatísticas, devemos observar, em função do que os dados estão sendo
apresentados, tempo, local ou categoria. Nas tabelas de apenas duas colunas, observamos os
dizeres da primeira coluna. Se for indicado tempo, seja em anos ou meses ou outra medida de tempo,
sua classificação será histórica; se for indicado lugar, como cidades, estados, etc., será geográfica;
caso indique espécie ou categoria, será específica.

Unidade de Educação a Distância | Newton 30 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Você sabia que, para classificação de séries apresentadas por tabelas de


três ou mais colunas, devemos observar as informações da primeira linha e
da primeira coluna, analisando os dizeres – a que se referem? Tempo, lugar
ou categoria?

Após a identificação, associamos os nomes separando-os com hífen como: específico-geográfico.

Em muitos casos as informações são apresentadas na forma de gráficos. Vejamos, a seguir, como
apresentar os dados em gráficos.

1.2.2 Apresentação Gráfica

O que você já sabe sobre a apresentação gráfica? Já pensou que


importância tem esse tipo de representação na estatística? Reflita um pouco
sobre isso e, depois, veja a definição que apresentaremos a seguir.

Gráfico é a representação visual do fenômeno em termos de sua evolução ou das


relações entre as variáveis nele envolvidas. Também se diz que é a forma mais
adequada de transmissão de informação quando se quer acentuar aspectos visuais,
instantâneos, globais, dinâmicos e expressivos e quando se deseja facilitar a
comparação dos dados computados por meio das proporções entre as grandezas
envolvidas.(...) O gráfico ideal é simples, claro e esteticamente agradável (...)
(MILONE, 2004, p. 26 e 27)

Gráfico é a representação visual de um fenômeno que utiliza eixos coordenados. Na construção de


um gráfico, devemos evitar exageros nas cores, linhas e informações adicionais. Em trabalhos
científicos ou publicações científicas, o objetivo principal é a informação e não o apelo visual. Assim
como para tabelas, existem normas para apresentação de gráficos determinadas pela ABNT 1 e pelo
IBGE.
População brasileira 1920/2000
Os gráficos podem ser de linhas, colunas ou 180
milhões de habitantes

160
barras, setores (pizza), pictogramas ou 140
120
cartogramas. Não existe regra para 100
80
definição do tipo de gráfico a ser utilizado, 60
40
20
porém os gráficos de linhas ficam restritos 0
1920 1940 1950 1960 1970 1980 1991 2000
para representar séries temporais ou
Ano
evoluções históricas. Veja o exemplo a
seguir: Fonte: Censo Demográfico do IBGE.

1 ABNT: Associação Brasileira de Normas Técnicas

Unidade de Educação a Distância | Newton 31 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Os gráficos de barras e colunas possuem a mesma finalidade diferindo somente na posição dos
retângulos. Damos preferência para barras quando os dizeres ou nomes a serem representados são
extensos. Nada impede, no entanto, que você prefira o gráfico de colunas, nesse caso, os nomes
devem ser escritos de baixo para cima.

Áreas continentais (em milhões de quilômetros quadrados)

América Central
Oceania
Europa
Antártida
América do Sul
América do Norte
África
Ásia

0 10 20 30 40 50

Fonte: Atlas Mundial da Folha de São Paulo

Os gráficos de setores, também chamados de pizza, devem ser utilizados quando se deseja ressaltar
a participação de segmentos em relação ao todo. É adequado quando representamos no máximo
sete dados, um número maior polui o gráfico e dificulta sua leitura.

Fonte: IBGE. Censo Demográfico 2000. Diponível


em:http://www.favelaeissoai.com.br/comunidades_demog.php
?cod=19 Acesso em: 25/11/2010

Os cartogramas são gráficos que utilizam mapas cartográficos como base para a apresentação de
dados. Servem somente a séries geográficas, uma vez que os dados apresentados são referentes a
lugares (países, estados, cidades, etc.). Os pictogramas são gráficos que utilizam desenhos no lugar

Unidade de Educação a Distância | Newton 32 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

das formas básicas para representar dados. Geralmente esses desenhos ilustram a natureza dos
dados apresentados.

Fonte: Disponível em http://confins.revues.org/docannexe/image/3483/img-5.png


Acesso em 25/11/2010

Vimos duas formas de apresentar dados estatísticos : tabelas e gráficos. Veremos a seguir outra forma de
apresentação e resumo de dados: as distribuições de frequência.

1.3 Distribuição de frequência

1.3.1 Conceito

Tabelas de distribuição de frequência são aquelas que relacionam o valor da variável (ou um intervalo
de valores) com sua frequência no conjunto de dados observados, ou seja, quantas vezes ela
aparece no conjunto.

As tabelas de distribuição de frequência podem ser construídas a partir do valor da variável ou de


intervalos. Dessa forma, temos dois tipos de tabelas: COM INTERVALO ou SEM INTERVALO.
Vejamos:

Unidade de Educação a Distância | Newton 33 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

SEM INTERVALO DE CLASSE COM INTERVALO DE CLASSE


Número de cômodos ocupados por Notas atribuídas a 28 produtos de
vinte famílias entrevistadas -Belo informática pelo convênio Folha/USP
Horizonte 2005 São Paulo – 1996
x f Notas f
2 4 2,9 |– 3,2 1
3 7 3,2 |– 3,5 1
4 5 3,5 |– 3,8 2
5 2 3,8 |– 4,1 5
6 2 4,1 |– 4,4 11
Total 20 4,4 |– 4,7 8
Fonte: Dados fictícios
Total 28
Fonte: Folha de S. Paulo, 22-01-1997

O símbolo |– indica que o intervalo é fechado à esquerda e aberto à direita,


por exemplo 2,9 |– 3,2, é de 2,9 inclusive até 3,2 exclusive, ou seja, os
valores desse intervalo são de 2,9 até 3,1. A formatação das tabelas de
distribuição de frequência é a mesma das séries estatísticas.

1.3.2 Dados brutos e rol

Dados brutos ou tabela primitiva são os dados na forma como foram coletados.
Rol conjunto obtido após a ordenação dos dados.
Exemplo:
Dados brutos: 13 25 35 25 25 15

Rol: 13 15 25 25 25 35

1.3.3 Elementos da distribuição

As distribuições de frequência são formadas por elementos básicos, o nome de cada elemento e sua
denominação ou símbolo devem ser bem observados, pois serão utilizados posteriormente na
aplicação de fórmulas de cálculos estatísticos. Fique atento!

 Classes (i): intervalo de variação da variável ou, simplesmente, os valores da variável.


 Limite de classe (Ls e Li): extremos de cada classe. Limite inferior (Li) - o menor valor e
limite superior (Ls) - o maior.
 Amplitude de um intervalo (h): diferença entre os limites superior e inferior de uma classe.
 Amplitude total (AT): diferença entre o limite superior do último intervalo e o limite inferior de
primeiro intervalo. Nas distribuições sem intervalos, é a diferença entre o maior e o menor
valor que a variável assume.

Unidade de Educação a Distância | Newton 34 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

 Amplitude amostral (AA): diferença entre o valor máximo e o mínimo observado na amostra.
Observe que, numa distribuição sem intervalo de classe, AA = AT.

 Ponto médio de uma classe (pm): média aritmética entre os limites do intervalo.

 Frequência simples (f): número de observações correspondente a uma classe ou um valor


da variável.

Algumas fórmulas estatísticas utilizam esses elementos e símbolos, por isso fique atento!

1.3.4 Elaboração da tabela

A elaboração da tabela sem intervalo de classe é simples: na primeira coluna, escrevemos os valores
que a variável assume e, na segunda coluna, a frequência, ou seja, quantas vezes ela aparece no
conjunto de dados.

Já a construção da tabela de distribuição de frequência com intervalo é mais elaborada. Devemos


determinar o número de classes a serem utilizadas, os limites das classes, e, então, determinar a
frequência de cada classe. O número de classes a serem consideradas e os limites das classes
podem ser estipulados pelo pesquisador de forma conveniente de acordo com os dados a serem
apresentados, mas existem algumas fórmulas que orientam a escolha do número de classe e seus
limites. Veja a seguir:

Sendo i o número de classes e N o número de dados do conjunto, temos:

raiz Sturges Milone


i N i  1  3,3 log N i  1  2 ln N

Os limites dos intervalos podem ser calculados pela fórmula h= AT/i, lembrando que a amplitude da
classe (h) deve ser arredondada sempre para mais (CRESPO, 1995, p. 62) e deve respeitar a
precisão dos dados (número de casa decimais). Lembre-se de que o limite superior da classe é
excluído pelo uso do símbolo |–, logo, para determinar AT, fazemos AA+1, ou seja, o maior valor do
conjunto menos o menor mais um.

Na maioria das vezes, devido a arredondamentos, o valor de i x h é diferente de AT. Para que a
diferença não fique acumulada de um lado só da distribuição, fazemos um ajuste para centralizar e
distribuir a diferença, repartindo igualmente entre o início e o fim da AT. Dessa forma, temos a AT a
ser considerada na construção dos limites das classes (MILONE, 2004, p. 39).

Após a definição do número de classes (i), da amplitude da classe (h) a ser considerada e da
amplitude total ajustada (AT), determinamos os limites das classes somando h ao limite inferior da
primeira classe para obter o limite superior, este será o inferior da segunda classe e, assim,

Unidade de Educação a Distância | Newton 35 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

sucessivamente até chegar ao limite superior estipulado pela AT ajustada. Note que o limite inferior
da primeira e o limite superior da última classe são iguais aos estipulados pela AT ajustada. Agora é
só determinar a frequência de cada classe. Acompanhe esse exemplo:

Considere os resultados, abaixo, referentes à demanda semanal (número em milhares de caixas), de


certo produto, observada em 48 semanas, em um estabelecimento comercial de médio porte.

248 251 256 259 262 264 265 265 266 266 268 268
249 252 257 260 262 264 265 266 266 267 268 269
250 253 258 260 263 264 265 266 266 267 268 270
250 255 258 260 263 264 265 266 266 268 268 270
Fonte: Dados fictícios

Construa uma tabela de distribuição de frequência com intervalo de classe.

1º) Determinação do número de classes (Pela regra de Sturges, temos):

i  1  3,3 log N
i  1  3,3 log 48 Como i deve ser um número natural
arredondamos para 7.
i  6,5481
i7
2º) Determinação da amplitude total (AT):

AA = máx – mín  AA = 270 – 248 = 22

A amplitude total (AT) a ser considerada será 23 (AA + 1, logo devemos ter limites que vão de 248 até
271, já que o limite superior é excluído da classe pela utilização do símbolo |–.

3º) Determinação da amplitude da classe (h):


AT
h O arredondamento de h é sempre para mais e deve respeitar a precisão dos
i
dados. Como nossos dados são números inteiros, utilizaremos 4.
23
h  3,2857
7
h4

4º) Ajuste

AT = 23  h x i = 7 x 4 = 28  28 – 23 = 5

Unidade de Educação a Distância | Newton 36 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

A diferença entre AT calculada e o valor de h x i deve ser repartida entre o início e o fim da
distribuição. Como a diferença é um valor ímpar (5), não pode ser repartida igualmente; faremos duas
partes desiguais (2 e 3), ficando a maior no final da amplitude total. A princípio, consideramos de 248
até 271, ajustando a diferença, subtraímos 2 no início e acrescentamos 3 ao final; dessa maneira, a
amplitude total ajustada será:

248 – 2 = 246 271 + 3 = 274

A amplitude total (AT) ajustada, a ser considerada na distribuição, é de 246 até 274.

5º) Determinação dos limites dos intervalos

Começamos pelo limite inferior determinado pela AT ajustada (246) e acrescentamos h para
determinar o limite superior da primeira classe, esse será o limite inferior da segunda; acrescentamos
h e teremos o limite superior da segunda classe que será, também, o limite inferior da terceira e,
assim, sucessivamente até atingir o limite superior estipulado pela AT ajustada (274). Observe:

+4 +4 +4 +4 +4 +4 +4
246 250 254 258 262 266 270
274

Os intervalos a serem considerados são:


Demanda f Agora é só
246 |– 250 determinar a
250 |– 254
254 |– 258 frequência de cada
258 |– 262 intervalo de acordo
262 |– 266 com o conjunto de
266 |– 270
270 |– 274 dados!
Total
Fonte: Dados fictícios

6º) Determinação da frequência de cada intervalo.


Com os limites das classes prontos, devemos determinar a frequência pela contagem de elementos
que pertencem a cada uma das classes. Como os dados já estão organizados, essa tarefa fica fácil.
Observe o conjunto:

248 251 256 259 262 264 265 265 266 266 268 268
249 252 257 260 262 264 265 266 266 267 268 269
250 253 258 260 263 264 265 266 266 267 268 270
250 255 258 260 263 264 265 266 266 268 268 270
Fonte: Dados fictícios

Unidade de Educação a Distância | Newton 37 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

A primeira classe contempla valores de 246 até 250, excluindo esse último; logo, os valores do
conjunto que pertencem ao primeiro intervalo são 248 e 249. O 250 pertence ao segundo intervalo
(250 |– 254). Dessa forma, a frequência da primeira classe será 2. A segunda classe engloba os
números 250, 251, 252 e 253, sua frequência será 5 e assim sucessivamente.

Demanda f
(em milhares de Está pronta a
caixas) tabela de
246 |– 250 2 distribuição de
250 |– 254 5 frequência com
254 |– 258 3 intervalos de
258 |– 262 6 classe!
262 |– 266 13
266 |– 270 17
270 |– 274 2
Total 48
Fonte: Dados fictícios

O somatóro das frequências das classe deve ser igual ao número de elementos no conjunto original.
Dessa forma está pronta e pode ser analisada.

1.3.5 Tipos de frequência

Todas as distribuições podem apresentar as seguintes colunas de frequência:

Frequência simples (f)  Resultante da contagem do número de elementos da amostra pertencente


a cada classe.

Frequência acumulada crescente (Fac)  Frequência simples da classe somada a todas as


frequências simples das classes anteriores a ela.

Frequência acumulada decrescente (Fad)  Frequência simples da classe somada com todas as
frequências simples das classes posteriores a ela.

Frequência simples relativa (fr)  Razão entre a frequência simples da classe e a frequência total.
Pode ser informada em porcentagem (%) ou em número decimal. Para o primeiro caso, o total deve
ser 100 e para o segundo deve ser 1. Devido a sucessivos arredondamentos, pode acontecer do total
não ser exatamente igual a 100 (ou igual a 1); nesses casos, devemos ajustar a frequência da
seguinte forma: caso o somatório ultrapasse (100,1; por exemplo), devemos diminuir a diferença (0,1)
na menor frequência, caso o somatório seja menor (99,9; por exemplo), devemos acrescentar a
diferença na maior frequência. Se houver empate na maior ou menor frequência, devemos pegar a
segunda maior ou a segunda menor. Esse princípio deve-se ao fato de que não iremos alterar a
ordem de grandezas entre as frequências fazendo esse ajuste, já que o maior continua sendo o maior
e o menor continua sendo o menor.

Unidade de Educação a Distância | Newton 38 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Frequência acumulada relativa (Fr)  frequência simples relativa da classe somada com todas as
frequências simples relativas das classes anteriores a ela. Assim como a frequência simples relativa,
ela pode ser informada em porcentagem ou número decimal.

Como não existe significado para o somatório das colunas de frequências acumuladas, utilizamos
dois pontos (∙∙) nas células relativas a esses totais na tabela. Acompanhe a determinação dessas
frequências no exemplo:

Demanda
fr
(em milhares de f Fac Fad Fr
(%)
caixas)
246 |– 250 2 2 48 4,2
250 |– 254 5 7 46 10,4
254 |– 258 3 10 41 6,3
258 |– 262 6 16 38 12,5
262 |– 266 13 29 32 27,1
266 |– 270 17 46 19 35,4
270 |– 274 2 48 2 4,2
Total 48 •• •• 100,1
Fonte: Dados fictícios

Perceba que, ao fazer o somatório de fr, obtemos 100,1. Devemos ajustar a frequência para que o
total seja 100. Como há excesso de 0,1, devemos diminuir essa diferença da menor frequência, que
seria 4,2; porém, existem duas classes com essa frequência, então, devemos utilizar a segunda
menor 6,3 referente à classe 254 |– 258, passa ser então 6,2.

Demanda
fr
(em milhares de f Fac Fad Fr
(%)
caixas)
246 |– 250 2 2 48 4,2 4,2
250 |– 254 5 7 46 10,4 14,6
254 |– 258 3 10 41 6,2 20,8
258 |– 262 6 16 38 12,5 33,3
262 |– 266 13 29 32 27,1 60,4
266 |– 270 17 46 19 35,4 95,8
270 |– 274 2 48 2 4,2 100
Total 48 •• •• 100,0 ••
Fonte: Dados fictícios

Cada um dos números das colunas de frequência possui um significado. Observe os valores da 5ª
classe:
f: Em 13 das 48 semanas pesquisadas, a demanda foi entre 262 e 265 milhares de caixas.
Fac: Em 29 semanas, a demanda foi de até 265 mil caixas.
Fad: 39 semanas apresentaram demanda de pelo menos 262 mil caixas.
fr: Em 27,1% das semanas, a demanda foi de 262 a 265 mil caixas.
Fr: Em 60,4% das semanas, a demanda foi de até 265 mil caixas.

Unidade de Educação a Distância | Newton 39 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

1.3.6 Histograma e polígono de frequência

As representações gráficas das distribuições de frequência recebem o nome de histograma e


polígono. Os histogramas são formados por colunas justapostas e podem ser elaborados utilizando
qualquer uma das frequências estudadas e o polígono é um gráfico de linha e pode ser construído
apenas a partir das frequências simples (absoluta ou relativa), ambos apresentam as frequências no
eixo vertical y e os valores da variável.

Para o nosso exemplo veja o histograma e o polígono, ambos construídos a partir da frequência
absoluta simples.

Demanda (milhares de caixas)


Fonte: Dados fictícios

Bons estudos e até a próxima unidade! Mas, antes, não deixem de visitar as próximas seções.

Unidade de Educação a Distância | Newton 40 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

2. Teoria na Prática

Ao analisar um gráfico, devemos observar todas


as informações apresentadas bem como o
comportamento do fenômeno representado,
identificar máximos, mínimos, padrões de
comportamento e sempre levar em consideração o
tipo de dado e sua unidade de medida.

Os gráficos, que apresentam dois ou mais tipos


(cores ou padrões) de linhas, colunas ou barras,
representam séries conjugadas (ou mistas),
nesses casos devemos analisar os dados em
conjunto e separadamente.

Podemos perceber que o gráfico apresenta os dados de uma série histórico-categórica pois
apresenta informações em função do tempo (anos, eixo horizontal) e de categorias (faixa estário,
legenda). Os dados estão na forma percentual. O percentual de crianças e jovens (representado pela
linha escura) na população brasileira está diminuindo enquanto o percentual de idosos (representado
pela linha clara) está aumentando.

Vejamos, agora, alguns itens a serem analisados em relação às informações do gráfico. Considere as
seguintes afirmativas e julgue-as em CERTO ou ERRADO.

A. A partir de 1960, o percentual de crianças e jovens no Brasil tem diminuído.

Crianças e jovens são representados no gráfico pela linha escura. Podemos perceber que o maior
percentual registrado para essa parcela da população é registrado em 1960 e, a partir daí, esse
número diminui ano a ano. Portanto, a afirmativa está CERTA.

B. Em 1950, crianças, jovens e idosos representavam 46% da população brasileira.

Crianças e jovens são representados no gráfico pela linha escura e idosos pela linha clara. Em 1950,
temos, no gráfico, crianças e jovens 41,8% e idosos 4,2%, somando temos 46%, logo a afirmativa
está CERTA.

C. Se, em 2000, a população brasileira era de 170 milhões de habitantes, mais de 15


milhões de brasileiros eram idosos.

Unidade de Educação a Distância | Newton 41 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Em 2000, o percentual de idosos na população brasileira era de 8,6%, se considerarmos uma


população nesse ano de 170 milhões de habitantes, podemos calcular o número de habitantes idosos
por regra de três simples, veja!

170 milhões   100 %


x   8,6%
100 x  170  8,6
Portanto, a afirmativa está ERRADA.
100 x  1462
1462
x  14,62 milhões
100

D. Se, em 2005, a população brasileira era de 180 milhões de habitantes, mais de 115
milhões de brasileiros tinham de 15 a 59 anos.

Nesse caso, devemos, primeiramente, determinar o percentual da população com idade de 15 a 59


anos. Essa população não é apresentada diretamente no gráfico, mas pode ser determinada
calculando o percentual da população de 0 a 14 anos e com 60 ou mais, que são os dados fornecidos
pelo gráfico.

0 a 14  27% 
35,4%
60 ou mais  8,4%
100  35,4  64,6

A população com idade de 15 a 59 anos representa 64,6% da população brasileira em 2005.


Considerando 180 milhões de habitantes teremos:

180 milhões   100 %


x   64,6%
100 x  180  64,6
Portanto, a afirmativa está CERTA!
100 x  11628
11628
x  116 ,28 milhões
100

Unidade de Educação a Distância | Newton 42 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

3. Síntese

Vamos rever os principais conceitos estudados na unidade 2?

Séries estatísticas são tabelas que apresentam dados que podem ser operados ou analisados em
diversas direções. Podem ser classificadas em temporal, geográfica ou específica quando possuem
apenas duas colunas (séries simples) ou através da combinação de dois desses nomes, quando
possuem três ou mais colunas (séries conjugadas).

Tabelas de distribuição de frequência são aquelas que relacionam o valor da variável (ou um
intervalo de valores) com sua frequência no conjunto de dados observados, ou seja, quantas vezes
ela aparece no conjunto.

As tabelas de distribuição de frequência podem ser construídas a partir do valor da variável ou de


intervalos; dessa forma, temos dois tipos de tabelas: COM INTERVALO ou SEM INTERVALO.

Gráfico é a representação visual de um fenômeno que utiliza eixos coordenados. Na construção de


um gráfico, devemos evitar exageros nas cores, linhas e informações adicionais.

Para tabelas de distribuição de frequência, temos tipos específicos de gráficos que utilizam as figuras
padrão como, colunas e linhas, porém com disposições e funções diferentes, são chamados de
histogramas e polígonos. Para fazer a apresentação de dados de uma pesquisa devemos utilizar
tabelas e gráficos construídos em conformidade com as normas da ABNT.

Até a próxima!

Unidade de Educação a Distância | Newton 43 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Unidade 3: Medidas de Posição e Medidas de Dispersão

1. Conteúdo Didático

A Estatística Descritiva é a parte da Estatística responsável pela coleta, organização e descrição de


dados (CRESPO, 1995). Para apresentar os resultados de uma pesquisa, utilizamos tabelas e
gráficos. Para descrever o fenômeno estudado, lançamos mão de medidas de resumo, como média e
desvio padrão.

Nesta unidade, estudaremos as formas de resumo e caracterização de dados e dos resultados de um


estudo. Vamos lá!

1.1 Medidas de Posição

Medidas características, ou medidas de resumo, são valores que buscam representar, resumir e
caracterizar um conjunto de dados, facilitando a interpretação e comparação de um ou vários
conjuntos.

As medidas características são separadas em:


 Medidas de posição: de tendência central (média, moda e mediana) ou separatrizes
(quartil).
 Medidas de variabilidade: variância, desvio padrão e coeficiente de variação.
 Medidas de assimetria: As medidas de assimetria expressam a forma que os dados
estão distribuídos em relação a uma medida de referência que pode ser a média, por
exemplo.

As medidas de posição são assim chamadas pois se relacionam à posição de determinados valores
no conjunto ordenado de dados. Entre as medidas de posição, destacamos:
 Tendência central: observadas no centro do conjunto ordenado, são elas: média, moda
e mediana.
 Medidas separatrizes: determinam valores que dividem o conjunto em partes iguais; os
quartis, por exemplo, dividem o conjunto em quatro partes de mesmo tamanho.

A seguir, vamos explicar mais sobre essas medidas, fique atento!

Unidade de Educação a Distância | Newton 44 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

1.1.1 Média

Média: É representada pelo símbolo x quando se refere a uma amostra; ou  (mi), quando se

refere à população. É calculada pela razão entre o somatório de todos os dados observados e o
número de dados (quantidade). Quando temos um rol ou acesso aos dados originais (não

 x , onde
agrupados), é representada pela fórmula x 
n
x é o somatório de todos os valores

observados e n é a quantidade de dados coletados. Observe:

Exemplo:

Determine a média para o conjunto: 85, 82,97, 88, 89, 97, 89, 93, 88, 97, 96, 97, 98, 93, 97
Observe que temos 15 elementos no conjunto. Deste modo, a média será a soma desses elementos
dividido por 15. Veja!

x
x  x
85  82  97  88  89  97  89  93  88  97  96  97  98  93  97 1386
  92,4
n 15 15

Já para trabalharmos com dados de tabelas de distribuição, utilizaremos a média aritimética


ponderada. Conheça as fórmulas:

Cálculo da média em tabelas de distribuição de frequência

Sem intervalo de classe Com intervalo de classe

x 
 f .x
n
x
 f .pm
 f.x é o somatório do produto entre o valor n
da variável e sua respectiva frequência.
n é a frequência total.

1.1.2 Moda
Moda: É o valor mais frequente no conjunto, ou seja, aquele que se repete mais vezes. É
representada pela sigla Mo.

Exemplo 1:

Determine a moda no conjunto: 85, 82, 97, 88, 89, 97, 89, 93, 88, 97, 96, 97, 98, 93, 97.

Mo = 97, pois esse é o valor que aparece o maior número de vezes


(cinco vezes, conforme você pode observar no conjuto)

Unidade de Educação a Distância | Newton 45 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Na distribuição de frequência sem intervalo, a moda será o valor que possuir a maior frequência
simples (f).

Um conjunto pode apresentar mais de uma moda, será BIMODAL quando apresentar dois valores
que se repetem em igual número de vezes sendo esses o maior do conjunto; trimodal, se forem três
valores.
Exemplo: Conjunto Bimodal: 2, 3, 3, 3, 5, 5, 7, 7, 7, 8, 8, 9.
Mo = 3 e 7 (repare que esses números aparecem três vezes, conforme destaco abaixo.)
Conjunto bimodal: 2, 3, 3, 3, 5, 5, 7, 7, 7, 8, 8, 9.

Para conjuntos onde não há repetição, ou onde todos os valores aparecem em igual número de
vezes, não haverá moda. Esses conjuntos recebem o nome de AMODAL.
Exemplo: Conjunto Amodal: 10, 10, 12, 12, 15, 15, 19, 19.

Para determinação da moda em dados não agrupados, observamos o elemento que mais se repete.

Exemplo 2 – Sem intervalo de classe:

Número de cômodos ocupados por vinte famílias entrevistadas


Belo Horizonte 2005
x f Legenda:
2 4 x– Número de Cômodos
3 7 f – Famílias
4 5
Mo = 3 , pois esse é o valor com maior frequência simples
5 2
6 2 (f), ou seja, repete mais vezes. Aqui ele aparece 7 vezes.
Total 20 Observe na 2ª classe!
Fonte: Dados fictícios

Para distribuição com intervalo de classe, a moda será calculada pela aplicação da fórmula de Czuber
à classe com maior frequência simples (f).

D1
Mo  Li  h D1  f  f ( ant) D2  f  f ( post)
D1  D2

Legenda:
Li é o limite inferior da classe considerada.
D1 é a diferença entre a frequência simples da classe e a frequência simples da classe anterior.
D2 é a diferença entre a frequência simples da classe e a frequência simples da classe posterior.
h é a amplitude da classe (Ls – Li).
Ls: Limite superior da classe

Unidade de Educação a Distância | Newton 46 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

f: Frequência simples absoluta da classe


f (ant): Frequência simples absoluta da classe anterior
f (post): Frequência simples absoluta da classe posterior

Exemplo 3 – Com Intervalo de Classe:


A moda será determinada pela fórmula de Czuber
Notas atribuídas a 28 produtos que deve ser aplicada à classe com maior
de informática pelo convênio Folha/USP frequência simples (f).
São Paulo – 1996
D1
Notas f Mo  Li  h D1  f  f( ant ) D2  f  f ( post )
D1  D2
2,9 |– 3,2 1
3,2 |– 3,5 1
3,5 |– 3,8 2 Para o exemplo, a quinta classe é a que possui a
3,8 |– 4,1 5* maior frequência (11).
4,1 |– 4,4 11 Aplicada a fórmula aos dados da quinta classe,
4,4 |– 4,7 8# temos:
Total 28
D1  11  5  6 D2  11  8  3
* Frequência anterior 6
# Mo  4,1   0,3  4,3
Frequência posterior 63
Fonte: Folha de S. Paulo, 22-01-1997

Características da moda: nem sempre existe, não é afetada por extremos, ou


seja, não sofre interferência de valores muito altos ou muito baixos
apresentados no conjunto, dependendo apenas da repetição dos elementos.
Pode ser determinada para variáveis qualitativas.

1.1.3 Mediana

Mediana: É o número que se encontra no centro de um conjunto de dados ordenados, dividindo o


conjunto em duas partes de mesmo tamanho, ficando 50% dos elementos em cada lado. É
representada pela sigla Md.

Para dados não agrupados, a mediana será o elemento central, determinada após a ordenação
(geralmente ordem crescente) dos dados. Caso o conjunto tenha quantidade par de elementos, a
mediana será determinada pela média aritmética dos dois valores centrais.

Exemplo 1

Determine a mediana para o conjunto: 85, 82, 97, 88, 89, 97, 89, 93, 88, 97, 96, 97, 98, 93, 97.

Unidade de Educação a Distância | Newton 47 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Primeiro, devemos ordenar o conjunto em ordem crescente. A mediana será o valor central. Como
temos 15 elementos, será aquele que ocupa a 7ª posição:

82, 85, 88, 88, 89, 89, 93, 93, 96, 97, 97, 97,97, 97, 98

Para melhor visualização, veja na tabela abaixo:

Posição Elementos
1 82
2 85
3 88
4 88
5 89
5 89
7 93 Md = 93
8 93
9 96
10 97
11 97
12 97
13 97
14 97
15 98

Em tabelas de distribuição de frequência sem intervalo de classe, identificamos o valor central como

aquele que possui Fac (frequência acumulada crescente) imediatamente superior a n , sendo n a
2

frequência total. Nas tabelas de distribuição de frequência, a última linha apresenta o somatório das
colunas para a coluna de f (frequência absoluta simples). O total representa o número de elementos
que foram pesquisados.

n
Observação: Caso haja classe com Fac exatamente igual , a mediana será
2
dada pela média aritmética entre o valor que possui essa Fac e o valor posterior.

Unidade de Educação a Distância | Newton 48 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Exemplo 2 – Sem intervalo de classe:


Primeiro, devemos construir a coluna de Fac, e, então,
n
Número de cômodos ocupados determinar qual a classe que possui Fac maior que .
por vinte famílias entrevistadas 2
Belo Horizonte 2005 n 20
Fac   Fac   Fac  10 (2ª classe)
x f Fac 2 2
Observe no final da tabela, n é a freqüência TOTAL, ou
2 4 4
seja, 20.
3 7 11
n
4 5 16 A classe é determinada pela expressão Fac  Para o
5 2 18 2
exemplo, calculamos n/2, ou seja, 20/2=10. A classe
6 2 20 mediana será aquela que apresenta Fac imediatamente
acima de 10, ou seja, a segunda classe, cuja Fac=11.
Total 20 ∙∙

Fonte: Dados fictícios A mediana será o valor da variável correspondente à


classe determinada.
Md = 3

Em distribuição com intervalo de classe, identificamos a classe que contém a mediana sendo a que

contém Fac imediatamente superior a n . Após a identificação, aplicamos a fórmula abaixo aos dados
2

dessa classe.

n
 Fac ( ant )
Md  Li  2  h , onde Li é o limite inferior do intervalo; n é a frequência total; Fac (ant) é a
f
frequência acumulada crescente da classe anterior; f é a frequência simples da classe; e h é
amplitude do intervalo.

n
Observação: caso haja classe com Fac igual , a mediana será dada pelo
2
limite superior dessa classe.

Exemplo 3 – Com intervalo de classe:

Unidade de Educação a Distância | Newton 49 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Primeiro construímos a coluna de Fac para identificar


Notas atribuídas a 28 produtos
a classe que contém a mediana.
de informática pelo convênio Folha/USP
São Paulo – 1996
n 28
Notas f Fac Fac   Fac   Fac  14 (5ª classe)
2,9 |– 3,2 1 1 2 2
3,2 |– 3,5 1 2
Agora, aplicaremos a fórmula aos dados da quinta
3,5 |– 3,8 2 4
classe:
3,8 |– 4,1 5 9*
n
#4,1 |– 4,4 11 20  Fac (ant )
4,4 |– 4,7 8 28 Md  Li  2 h
f
Total 28 ∙
14  9
Fonte: Folha de S. Paulo, 22-01-1997 Md  4,1   0,3  4,24
11
* Frequência anterior
#
limite inferior da 5ª Classe

Características da mediana: sempre existe, não é afetada por extremos.,


divide o conjunto em duas partes de mesmo tamanho.

1.1.4 Quartil

Quartil: São três valores que dividem o conjunto em quatro partes de mesmo tamanho, sendo que
cada uma das partes contém 25% do total de elementos. O conjunto terá 3 medidas (linhas de corte)
que o separam em 4 partes.

Q1 – Quartil inferior, ou primeiro quartil, separa o conjunto ficando 25% dos


elementos abaixo dele e 75% acima.
Q2 – Mediana (por ser o próprio valor da mediana não é utilizado)
Q3 – Quartil, superior ou terceiro quartil, separa o conjunto ficando 75% abaixo
dele e 25% acima.

25% 25% 25%25%

Q1 Q2 Q3

Num conjunto de dados não agrupados, o quartil de ordem k será o elemento que ocupar a
n
posição imediatamente superior a k  no conjunto ordenado (geralmente ordem crescente).
4

Unidade de Educação a Distância | Newton 50 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Quando falamos de:


Q1 – Quartil inferior, k tem um valor igual a 1.
Q3 – Quartil superior, k tem um valor igual a 3.

Exemplo 1:

Determine os quartis inferior e superior para o conjunto: 85, 82, 97, 88, 89, 97, 89, 93, 88, 97, 96, 97, 98, 93,
97.

Primeiro devemos ordenar o conjunto em ordem crescente.


82 85 88 88 89 89 93 93 96 97 97 97 97 97 98

15
Quartil inferior (Q1): Elemento que ocupa a posição superior a 1   3,75 , 4º elemento. Q1 = 88
4
15
Quartil superior (Q3): Elemento que ocupa a posição superior a 3   11,25 , 12º elemento. Q3 = 97
4
Posição Elementos
1 82
2 85
3 88
4 88 Q1 = 88
5 89
6 89
7 93
8 93
9 96
10 97
11 97
12 97 Q3 = 97
13 97
14 97
15 (Total de 98
elementos)

Em tabelas de distribuição de frequência sem intervalo de classe, identificamos o quartil de ordem k


(Qk, 1 se for quartil inferior ou 3 para quartil superior) como aquele que possui Fac (frequência
n
acumulada crescente) imediatamente superior a k  , sendo n a frequência total.
4

Unidade de Educação a Distância | Newton 51 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Observação: caso haja classe com Fac igual n , o quartil será dado pela
k
4

média aritmética entre o valor que possui essa Fac e o valor posterior.

Exemplo 2 – Sem intervalo de Classe:

Número de cômodos ocupados


por vinte famílias entrevistadas Primeiro devemos construir a coluna de Fac, e, então,
Belo Horizonte 2005 n
determinar qual a classe que possui Fac maior que k  .
4
x f Fac
Quartil inferior:
2 4 4
n 20
#3 7 11 Fac  k   Fac  1   Fac  5 (2ª classe)
*4 5 16 4 4
O quartil será o valor da variável correspondente à classe
5 2 18
6 2 20 determinada.
Total 20 ∙∙ Q1 = 3
Fonte: Dados fictícios

# 2ª Classe

* 3ª Classe

n 20
Quartil superior: Fac  k   Fac  3   Fac  15 (3ª classe)
4 4
O quartil será o valor da variável correspondente à classe determinada.

Q1 = 4
Em distribuição com intervalo de classe, identificamos a classe que contém o quartil de ordem k,
n
sendo aquela que possui Fac imediatamente superior a k  . Após a identificação, aplicamos a
4
fórmula abaixo aos dados dessa classe.
n
k  Fac ( ant )
Q k  Li  4  h , onde Li é o limite inferior do intervalo; n é a frequência total; Fac (ant) éa
f
frequência acumulada crescente da classe anterior; f é a frequência simples da classe; e h é
amplitude do intervalo.

Unidade de Educação a Distância | Newton 52 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

n
Observação: Caso haja classe com Fac igual a k  , o quartil será dado pelo
4
limite superior dessa classe.

Exemplo 3 – Com intervalo de classe:


Primeiro construímos a coluna de Fac para identificar a
Notas atribuídas a 28 produtos classe que contém o quartil desejado.
de informática pelo convênio Folha/USP
São Paulo – 1996 Quartil inferior:
n 28
Notas f Fac Fac  k   Fac  1   Fac  7 (4ª
4 4
2,9 |– 3,2 1 1 classe)
3,2 |– 3,5 1 2 Aplicaremos a fórmula aos dados da 4ª classe.
3,5 |– 3,8 2 4 n
k   Fac ( ant )
3,8 |– 4,1 5 9
Q k  Li  4 h
4,1 |– 4,4 11 20 f
4,4 |– 4,7 8 28 74
Total 28 ∙ Q1  3,8   0,3  3,98
5
Q1 = 3,98
Fonte: Folha de S. Paulo, 22-01-1997

n 28
Quartil superior: Fac  k   Fac  3   Fac  21 (6ª classe)
4 4
Aplicaremos a fórmula aos dados da 5ª classe.

n
k  Fac ( ant )
Qk  Li  4 h
f
21  20
Q1  4,4   0,3  4,44
8

1.1.5 Percentil

Assim como os quartis, os percentis são medidas de posição. Enquanto os quartis apresentam 3
medidas (Q1, Q2 e Q3), que dividem o conjunto em 4 partes, os percentis apresentam 99 valores que
dividirão o conjunto em 100 partes. Cada um desses 99 valores recebe a indicação de P 1, P2, P3, ...,
P99.

Veja a representação do P80 (percentil de ordem 80 ou octogésimo percentil) que divide os dados,
estando 80% abaixo e 20% acima dele.

Percentil de ordem k será o valor que ocupar a


80% 20% n
posição k  .
P80 100

Unidade de Educação a Distância | Newton 53 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

A determinação do Percentil é semelhante a do Quartil, ambos são medidas


de posição. Enquanto o quartil divide em 4 partes, o percentil divide em 100,
daí a semelhança no processo de determinação dessas medidas.

A identificação do percentil em distribuições de frequência é feita através da coluna de frequência


acumulada crescente (Fac). A classe que contém o percentil será identificada como aquela que
n
possuir Fac imediatamente superior a k  .
100
n
Fac > k  onde k indica a ordem do percentil e n a frequência total.
100

Resolução: Primeiro, devemos construir a


Exemplo: Calcular o P85
coluna de Fac, e, então, determinar qual a classe
n
que possui Fac maior que k  . Para a
100
Número de cômodos ocupados por vinte famílias
entrevistadas- Belo Horizonte 2005 determinação de P85 o valor de k é 85.
x f Fac n 20
Fac  k   Fac  85   Fac  17
2 4 4 100 100
3 7 11 (4ª classe)

4 5 16 Observe, no final da tabela, n é a freqüência

5 2 18 TOTAL, ou seja, 20.

6 2 20 A classe é determinada pela expressão

Total 20 ∙∙ n n
k Para o exemplo, calculamos k  , ou
Fonte: Dados fictícios
100 100
20
seja, 85   17 . A classe que apresenta o P85
100
será aquela que apresenta Fac imediatamente
acima de 17, ou seja, a quarta classe, cuja
Fac=18.
O P85 será o valor da variável correspondente à
classe determinada.
20
Fac  85  Fac  17 4 a Classe
100
P85  5

n
Observação: caso haja Fac exatamente igual ao valor de k  , o percentil será a média
100
aritmética entre a classe que contém essa Fac e a posterior.

Unidade de Educação a Distância | Newton 54 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Para distribuição de frequência com intervalo de classes, seleciona-se a classe com Fac
n
imediatamente superior a k  , e aplica-se a fórmula abaixo.
100
Li – limite inferior da classe
n – frequência total
n
k  Fac( ant ) Fac(ant) – frequência acumulada crescente da
Pk  Li  100 h classe anterior.
f f – frequência simples da classe
h – amplitude da classe

n
Observação: caso haja alguma Fac exatamente igual a k  , o percentil será o limite superior
100
dessa classe.
Veremos a seguir um exemplo da resolução desta fórmula.

Exemplo: Calcular o P70


Notas atribuídas a 28 produtos
de informática pelo convênio Folha/USP
São Paulo – 1996
Notas f Fac
Resolução:
2,9 |– 3,2 1 1
28
3,2 |– 3,5 1 2 Fac  70  Fac  19,6 5 a Classe
100
3,5 |– 3,8 2 4
19,6  9
3,8 |– 4,1 5 9 P70  4,1   0,3  4,389090  4,39
11
4,1 |– 4,4 11 20
4,4 |– 4,7 8 28
Total 28 ∙∙

Fonte: Folha de S. Paulo, 22-01-1997

As medidas de posição não são suficientes para caracterizar completamente o conjunto de dados,
muitas vezes, precisamos de informações que nos permitam comparar conjuntos quanto a sua
distribuição de elementos, ou seja, os elementos que compõem o conjunto apresentam valores
próximos ou não. Para fazer essa análise, utilizamos as medidas de variabilidade. Veja a seguir!

Unidade de Educação a Distância | Newton 55 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

1.2 Medidas de variabilidade

As medidas de variabilidade complementam as informações fornecidas pelas medidas de posição.


Seu principal objetivo é informar como os dados se distribuem em relação a uma das medidas
de posição. Elas nos trazem informação sobre a homogeneidade do conjunto, se os elementos estão
ou não muito dispersos entre si. As principais medidas de dispersão são: variância, desvio padrão e
o coeficiente de variação. Não possuem significado isolado, mas quando comparamos dois
conjuntos de dados, o conjunto mais homogêneo será aquele com menor variância, desvio padrão ou
coeficiente de variação.

Vejamos agora como calculá-las.

1.2.1 Variância e desvio padrão

Variância e desvio padrão: A variância é representada por s2, se for referente à amostra e, por σ2
(sigma minúsculo), se for referente à população. O desvio padrão, por ser operacionalmente a raiz
quadrada da variância, será representado por s, se referente à amostra e σ, se referente à
população. Não existe significado para o desvio padrão tomado de maneira isolado. Sua
aplicabilidade está ligada à comparação de conjuntos de dados de mesma natureza. Aquele conjunto
que apresenta o menor desvio padrão (ou variância) é o conjunto mais homogêneo ou mais regular.
Vamos conhecer as fórmulas:

Variância Onde:
Dados não agrupados Dados Agrupados
s2 – variância amostral
 x  x  ou  f  x  x 2  ou
2
σ2 – variância populacional
s2  s2  n – número de
n 1 n 1
observações
Amostral
1   x 2  1 

  f  x 2    fn x 
2  x – valor de cada
s2 
n 1
 x2 
n 
s2 
n 1 


elemento, quando se tratar
   de distribuição de
frequência , x será o ponto
 x     f  x   2 
2
médio de cada classe.
2  ou 2  x – média amostral
n n
μ – média populacional
Populacional
  fn x 
∑ - símbolo matemático
2 
1 
 x2 
 x 2  2 
1 

  f  x 2 
2 
 que indica somatório
n  n  n  
  

Existem duas fórmulas diferentes para o cálculo da variância e, consequentemente, para o desvio padrão.
A diferença entre elas é o uso da média do conjunto ( x ). Perceba que sendo a média um valor não inteiro,
feito o arredondamento, teremos um erro associado ao cálculo que será maior ainda, já que esse valor
será elevado ao quadrado. Por isso, daremos preferência à segunda fórmula – sem o uso da média.

Unidade de Educação a Distância | Newton 56 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

O desvio padrão será a raiz quadrada da variância, também, respeitando distinção entre amostral e
populacional. Basta inserir uma raiz quadrada sobre qualquer uma das fórmulas dadas para variância.

Desvio Padrão
Amostral Populacional

s  s2   2

Exemplo 1: Considerando como amostra, calcule a variância e o desvio padrão:


85, 82, 97, 88, 89, 97, 89, 93, 88, 97, 96, 97, 98, 93, 97

Resolveremos o problema pelas duas fórmulas apresentadas para o cálculo de variância (chamamos de 1º
método: com o uso da média; 2º método: sem o uso da média.)
Para facilitar, montamos uma tabela com as colunas necessárias ao cálculo.

A média é 92,4.
1o método 2o método

Peso (x) (x- x )2 Peso (x) x2


82 108,16 82 6724
85 54,76 85 7225
88 19,36 88 7744
88 19,36 88 7744
89 11,56 89 7921
89 11,56 89 7921
93 0,36 93 8649
93 0,36 93 8649
96 12,96 96 9216
97 21,16 97 9409
97 21,16 97 9409
97 21,16 97 9409
97 21,16 97 9409
97 21,16 97 9409
98 31,36 98 9604
Σx = 1386 Σ(x- x )2 = 375,6 Σx = 1386 Σx2 = 128442

Calculando a Variância
2º Método
1º Método
s 
2 1 
 x 
2
 x 
2


n 1 
 x  x  n 
2
 
s 2

n 1 1  1386 
2
s 2   128442  
375,6 375,6 14  15 
s2    26,8285714286
15  1 14
 128442  128066,4 
1

 26,83 14
1
  375,6  26,8285714286  26,83
14

Agora, o desvio padrão!

Unidade de Educação a Distância | Newton 57 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

O desvio padrão é uma medida estatística muito importante mas que não assume significado quando
tomado isoladamente, sua aplicação está ligada à comparação entre conjuntos de mesma natureza
quando avaliamos a variabilidade do dados. Além disso ele é a base para muitos cálculos utilizados
em inferência estatística como margem de erro de pesquisas e outros.

Para determinar o desvio padrão, basta extrair a raiz quadrada do resultado obtido na variância.

s  s2

s 26,83  5,18

Exemplo 2 – Calcular a variância e o desvio padrão:

1o Método
Solução: Acrescentamos as colunas
Número de cômodos ocupados por vinte famílias necessárias ao cálculo f.(x – x )2.
entrevistadas

 f  x  x 2 
Belo Horizonte 2005
x f s2 
f  x  x 2 n 1
2 4 9,61
3 7 2,1175
28,95 28,95
4 5 1,0125 s2    1,5236842105 3  1,52
5 2
20  1 19
4,205
6 2 12,005
Total 20 28,95
Fonte: Dados fictícios

2o Método
Número de cômodos ocupados por vinte famílias Solução: Acrescentamos as colunas
entrevistadas necessárias ao cálculo f.x e f.x2.Variância
Belo Horizonte 2005

1 
  fn x 


2
x f f.x f.x2
s2    f  x 2  
2 4 n 1  
8 16 
3 7
21 63
1  712 
 281  252,05  
1
4 5
20 80 s2   281  
19  20  19
5 2
10 50
6 2  1,5236842105 3  1,52
12 72

Total 20 71 281
Fonte: Dados fictícios

Unidade de Educação a Distância | Newton 58 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Desvio Padrão

s  s2

s  1,52  1,23

Para o cálculo de variância, em dados agrupados com intervalo de classe, substituímos o valor da
variável (x) pelo ponto médio da classe, o mesmo processo utilizado no cálculo da média. Veja!

Exemplo 3 – Calcular a variância e o desvio padrão:

1o Método
Notas atribuídas a 28 produtos de informática pelo convênio Folha/USP
São Paulo – 1996
Notas f Pm f  pm f   pm  x 2 Para calcular variância e
2,9 |– 3,2 1 3,05 3,05 1,2321 desvio padrão para dados
3,2 |– 3,5 1 3,35 3,35 0,6561
agrupados com intervalo de
3,5 |– 3,8 2 3,65 7,3 0,5202
3,8 |– 4,1 5 3,95 19,75 0,2205 classe substituímos x por pm
4,1 |– 4,4 11 4,25 46,75 0,0891
4,4 |– 4,7 8 4,55 36,4 1,2168 nas fórmulas.
Total 28 ∙∙ 116,6 3,9348
Fonte: Folha de S. Paulo, 22-01-1997

x
 f  pm  116,6  4,16
n 28

s 2

 f  pm  x  
2

n 1
3,9348 3,9348
s2    0,146
28  1 27

2o Método

  f npm 
Notas atribuídas a 28 produtos de informática pelo convênio Folha/USP
1  

2
São Paulo – 1996
Notas f Pm f  pm s2    f  pm 2  
2
f  pm n 1  

2,9 |– 3,2 1 3,05 3,05 9,3025
3,2 |– 3,5 1 3,35 3,35 11,2225
s2 
1 
 489,49 
116,62  
3,5 |–
3,8 |–
3,8
4,1
2
5
3,65
3,95
7,3
19,75
26,645
78,0125

27  28 
4,1 |– 4,4 11 4,25 46,75 198,6875
4,4 |– 4,7 8 4,55 36,4 165,62
 489,49  485,556   0,146
Total 28 ∙∙ 116,6 489,49 1
Fonte: Folha de S. Paulo, 22-01-1997

27

Desvio Padrão
s  s2
s  0,146  0,382

Unidade de Educação a Distância | Newton 59 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

1.2.2 Coeficiente de variação

Coeficiente de variação: É um valor dado em porcentagem que permite comparar dados de


natureza diferente, o que não é conseguido pelo uso da variância e do desvio padrão. Podemos com
o auxílio do coeficiente de variação (CV) comparar, por exemplo, qual a variável que apresenta mais
dispersão – peso ou estatura? – nos alunos de uma turma. A menor dispersão é da variável que
apresenta o menor CV.
s
CV   100 , onde s é desvio padrão; x é a média; e CV o coeficiente de variação.
x

Exemplo: O desempenho de uma turma em uma prova de matemática, valendo 20 pontos foi média
17,5 com desvio padrão 5. Em estatística, a prova valia 10, a média foi 6,8 com desvio padrão 2.

Em qual das disciplinas a turma é mais homogênea em relação à nota?

Podemos responder a essa pergunta com base no coeficiente de variação. Para isso, calculamos
separadamente o CV de cada disciplina:

5 2
CV MAT   100  28,6% CV EST   100  29,4%
17,5 6,8

Legenda:
CV MAT = coeficiente de variação das notas de matemática
CV EST = coeficiente de variação das notas de estatística

Como em matemática o CV é menor, a turma é considerada mais homogênea em relação às notas


dessa prova.

1.3 Medidas de Assimetria


O estudo de assimetria está ligado à comparação da curva polida (obtida a
partir do polígono de frequência) com a curva Normal ou também conhecida
como curva de Gauss. Considera-se simétrica uma distribuição que possui
os mesmos valores para média moda e mediana.
x  Mo  Md

A distribuição será assimétrica quando “puxar” para um dos lados. Nesses casos, não haverá
coincidência entre os valores de média, moda e mediana:

Unidade de Educação a Distância | Newton 60 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Mo <Md< x
x <Md< Mo Curva assimétrica à direita ou
Curva assimétrica à esquerda ou assimetria positiva
assimetria negativa.

Podemos mensurar o grau de assimetria de um conjunto através da fórmula:

AS  3 
x  Md 
s

O resultado do cálculo indica o tipo de assimetria através dos sinais negativo e positivo. Quanto à
intensidade, utizamos a seguinte escala avaliando o módulo (valor desprezando o sinal) do resultado
da fórmula acima.

Fonte: autora.

Veja a aplicação desses conceitos:

Exemplo: Em 1996, o convênio Folha/USP, em São Paulo, avaliou 28 produtos de informática. A nota
média foi 4,16 pontos com desvio padrão de 0,382 pontos e a mediana foi 4,24 pontos. Determinar e
classificar a assimetria.

AS  3 
x  Md   3  4,16  4,24   0,628
s 0,382
Esse conjunto apresenta assimetria negativa ou à esquerda, e possui intensidade moderada, de
acordo com a escala apresentada.

Terminamos aqui mais uma unidade, mas antes de avançar para a unidade 4, visite as próximas
seções, “Teoria na Prática” e “Sintese”. Aguardo você lá.

Unidade de Educação a Distância | Newton 61 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

2. Teoria na Prática

Vejamos outras formas de calcular a média para classes com ou sem intervalos.

Exemplo 1 – Sem intervalo de Classe: A média será calculada pela fórmula x 


 f .x . Para auxiliar a
n
análise, construiremos a coluna de f .x na tabela. Os valores
Número de cômodos ocupados
por vinte famílias entrevistadas dessa coluna serão calculados multiplicando-se o valor da
Belo Horizonte 2005
variável (x) pela frequência simples (f) respectiva em cada uma
x f f.x
2 4 8 das classes. A primeira classe é 2 x 4 = 8, a segunda é 3 x 7 = 21
3 7 21 e, assim, sucessivamente. Após o cálculo, devemos somar todos
4
5
5
2
20
10
os valores. Esse resultado será x .
6 2 12
Total 20 71 n é a frequência total. Logo, a média será:
Fonte: Dados fictícios

x 
 f .x  x 
71
 3,55
n 20

A média será calculada pela fórmula x 


 f .pm . pm é o ponto
Exemplo 2 – Com intervalo de Classe: n
médio do intervalo (limite inferior mais limite superior divido por dois).
Notas atribuídas a 28 produtos
de informática pelo convênio Folha/USP Para auxiliar a análise, construiremos as colunas de pm e de f.pm na
São Paulo – 1996 tabela. Os valores dessa última coluna serão calculados
Notas f pm f.pm
multiplicando-se o valor do ponto médio (pm) pela frequência simples
2,9 |– 3,2 1 3,05 3,05
3,2 |– 3,5 1 3,35 3,35 (f) respectiva em cada uma das classes. Após o cálculo, devemos
3,5 |– 3,8 2 3,65 7,30 somar todos os valores; esse resultado será  f.pm . Não existe
3,8 |– 4,1 5 3,95 19,75
significado para o somatório dos valores de pm; logo, colocaremos
4,1 |– 4,4 11 4,25 46,75
4,4 |– 4,7 8 4,55 36,40 dois pontos (∙∙) na célula de total da coluna.
Total 28 ∙∙ 116,6
Fonte: Folha de S. Paulo, 22-01-1997 n é a frequência total. Logo, a média será:

x
 f . pm  x
116,6
 4,16
n 28

Característica da média: sempre existe, pode assumir qualquer valor entre o


piso e o teto do conjunto considerado. Não é, necessariamente, um valor do
conjunto. É afetada por todos os elementos.

Unidade de Educação a Distância | Newton 62 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

3. Síntese

O que vimos nesta unidade?

As medidas de resumo caracterizam um conjunto, sintetizando seu comportamento em um só


número. Podem ser separadas em: Medidas de Posição e Medidas de Variabilidade (ou dispersão).
As medidas de posição podem ser de tendência central: média, moda e mediana; ou medidas
separatrizes, que separam o conjunto, sendo para os quartis 4 partes de mesmo tamanho e os
percentis, 100 partes. Além dessas, existem as medidas de variabilidade que indicam o
comportamento dos elementos dos conjuntos em relação à média. São chamadas de medidas de
variabilidade ou medidas de dispersão: variância, desvio padrão e coeficiente de variação.

Média
Tendência central Moda
Mediana
Posição
Separatrizes Quartil
Medidas resumo

Variabilidade
Variância
Desvio padrão
Coeficiente de
variação

Outra medida que caracteriza um conjunto é a assimetria que indica o grau de proximidade da curva
polida (construída com base no polígono de frequência) e a curva padrão (curva Normal ou também
chamada de curva de Gauss).

Essas medidas permitem ao pesquisador retratar características dos conjuntos que permitem
comparar e a partir daí fazer a análise em relação às informações obtidas.

Unidade de Educação a Distância | Newton 63 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Unidade 4: Probabilidade

1. Conteúdo Didático

As probabilidades fazem parte do cotidiano de qualquer pessoa. Mesmo sem perceber, estamos
sempre em contato com elas, por exemplo, ao ver a previsão da meteorologia. Outra aplicação
interessante está ligada ao cálculo de valor a ser pago por seguro, seja de vida, automóveis ou outros
bens com a utilização do perfil do segurado. É por meio da probabilidade que o valor a ser pago é
calculado. Por exemplo, no seguro de um automóvel, se o proprietário tem garagem, qual a
implicação disso no valor a ser pago? O carro estando na rua, existirá uma maior probabilidade de
roubo do veículo e, consequentemente, maior probabilidade da seguradora ter que ressarcir o
proprietário. O sexo, a idade e o estado civil também são fatores determinantes nesse caso.

É isso aí, vamos ver agora o que é probabilidade! Como vimos na unidade 01, probabilidade é a parte
da Estatística que se ocupa do estudo de fenômenos de caráter aleatório, ou seja, aqueles cujos
resultados possíveis são conhecidos, porém, incertos. Por exemplo, o amigo oculto, que consiste em
fazer um sorteio entre um grupo de pessoas, é uma brincadeira muito popular nas festas de fim de
ano,. Cada um retira o nome de uma pessoa para presentear, quando você vai retirar o seu
papelzinho, sabe exatamente quais são os possíveis resultados, mas não consegue dizer ao certo
qual será.

Antes de ver os cálculos das probabilidades e suas teorias, precisamos entender alguns conceitos.
Veja a seguir!

1.1 Conceitos

Para entender a Teoria das Probabilidades, devemos conhecer alguns conceitos utilizados. É
necessário conhecer cada um deles para facilitar a compreensão. Veja a seguir!

 Experimento aleatório (ou prova): são fenômenos ou


experimentos que possuem resultados conhecidos, mas que
não podem ser previstos. No jogo de cara ou coroa, por
exemplo, sabemos que os resultados possíveis são cara ou
coroa, mas não podemos determinar ao certo qual será o
resultado ao lançar a moeda. Outros exemplos são jogos de
futebol, que podem resultar em vitória para um time, para o
outro, ou em empate. Ao lançarmos um dado, conhecemos Fonte: Disponível em:
http://paulinhobarrapesada.blogs
pot.com Acesso em: 17/01/2011

Unidade de Educação a Distância | Newton 64 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

todos os resultados possíveis, mas não conseguimos prever


o resultado ao certo.

 Espaço amostral: é o conjunto formado por todos os resultados possíveis de um


experimento. Convencionalmente, iremos chamá-lo de S. No jogo de dados, por exemplo
S={1, 2, 3, 4, 5, 6}, para o sexo no nascimento de um bebê S={feminino, masculino}.

 Evento: é qualquer subconjunto do espaço amostral. São representados por conjuntos


nomeados por letras maiúsculas. Veja os exemplos:
Evento A: obter número par no lançamento de um dado. A={2, 4, 6}
Evento B: filhos do mesmo sexo no nascimento de dois bebês. B={feminino/feminino,
masculino/masculino}.

Na aplicação das definições de probabilidade, utilizamos esses conceitos, portanto, fique atento a
cada um deles para que você possa diferenciá-los e identificá-los.

1.2 Definição clássica e frequencial de probabilidade

Existem duas definiões de probabilidade: a clássica e a frequencial. Ambas determinam a


probabilidade de ocorrência de um evento em um experimento aleatório, mas diferem-se na forma
como são determinadas. Veja!

Na definição clássica, as probabilidades são teóricas e determinadas a


priori, ou seja, independente da realização do experimento. É válida para
experimento com objetos probabilísticos, ou seja, aqueles que não sejam
tendenciosos ou viciados, com resultados equiprováveis. (Milone, 2004)

Nesse conceito, a probabilidade de ocorrência de um evento A, denominada como p(A), é dada pela
razão (divisão) entre o número de elementos do evento A - denominado n(A) - e o número de
elementos do espaço amostral - denominado n(S).

nA
p( A) 
nS 

A probabilidade pode ser expressa de 3 maneiras distintas: na forma de fração, por número decimal
ou na forma de porcentagem. Veja o exemplo!

Unidade de Educação a Distância | Newton 65 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Qual a probabilidade de se obter o número 5 no lançamento de um dado? Experimento aleatório:


lançamento de um dado / Espaço amostral: S={1, 2, 3, 4, 5, 6} (6 elementos) / Evento A: obter
número 5: A={5} (1 elemento)
nA 1
p( A)   ou 0,1667 ou 16,67%
nS  6
Fração Decimal Porcentagem

No lançamento de uma moeda, qual a probabilidade de se obter cara?


S={cara, coroa} (2 elementos)
B={cara} (1 elemento)
nB  1
p(B)   ou 0,5 ou 50%
nS  2

Observe que esses são experimentos com resultados equiprováveis, ou seja,


cada um dos resultados tem a mesma chance de ocorrer.

Agora vamos ver a definição frequencial!

Na definição frequencial, a probabilidade de ocorrência é baseada em um ensaio feito, realizado,


observando a ocorrência dos resultados de um experimento, por isso, é denominada a posteriori.
Nesse caso, a probabilidade de ocorrência é dada pela frequência relativa. (Milone, 2004).

pA  f A , onde p(A) indica a probabilidade de ocorrência do evento A e f(A) é a frequência relativa

a esse evento. Veja o exemplo!

Durante 30 dias, foi observado o número de acidentes numa empresa. O resultado está apresentado
a seguir:
Número de Número
p(x)
acidentes (x) de dias
18
0 18  0,60
30
6
1 6  0,20
30

4
2 4  0,13
30

2
3 2  0,07
30
Total 30 1,00
Fonte: Dados fictícios

Unidade de Educação a Distância | Newton 66 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Qual a probabilidade de em um dia qualquer ocorrerem 2 acidentes?


Estamos procurando p(2).
p(2)=0,13 ou 13%
Na tabela, temos x= {0, 1, 2, 3} que indicam o número de acidentes. p(2) indica a probabilidade de em
um dia qualquer haver 2 acidentes, o que é representado pela frequência relativa dessa classe na
tabela. Ou seja, a probabilidade de ocorrerem dois acidentes, em um dia qualquer, é de 13%.

1.3 Tipos de eventos

Já vimos que eventos são subconjuntos do espaço amostral que determinam elementos com alguma
característica em comum. Vimos um evento qualquer e o cálculo de probabilidade de ocorrência.
Vamos ver agora outros tipos de eventos.

 Evento certo: ocorre sempre, sua probabilidade de ocorrência é 100%, ou seja, os conjuntos
evento e espaço amostral são iguais. Podemos citar como evento certo obter um número
menor que sete no lançamento de um dado. Os dados têm faces numeradas de 1 a 6; logo,
qualquer um dos resultados atende ao evento número menor que sete.

 Evento impossível: nunca ocorre, a probabilidade de ocorrencia é 0 (zero). O conjunto


evento não possui elementos, ou seja, é um conjunto vazio (Ø). Como exemplo, podemos
considerar obter um número maior que oito no lançamento de um dado.

Ao considerar dois eventos conjuntamente, podemos considerá-los complementares,


independentes ou mutuamente exclusivos.

Dois eventos são ditos complementares quando a união deles resulta no espaço amostral.
Consideremos o lançamento de um dado e dois eventos A e B sendo:

Evento A: obter número par. A={2, 4, 6}


Evento B: obter número ímpar. B={1, 3, 5}
O espaço amostral S={1, 2, 3, 4, 5, 6}
AUB = {1, 2, 3, 4, 5, 6} = S

A probabilidade de ocorrência da união de dois eventos complementares é 100%.

Dois eventos são considerados independentes quando a ocorrência, ou não, de um deles não
interfere na ocorrência do segundo, e vice-versa. Veja o exemplo!

Consideremos dois lançamentos de um dado, ou o lançamento de dois dados, e os eventos:

Unidade de Educação a Distância | Newton 67 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

A: obter o número 3
B: obter o número 5

O resultado do primeiro lançamento não interfere no resultado do segundo lançamento, logo os


eventos A e B são independentes. Para esses casos, podemos considerar a realização de ambos, ou
seja, qual seria a probabilidade de ocorrer 3 no primeiro lançamento e 5 no segundo?

Poderemos determinar a probabilidade de ocorrência de dois eventos independentes,


simultaneamente, utilizando a regra do produto.

A regra do produto diz que a probabilidade de ocorrência de dois ou mais eventos independentes,
simultaneamente, é dada pelo produto das probabilidades de ocorrência de cada um.
p  pA  pB 

Para o nosso problema, temos:


p(A)=1/6
p(B)=1/6

Logo, a probabilidade de obter 3 no primeiro lançamento e 5 no segundo será:

p3 e 5   pA   pB  


1 1 1
  ou 0,0278 ou 2,78 %
6 6 36

Dois eventos são ditos mutuamente exclusivos quando a ocorrência de


um impossibilita a ocorrência do outro; são eventos que não ocorrem
simultaneamente, seus conjuntos são chamados disjuntos, ou seja, não
possuem elementos em comum.

Por exemplo, podemos considerar o lançamento de um dado e os eventos:


A: obter o número 4.
B: obter um número ìmpar.
A e B são conjuntos disjuntos pois não possuem elementos em comum.
Qual é a probabilidade de ocorrer o número 4 ou um número ímpar?

Esse problema pode ser respondido com a utilização da regra da soma.

A regra da soma diz que, se dois eventos são mutuamente exclusivos, a probabilidade de ocorrência
de um ou outro na realização de um experimento é dada pela soma das probabilidades de ocorrência
individual de cada um.
p  pA  pB 

Unidade de Educação a Distância | Newton 68 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Ou seja, se queremos determinar a probabilidade de ocorrer o número 4 ou um número ìmpar no


lançamento de um dado, fazemos:
p(A)=1/6
p(B)=3/6=1/2
1 1 1 3 4 2
p4 ou ímpar       ou 0,6667 ou 66,67%
6 2 6 6 3

1.4 Distribuição de Probabilidade

A distribuição de probabilidade é construída observando os resultados possíveis de um experimento e


a sua frequência relativa. Ela representará a probabilidade de ocorrência do evento. Existem alguns
modelos teóricos de distribuição de probabilidade.

Esses modelos permitem a determinação da probabilidade de ocorrência de um evento sem a sua


realização baseada em características de aplicação próprias de cada modelo. Nesta unidade,
estudaremos a Distribuição Binomial, para eventos de resultados dicotômicos (certo/errado,
verdadeiro/falso, por exemplo) e a Distribuição Normal, aplicada a fenômenos que possuem curva
de frequência em forma de sino (Curva de Gauss ou curva normal) como a maioria dos fenômenos
socioeconômicos, e ainda características populacionais como peso, altura, idade, e outros.

Para entender como funcionam os modelos de distribuição de probabilidades Binomial e Normal,


precisamos saber o que é variável aleatória. Vamos lá!

1.4.1 Variável aleatória

Considere o lançamento de duas moedas, o espaço amostra é S={ (cara, cara), (cara, coroa), (coroa,
cara), (coroa, coroa)}. Associamos um número x a cada ponto amostral, representado o número de
caras, assim teremos:

Ponto amostra x
coroa, coroa 0
coroa, cara 1
cara, coroa 1
cara, cara 2

x é a variável aleatória e representa o número de caras, assume valores inteiros entre 0 e 2. Dessa
forma, a função probabilidade é dada por f x   p( X  x) , ou seja, a probabilidade da variável

aleatória X assumir um valor x. p(x=1) indica a probabilidade de ocorrer 1 cara no lançamento das
duas moedas.

Unidade de Educação a Distância | Newton 69 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Com base na variável aleatória x (número de caras), no nosso exemplo, podemos montar a
distribuição de probabilidade, associando a ocorrência do número de caras e sua respectiva
probabilidade, veja:

x p(x) Aqui temos a probabilidade associada ao


0 número de caras no lançamento de duas
1
 0,25  25% moedas (ou lançamento de uma moeda
4 duas vezes), com isso percebemos, por
exemplo, que a probabilidade de obter
 
Distribuição de
probabilidade
1 1 1 2 1
    50 % duas caras é p X  2  25% . Nesse
4 4 4 2 experimento, qual a probabilidade de
obtermos pelo menos uma cara?
2 1
 0,25  25% Podemos ter uma cara ou duas caras.
4 Essa questão pede p(X>0) = P(X=1) +
P(X=2) = 50%+25%=75%
Total 1=100%

Temos dessa forma p(x=1)=50% ou seja, a probabilidade de ocorrer 1 cara no lançamento de duas
moedas é de 50%.

Agora, vamos estudar as distribuições teóricas de probabilidade.

1.4.2 Distribuição Binomial e Distribuição Normal

Estudaremos agora dois modelos de distribuição teóricos: distribuição binomial e distribuição normal.
Esses modelos podem ser aplicados a diversas situações, devemos apenas observar a aplicação de
cada um comparando com o fenômeno estudado.

Suponha que uma moeda seja lançada 15 vezes. Qual a probabilidade de obter 9 caras? Para
resolver essa questão, utilizaremos a distribuição binomial.

E por que optamos por essa distribuição? Porque a distribuição binomial é um modelo teórico de
distribuição que se aplica a experimentos que serão repetidos n vezes, cujo resultado é dado por
fracasso ou sucesso, podendo assumir outras denominações de acordo com a questão proposta,
sendo homem/mulher, certo/errado, em dia/atrasado, cara/coroa etc.

Sua utilização pressupõe probabilidades individuais que não se alteram independente do número de
vezes que o experimento é realizado, ou seja, a cada prova (experimento) realizada a probabilidade
de sucesso ou fracasso permanece constante.

Denomina-se P( X  k ) a probabilidade de a variável aleatória X assumir o valor k, sendo esse último

o número de sucessos que se espera na realização de um número finito (n) de tentativas ou


realizações de provas.

Unidade de Educação a Distância | Newton 70 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

A probabilidade de ocorrência de k sucessos em n tentativas é dada pela fórmula

n
P( X  k )     p k  q n  k , onde p indica a probabilidade de sucesso em um único
k 
n
experimento, q é a probabilidade de fracasso, também, num único experimento e   é o número
k 
n n!
  
 k  k !n  k !
binomial de n sobre k, calculado por .

Perceba que a soma de p e q é sempre igual a um já que os eventos sucesso e fracasso serão
sempre complementares.

O símbolo ! indica a operação fatorial.

Considerando a questão inicial: Qual a probabilidade de obter 9 caras lançando uma moeda 15
vezes? Nas condições do problema que se enquadram na distribuição binomial, teremos:

15 
n = 15 P  X  9      0,5 9  0,5 6
9 
 
k=9
p = 0,5 Primeiro vamos calcular o binomial de 15 sobre 9, veja!
15 
q = 0,5    15 !  15  14  13  12  11  10  9 !  3603600  5005
 9  9 !6 ! 9 !6  5  4  3  2  1 720
 

Dessa forma:

P X  9  5005  0,59  0,56  0,1527  15,27%

Outro modelo de distribuição muito utilizado é a distribuição normal. Essa distribuição atende a
variáveis que possuem simetria em torno das medidas de tendência central (média, moda e
mediana), ou seja, curva em forma de sino. A avaliação sobre a validade dessa distribuição passa
pela análise de simetria ou assimetria do conjunto, como foi visto na unidade 3.

São vários os fenômenos que possuem essa característica como o peso, altura, coeficiente de
inteligência, tempo de gestão de seres vivos, despesas de famílias, rendimento de máquinas, etc.

Esse modelo consiste na padronização dos valores do fenômeno considerado, a fim de enquadrá-lo
na curva normal que possui média 0 e desvio padrão 1. A probabilidade de a variável assumir valores

Unidade de Educação a Distância | Newton 71 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

num intervalo é dada pela área abaixo da curva. Esses valores são tabelados em função da variável
padronizada z, também chamado de escore z.

Os valores da probabilidade na distribuição Normal são calculados pela área abaixo da curva
delimitada pelo valor de z, através de uma fórmula muito complexa que envolve inclusive a utilização
de integral. Por isso, é comum o uso da tabela de distribuição de probabilidade Normal que pode ser
encontrada em qualquer livro de estatística, ou pode ser construída pela planilha eletrônica do Excel.
A construção no Excel não é um processo simples, requer um conhecimento avançado da função e
da teoria da distribuição normal. Veja a tabela!

A tabela de distribuição a seguir traz os valores da


área abaixo da curva compreendida entre 0 e z.

Probabilidades distribuição Normal

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981

Unidade de Educação a Distância | Newton 72 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
Fonte: Autora

Vejamos como fazer a leitura da tabela!

Encontre a área compreendida entre 0 e 1,37 , simbolizado por p(0 < z < 1,37).

Veja a representação gráfica!

Para encontrar a área destacada na tabela, devemos proceder a leitura da seguinte forma: na 1ª
coluna localizamos 1,3, então, cruzamos essa linha com a coluna 0,07. O número procurado é
0,4147, esta é a área compreendida entre 0 e 1,37. 1,3 + 0,07=1,37

A curva normal é perfeitamente simétrica, logo cada uma das metades tem área igual a 0,5 sendo a
área total igual a 1 o que representará na distribuição de probabilidade 100%.

Agora, vamos determinar a área compreendida entre – 2,41 e 1,55 ou p(– 2,41 < z < 1,55).

Observe que cada uma das metades da curva tem área igual a 0,5 e que a curva normal é simétrica,
ou seja, a área entre 0 e 2,45, por exemplo, é igual a área entre – 2,45 e 0.

– 2,41 0 1,55

Unidade de Educação a Distância | Newton 73 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

A tabela nos fornece apenas valores positivos, mas, considerando a simetria, podemos calcular a
área como a soma das áreas de 0 a 2,41 mais a área de 0 a 1,55.

p(–2,41 < z < 1,55) = p(0 < z < 2,41) + p(0 < z < 1,55)
Fazendo a leitura da tabela encontramos:
=0,4920 + 0,4394 = 0,9314

Qual a área entre 0,36 e 1,64?

p (0,36 < z< 1,64) =


= p(0 < z <1,64) – p(0 < z < 0,36)
= 0,4495 – 0,1406
= 0,3089

A utilização da distribuição de probabilidade Normal requer a padronização da variável. Essa


padronização transforma as informações do conjunto de x em z.
xx
A padronização da variável é feita pela fórmula z  , onde x indica o valor da variável a ser
s
considerada, x é a média do conjunto e s é o desvio padrão – ambos foram estudados na unidade 3.
A probabilidade de a variável aleatória x assumir um valor num determinado intervalo será dada pela
área abaixo da curva normal para esse intervalo.

Exemplo: Uma pesquisa na empresa W revelou que o salário médio dos funcionários é R$ 870,00
com desvio de 55 reais. Considerando que o salário dos funcionários dessa empresa é normalmente
distribuído, determine a probabilidade de um funcionário escolhido ao acaso receber até R$ 900,00.

A probabilidade procurada é representada pela área


50%
destacada no desenho que representa p(X < 900).
Fazemos, então, a padronização da variável.
x  x 900  870
Padroni z   0,55
-zação s 55
p(x < 900) = p(z < 0,55) = 0,5 + p(0< z< 0,55)
= 0,5 + 0,2088 = 0,7088 = 70,88%

0 0,55

Agora que conhecemos bem a teoria das probabilidades, é hora de praticar.


Até a próxima!

Unidade de Educação a Distância | Newton 74 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

2. Teoria na Prática

Qual a probabilidade de uma pessoa ganhar na Mega-Sena com um bilhete de aposta simples?

A Mega-Sena é um jogo em que são sorteados 6 números de 01 a 60. Assim, o espaço amostral do
jogo é dado por todas as combinações possíveis de 60 elementos tomados 6 a 6, dado pela fórmula
que faz parte do estudo de análise combinatória por:

n!
C n, p  Dúvidas para calcular
p !n  p ! o número de
, onde n é a quantidade de elementos
combinações?
disponível e p é o número de elementos de cada combinação. Consulte um livro de
matemática do
No caso da mega-sena, teremos: Ensino Médio.

60 ! 60  59  58  57  56  55  54 !
C60, 6    50.063.860
6 !60  6 ! 6  5  4  3  2 1  54 !

. Este é o total de
jogos possíveis....

Uma aposta simples é composta por um conjunto de 6 números e representa uma combinação das
50.063.860 possíveis, dessa forma a probabilidade de um jogador acertar os 6 números com uma
aposta simples será:

nA
pA 
1
  1,9974  10 8 ou 0,000019974 %
nS  50.063 .860

E aí? Está disposto a arriscar? Bem, as chances são pequenas, mas você poderá se tornar
milhonário!

Agora, vamos recapitular!

Unidade de Educação a Distância | Newton 75 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

3. Síntese

O que vimos nesta unidade?

Probabilidade é a parte da estatística que se ocupa do estudo de fenômenos ligados ao acaso. A


probabilidade indica a chance de ocorrência de determinado evento e pode ser expressa na forma de
fração, número decimal ou porcentagem.

A probabilidade pode ser calculada em duas definições distintas:

Dois eventos considerados em conjunto podem ser:

Complementares: a união dos eventos resulta no espaço amostral.


Independentes: a ocorrência ou não de um não interfere na ocorrência ou não do outro.
Mutuamente exclusivos: a ocorrência de um impede a ocorrência do outro e vice-versa.

Modelos teóricos de distribuição de probabilidade servem como padrão e podem ser aplicados a
diversos fenômenos, observando a aplicação de cada caso.

Binomial: aplicado a experimentos que têm como possíveis resultados fracasso ou sucesso. As
probabilidades de fracasso e sucesso na realização de um único experimento são fixas, ou seja, não
se alteram com a realização das provas.
Normal: aplicado a fenômenos que têm distribuição de frequência em forma de sino. A probabilidade
da variável aleatória assumir um intervalo de valores é dada pela área abaixo da curva normal
(valores esses apresentados na tabela de distribuição normal).

Unidade de Educação a Distância | Newton 76 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Unidade 5: Correlação e regressão linear

1. Conteúdo Didático

A correlação indica como duas variáveis se relacionam matematicamente. Essa relação pode ser
modelada através de funções (sentenças matemáticas) que traduzem a relação entre as variáveis,
permitindo prever valores não observados e comportamentos futuros.

É importante notar que essa análise deve ser empregada em variáveis que, ao menos intuitivamente,
apresentam relação de causa e efeito entre si, ou seja, a variação de uma causa variações nas outras
ou vice versa.

Por exemplo, imaginamos que o investimento em publicidade e propaganda de um produto tenha


influência direta sobre o número de vendas desse produto de forma que aumentando o investimento
– maior exposição – teremos um incremento nas vendas. Podemos investigar esse fato coletando
dados sobre o investimento feito e as vendas em alguns períodos, e então analisamos os dados
utilizando a regressão linear. Nesse caso as variáveis em questão são: investimento e vendas.

Existem muitos métodos de análise de regressão que podem ser separados em: Linear ou Não
Linear e, ainda, em Simples ou Múltipla; a Simples relaciona duas variáveis; e a Múltipla, três ou
mais.

Em nosso estudo trataremos da Regressão Linear Simples, ou seja, aquelas que relacionam duas
variáveis, sendo uma independente (x) e outra dependente (y) por uma linha reta. Agora vamos ver o
que é correlação!

1.1 Correlação

Damos o nome de correlação à forma como as variáveis x e y se relacionam. Ela pode ser positiva,
quando as variáveis são diretamente proporcionais, ou seja, quando uma aumenta, a outra também
aumenta. Pode ser negativa, quando as variáveis são inversamente proporcionais ou o aumento de
uma acarreta diminuição da outra.

Cada uma das variáveis recebe a denominação de dependente ou independente de acordo com a
natureza da interação entre elas. Geralmente, a independente é chamada de x e a dependente de y.
Chamamos de variável independente aquela que produz a variação na outra variável, que então
recebe o nome de dependente. Esse conceito pode ser ilustrado pela marcante frase de um comercial
publicitário em que o anunciante dizia: “é fresquinho porque vende mais ou vende mais porque é

Unidade de Educação a Distância | Newton 77 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

fresquinho?”. Qual é a variável dependente e qual é a variável independente? As vendas aumentam


porque o produto fica menos tempo estocado e, consequentemente, é mais fresco, ou o contrário, o
produto fica menos tempo estocado por causa do volume de vendas? A determinação de qual será a
variável dependente e qual será a independente é feita pelo pesquisador com base em seu
conhecimento prévio sobre o assunto ou com base em estudos anteriores.

Uma forma preliminar de estabelecer se há correlação entre as variáveis e de qual tipo – positiva ou
negativa – é através da construção do diagrama de pontos.

A construção do diagrama de pontos é uma forma preliminar de estabelecer se há correlação entre as


variáveis e qual o tipo de correlação. Ele é um gráfico construído pela localização de pontos com
coordenadas (X,Y) no plano cartesiano. No eixo horizontal, indicamos a variável independente X e, no
eixo vertical, a variável dependente Y. O diagrama pode ser construído em papel milimetrado ou pela
planilha eletrônica Excel. Vamos ver alguns exemplos de diagramas de pontos!

45
40
35
30
25
20
15
10
5
0
0 2 4 6 8

Correlação não linear Correlação linear negativa

Correlação linear positiva Não há correlação

Unidade de Educação a Distância | Newton 78 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Correlação linear positiva perfeita Correlação linear negativa perfeita

Dizemos que há correlação entre as variáveis quando os pontos do diagrama se apresentam em


disposição tal, que a relação entre elas possa ser modelada matematicamente.

Em nosso estudo, focaremos as correlações lineares, ou seja, aquelas que formam ou que podem ser
expressas por equação de reta ou função do primeiro grau. Veja um exemplo abaixo:

Estudos anteriores comprovam a existência de relação de causa e efeito entre o investimento feito em
publicidade e propaganda e o faturamento de lojas. Acompanhe os valores observados em uma
determinada loja de departamentos de Belo Horizonte.

Investimento Faturamento
(em milhares de reais) (em milhares de reais)
1,0 28
3,0 34
4,0 37
6,0 44
7,0 43
8,0 43
9,0 46
11,0 51
13,0 56
14,0 60
Fonte: Dados fictícios
Construa o diagrama de pontos e analise quanto à correlação entre as variáveis.

Consideraremos como X (variável independente) o valor de investimento; e Y (variável


dependente) o valor do faturamento. Essa atribuição se justifica uma vez que parece claro que o

Unidade de Educação a Distância | Newton 79 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

aumento do investimento é o gerador do aumento do faturamento, se bem que poderíamos imaginar


que o aumento do faturamento permite o aumento de investimentos em publicidade e propaganda.

A alteração de atribuição de nomes das variáveis X e Y não traz prejuízos à análise, uma vez que a
relação apresentada entre elas não é alterada e sim apenas os valores relacionais.

O diagrama de pontos sugere que existe


70 correlação linear positiva entre as variáveis,
60 investimento e faturamento. Percebemos
50 que os pontos estão bem distribuídos em
40 torno de uma linha imaginária.

30

20
A construção do diagrama de pontos pode
ser laboriosa e de difícil interpretação, por
10
isso, utilizamos o coeficiente de correlação
0
0 2 4 6 8 10 12 de Pearson para determinar com que
intensidade se dá a relação entre as
variáveis.

Vamos ver agora como é calculado o coeficiente de correlação e o seu significado!

1.1.1 Coeficiente de correlação de Pearson

O coeficiente de correlação linear de Pearson é um valor que informa a intensidade e a forma da


correlação linear entre duas variáveis. A partir da análise de seu resultado, podemos determinar se é
adequado ou não a utilização do modelo linear para a modelagem do fenômeno.

Chamado de r, o coeficiente de correlação linear de Pearson é calculado pela fórmula:

n x y   x y
r
[n   x 2   x  ]  [n   y 2   y  ]
2 2

Seu valor fica no intervalo fechado de −1 a +1, sendo o sinal − (negativo) indicativo de correlação
negativa – as variáveis são inversamente proporcionais – enquanto uma aumenta a outra diminui.

O sinal + (positivo) indica correlação positiva – as variáveis são diretamente proporcionais, se uma
aumenta a outra também aumenta e vice-versa. Portanto, quanto mais próximo de um for o módulo
do valor de r, mais forte é a correlação. Graficamente, a correlação positiva apresenta uma reta
crescente e a correlação negativa uma reta decrescente.

Unidade de Educação a Distância | Newton 80 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Dizemos que a correlação é significativa se, a partir da reta de regressão, podemos prever valores
para o fenômeno estudado. Para Crespo (1995), a correlação será significativa quando o valor do
módulo de r for maior ou igual a 0,6. Já Milone (2004) estabele outras classificações. Veja abaixo:

Coeficiente Classificação

0,9  r  1,0 Ótima

0,8  r  0,9 Boa

0,7  r  0,8 Razoável

0,6  r  0,7 Medíocre

0,5  r  0,6 Péssima

r  0,5 Imprópria

O símbolo r indica o módulo do valor de r, desprezando o sinal, seja ele

positivo ou negativo.

Acompanhe o cálculo do coeficiente de correlação linear de Pearson. Para facilitar o cálculo, iremos
construir na tabela as colunas auxiliares de cálculo x. y, x2 e y2. Veja nosso exemplo:

Investimento (x) Faturamento (y)


(em milhares de (em milhares de x.y x2 y2
reais) reais)
1 28 28 1 784
3 34 102 9 1156
4 37 148 16 1369
6 44 264 36 1936
7 43 301 49 1849
8 43 344 64 1849
9 46 414 81 2116
11 51 561 121 2601
13 56 728 169 3136
14 60 840 196 3600
Σ x = 76 Σ y = 442 Σx.y = 3730 Σ x2 = 742 Σ y2 = 20396
Fonte: Dados fictícios

Unidade de Educação a Distância | Newton 81 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

n x y   x y
r 
[n   x   x  ]  [n   y   y  ]
2 2 2 2

10  3730  76  442 3708


   0,9864
[10  742  762 ]  [10  20396  4422 ] 14131824

Temos então uma correlação linear positiva e, segundo Milone, de classificação ótima. Isso nos leva
a concluir que esse fenômeno pode ser modelado por uma equação de reta.

Esse coeficiente pode ser calculado pela planilha do Excel ou também


através de funções estatísticas de algumas calculadoras científicas.

Calculando o coeficiente de Pearson e analisando seu resultado, o pesquisador é capaz de decidir


pela utilização do modelo linear ou não. Vamos ver agora como fazer a regressão linear e como
construir a equação da reta ajustada!

1.2 Regressão Linear Simples

A regressão linear simples tem por objetivo determinar a equação da reta ajustada (modelo
matemático linear) que atende aos dados disponíveis com o menor erro possível. O erro é a diferença
encontrada entre o valor observado (real) e o valor calculado pela equação.

A equação da reta no plano cartesiano é dada por y  mx  b , onde m e b são coeficientes angulares

e lineares, respectivamente. Você pode encontrar outras denominações para esses coeficientes, de
acordo com a referência bibliográfica utilizada! O coeficiente angular diz respeito à inclinação da reta
em relação ao eixo X, e pode ser entendido como a variação (que é constante para toda a reta) de Y
em função de X. O coeficiente linear é o valor onde a reta intercepta o eixo Y.

y=mx+b

O coeficiente angular pode ser determinado


b
pela tangente do ângulo α.

Para montar a equação da reta ajustada, determinamos os coeficientes angular e linear pelas
fórmulas:

Unidade de Educação a Distância | Newton 82 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

 x 2  y   x x  y n x  y   x  y
b m
n  x 2   x  n x 2   x 
2 2

Os resultados dos somatórios podem ser calculados construindo-se as respectivas colunas na própria
tabela de dados, os valores utilizados são os mesmos necessários para calcular o coeficiente de
correlação de Pearson. Vamos retomar nosso exemplo e determinar a equação da reta ajustada!

Exemplo:
Investimento (x) Faturamento (y)
(em milhares de (em milhares de x.y x2 y2
reais) reais)
1 28 28 1 784
3 34 102 9 1156
4 37 148 16 1369
6 44 264 36 1936
7 43 301 49 1849
8 43 344 64 1849
9 46 414 81 2116
11 51 561 121 2601
13 56 728 169 3136
14 60 840 196 3600
Σ x = 76 Σ y = 442 Σx.y = 3730 Σ x2 = 742 Σ y2 = 20396
Fonte: Dados fictícios

n x  y   x  y 10  3730  76  442 37300  33592 3708


m     2,2555
n x   x  10  742  762 7420  5776
2
2 1644

b
 x  y   x x  y  742  442  76  3730  327964  283480  44484  27,0584
2

n x   x  10  742  76 7420  5776


2 2
2 1644

A equação da reta será yˆ  2,2555 xˆ  27 ,0584 . Utilizamos o símbolo ^ sobre o nome da variável
para indicar o valor calculado. Assim X e Y representam valores observados – os apresentados na
tabela – e x̂ e ŷ são os valores calculados pela equação da reta.

Com base na equação da reta, podemos fazer previsões. Por exemplo, qual o investimento calculado
para um faturamento de 52 mil reais?
Estamos procurando o valor de x̂ para y  52 . Então, fazemos:

Unidade de Educação a Distância | Newton 83 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

yˆ  2,2555 xˆ  27,0584
2,2555 xˆ  27,0584  52
A partir do resultado, vimos que investimento calculado para
2,2555 xˆ  52  27,0584 um faturamento de 52 mil é aproximadamente de 11 mil
2,2555 xˆ  24,9416 reais.
24,9416
xˆ   11,06
2, ,2555

Devemos tomar alguns cuidados ao fazer previsões com a utilização da regressão linear. A reta
ajustada é construída com base em dados passados, se a relação entre as variáveis for alterada a
equação determinada não será mais adequada para modelar o fenômeno. Devemos evitar extrapolar
os valores, ou seja, utilizar valores fora do intervalo de dados observados, uma vez que não
conhecemos o comportamento das variáveis fora do conjunto de dados considerados. Pode ser que
elas não tenham o mesmo comportamento e assim, a reta não será adequada para essa situação.
(DOWNING & CLARK, 2003)

1.3 Erro padrão

O erro padrão é uma medida que permite mensurar a precisão das estimativas feitas com base na
reta de regressão linear. Seu valor é baseado na análise da dispersão dos pontos observados em
relação à reta de regressão linear construída. O erro padrão, associado ao modelo linear, é entendido
como a diferença entre o valor observado y e o valor calculado ŷ , e é calculado pela seguinte

fórmula:

Se 
y 2
 b  y  m x  y
n2

Acompanhe o cálculo do erro padrão para o nosso exemplo:

Conforme os valores dos coeficientes calculados no tópico anterior, temos:

y 2
 20396 b  27,0584 m  2,2555  x  y  3730 n  10

Se 
y 2
 b  y  m x  y

20396  27,0584  442  2,2555  3730
 1,7019
n2 10  2

O erro padrão associado ao nosso modelo é 1,7019.

Unidade de Educação a Distância | Newton 84 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

1.4 Coeficiente de explicação

Muitas vezes, duas variáveis se relacionam, não entre si somente, mas com outros fatores. O
coeficiente de explicação indica qual a fração da variação da variável dependente que pode ser
explicada ou justificada pela variação ocorrida na variável independente, indicando que o restante
seria explicado por outros fatores relacionados a elas, mas não estabelecidos ou explicitados no

estudo. O coeficiente de explicação é representado por r 2 , e calculado pela fórmula:

r 2

n x  y   x y  2

[ n  x  (  x ) ]  [ n y  (  y ) ]
2 2 2 2

Note que o uso de r2 não é coincidência, r2 é o quadrado de r (coeficiente de correlação de Pearson).


O valor de r2 está sempre entre 0 e 1. Quanto maior o valor de r 2, melhor o ajuste da reta aos dados. Veja outra
interpretação:

O valor de r2 é a fração da variação de Y que pode ser explicada por variações de X.


(DOWNING & CLARK, 2003, p. 238).

Vamos determinar o coeficiente de explicação para o nosso exemplo! Para o exemplo que estamos
trabalhando, temos:


n x  y   x y  
2
10  3730  76  442  0,9729
2

[n x  ( x) ]  [n y  ( y) ] 10  742  76  10  20396  442 


2
r 2 2 2 2 2 2

n  10  x  76  y 442 x 2
 742 y 2
20396  x  y  3730
b  27,0584 m  2,2555

Portanto, o coeficiente de explicação é 0,9729 ou 97,29%. Isso significa que 97,29% da variação de Y
pode ser explicada pela variação de x. Ou seja, 97,29% da variação do faturamento pode ser
explicado pelo investimento em publicidade e propaganda.

O valor de r2 também pode ser obtido a partir do valor do coeficiente de correlação de Pearson r. Para
isso, basta elevar o valor de r ao quadrado.

A regressão linear é uma importante ferramenta de modelagem matemática que irá auxiliá-lo na
compreensão de fenômenos de natureza linear.

Ao longo dessas 5 unidades aprendemos alguns processos de tratamento de dados estatísticos que
irão auxiliá-lo na compreensão de fenômenos e servirão como ferramenta para basear a tomada de

Unidade de Educação a Distância | Newton 85 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

decisões. Devemos ressaltar que o principal papel do pesquisador está na análise dos dados e
resultados obtidos em uma pesquisa. Porém, para que seja feita de maneira correta é preciso
conhecimento sobre os processos que levaram àqueles resultados.

Sucesso!

Unidade de Educação a Distância | Newton 86 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

2. Teoria na Prática

Uma empresa resolveu estudar a variação da demanda (em unidades) de seu produto em função do
preço de venda (em reais) praticado. Para isso, foram coletados os seguintes dados:

Preço (x) 36 43 49 55 61 63 69 72 74 77
Demanda (y) 350 330 296 252 230 218 203 196 188 167

a) Calcule o coeficiente de correlação de Pearson e analise o resultado:

Preço Demanda
x2 y2
x.y n x  y  x y
r
[n   x 2   x  ]  [n   y 2   y  ]
(x) (y) 2 2

36 350 1296 122500 12600


10  137808  599  2430
43 330 1849 108900 14190 r
49 296 2401 87616 14504 [10  37611  599 2 ]  [10  625802  2430 2 ]

55 252 3025 63504 13860 r  0,9912


61 230 3721 52900 14030
Existe uma correlação negativa entre
63 218 3969 47524 13734 as variáveis. Segundo Milone (2004) a
69 203 4761 41209 14007 classificação dessa correlação é ótima.
72 196 5184 38416 14112 Portanto podemos modelar o fenômeno
74 188 5476 35344 13912 pela reta de regressão linear.

77 167 5929 27889 12859


Σ = 599 Σ = 2430 Σ = 37611 Σ = 625802 Σ = 137808

b) Determine a equação da reta ajustada caso a correlação entre as variáveis seja significativa.
Conforme o valor de r, podemos dizer que a correlação é significativa.

Vamos, então, determinar a equação da reta.

n x  y   x  y 10  137808  599  2430


m   4,4769
n x 
2
 x 2
10  37611  599 2
yˆ  4,4769 xˆ  511,1640

b
 x 2  y   x x  y 
37611  2430  599  137808
 511,1640
n  x 2   x  10  37611  599 2
2

c) Considerando que a relação entre as variáveis não é alterada mesmo fora do intervalo observado,
determine qual a demanda esperada para um preço de 80 reais.

Unidade de Educação a Distância | Newton 87 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

yˆ  4,4769 xˆ  511,1640 A demanda esperada para o preço de 80 reais é de,


yˆ  4,4769  80  511,1640  153,012 aproximadamente, 153 unidades.

3. Síntese

O que vimos nesta unidade?

A análise de correlação e regressão linear é uma técnica da estatística inferencial que permite fazer
previsões para determinados fenômenos, a partir da modelagem matemática deles através de
equações de retas no plano cartesiano.

A intensidade da correlação existente entre duas variáveis pode ser calculada pelo coeficiente linear
de Pearson, através da fórmula:

n x y   x y
r
[n   x 2   x  ]  [n   y 2   y  ]
2 2

Ressaltando: para que duas variáveis recebam o tratamento pela regressão linear, é necessária a
existência de relação de causa e efeito entre elas, caso contrário, mesmo que a relação estatística
possa ser comprovada não tem validade prática. A interação de causa e efeito entre as variáveis é
estabelecida pelo pesquisador com base em seu conhecimento sobre o assunto e/ou através de
estudos passados.

A relação linear entre as variáveis é descrita por uma reta de equação y  mx  b . Os coeficientes

angular (m) e linear (b) são determinados pelas fórmulas:

m
n  x  y   x y b
 x  y   x x  y
2

n x   x  n x   x 
2 2 2 2

O erro associado ao modelo linear é chamado de erro padrão, e representa a diferença encontrada
entre os valores observados e calculado pela equação. Ele é chamado Se e calculado pela fórmula:

Se 
y 2
b  y  m x  y
n2

O coeficiente de explicação r2 fornece a parcela ou fração segundo a qual o valor de y varia em


função do valor de x. Calculado pela fórmula:

r 2

n x  y   x y  ,
2

[ n  x  ( x ) ]  [ n y  ( y ) ]
2 2 2 2

Unidade de Educação a Distância | Newton 88 | P á g i n a


Disciplina: Estatística Aplicada
Autor: Janine Velloso

Seu valor é sempre entre 0 e 1. Quanto mais próximo de um, melhor é o ajuste da reta aos dados
observados.

4. Referências

ANDERSON, D. R. Estatística aplicada à Administração e Economia. São Paulo: Pioneira, 2002.

BUNCHAFT, Guenia; KELLER, Sheilah Rubino de Oliveira. Estatística sem mistérios. Vol. I.
Petrópolis: Vozes, 3a edição, 2000.

CRESPO, Antônio Arnot. Estatística Fácil. São Paulo: Saraiva, 13ª ed., 1995.

DOWNING, Douglas; CLARK, Jeffrey. Estatística Aplicada. São Paulo: Saraiva, 2a edição, 2003.

FREUND, John e SIMON, Gary A, Estatística aplicada. 9ª ed. Porto Alegre: Bookman, 2000.

LEVINE, David M. e BERENSON, Mark L. e STEPAHAN, David. Estatística teoria e aplicações.


Rio de Janeiro: LTC, 2000.

MAGALHÃES, Macos Nascimento; LIMA, Antônio Carlos Pedroso de. Noções de probabilidade e
estatística. São Paulo: IME – USP, 3a edição, 2001.

MILONE, Guiseppe. Estatística: geral e aplicada. São Paulo: Pioneira Thomson Learning, 2004.

Unidade de Educação a Distância | Newton 89 | P á g i n a

Você também pode gostar