dados dos o interpreta e anlise da trata l Inferencia ou
dados. dos descrio e o organiza coleta, da apenas
Indutiva
trata Descritiva
A coleta, a organizao, a descrio dos dados, o clculo e a
interpretao de coeficientes pertencem ESTATSTICA DESCRITIVA,
enquanto a anlise e a interpretao dos dados ficam a cargo da
ESTATSTICA INDUTIVA ou INFERENCIAL.
- As seis fases do Trabalho Estatstico:
1) DEFINIO DO PROBLEMA:
Saber exatamente aquilo que se pretende estudar o mesmo que
definir corretamente o problema. EX: a audincia de determinado programa
de TV, a relao entre o preo dos alimentos e os salrios, ofertas de
trabalho, evoluo do consumo de um produto, etc...
2) PLANEJAMENTO:
Como levantar informaes? Que dados devero ser obtidos? Qual
levantamento a ser utilizado? Censitrio? Por amostragem? E o cronograma
de atividades? Os custos envolvidos? etc.
3) COLETA DE DADOS:
A fase de coleta de grande importncia, portanto, necessrio se
manter alguns cuidados para que se possa garantir a fidedignidade dos
resultados. A coleta de dados pode ser feita por meio de: observaes,
entrevistas e histria de vida, pesquisa bibliogrfica, questionrios,
observao emprica, entre outros. importante ressaltar que, existem
diversos procedimentos utilizados para este fim, no entanto, cabe ao
pesquisador decidir qual o procedimento mais adequado ao tipo de pesquisa
realizada.
4) APURAO DOS DADOS:
o momento de procurar possveis falhas e imperfeies e resumir
os dados atravs de sua contagem e agrupamento. a condensao e
tabulao de dados.
5) APRESENTAO DOS DADOS:
H duas formas de apresentao, que no se excluem mutuamente:
tabular e grfica. A apresentao tabular, uma apresentao numrica dos
dados em linhas e colunas distribudas de modo ordenado, segundo regras
prticas fixadas pelo Conselho Nacional de Estatstica. A apresentao
grfica dos dados numricos constitui uma apresentao geomtrica
permitindo uma viso rpida e clara do fenmeno.
6) ANLISE DOS DADOS:
A ltima fase do trabalho estatstico a mais importante e delicada.
Trata-se de tirar concluses sobre o todo (populao) a partir de
informaes fornecidas por parte representativa do todo (amostra). Est
ligada essencialmente ao clculo de medidas e coeficientes, cuja finalidade
principal descrever o fenmeno (estatstica descritiva) e a interpretao
dos dados (estatstica indutiva).
EX: Suponha que se deseja estudar o n de irmos dos estudantes da UNICENTRO.
Problema: n de irmos dos estudantes da UNICENTRO
Planejamento: censitrio: todos os alunos da UNICENTRO
Amostragem: uma parte desses alunos.
Coleta de dados: entrevista ou questionrio aplicado aos alunos
Apurao de dados: agrupamento dos dados coletados e crtica dos dados obtidos
Apresentao dos dados: elaborao de tabelas e grficos
Anlise dos dados: clculo da mdia de irmos, do erro padro, aplicao de
testes e das concluses.
4
Estatstica Descritiva
1) Conceitos iniciais (populao, amostra, dados e variveis)
- Populao: o conjunto de todos os elementos que tm, em
comum, uma ou mais determinadas caractersticas. Podem ser
pessoas, objetos, itens, etc...
EX: alunos da UNICENTRO, alunos do curso de Cincias Contbeis,
supermercados em Prudentpolis, farmcias em Irati, ....
OBS: a) Muitas vezes, o tamanho da populao ( N, ) muito grande, como
o censo demogrfico do Brasil, ou as populaes no podem ser medidas
integralmente, como o caso da medio da vida til das lmpadas
produzidas, que obrigaria a testar todas as lmpadas produzidas, no
restando nenhuma para venda. Devido a esses problemas somos obrigados a
selecionar uma parte dessa populao (amostra) para estudo.
b) Parmetro: a medida numrica que descreve uma caracterstica da
populao. EX: ,
2
,
- Amostra: uma parte da populao que selecionada para a
anlise.
EX: 10% do total de acadmicos do curso de Cincias Contbeis
OBS: o pesquisador que trabalha com amostras sempre pretende
fazer inferncias, isto estender os resultados da amostra para toda a
populao. Ento muito importante caracterizar bem a amostra. Portanto:
esta deve ser representativa da populao, isto , deve possuir as mesmas
caractersticas bsicas da populao. Qualquer que seja a amostra, sempre se
corre o risco de chegar a concluses erradas, mas este risco diminui
medida que se aumenta a quantidade de elementos a serem examinados. O
tamanho da amostra ( n ) depende do problema em estudo. Amostras muito
pequenas podem produzir uma estimativa pouco representativa da
populao; entretanto, grandes amostras demandam muito trabalho e tempo,
elevando significativamente os custos.
comum denominar de estatstica (iniciando com minscula) a
medida numrica que descreve uma caracterstica da amostra. EX: X, s
2
, s
- Dados: so os fatos e nmeros coletados, analisados e sintetizados
para a apresentao e interpretao; em outras palavras, qualquer
caracterstica que possa ser observada ou medida de alguma maneira.
Podem ser: primrios ou secundrios
a) Primrios, quando as informaes so colhidas diretamente pelo
pesquisador ou por seus auxiliares.
b) Secundrios, quando os pesquisadores recorrem a relatrios, revistas,
livros ou dados j coletados por instituies especializadas.
OBS:
a) A coleta de dados primrios pode ser feita atravs de: questionrios,
entrevistas pessoais, entrevista por telefone, e-mail, deixado em lugares
estratgicos ou por observao.
b) Quanto aos tipos de perguntas, estas podem ser: dicotmicas quando
permitem apenas duas respostas (sim ou no), de mltipla escolha quando
permitem opo de vrias possibilidades ou abertas quando possvel
responder de qualquer maneira.
EX de pergunta dicotmica:
Voc mora com os seus pais? ( ) sim ( ) no
Voc gosta ( ) ou no gosta de matemtica ( )?
EX de pergunta de mltipla escolha:
Em que tipo de alojamento voc est morando neste ano de estudo?
( ) Alojamento universitrio
( ) Casa/apartamento prprio, com os seus pais
( ) Casa/apartamento alugado, com os seus pais
( ) Outro (favor especificar) _______________
Por que escolheu o curso de Cincias Contbeis?
( ) Preferncia
( ) Falta de opo
( ) No decidiu ainda
( ) Outro (favor especificar) _______________
c) As perguntas abertas permitem um nmero infinito de respostas
divergentes, porm, deve-se tomar cuidado, pois so difceis de serem
processadas e analisadas. O ideal no utiliz-las demasiadamente.
d) Para a elaborao de um questionrio, deve-se observar que:
5
Ele deve ser o mais curto possvel.
As questes em si: devem evitar o uso de termos complexos,
devem fazer sentido, no devem ser muito tcnicas ou envolver
muitos clculos, no devem ser muito pessoais ou ofensivas, no
devem sobrecarregar a memria, no devem ser ambguas.
As perguntas devem ser colocadas em uma ordem lgica.
Devem ser dispostas e construdas de forma atraente.
A maneira como as respostas sero analisadas deve ser
considerada na etapa da elaborao do questionrio.
O conjunto de dados obtido a partir dos elementos da pesquisa,
coletados por meio de uma varivel.
- Varivel: uma caracterstica, propriedade ou atributo em relao
qual os elementos de uma populao diferem de algum modo.
EX: estatura, sexo, peso corporal, idade, grupo sanguneo, cargo, etc... A
varivel pode ser: qualitativa ou quantitativa.
- Varivel qualitativa: aquela que fornece dados de natureza no-
numrica, como cor dos olhos, sexo, grupo sanguneo, grau de instruo,
regio de procedncia, estado civil, tipo de transporte que utiliza, etc...
Uma varivel qualitativa pode ser:
Nominal: quando no existe ordenao, exemplo: sexo, estado
civil, grupo sanguneo, etc...
Ordinal: quando obedece a certa ordenao, exemplo, grau de
escolaridade, classe social, etc...
- Varivel quantitativa: quando os dados so expressos por nmeros. Por
ex: preo de produtos, consumo mensal, n de defeitos de produo,
idade, estatura, peso corporal, salrio, n de filhos, etc...
Uma varivel quantitativa pode ser: discreta ou contnua.
Varivel quantitativa discreta: quando s pode assumir
valores pertencentes a um conjunto enumervel.
Varivel quantitativa contnua: quando assume qualquer valor
entre dois limites.
EX: O nmero de alunos da UNICENTRO pode assumir um dos valores do
conjunto {1, 2, .....80,...} mas nunca valores como 2,5 ou 3,78 ou 4,324, etc...
Logo o nmero de alunos da UNICENTRO uma varivel quantitativa discreta.
J o peso desses alunos pode ser 72 kg, como 72,5 kg, como 72,54 kg. Ento,
peso dos alunos da UNICENTRO uma varivel quantitativa contnua.
EXERCCIO:
Sublinhe em cada caso a varivel e classifique em qualitativa (nominal ou
ordinal) ou quantitativa (discreta ou contnua):
a) n de peas produzidas por uma certa mquina.
b) dimetro de peas produzidas por certa mquina.
c) salrios dos funcionrios de uma empresa.
d) durao de vida, de um novo tipo de lmpadas produzidas.
e) n de produtos da marca X vendidos em um supermercado
f) comprimento de pregos produzidos por uma mquina.
g) nmero de artigos defeituosos produzidos.
h) o valor das vendas dirias de uma empresa
i) grau de instruo (escolaridade) dos funcionrios da empresa X
j) nmero de acidentes de trabalho, por ms
k) cargo dos funcionrios de uma empresa.
l) n de internaes hospitalares por uma determinada doena.
m) quantidade de cido acetilsaliclico em comprimidos.
n) sexo de pacientes internados em uma clnica.
o) n de dentes perdidos ou danificados em crianas de uma escola.
p) n de crianas nascidas vivas em uma dada regio.
2) Arredondamento de dados:
De acordo com a Resoluo 886/66 do IBGE, o arredondamento de dados
feito da seguinte maneira:
A) Quando o 1 algarismo a ser abandonado 0, 1, 2, 3 ou 4, fica
inalterado o ltimo algarismo a permanecer. EX: arredonde os nmeros,
deixando-os com uma casa decimal:
53,24 53,2 8,62732 8,6
B) Quando o 1 algarismo a ser abandonado 6, 7, 8 ou 9 aumenta-se de
uma unidade o algarismo a permanecer. EX: arredonde os nos, deixando-os
com uma casa decimal:
42,87 42,9 25,08 25,1 53,99 54,0.
C) Quando o primeiro algarismo a ser abandonado 5, h duas solues:
6
- Se ao 5 seguir, em qualquer casa, um algarismo = de zero, aumenta-se
uma unidade ao algarismo a permanecer. EX: arredonde os nos,
deixando-os com uma casa decimal:
2,352 2,4 25,6501 25,7
76,2500002 76,3
- Se o 5 for o ltimo algarismo ou se ao 5 s se seguirem zeros, o ltimo
algarismo a ser conservado s ser aumentado de uma unidade se for
mpar. EX:
24,75 24,8 24,65 24,6
24,7500000 24,8 24,65000 24,6
EXERCCIOS:
1) Arredonde cada um dos nmeros abaixo, deixando-os com apenas uma
casa decimal:
a) 2,38 e) 328,35 i) 89,99
b) 39,85 f) 2,97 j) 23,40
c) 0,351 g) 6,829 k) 48,85002
d) 4,24 h) 5,550 l) 45,09
2) Arredonde cada um dos nmeros abaixo para a unidade mais prxima:
a) 0,03516 e) 0,9099 i) 149,8701
b) 17,50015 f) 9,219 j) 54,06
c) 990,02 g) 309,973413 k) 103,5
d) 990,025 h) 16,24 l) 38,50
3) Tcnicas de amostragem:
a sistemtic Amostragem -
ada estratific al proporcion Amostragem -
simples aleatria ou casual Amostragem
Tcnicas de amostragem so procedimentos a serem adotados para
escolher os elementos que compe uma amostra. Conforme a tcnica
utilizada tem-se um tipo de amostra.
- Amostragem casual ou aleatria simples: a amostra compe-se por
elementos retirados ao acaso da populao. Neste caso, todo elemento da
populao tem igual probabilidade de ser escolhido para a amostra. Na
prtica, lista-se ou numera-se de 1 a N a populao a ser analisada e,
posteriormente seleciona-se a amostra mediante sorteio.
Para evitar o desconforto de escrever os nmeros em pedaos de
papel (todos iguais) e dobr-los (todos iguais), coloc-los em uma urna e
retir-los um a um, pode-se utilizar tabelas j existente para esse fim,
chamadas tabelas de nmeros aleatrios (Tabela 1 - anexo).
As tabelas foram elaboradas para facilitar o sorteio. A leitura da
tabela pode ser feita horizontalmente, verticalmente ou diagonalmente, ou
formando um caminho qualquer.
EX: selecionar uma amostra representativa composta por 10% de 90
funcionrios de uma empresa para uma pesquisa sobre os salrios.
Tamanho da amostra = 10% de 90 = 9 funcionrios
Numeram-se os funcionrios de 01 a 90 e define-se uma linha na tabela, por ex:
Linha 14: 75 76 89 64 90 20 97 18 17 49 90 42 91 22 -72 95 37 ...
Excluindo os nmeros maiores que 90 e os que se repetem, tem-se os 09
funcionrios que iro compor a amostra de nos:
Amostra 75 76 89 64 90 20 18 17 49
OBS: No caso de 900 funcionrios, numera-se a populao de 001 a 900 e se
considera os nmeros da tabela agrupados de 3 em 3 algarismos. Por exemplo,
utilizando a linha 14, tem-se: 757 689 649 020 971 817 499 - ...
- Amostragem proporcional estratificada: quando a populao for
constituda de subpopulaes ou estratos, em que a varivel de interesse
apresentar comportamento diferente nos diferentes estratos, para obter uma
amostra representativa, o procedimento determinar uma amostra
proporcional estratificada, ou seja, a amostra deve apresentar a mesma
estratificao e a mesma proporcionalidade dos estratos.
EX: Suponha que no exemplo anterior, dos 90 funcionrios, 54 sejam do
sexo masculino e 36 sejam do sexo feminino. Obter uma amostra
estratificada com 20% dos elementos da populao.
Tamanho da amostra = 20% de 90 = 18 funcionrios
Sexo masculino: 20% de 54 = 10,8 11
Sexo feminino: 20% de 36 = 7,2 7
Total 18 funcionrios
7
OBS: para selecionar os elementos da amostra, utiliza-se a amostragem
casual ou aleatria simples. Numeram-se os funcionrios de 01 a 90, sendo
que de 01 a 54 correspondem os funcionrios do sexo masculino e de 55 a
90, do sexo feminino. Por ex., definindo a 1 e 2 coluna de nmeros
aleatrios, tem-se os seguintes nmeros:
98 33-80-79-18 74 54 11 48 60 09 90 73 75 54 08 28 53
91 89 77 19 21 51 55 ...
Sexo masculino (01 a 54)3318-5411-4809082853-192111 funcionrios
Sexo feminino (55 a 90) 80 79 74 60 90 73 75 07 funcionrias
- Amostragem sistemtica: quando os elementos da populao esto
ordenados de alguma maneira (em listas, filas, etc...), os elementos da amostra
so escolhidos, no por acaso, mas por um sistema. O procedimento consiste
em retirar um elemento da populao, a cada k elementos, ou seja, K =
n
N
, em
que N o nmero de elementos da populao e n o nmero de elementos da
amostra. Escolhe-se por sorteio um nmero de 01 a K (inclusive), o qual vai
indicar o 1 elemento da amostra. Os demais elementos, sero periodicamente
considerados de K em K.
EX: suponhamos que a empresa composta por 90 funcionrios deseje
selecionar uma amostra sistemtica com 20% da populao.
N = 90 funcionrios e n = 20% de 90 = 18 funcionrios
Ento : K =
n
N
K = 5
18
90
=
Escolhendo-se, por sorteio, um nmero entre 01 a 05 (inclusive), por exemplo
03, o 1 funcionrio escolhido ser o de n 03, o prximo o 08, o 13 , o 18 ,...
Ou seja, os 18 funcionrios escolhidos sero os de n: 3 8 13 18 23
28 33 38 43 48 53 58 63 68 73 78 83 - 88
OBS:
Seleo da amostra aleatria simples utilizando a planilha Excel - 2010
Na planilha Excel digita-se em uma coluna (A) os ns de 01 a 90 e na coluna
(B) o nome de cada funcionrio DADOS e ANLISE DE DADOS.
OBS: Caso a funo ANLISE DE DADOS no esteja disponvel no seu
computador, basta carreg-la primeiro. Clique na guia Arquivo e em
Opes. Clique em Suplementos e, na caixa Gerenciar, selecione
Suplementos do Excel. Clique em Ir. Na caixa Suplementos disponveis,
selecione a caixa Ferramentas de Anlise e clique em OK. Dica: se as
Ferramentas de Anlise no estiverem listadas na caixa Suplementos
disponveis, clique em Procurar para localiz-la. Se voc for avisado de que
as Ferramentas de Anlise no esto atualmente instaladas no computador,
clique em Sim para instal-la. Depois que voc carregar as Ferramentas de
Anlise, o comando Anlise de Dados estar disponvel no grupo Anlise da
guia Dados. Abre uma janela conforme figura abaixo:
Seleciona Amostragem e clica em OK, abre outra janela conforme figura
acima:
8
Seleciona Amostragem e clica em OK, abre outra janela conforme figura
acima. No campo intervalo de entrada, selecione os dados da populao.
Selecione o mtodo de amostragem aleatrio e complete no campo n de
amostras o n de elementos da amostra. No campo opes de sada,
selecione o intervalo de sada, por ex. em N4 conforme figura e clica em
OK.
AMOSTRA: 8 - 19 22 23 39 51 68 72 - 84
EXERCCIOS:
1) Obtenha uma amostra aleatria com 10% dos alunos curso de Cincias
Contbeis da UNICENTRO (N= 40 alunos) para uma pesquisa sobre o
aproveitamento dos alunos no curso (colunas 19 e 20).
2) Uma populao encontra-se dividida em 5 estratos, N
1
= 50, N
2
= 80, N
3
=
120, N
4
= 30 e N
5
= 20. Sabendo que ao ser realizada uma amostragem
proporcional estratificada, 75 elementos foram selecionados para compor a
amostra, determine o nmero de elementos de cada estrato.
3) A Receita Federal arquiva as declaraes de imposto de renda pela
ordem de chegada. Selecionar uma amostra aleatria e uma sistemtica de
2% de um lote de 800 declaraes. (linha 5).
4) Em uma cidade foram pesquisadas 68 casas comerciais que vendem o
produto X, numeradas de 01 a 68. Obtenha uma amostra aleatria de 20%
dessas casas comerciais (coluna 39 e 40).
5) Um servio de contabilidade, atende a 70 pequenas empresas, 20 mdias
e 5 grandes. Obter uma amostra aleatria constituda de 20% das empresas,
proporcional ao tamanho das empresas. ( linha 16)
6) Uma populao se encontra dividida em trs estratos, N1 = 40, N 2= 100,
N3 = 60. Sabendo que ao ser realizada uma amostragem estratificada
proporcional, nove elementos da amostra foram retirados do 3 estrato,
determine o nmero total de elementos da amostra.
7) Numa rua existem 228 casas. Obtenha: a) uma amostra aleatria
correspondendo a 5 % da populao ( linha 15). b) uma amostra sistemtica
(linha 10) para escolher o 1 elemento da amostra).
8) Uma empresa deseja realizar uma pesquisa sobre preferncias de
atividades de lazer entre seus 85 funcionrios. Pede-se:
a) a varivel em estudo e sua classificao;
b) uma amostra aleatria simples, constituda por 10% da populao,
utilizando a linha 22 da tabela de n aleatrios;
c) uma amostra estratificada constituda por 13% da populao (linha 30),
sabendo que 50 funcionrios so do sexo masculino,
d) uma amostra sistemtica com 11% da populao, utilizando a linha 6,
para selecionar o 1 elemento da amostra.
9
4) Apresentao dos dados:
cos
grfi
tabelas
4.1. TABELA: um quadro que resume um conjunto de observaes.
EX: Em uma pesquisa realizada pela gerncia da Lanchonete Mordido
para levantar as vendas dos produtos oferecidos pela Lanchonete, obteve-se
que, em um dia do ms de abril de 2010, foram vendidos 29 sanduches, 18
pizzas, 65 refrigerantes, 37 salgados e 32 doces. Construa uma tabela com
os dados, sabendo que os mesmos foram obtidos pela Secretaria da Sade
do Municpio.
OBS: Uma tabela deve ser construda de acordo com normas tcnicas da
ABNT. Compe-se de: nmero, ttulo, corpo, fonte e nota.
Esquematicamente uma tabela tem a seguinte forma:
NMERO TTULO
TABELA 1 ESQUEMA GERAL DE UMA TABELA
COLUNA INDICADORA CABE ALHO
CORPO
FONTE:
NOTA:
NOTA ESPECFICA:
- Nmero: serve para identificar a tabela no texto. EX: TABELA 1 - , ou
TABELA 2.1
- Ttulo: explica o que a tabela contm (geralmente em caixa alto). O ttulo
deve responder a trs perguntas: O que?, Onde?, e Quando?
- Corpo: conjunto de linhas e colunas que contm informaes sobre a
varivel em estudo. Constitui-se de cabealho, coluna indicadora e casas.
Cabealho: parte superior da tabela, indicando o contedo de cada
coluna.
Coluna Indicadora: especifica o contedo de cada linha, devendo ser
alinhada a esquerda e somente a primeira letra ser escrita em
maiscula, exceto quando se utiliza expresses que totaliza os dados,
como TOTAL. A coluna indicadora deve ser alinhada a esquerda.
Casas (clulas): Espao mnimo do centro de uma tabela, resultante
do cruzamento de uma linha com uma coluna, destinado ao dado
numrico ou ao sinal convencional. Os dados numricos na tabela
devem, preferencialmente, ser alinhados a direita de cada coluna,
separadas por uma linha imaginria.
As tabelas estatsticas no devem ser fechadas lateralmente por traos
verticais. A separao das colunas, atravs de traos verticais, deve ser
feita apenas no cabealho. As linhas contendo os dados numricos so
separadas por linhas horizontais imaginrias.
- Fonte: indica os responsveis pelos dados apresentados. A palavra fonte deve
ser escrita em maiscula seguida de dois pontos e espao, seguido do nome da
fonte. Como nome de fonte permitido o uso de siglas em letras maisculas.
- Nota: esclarece aspectos relevantes do levantamento dos dados ou de
apurao ou esclarece a metodologia utilizada na coleta de dados. A palavra
nota deve ser escrita em maiscula seguida de dois pontos, no mesmo
padro do ttulo e logo abaixo da fonte. Pode ser usada ainda, a nota
especfica para esclarecimento de dados sobre uma parte ou um dado
especfico da tabela. A chamada da nota especfica deve ser feita por
algarismos arbicos entre parnteses.
Tabelas
k
1 i
i
f igual a n, ou seja:
k
1 i
i
f = n No exemplo:
k
1 i
i
f = f
1
+ f
2
+ f
3
+ f
4
= 4 + 12 + 10 + 4 = 30
Considerando que posteriormente sero realizados clculos de medidas
caractersticas da distribuio, deve-se encontrar um valor que caracterize cada
intervalo. Neste caso, calcula-se o ponto mdio de uma classe ( x
i
), somando-
se o limite inferior com o limite superior de cada classe e dividindo-se por 2.
No exemplo:
x
1
= 3
2
4 2
=
+
x
2
= 5
2
6 4
=
+
x
3
= 7
2
8 6
=
+
x
4
= 9
2
10 8
=
+
Assim, a distribuio de freqncias para as vendas de um produto
ser dada por:
Salrios de 30 funcionrios de uma empresa
Classes unidades x
i
f
i
1 2 4 3 4
2 4 6 5 12
3 6 8 7 10
4 8 10 9 4
= 30 f
i
OBS: a) Os intervalos de classes no precisam necessariamente ter a mesma
amplitude. Porm, sempre que possvel, deve-se trabalhar com classes de
mesma amplitude. b) Considerando que intervalo aberto a direita, inclui o
limite inferior e exclui o limite superior, deve-se tomar cuidado com relao
ao ltimo intervalo. O limite superior deve ser maior que o maior valor da
srie de dados. c) A amplitude total da distribuio ( A
T
) a diferena entre o
limite superior ( mximo) da ltima classe e o limite inferior (mnimo) da 1 classe,
ou seja: No exemplo: A
T
= 10
- 2 A
T
= 8
Tipos de freqncias:
- Freqncia Simples ou absoluta ( f
i
): o valor que realmente representa o
nmero de dados de cada classe. A soma das freqncias simples igual ao nmero
total de dados, ou seja:
k
1 i
i
f = n
No ex., salrios de uma empresa : f
1
= 4, f
2
= 12, f
3
= 10 e f
4
= 4 e = 30 f
i
- Freqncia relativa ( fr
i
): o valor resultante da razo entre a freqncia simples
da classe i e a freqncia total, ou seja: fr
i
=
i
i
f
f
No exemplo, salrios de uma empresa:
fr
1
= % 3 , 13 133 , 0
30
4
fr
f
f
1
i
1
= =
dos funcionrios recebem entre 2, inclusive e 4 s.m
F
2
= % 3 , 53 533 , 0
30
16
f
F
i
2
= =
d
e
r
e
c
l
a
m
a
e
s
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
120,00%
%
c
u
m
u
l
a
t
i
v
o
Reclamaes apresentadas
nmero Categoria
1 Demora na
entrega
2 Conserto da pea
3 Defeito na
embalagem
4 Substituio da
pea
5 Outros
De posse da tabela e do grfico fica fcil perceber quais so os principais problemas
que a fbrica possui. Resolvendo os problemas 1 e 3 tem-se 54,55% das reclamaes
eliminadas. Deste modo, possvel atacar poucos problemas e resolver grande parte
das reclamaes.
Uso da Planilha Excel do Microsoft Office 2010 na construo de
grficos:
A partir de dados registrados em uma planilha do Excel pode-se construir
diferentes tipos de grficos, usando-se o menu Inserir Grfico.
Primeiramente selecionar os dados. Aps clicar no menu Inserir Grfico ou
no boto auxiliar grfico, o Excel apresenta a caixa de dilogo para escolher o tipo de
grfico desejado (so 11 tipos diferentes). Escolhido o tipo de grfico, escolhe-se o
sub-tipo e clica em OK. Em Selecionar dados, edita-se a coluna indicadora no eixo x.
Em layout do grfico escolhe-se o tipo de apresentao. Edita-se ttulo do grfico e
dos eixos.
EX: - grfico em linha: - grfico em colunas
Produo brasileira de leo de Dend 1987-92
0
20
40
60
80
1
9
8
7
1
9
8
8
1
9
8
9
1
9
9
0
1
9
9
1
1
9
9
2
Anos
Q
u
a
n
t
i
d
a
d
e
(
1
0
0
0
t
)
Produo Brasileira de leo de dend - 1987-92
39,3 39,1
53,9
65,1
69,1
59,5
0
10
20
30
40
50
60
70
80
1987 1988 1989 1990 1991 1992
Anos
Q
u
a
n
t
i
d
a
d
e
(
1
0
0
0
t
)
- grfico em barras: - grfico em colunas mltiplas:
Produo Brasileira de leo de Dend-1987-92
39,3
39,1
53,9
65,1
69,1
59,5
0 20 40 60 80
1987
1988
1989
1990
1991
1992
A
n
o
s
Quantidade (1000t)
BalanaComercial doBrasil - 1989-93
0
5.000
10.000
15.000
20.000
25.000
30.000
35.000
40.000
45.000
1989 1990 1991 1992 1993
Especificaes
V
a
l o
r
(
U
S
$
1
. 0
0
0
. 0
0
0
)
Exportao
Importao
19
- grfico em setores:
Pr oduo de Fer r o- Gusa - Br asi l -
1993
54%
12%
13%
21%
Mi nas Ger ai s
Espr i t o Sant o
Ri o de Janei r o
So Paul o
Reclamaes sobre um determinado produto
0
2
4
6
8
10
12
1 3 2 4 5
problemas apresentados
n
d
e
r
e
c
l
a
m
a
e
s
0,00%
20,00%
40,00%
60,00%
80,00%
100,00%
120,00%
%
c
u
m
u
l
a
t
i
v
o
Fonte: I.B.Siderurgia
EXERCCIOS
1) Represente as sries estatsticas abaixo atravs de grficos:
a) POPULAO BRASILEIRA
1950-2000
Anos Populao (em milhes)
1950
1960
1970
1980
1990
2000
52
70
93
119
147
170
Fonte: IBGE
b) Cidades brasileiras mais
visitadas por turistas
estrangeiros (1999)
Cidades N de turistas
(%)
Rio de Janeiro
Florianpolis
So Paulo
Salvador
Foz do Iguau
32,54
17,69
13,74
12,67
11,78
Fonte: OMT
2) Represente a srie abaixo usando o grfico em linha e/ou grfico em colunas
mltiplas:
Evoluo da taxa de desemprego em % (out. e nov. de 2000)
Estado Outubro Novembro
Recife
Salvador
Belo Horizonte
Rio de Janeiro
So Paulo
Porto Alegre
Outros
7,7
9,2
6,9
4,7
7,2
7,6
6,8
6,9
9,2
7,1
4,4
6,2
6,6
6,2
Fonte: IBGE
3) De acordo com a Agencia AutoInforme, caram as vendas de carros 1.0 ou 1.000cc.
A tendncia do brasileiro em comprar carro de 1.000cc est diminuindo. Em 2004 a
participao deste tipo de motorizao era de 57,3% e no ano de 2005 caiu para 55,9%.
Estes compradores migraram para carros de at 2.000 cc, que passou de 42,3% para
43,5% na participao da produo dos carros. Construa uma tabela e um grfico em
colunas mltiplas para representar os dados.
4) O grfico abaixo representa os
continentes onde falta gua encanada (total:
1,1 bilho de pessoas). Qual a quantidade de
pessoas sem gua encanada na frica (1), na
Europa (2), na sia (3),na Amrica Latina e
Caribe (4)? Construa uma tabela
reproduzindo os dados :
Continentes onde falta gua
encanada
2
2%
4
7%
3
63%
1
28%
1
2
3
4
5) Na figura, determine as parcelas de
trabalhadores correspondentes aos
percentuais indicados, sabendo que a
populao de trabalhadores paulistanos
seja de 4,8 milhes. Construa uma
tabela reproduzindo os dados obtidos.
53%
14%
14%
7%
6%
6%
0 20 40 60
Pagar divdas
Fazer compras
Poupar ou guardar
Investir ou aplicar
Gastar nas frias
Outros
percentual
o
p
e
s
O que vai fazer com o dinheiro do 13
salrio
6) De acordo com o Contedo Tecnolgico do Comrcio Exterior Brasileiro, o Brasil
exportou entre 2000 e 2003, 15% em produtos de alto nvel de tecnologia, 18% em
produtos de mdia tecnologia, 8% em produtos de baixa tecnologia, 13% de
manufaturados, 39% de Comodities e 7% de outros produtos. Pede-se: a) Organize uma
tabela; b) Construa um grfico em barras para representar os dados; c) Construa um grfico
em setores para representar os dados.
7) Construir um grfico de Pareto para a tabela abaixo que apresenta as reas em
que o Procon recebe reclamaes e conclua em que reas o Procon dever
centralizar suas investigaes.
Reclamaes no PROCON por rea
reas % ou f
i
%
Alimentos
Assuntos financeiros
Habitao
Produtos
Sade
Servios
1
23
8
21
7
40
20
- Histograma:
5.1) Medidas de posio:
So medidas estatsticas que representam uma srie de dados com o
objetivo de orientar quanto a posio da distribuio em relao ao eixo
horizontal (eixo das abscissas).
As medidas de posio mais importantes so as medidas de Tendncia
Central: a mdia aritmtica, a moda e a mediana. As outras medidas de
posio so as separatrizes: a prpria mediana, os quartis e os percentis.
23
- Medidas de Tendncia Central: tais medidas do o valor do ponto no
eixo das abscissas em torno do qual os dados se distribuem.
a) Mdia aritmtica ( ) X
{
= =
i
i i i i
f
f . x
X ou
n
f . x
X
EX: Numa pesquisa realizada por uma empresa de turismo, foram
entrevistadas 120 famlias que expressaram sua opinio em relao ao
nmero de quartos que devem existir em chals.
Nmero de quartos dos chals
N de quartos
(x
i
)
Freqncia
(f
i
)
x
i
.f
i
1
2
3
4
27
44
33
16
27
88
99
64
Calcule a mdia do
nmero de quartos que
devem existir em chals.
= i
f 120 = 278 f . x
i i
=
i
i i
f
f . x
X 3 , 2 X
120
278
X
120
16 4 33 3 44 2 27 1
X = =
+ + +
=
Interpretao do resultado: lgico que no se pode construir chals com
2,3 quartos. Nessa situao considera-se a aproximao do resultado 2,3
para 2 (dois). A interpretao do resultado que a preferncia das famlias
tende para chals com dois dormitrios.
OBS: Pode-se abrir uma coluna na tabela, correspondente aos produtos x
i
.f
i
,
o que torna mais prtico o clculo da mdia.
- Com intervalos de classe:
Para dados agrupados, com intervalos de classe, calcula-se a mdia
ponderada, somando-se o produto do ponto mdio de cada classe (x
i
) pela
respectiva freqncia e dividindo-se a soma pelo nmero de dados. Ou seja:
= =
i
i i i i
f
f . x
X ou
n
f . x
X
EX: Considere a distribuio:
Salrios dos funcionrios da companhia A,
em reais, no ano de 2001
Classes Salrios(R$) x
i
f
i
1
2
3
4
5
400 600
600 800
800 1000
1000 1200
1200 1400
500
700
900
1100
1300
79
45
31
12
9
Calcule o salrio mdio da
na Companhia A, em 2001.
=
i
i i
f
f . x
X
24
Uso da calculadora: Entra na funo STAT e digita-se x
i
f
i
. Cada produto
armazenado na memria DATA (tecla M+). Na seqncia determina-se a
mdia x digitando-se a tecla X-M
b) Moda (Mo)
Moda o valor que ocorre com maior freqncia em uma srie de
valores.
\
|
+
+ = onde: l
*
= limite inferior da classe modal
h
*
= amplitude da classe modal
D
1
= f
*
- f(ant.) e f
*
= freqncia da classe modal
D
2
= f
*
- f(post.)
EX: Considere a distribuio:
Salrios dos funcionrios da companhia A,
em reais, no ano de 2001
Classes Salrios(R$) x
i
f
i
Calcule o salrio modal:
1
2
3
4
5
400 600
600 800
800 1000
1000 1200
1200 1400
500
700
900
1100
1300
79
45
31
12
9
Maior freqncia = 79
Classe modal 400 600
l
*
= 400 - L
*
= 600
Moda Bruta: Mo = 500 Mo
2
600 400
=
+
Moda de Czuber:
*
2 1
1 *
h
D D
D
l Mo
|
|
.
|
\
|
+
+ = 200
34 79
79
400 |
.
|
\
|
+
+ = Mo
= Mo 539,82 reais
c) Mediana (Md)
25
Mediana o valor que se encontra no centro de uma srie de dados,
dispostos em ordem crescente. Ou seja, a mediana o valor situado de tal
forma em um conjunto de valores que o divide em dois subconjuntos de
mesmo nmero de elementos.
EX: Seja a tabela:
x
i
f
i
F
i
12
14
15
16
17
20
1
2
1
2
1
1
1
3
4
6
7
8
= i
f 8 4
2
8
= . Como
F
3
=4 , tem-se Md =
5 , 15
2
31
2
16 15
2
x x
4 3
= =
+
=
+
= i
f 08
- Com intervalos de classe:
Para dados agrupados, com intervalos de classe, calcula-se o ponto do
intervalo em que est compreendida a mediana, aps determinar a classe na
qual se acha a mediana, ou seja, a classe mediana, que ser, aquela que
corresponde a freqncia acumulada imediatamente superior a
2
f
i
. A
mediana ser obtida pela frmula:
*
*
* i
*
f
h ) ant ( F
2
f
l Md
|
.
|
\
|
+ =
onde: l
*
= limite inferior da classe mediana
h
*
= amplitude da classe mediana
F(ant) = freqncia acumulada da classe anterior a classe mediana
f
*
= freqncia simples da classe mediana
EX: Salrios dos funcionrios da companhia A, em reais, no ano de 2001
Classes Salrios(R$) f
i
F
i
Calcule o salrio mediano:
1
2
3
4
5
400 600
600 800
800 1000
1000 1200
1200 1400
79
45
31
12
9
79
124
155
167
176
= i
f 176 176/2 = 88. Como
a freqncia acumulada
imediatamente superior a 88
igual a 124, tem-se classe
mediana: 600 a 800.
= i
f 176
l
*
= 400- f
*
=45 - F(ant)=79
*
* i
*
f
h ) ant ( F
2
f
l Md
|
.
|
\
|
+ =
Md=600 +
( )
=
Md
45
200 79 88
OBS:
26
1) quando X =Mo=Md a distribuio simtrica.
X =Mo=Md
2) quando Mo<Md<X a distribuio assimtrica positiva e quando
X <Md<Mo a distribuio assimtrica negativa.
Moda
Mediana
Mdia
Mo<Md<X X <Md<Mo
EXERCCIOS:
1) Uma amostra contendo dez preos referentes ao litro de leo industrializado foi
extrada em diferentes postos no dia 3/5/2002. Os preos em reais so: 1,46 -
1,55 - 1,62 - 1,54 - 1,49 - 1,71 - 1,82 - 1,63 - 1,87 - 1,78. Calcule o
preo mdio, o preo modal e preo mediano do litro de leo industrializado.
2) Um produto acondicionado em lotes contendo cada lote 10 unidades. O lote s
aprovado se apresentar um peso superior a 40 quilos. Se as unidades que compem
determinado lote pesam: 3; 4; 3,5; 5,0; 3,5; 4; 5; 5,5; 4; 5, este lote ser aprovado? Qual o
peso mdio do produto?
3) Numa empresa industrial, o departamento de Segurana e Sade Ocupacional
divulga semestralmente um relatrio com os dados das ocorrncias sob sua
responsabilidade, sendo os seguintes:
Construa uma tabela para representar o grfico e calcule o nmero mdio de acidentes
ocorridos no 1 semestre nesta empresa.
4) Uma empresa de aviao observou em seus registros recentes, o tempo de mo
de obra (hs) gasto na reviso completa de um motor de jato. O seguinte quadro foi
observado:
Tempo(hs) f
i
x
i
x
i
.f
i
0 4
4 8
8 12
12 16
16 20
4
9
11
8
5
= i
f
a) Determine o nmero mdio de horas de mo de obra necessrio para a
reviso de cada motor; b) Com base nesta informao, qual deve ser o tempo
total de mo de obra para a reviso de dez motores que aguardam reviso. c) o
tempo modal. d) o tempo mediano.
5) Uma empresa de mbito nacional, fornecedora de supermercados, fez um levantamento
de consumo de seu principal produto em vrios supermercados obtendo em determinado
ms, a tabela:
N de unidades N supermercados- f
i
x
i
x
i
.f
i
0 1000
1000 2000
2000 3000
3000 4000
4000 5000
5000 6000
10
50
200
320
150
30
= i
f
Determine o consumo mdio, modal e mediano deste produto por
supermercado pesquisado.
6) Calcule a mdia, a moda e a mediana da srie representativa da idade de 50
estagirios de uma empresa:
27
Idade, em anos de estagirios de uma empresa
Idades-(em anos)- (x
i
) Freqncia (f
i
) x
i
.f
i
17
18
19
20
21
3
18
17
8
4
= i
f
50
=
i i
f . x
- Separatrizes
As separatrizes so valores de referncia em um conjunto de valores
ordenados e, portanto, so aplicadas a variveis quantitativas e qualitativas
ordinais. A mediana um exemplo destas medidas, pois separa o conjunto
de dados em dois subconjuntos, com as menores e maiores observaes.
Se o interesse subdividir o conjunto ordenado em 4 partes de
igual tamanho, sero necessrios 3 valores para estabelecer esta
separao.. Estes valores so chamados quartis. Os elementos
separatrizes so Q
1
, Q
2
e Q
3
.
Onde: O primeiro quartil (Q1) estabelece o limite entre as 25% menores
observaes e as 75% maiores. O segundo quartil (Q2) igual a mediana e o
terceiro quartil (Q3) separa as 75% menores observaes das 25% maiores.
Para o clculo dos quartis, utiliza-se tcnicas semelhantes quelas do
clculo da mediana. Assim, determina-se, inicialmente, a classe que contm
o valor quartil a ser calculado. A identificao da classe feita por meio do
termo da ordem calculada pela expresso:
Kf
i
com K = 1, 2 ou 3
4
Esse termo est localizado numa classe que recebe o nome de classe quartil.
Sendo:
l
Qk
= limite inferior da classe do quartil considerado;
F
ant
= frequncia acumulada da classe anterior classe do quartil
considerado;
h
Qk
= amplitude do intervalo de classe do quartil considerado;
f
Qk
= frequncia simples da classe do quartil considerado.
EX 1: Calcule Q
1
, Q
2
e Q
3
para os dados da distribuio:
Nmero de quartos dos chals
N de quartos (x
i
) Freqncia (f
i
)
1
2
3
4
27
44
33
16
= i
f 120
clculo da classe que contm o valor quartil a ser calculado
EX 2: Considere a distribuio:
Salrios dos funcionrios da companhia A, em reais, no ano de 200
Classes Salrios(R$) f
i
F
i
1
2
3
4
5
400 600
600 800
800 1000
1000 1200
1200 1400
79
45
31
12
9
79
124
155
167
176
= i
f 176
Calcule o salrio quartil 1 ou 3 na Companhia A, em 2001
clculo da classe que contm o valor quartil a ser calculado
28
Clculo de Q
1
: (classe 1)
l
Q1
= 400 - F
ant
= 0 - f
Q1
= 79 - h
Q1
= 200
Clculo de Q
3
: (classe 3)
l
Q3
= 800 - F
ant
= 124 - f
Q3
= 31 - h
Q3
= 200
Se o interesse dividir o conjunto ordenado em 10 partes de
igual tamanho, sero necessrios 9 valores para estabelecer esta
separao.. Estes valores so chamados decis. Os elementos
separatrizes so D
1
, D
2
, ... D
5
, .... D
9
Onde:
D
1
o primeiro decil, corresponde a separao dos primeiros 10% de
elementos da srie.
D
5
o quinto decil, coincide com a mediana.
D
9
o nono decil, corresponde a separao dos ltimos 10% de elementos
da srie.
Para o clculo dos decis, utiliza-se tcnicas semelhantes quelas do
clculo da mediana. Assim, determina-se, inicialmente, a classe que contm
o valor decil a ser calculado. A identificao da classe feita por meio do
termo da ordem calculada pela expresso:
Kf
i
com K = 1, 2, 3, 4, 5, 6, 7, 8 ou 9
10
Esse termo est localizado numa classe que recebe o nome de classe decil.
Sendo:
l
Dk
= limite inferior da classe do decil considerado;
F
ant
= frequncia acumulada da classe anterior classe do decil considerado;
h
Dk
= amplitude do intervalo de classe do decil considerado;
f
Dk
= frequncia simples da classe do decil considerado.
Se o interesse dividir o conjunto ordenado em 100 partes de
igual tamanho, sero necessrios 99 valores para estabelecer
esta separao.. Estes valores so chamados percentis. Os
elementos separatrizes so P
1
, P
2
, ... P
50
, .... P
99
Onde:
P
1
o primeiro percentil, corresponde a separao dos primeiros 1% de
elementos da srie.
P
50
o cinquentsimo percentil, coincide com a mediana.
P
99
o nonagsimo nono percentil, corresponde a separao dos ltimos 1%
de elementos da srie.
Para o clculo dos percentis, utiliza-se tcnicas semelhantes quelas
do clculo da mediana. Assim, determina-se, inicialmente, a classe que
contm o valor percentill a ser calculado. A identificao da classe feita
por meio do termo da ordem calculada pela expresso:
Kf
i
com K = 1, 2, 3, ...., 97, 98, 99
100
Esse termo est localizado numa classe que recebe o nome de classe
percentil.
29
Sendo:
l
Pk
= limite inferior da classe do percentil considerado;
F
ant
= frequncia acumulada da classe anterior classe do percentil
considerado;
h
Pk
= amplitude do intervalo de classe do percentil considerado;
f
Pk
= frequncia simples da classe do percentil considerado.
EXERCCIOS:
1) Um parque temtico apresenta para cada uma de suas unidades um
consumo de eletricidade em kwh, de acordo com a tabela abaixo.
Consumo de eletricidade em kwh em um parque temtico
i Consumo de energia (kwh) N de unidades (f
i
)
1
2
3
4
5
6
7
8
9
10 30
30 50
50 70
70 90
90 110
110 130
130 150
150 170
170 190
8
19
17
15
32
28
26
18
10
Calcule: a) a mdia de consumo de energia em KWh; b) a moda e a
mediana; c) os quartis Q
1
, Q
2
e Q
3
; d) os decis D
4
e D
8
; e) os percentis P
13
,
P
26
; P
58
e P
89
.
2) Uma rede de hotis tem um gasto salarial com seus funcionrios de
acordo com a tabela:
Gasto salarial com funcionrios em uma rede de hotis
i N de salrios mnimos N de funcionrios (f
i
)
1 0 2 14
2
3
4
5
6
7
8
9
10
2 4
4 6
6 8
8 10
10 12
12 14
14 16
16 18
18 20
28
19
15
16
17
13
9
6
3
Calcule: a) a mdia dos salrios; b) a moda e a mediana; c) os quartis Q
1
,
Q
2
e Q
3
; d) os decis D
2
, D
6
e D
9
; e) o 18, 0 29, o 58, 72 e o 93 percentil.
5.3. Medidas de variabilidade ou disperso:
So medidas estatsticas utilizadas para avaliar o grau de variabilidade
ou disperso, dos valores em torno da mdia. Servem para verificar a
representatividade da mdia. Por exemplo, sejam as sries:
X: 70,70,70,70,70 X = 70
Y: 68,69,70,71,72 Y = 70
Z: 5,15,50,120,160 Z = 70
As trs sries apresentam a mesma mdia aritmtica, porm a
distribuio dos valores nas sries so muito diferentes. Na srie X no h
disperso dos dados em torno da mdia, j que todos os valores so iguais a
prpria mdia. Na srie Y, j existe uma certa disperso dos valores em torno
da mdia, entretanto, uma disperso menor que a observada na srie Z.
Assim, o conjunto X apresenta disperso ou variabilidade nula e o
conjunto Y apresenta disperso ou variabilidade menor que o conjunto Z.
Para determinar o grau de disperso, a estatstica recorre as medidas de
disperso ou variabilidade, entre elas: a amplitude total, a varincia, o
desvio padro e o coeficiente de variao.
30
- Amplitude total (A
T
):
=
e desvio padro
1 n
) X x (
s
2
i
=
Desse modo o desvio padro da amostra tende a se aproximar do desvio
padro da populao da qual a amostra foi retirada.
EX: Sabendo que a produo leiteira diria de uma vaca, durante uma semana,
foi de: 10, 14, 13, 15, 16, 18 e 12 litros, calcule a varincia e o desvio padro da
produo leiteira da vaca A.
Calcula-se litros 14 X = e n = 7
1 n
) X x (
s
2
i 2
=
e tomando-se os valores de x
i
em ordem crescente, tem-se:
s
2
=
1 7
) 14 18 ( ) 14 16 ( ) 14 15 ( ) 14 14 ( ) 14 13 ( ) 14 12 ( ) 14 10 (
2 2 2 2 2 2 2
+ + + + + +
s
2
= 7 s
6
16 4 1 0 1 4 16 2
=
+ + + + + +
OBS: Para facilitar o clculo pode-se construir uma tabela e abrir uma
coluna para
x
i
- X e outra para (x
i
- X )
2
, ou seja:
x
i x
i
- X (x
i
- X )
2
10
12
13
14
15
16
18
-4
-2
-1
0
1
2
4
16
4
1
0
1
4
16
1 n
) X x (
s
2
i 2
=
s
2
= 7 s
6
42 2
= e
s= 7 s = 2,65
= 42 ) X x (
2
i
OBS: considerando que, em geral a mdia aritmtica X um nmero
fracionrio, tornando pouco prtico o clculo de x
i
- X , mais conveniente
utilizar para o clculo da varincia e do desvio padro, as frmulas abaixo,
derivadas da frmula anterior e abrir na tabela apenas a coluna x
i
2
:
1 n
n
) x (
x
s
2
i 2
i
2
e s =
1 n
n
) x (
x
2
i 2
i
Dem: Desenvolvendo algebricamente a frmula anterior de s
2
tem-se:
1 n
) X x (
s
2
i 2
=
s
2
=
1 n
) X X . x 2 x (
2
i
2
i
+
s
2
=
1 n
X X . x 2 x
2
i
2
i
+
s
2
=
1 n
X n . x X 2 x
2
i
2
i
+
s
2
=
1 n
)
n
x
( n x
n
x
2 x
2 i
i
i 2
i
+
s
2
=
1 n
n
) x (
n x .
n
x
. 2 x
2
2
i
i
i 2
i
s
2
=
1 n
n
) x (
n
) x (
2 x
2
i
2
i 2
i
+
s
2
=
1 n
n
) x (
x
2
i 2
i
EX: Sabendo que a produo leiteira diria da vaca A, durante uma semana,
foi de: 10, 14, 13, 15, 16, 18 e 12 litros, calcule a varincia e o desvio padro
da produo leiteira da vaca A.
x
i
x
i
2
10
12
13
14
15
16
18
100
144
169
196
225
256
324
1 n
n
) x (
x
s
2
i 2
i
2
s
2
=
1 7
7
98
1414
2
s
2
=
6
42
s
2
= 7
logo: s= 7 s = 2,65
= i
x 98 =
2
i
x 1414
32
b) Varincia e desvio padro para dados
agrupados
=
ou
1 n
n
) f . x (
f . x
s
2
i i
i
2
i
2
Para o desvio padro (s) :
1 n
f . ) X x (
s
i
2
i
=
ou s =
1 n
n
) f . x (
f . x
2
i i
i
2
i
OBS: Para facilitar os clculos abre-se na tabela colunas para os clculos de
x
i
.f
i
e x
i
2
.f
i
EX: Na pesquisa realizada por uma empresa de turismo em que foram
entrevistadas 120 famlias quanto ao nmero de quartos que devem existir em
chals, calcule a varincia e o desvio padro.
Nmero de quartos dos chals
N de quartos (x
i
) f
i
x
i
.f
i
x
i
2
x
i
2
.f
i
1
2
3
4
27
44
33
16
27
88
99
64
1
4
9
16
27
176
297
256
= i
f 120 = 278
= 756
1 n
n
) f . x (
f . x .
s
2
i i
i
2
i
2
s
2
= 97 , 0 s e 94 , 0
119
97 , 111
119
03 , 644 756
1 120
120
) 278 (
756
2
= = =
- Com intervalos de classe:
Para dados agrupados, com intervalos de classe, utilizam-se as mesmas
frmulas para dados agrupados sem intervalos de classe. Entretanto, por se
desconhecer os particulares valores de x
i
, substitu-se estes valores pelos
pontos mdios de classe. Assim:
Para a varincia (s
2
):
1 n
f . ) X x (
s
i
2
i 2
=
ou
1 n
n
) f . x (
f . x
s
2
i i
i
2
i
2
Para o desvio padro (s) :
1 n
f . ) X x (
s
i
2
i
=
ou s =
1 n
n
) f . x (
f . x
2
i i
i
2
i
em que x
i
o ponto mdio da classe i.
EX: Considere a distribuio: Salrios dos funcionrios da companhia A,
em reais, no ano de 2001
Classes Salrios(R$) f
i
x
i
.f
i
x
i
2
x
i
2
.f
i
1
2
3
4
5
400 600
600 800
800 1000
1000 1200
1200 1400
79
45
31
12
9
= i
f 176
1 n
n
) f . x (
f . x
s
2
i i
i
2
i
2
OBS: O desvio padro a mais importante das medidas de disperso. Nas
distribuies simtricas, em que X =Mo=Md, pode-se afirmar que o
intervalo ] s X , s X [ + , contm aproximadamente 68% dos valores da srie.
68 %
s X X s X+
33
O intervalo ] s 2 X , s 2 X [ + contm aproximadamente 95 % dos valores da srie.
95 %
s 2 X X s 2 X+
O intervalo ] s 3 X , s 3 X [ + contm aproximadamente 99 % dos valores da srie.
99 %
s 3 X X s 3 X+
Quando a distribuio no perfeitamente simtrica, estes percentuais
apresentam pequenas variaes para mais ou para menos, segundo o caso.
Assim, quando se afirma que uma srie apresenta mdia X = 100 e desvio
padro s = 5, isso significa que:
- o intervalo [95, 105] contm aproximadamente 68% dos valores da srie;
- o intervalo [90, 110] contm aproximadamente 95% dos valores da srie;
- o intervalo [ 85, 115 contm aproximadamente 99% dos valores da srie.
OBS: ao aumentar o tamanho do intervalo, aumenta-se o percentual de
elementos contido no intervalo.
Uso da calculadora:
Dados no-agrupados: Funo STAT - f
i
- M+ . Digitados todos os produtos,
digita-se a tecla RM .
Dados agrupados: Funo STAT - x
i
f
i
M+ . Digitados todos os produtos,
digita-se a tecla RM
EXERCCIOS
1) Uma amostra contendo dez preos referentes ao litro de leo industrializado foi
extrada em diferentes postos no dia 8/7/2006. Os preos em reais so:
1,46 - 1,55 - 1,62 - 1,54 - 1,49 - 1,71 - 1,82 - 1,63 - 1,87 - 1,78
Calcule a variao no preo do litro de leo industrializado, atravs da amplitude total e do
desvio padro.
2) Um produto acondicionado em lotes contendo cada lote 10 unidades. O lote s
aprovado se apresentar um peso superior a 40 quilos. Se as unidades que compem
determinado lote pesam: 3; 4; 3,5; 5,0; 3,5; 4; 5; 5,5; 4; 5. Determine a amplitude total, a
varincia e o desvio padro do lote.
3) Uma empresa produz caixas de papelo para embalagens e afirma que o nmero
de defeitos por caixa se distribui conforme a tabela:
N de defeitos- (x
i
) 0 1 2 3 4 5
N de caixas (f
i
) 32 28 11 4 3 1
Pede-se: a) o n mdio de defeitos por caixa; b) o nmero de caixas com menos de 3
defeitos; c) o nmero de caixas com mais de 4 defeitos; d) a percentagem de caixas
com n de defeitos entre 1 e 4, inclusive; e) o n mediano de defeitos por caixas; f) o n
modal; g) a amplitude total da distribuio; h) a varincia; i) o desvio padro.
4) Uma amostra aleatria de 250 residncias de famlias, classe mdia, com dois
filhos, revelou a seguinte distribuio do consumo mensal de energia eltrica:
Consumo mensal- (kwh) n de famlias -f
i
0 50
50 100
100 150
150 200
200 250
250 300
300 350
2
15
32
47
50
80
24
= i
f
Determine: a) o consumo mdio de energia por residncia; b) o nmero de famlias
com consumo mensal inferior a 200 kwh ; c) o nmero de famlias com consumo
mensal maior ou igual a 200 e menor que 250 kwh; d) a percentagem de famlias com
consumo mensal menor que 100 kwh; e) o consumo mediano; f) o consumo modal; g)
a amplitude total da distribuio; h) a varincia; i) o desvio padro.
5) As lojas A e B, bimestralmente, vendem a quantidade de peas para automveis
demonstrada pelos dados abaixo:
A: 127 - 211 239 164 198 142 100 214 212 230 132 118 112
125
B : 115 118 116 230 215 260 134 129 138 119 231 221 - 210
- 131
b) qual a mdia de vendas de A e de B. Analise essas mdias. b) Qual loja apresenta
maior disperso nas vendas? Porque? c) Qual o valor mediano das vendas da loja A e
da loja B? d) Indique o valor da moda para A e B. Interprete.
34
6) Uma empresa de mbito nacional, fornecedora de supermercados, fez um
levantamento de consumo de seu principal produto em vrios supermercados
obtendo em determinado ms, a tabela:
N de unidades f
i
0 1000
1000 2000
2000 3000
3000 4000
4000 5000
5000 6000
10
50
200
320
150
30
Determine a amplitude total, a
varincia e o desvio padro da
srie
= i
f
- Coeficiente de variao (CV):
Trata-se de uma medida relativa de disperso. Enquanto a amplitude total
(A
T
), varincia (s
2
) e desvio padro (s) so medidas absolutas de disperso,
o coeficiente de variao (CV) mede a disperso relativa. dado pela razo
entre o desvio padro e a mdia. Assim, para que esse valor seja dado em
percentagem o resultado multiplicado por 100. Ou seja:
100
X
s
CV = s= desvio padro amostral e X = mdia amostral
usado para comparar duas ou mais sries de valores, relativamente sua
disperso ou variabilidade. EX: Em uma empresa, o salrio mdio dos
homens de R$ 4.000, com desvio padro de R$ 1.500, e o salrio mdio
das mulheres de R$ 3.000, com desvio padro de R$ 1.200. Do ponto de
vista absoluto, o salrio dos homens apresenta maior disperso que o salrio
das mulheres. No entanto, se levarmos em considerao as mdias, tem-se:
Para os homens : 100
X
s
CV = CV = % 5 , 37 100
000 . 4
500 . 1
= =
Para as mulheres: 100
X
s
CV = CV = % 40 100
000 . 3
200 . 1
=
Assim: os salrios das mulheres tm disperso relativa maior do que os salrios
dos homens.
EXERCCIO
1) Em uma sala de aula foram escolhidos ao acaso 5 acadmicos e a notas deles em
Estatstica foram 6, 8, 10, 8, 7, 9, enquanto em outra sala as notas foram 10, 10, 10,
7, 4, 7. Pergunta-se em qual turma as notas foram mais homogneas, ou seja, onde
foi menor a variao? Calcule o desvio padro de ambas e verifique o que menos
variou entre elas.
5.3 Medidas de assimetria:
Denomina-se assimetria o grau de desvio ou de afastamento da simetria,
de uma distribuio. J vimos que: em uma distribuio simtrica, tem-se
X =Mo=Md. Em uma distribuio assimtrica positiva tem-se: Mo<Md<X e
na assimtrica negativa: X <Md<Mo. Na distribuio assimtrica positiva, a
curva de freqncia tem uma cauda mais longa direita e na assimtrica
negativa, a curva tem uma cauda mais longa a esquerda.
O grau de assimetria pode ser determinado pela coeficiente de Pearson,
dado por:
As =
s
Mo X
Assim:
- se As=0, diz -se que a distribuio simtrica
X =Mo=Md
- se As > 0 diz-se que a dist. assimtrica positiva
Mo<Md< X
- se As < 0, diz-se que a dist. assimtrica negativa
X <Md<Mo
Segundo esse critrio, as distribuies so classificadas da seguinte forma:
- Se As s -1 : assimtrica negativa forte
- Se -1 < As < 0 : assimtrica negativa fraca
- Se As = 0 : simtrica
- Se 0 < As < 1 : assimtrica positiva fraca
- Se As > 1 : assimtrica positiva forte
35
EX: Estaturas de 40 alunos de uma escola A
Estaturas(cm) f
i
150 154
154 158
158 162
162 166
166 170
170 174
4
9
11
8
5
3
Determine o coeficiente de assimetria
161 X = cm - Mo= 159,6 cm - s = 5,57 cm
As =
s
Mo X
=
Como As=
= i
f 40
5.4 Medidas de curtose:
As medidas de curtose classificam as curvas de freqncias quanto ao
afilamento ou achatamento de sua rea central em relao a curva normal.
De acordo com o grau de curtose, pode-se classificar trs tipos de curvas de
freqncia. Por exemplo:
- se a distribuio apresenta uma curva de freqncia mais fechada que a
curva normal (mais afilada na sua rea central), denominada
leptocrtica;
- se a distribuio apresenta uma curva de freqncia normal,
denominada mesocrtica;
- se a distribuio apresenta uma curva de freqncia mais aberta que a
curva normal (mais achatada na sua rea central), denominada
platicrtica;
leptocrtica mesocrtica platicrtica
Para classificar uma distribuio quanto a sua curtose, podemos utilizar o
coeficiente de curtose dado por:
3
s
f
f . ) X x (
K
4
i
i
4
i
Em que: Se K = 0 a distribuio mesocrtica
Se K> 0 a distribuio leptocrtica
Se K< 0 a distribuio platicrtica
Ou utilizando as separatrizes:
) P P .( 2
) Q Q (
K
10 90
1 3
=
Onde: Q3 e Q1 so o terceiro e primeiro quartil
P90 e P10 so o dcimo e nonagsimo
Quanto a curtose a distribuio pode ser:
Se K = 0,263 a distribuio mesocrtica normal.
Se K> 0,263 a distribuio platicrtica
Se K< 0,263 a distribuio leptocrtica
EX: Estaturas de 40 alunos de uma escola A
Estaturas(cm) f
i
x
i x
i
- X (x
i
- X )
4
150 154
154 158
158 162
162 166
166 170
170 174
4
9
11
8
5
3
= i
f 40
Determine o coeficiente de curtose
) P P .( 2
) Q Q (
K
10 90
1 3
= K =
36
EXERCCIOS
1) Dada a tabela abaixo: Idade, em anos de alunos do 1 ano de uma faculdade
Idades-(em anos)- (xi) Freqncia (fi)
17
18
19
20
21
3
18
17
8
4
Calcule o coeficiente de
variao, o coeficiente de
assimetria e o coeficiente
de curtose.
= i
f
2) Considerando a distribuio de frequncia relativa aos pesos de 100 funcionrios de
uma empresa:
Peso (kg) 50 58 58 66 66 74 74 82 82 90 90 98
f
i
10 15 25 24 16 10 = i
f
Determine: a) o peso mdio dos funcionrios; b) o nmero de funcionrios com
peso inferior a 74 Kg; c) o nmero de funcionrios com peso entre 58, inclusive, e
82 kg; d) a percentagem de funcionrios com peso superior a 66 kg; e) o peso
mediano dos funcionrios; f) o peso modal; g) a amplitude total da distribuio; h)
s
2
; i) s; j) o coeficiente de variao; k) o coeficiente de assimetria; l) o coeficiente
de curtose.
3) Em uma classe de 50 alunos, as notas obtidas formaram a seg. distribuio:
notas - (x
i
) 2 3 4 5 6 7 8 9 10
N de alunos (f
i
) 1 3 6 10 13 8 5 3 1 = i
f 50
Determine: a) a nota mdia dos alunos; b) o nmero de alunos com nota inferior a
6; c) o nmero de alunos com nota entre 4, inclusive, e 7; d) a percentagem de
alunos com nota superior a 7; e) a nota mediana; f) a nota modal; g) a amplitude
total da distribuio; h) s
2
; i) s; j) o coeficiente de variao; k) o coeficiente de
assimetria.
4) Um grupo de 85 moas tem estatura mdia de 160,6 cm, com um desvio padro
igual a 5,97 cm. Outro grupo de 125 moas tem uma estatura mdia de 161,9 cm,
sendo o desvio padro igual a 6,01 cm. a) Qual o coeficiente de variao de cada
uma dos grupos? B) Em termos absolutos, qual grupo apresenta maior disperso: c)
em termos relativos, qual grupo apresenta menor disperso?
5) Uma professor resolveu fazer uma investigao a respeito do peso (em Kg) em
dois grupos de 7 alunos cada, escolhidos aleatoriamente de 2 turmas de 8 srie. No
primeiro grupo os alunos apresentaram os pesos: 65, 57, 89, 65, 50, 72 e 81. No
segundo grupo foram verificados os pesos: 80, 78, 67, 56, 90, 101 e 66. Qual grupo
apresenta maior disperso no peso: a) em termos absolutos. Porqu?; b) em termos
relativos. Porqu?
6) Uma mquina produz peas que so embaladas em caixas contendo 48 unidades.
Uma pesquisa realizada com 59 caixas revelou a existncia de peas defeituosas
seguindo a tabela:
N de peas defeituosas por caixa (x
i
) N de caixas -(f
i
)
0
1
2
3
4
5
20
15
12
6
4
2
= i
f
Pede-se: a) o nmero mdio de peas defeituosas por caixa; b) o nmero modal;
c) o n mediano; d) a amplitude total; e) a varincia; f) o desvio padro; g) o
coeficiente de variao; h) o coeficiente de assimetria; i) o coeficiente de curtose.
7) Um fabricante de caixas de cartolina fabrica trs tipos de caixas. Testa-se a
resistncia de cada caixa, tomando-se uma amostra de 100 caixas e determinando-
se a presso necessria para romper cada caixa. So os seguintes os resultados dos
testes:
Tipos de caixas A B C
Presso mdia de ruptura 150 200 300
Desvio padro das presses 40 50 60
a) Que tipo de caixa apresenta a menor variao absoluta na presso de
ruptura?
b) Que tipo de caixa apresenta a maior variao relativa na presso de
ruptura?
8) Uma indstria de vlvulas de televiso tem dois tipos de vlvulas, A e B. As
vlvulas tm duraes mdias de 495 . 1 XA = horas e = B X 1.875 horas
respectivamente, e os desvios padres de
A
s = 280 horas e =
B
s 310 horas. Qual a
vlvula que tem maior: a) disperso absoluta; b) disperso relativa?
9) Em um exame final de estatstica, o grau mdio de um grupo de 150 estudantes
foi de 78 e o desvio padro 8,0. Em matemtica, entretanto, o grau mdio final do
grupo foi de 73 e o desvio padro 7,6. Em que matria foi maior: a) a disperso
absoluta; b) a disperso relativa?
37
6) Correlao e regresso:
Existem situaes nas quais interessa estudar o comportamento
conjunto de duas ou mais variveis. Por exemplo: as vendas de um produto
dependem dos gastos com propaganda, o gasto com alimentao por famlia
est relacionado com a renda familiar, a quantidade produzida de um
produto afeta o custo total de produo. Na prtica comum situaes em
que uma varivel se relaciona com vrias outras, e se deseja determinar um
modelo para descrever a relao entre essas variveis. Por exemplo: o custo
de um produto depende do tempo gasto em sua fabricao e do nmero de
operrios envolvidos, etc...
No caso de duas variveis, denomina-se de X a varivel
independente e de Y a varivel dependente. Na existncia de algum tipo de
relacionamento entre as variveis, diz-se que h uma correlao entre elas.
Se h correlao entre as variveis possvel descrever o tipo de relao
presente entre elas atravs de uma regresso.
6.1. Correlao:
As correlaes so relaes estabelecidas aps uma pesquisa. Com
base nos resultados da pesquisa, faz-se comparaes que eventualmente
podem conduzir ou no ligao entre as variveis. Por exemplo: a relao
entre a aquisio de um produto e o salrio das pessoas, situao econmica
e sexo, etc.....
Para avaliar se existe correlao entre duas variveis pode-se utilizar
um grfico denominado diagrama de disperso.
O grfico de disperso construdo no sistema cartesiano em que os
eixos correspondem as variveis correlacionadas. A varivel dependente Y
situa-se no eixo das ordenadas e o eixo das abscissas reservado para a
varivel independente X. Os pares ordenados (x,y) formam uma nuvem de
pontos.
A configurao geomtrica do diagrama de disperso pode estar
associada a uma linha reta (correlao linear- positiva ou negativa), uma
linha curva (correlao curvilnea), ou ainda ter os pontos dispersos de
maneira que no definam nenhuma configurao (neste caso no h
correlao).
Correlao linear
Positiva
Correlao linear
negativa
Correlao
curvilnea
No h
correlao
Definida uma correlao linear entre as variveis possvel verificar
qual o grau de intensidade na correlao entre as variveis, atravs do
estabelecimento de um nmero, denominado coeficiente de correlao de
Pearson ( r ), dado por:
r =
] ) y ( y n ].[ ) x ( x n [
) y ).( x ( y x n
2
i
2
i
2
i
2
i
i i i i
n = n de observaes
OBS: r pode variar entre 1 e +1, inclusive, ou seja: 1 r 1 + s s
Se r = 0 diz-se que no h correlao entre as variveis X e Y
Se r = 1, diz-se que h uma perfeita correlao negativa entre as variveis.
Se r = +1, diz-se que h uma perfeita correlao positiva entre as variveis.
Se os valores de r estiverem prximos de 1 ou +1, indicam, respectivamente
uma forte correlao negativa ou positiva entre as variveis, ou seja: se r
prximo de 1, quando X aumenta, Y em mdia diminui, ou vice-versa; se r
prximo de +1, as variveis variam no mesmo sentido.
EX: As vendas de determinado produto, em milhares de unidades, foram
anotadas para diferentes valores de gastos com propaganda, em unidades
monetrias. Foram obtidos os seguintes resultados:
X (gastos- milhares)
1 2 3 4 5 6 7 8
Y (vendas) 2,2 3,0 2,8 3,4 3,7 3,5 3,6 3,8
Verifique, usando o grfico de disperso e o coeficiente de Pearson, se
existe relao entre as vendas do produto e os valores gastos com
propaganda, ou seja, verifique se as vendas do produto dependem dos gastos
com propaganda.
38
- Diagrama de disperso:
O grfico acima dos valores amostrados das variveis X e Y indica que
existe uma relao aproximadamente linear entre as variveis, isto , as vendas
do produto crescem de forma aproximadamente linear com os gastos com
propaganda no intervalo considerado. OBS: o diagrama pode ser obtido
utilizando-se a planilha Excel, em inserir grfico, escolhe-se disperso (XY),
e um dos diferentes tipos de grficos de disperso, conforme modelo abaixo:
Clicando em avanar, abre-se uma nova janela solicitando dados de origem:
Clicando em avanar, abre-se uma nova janela, solicitando opes
do grfico, como ttulo, eixo dos valores X, eixo dos valores Y, etc...
Nesta mesma janela j se complementa o grfico, clicando em Eixos, Linhas
de grade, legenda e rtulos de dados., obtendo-se:
39
- Clculo do coeficiente de Pearson:
r =
] ) y ( y n ].[ ) x ( x n [
) y ).( x ( y x n
2
i
2
i
2
i
2
i
i i i i
n= 8
x
i
(gastos) y
i
(vendas) x
i
y
i
x
2
y
2
1
2
3
4
5
6
7
8
2,2
3,0
2,8
3,4
3,7
3,5
3,6
3,8
=
i
x =
i
y =
i i
y x
=
2
i
x =
2
i
y
r =
] ) y ( y n ].[ ) x ( x n [
) y ).( x ( y x n
2
i
2
i
2
i
2
i
i i i i
r =
OBS: o coeficiente de correlao de Pearson pode ser obtido utilizando-se a
planilha Excel, em f
x
, categoria da funo: estatstica, funo PEARSON :
Clicando em OK aparecer uma nova janela em que se dever ser
selecionada a matriz referente aos valores de X ( A2:A9) e a matriz
correspondente aos valores de Y (B2:B9). O resultado aparecer na janela.
40
EXERCCIOS:
1) Certa empresa de produtos esportivos, estudando a variao da demanda
de seu produto em relao a variao de preo de venda, obteve a tabela:
preo -x
i
38 42 50 56 59 63 70 80 95 110
demanda -y
i
350 325 297 270 256 246 238 223 215 208
Faa um diagrama de disperso, determine o coeficiente de Pearson e
verifique que tipo de correlao existe entre as variveis preo e demanda.
2) A tabela a seguir apresenta os custos totais de fabricao (Y) em milhares
de reais, de determinado produto em funo do n X de unidades
produzidas:
Quantidade -x
i
10 20 30 40 50
Custos - y
i
110 215 295 400 490
a) Faa um grfico de disperso; b)Analisando o grfico, existe correlao
linear entre as variveis?
c) Caso positivo, calcule a medida de correlao de Pearson entre a
quantidade e o custo;
3) Seja a tabela abaixo composta pela massa (Kg) e altura em (cm) de
crianas com 10 meses de idade.
Altura -xi (cm) 75 70 73 78 80 69 71 72 74 77
Massa -yi (Kg) 9,0 9,2 8,9 8,5 9,5 9,6 9,1 10,0 8,7 9,4
Faa um diagrama de disperso, determine o coeficiente de Pearson e
verifique que tipo de correlao ( positiva ou negativa) existe entre as
variveis massa e altura.
4) Na tabela a seguir tem-se a nota sensorial global do leo de soja
armazenado em temperatura ambiente durante 190 dias.
Dias 0 28 91 119 153 190
Mdia global 8,4 7,6 5,2 4,8 4,0 3,6
a) Faa um grfico de disperso; b) Analisando o grfico, existe
correlao linear entre as variveis?
b) Calcule a medida de correlao de Pearson entre o tempo (dias) e a
mdia global;
6.2. Regresso
Uma vez caracterizada uma relao entre as variveis X e Y, pode-se
descrever essa relao atravs de uma funo matemtica. A anlise de
regresso uma tcnica estatstica que consiste em se determinar um
modelo para descrever a relao entre uma varivel dependente Y e uma ou
mais variveis independentes X.
Observando o diagrama de disperso pode-se ter uma idia do tipo
de relao entre as variveis. No caso de duas variveis X e Y, a relao
pode tomar vrias formas, desde uma simples relao linear (reta) at uma
complicada funo matemtica. Considerando a correlao linear entre as
variveis, pode-se descrever a relao entre as variveis atravs de :
- regresso linear simples: trata-se de determinar a equao de uma
reta que melhor se ajuste a dados amostrais. Na regresso linear simples a
varivel dependente Y funo de uma nica varivel independente X;
- regresso linear mltipla: trata-se de encontrar a melhor linha
ajustante num espao n-dimensional e a varivel dependente Y funo de
duas ou mais variveis independentes X.
- Regresso Linear Simples:
O modelo de regresso linear simples pode ser representado por:
Y= o + |X
Em que: o = intercepto da reta - representa o valor de Y quando X = 0.
coeficiente linear da reta
| = inclinao da reta. o coeficiente angular
A reta de regresso estimada a partir de uma amostra de n
observaes da varivel X e os correspondentes valores da varivel Y e
indicada por:
bx a y + =
em que as constantes a e b so as estimativas dos parmetros o e |. H
vrios mtodos para encontrar as estimativas de tais parmetros, sendo que
o mais eficaz o Mtodo dos Mnimos Quadrados em que:
b =
n
) x (
x
n
y x
y x
2
i 2
i
i i
i i
e a =
n
x
. b
n
y
i i
ou a = X . b Y
41
EX: As vendas de determinado produto, em milhares de unidades, foram
anotadas para diferentes valores de gastos com propaganda, em unidades
monetrias. Foram obtidos os seguintes resultados:
X (gastos- milhares) 1 2 3 4 5 6 7 8
Y (vendas) 2,2 3,0 2,8 3,4 3,7 3,5 3,6 3,8
J se sabe, pelo diagrama de disperso construdo anteriormente, que os
valores amostrados das variveis X e Y indicam que existe uma relao
aproximadamente linear entre as variveis, isto , as vendas do produto
crescem de forma aproximadamente linear com os gastos com propaganda.
Tambm se sabe pelo coeficiente de Pearson, r = 0,888, que realmente
existe correlao linear positiva entre as variveis. Assim, determine a reta
de regresso bx a y + = .
Como: b =
n
) x (
x
n
y x
y x
2
i 2
i
i i
i i
e a =
n
x
. b
n
y
i i
utilizando-se a tabela construda para o clculo do coeficiente de Pearson.,
tem-se:
b =
8
) 36 (
204
8
) 26 ).( 36 (
3 , 125
2
b = 0,1976 e a =
8
36
. 1976 , 0
8
26
a = 2,3608
Logo: bx a y + = x 1976 , 0 3608 , 2 y + =
Para traar a reta estimada sobre os pontos do grfico, escolhem-se dois
valores quaisquer para x e calcula-se os valores esperados para y
correspondentes. Por exemplo:
Se x = 1 1 1976 , 0 3608 , 2 y + = 5584 , 2 y =
Se x = 5 5 1976 , 0 3608 , 2 y + = = y 3,3488
De posse desses valores, marca-se dois pontos (1; 2,5584) e (5; 3,3488) no
grfico de disperso e, unindo-os, traa-se a reta obtida.
reta de regresso-gastos x vendas
0
1
2
3
4
0 2 4 6 8 10
gastos com propaganda (x) - em unidades
monetrias
v
e
n
s
d
a
s
(
y
)
-
e
m
m
i
l
h
a
r
e
s
d
e
u
n
i
d
a
d
e
s
OBS: Utilizando o Excel possvel encontrar os valores de a e b e construir
a linha de tendncia sobre o grfico de disperso.
- Para encontrar a e b, no comando Ferramentas do Excel, clica-se
em anlise de dados. Abre-se uma janela, solicitando o tipo da
ferramenta de anlise.
Caso no conste o comando anlise de dados em Ferramentas,
clique em suplementos. Abre-se uma janela. Clique em Ferramentas
de anlise e OK. O comando anlise de dados ser includo em
Ferramentas. Clique em anlise de dados para abrir a janela abaixo:
Clicando-se em Regresso e Ok, abre-se nova janela, solicitando
intervalo de entrada de Y (coluna contendo os valores de Y), intervalo de
entrada de X (coluna contendo os valores de X), intervalo de sada (clula
superior esquerda para a tabela dos resultados).
42
Clicando em OK, aparecer na planilha uma tabela que inclui uma
tabela ANOVA, coeficientes, erro padro de estimativas de y, valores r2, n
de observaes e erro padro dos coeficientes. Por ora, interessa apenas os
valores dos coeficientes e o n de observaes. Os demais resultados
dependem do desenvolvimento de novos conhecimentos da estatstica.
- Quanto a reta de regresso, clica-se sobre o grfico de disperso. Ativa-
se o comando do ambiente Grfico, entre os comandos Ferramentas e
Janela. Clicando no comando Grfico, abre-se uma srie de comandos,
entre eles adicionar linha de tendncia.
Clicando em adicionar linha de tendncia abre-se uma janela,
solicitando o tipo de linha desejada, conforme figura abaixo:
Clicando em linear e OK, o grfico de disperso ser
complementado com a linha de regresso.
43
OBS: Encontrada a equao de regresso, pode-se utiliz-la para previso
do valor da varivel dependente Y, dado o valor da varivel independente
X, desde que dentro do intervalo de variao dos valores da varivel
independente originalmente amostrados. Quanto a previso do valor de Y
fora deste limite s possvel se o valor de X no estiver muito distante do
primeiro e do ltimo valor de x estudado.
EX: Suponha que os gastos com propaganda sejam de 3,5 unidades
monetrias. Estime o valor das vendas.
Para x = 3,5 x 1976 , 0 3608 , 2 y + = 5 , 3 1976 , 0 3608 , 2 y + = 0524 , 3 y =
Logo se o valor de gastos com propaganda for de 3,5 unidades monetrias,
estima-se que as vendas sero de 3,0524 milhares de unidades.
- Transformao de variveis:
Existem situaes em que os pares de valores das variveis X e Y,
apresentados em diagrama de disperso, no se distribuem em torno de uma
reta. Nesses casos, pode-se experimentar transformar uma das variveis ou
ambas as variveis, utilizando-se da transformao logartmica, extrao da
raiz quadrada ou inverso, alm de outras.
EX: Seja a tabela:
Construindo
o diagrama
de disperso,
tem-se:
X Y
0
0,6
1,2
1,5
1,8
2,1
2,4
4,0
8,0
15,0
22,6
36,4
45,3
60,0
Observa-se que os pontos no se apresentam em torno de uma reta. Neste
caso, pode-se experimentar transformar a varivel Y em log Y, ou seja:
Construindo
o diagrama
de disperso,
tem-se:
X logY
0
0,6
1,2
1,5
1,8
2,1
2,4
0,602
0,903
1,176
1,354
1,561
1,656
1,778
diagrama de disperso
0,000
0,500
1,000
1,500
2,000
0 0,5 1 1,5 2 2,5 3
X
l o
g
Y
Observe que os pontos relativos as variveis X e log Y esto praticamente
sobre uma reta. possvel ento ajustar uma regresso linear simples. Para
calcular a e b, realiza-se os clculos intermedirios X.logY e X
2
. Assim:
x
i
log y
i
x
i
log y
i
x
i
2
y
2
0
0,6
1,2
1,5
1,8
2,1
2,4
0,602
0,903
1,176
1,354
1,561
1,656
1,778
=
i
x
=
i
y log
=
i i
y log x
=
2
i
x =
2
i
y
Ento : b =
n
) x (
x
n
y log x
y log x
2
i 2
i
i i
i i
b =
44
a =
n
x
. b
n
y log
i i
a =
A reta de regresso ser: log bx a y + = log = y
EXERCCIOS
1) Observa-se que um determinado produto tem o seu custo baseado na quantidade
produzida, conforme a tabela abaixo:
Quantidade (X) 10 12 14 16 18 20
Custo em reais R$(Y) 100 112 119 130 139 142
Pede-se:
a) Construa o diagrama de disperso e verifique se h uma relao entre as
variveis.
b) Ajuste uma reta aos dados.
c) Trace a reta ajustada.
d) Qual o custo para 22 unidades?
Resposta: b) y = 59.02 + 4.31 x
2) Os lucros de uma companhia, no perodo de 2003 a 2007, so assim
apresentados:
Anos 2003 2004 2005 2006 2007
Lucros em milhes de reais 2,3 3,5 5,8 6,5 7,0
Estimar o lucro para 2008
3) Suponha que um analista toma uma amostra aleatria de 10
carregamentos recentes por caminho feitos por uma companhia e anota a
distncia em quilmetros e o tempo de entrega ao meio dia mais prximo,
obtendo:
Distncia-xi (km) Tempo-yi (em dias)
825 3,5
215 1,0
1070 4,0
550 2,0
480 1,0
920 3,0
1350 4,5
325 1,5
670 3,0
1215 5,0
a) Construir o diagrama de disperso para os dados e interprete o grfico;
b) Calcular o coeficiente de correlao de Pearson e interprete o resultado;
c) Caso as variveis estejam correlacionadas linearmente determinar a equao
de regresso, traar a reta de regresso no diagrama de disperso e estimar o
tempo de entrega para um carregamento para 1.000 Km.
4) A tabela abaixo apresenta dados de uma amostra referentes ao nmero de horas de
estudo fora da classe para determinados alunos de um curso de Bioestatstica, bem
como os graus obtidos em um exame aplicado no fim do curso
Horas de estudo 20 16 34 23 27 32 18 22
Grau no exame 64 61 84 70 88 92 72 77
a) Construir o diagrama de disperso para os dados e calcular o coeficiente de
correlao de Pearson;
b) Determinar a equao de regresso e traar a reta de regresso no diagrama
de disperso;
c) Estimar o grau no exame obtido por um estudante que dedicou 30 horas de
estudo fora da classe.
45
Tabela 1: Nmeros aleatrios
FONTE: TIBONI, C.G.R.(2003)