Escolar Documentos
Profissional Documentos
Cultura Documentos
REITOR
JOÃO PAULO BARROS BELDI
VICE-REITORA
JULIANA SALVADOR FERREIRA DE MELLO
EQUIPE DE PRODUÇÃO
ANTÔNIO HENRIQUE RIBEIRO DALBEM
LUCIANA REGINA VIEIRA
ORIENTAÇÃO PEDAGÓGICA
MARIA LUIZA QUEIROZ BRAGA
REGINA MARCIA DE JESUS PAREDES
AUXILIAR ADMINISTRATIVO
MARILIA APARECIDA OLIVEIRA BICALHO
SIMONE DE SOUZA
REVISORA DE TEXTO
MARIA DE LOURDES SOARES MONTEIRO RAMALHO
ATENDIMENTO AO ALUNO
Sumário
Unidade 1 ................................................................................................................7
Unidade 2 ................................................................................................................27
Unidade 3 ................................................................................................................44
Unidade 4 ................................................................................................................64
Unidade 5 ................................................................................................................77
Legenda
Reflexão
Saiba mais Material complementar
Atividade Dica
Importante
Nosso Tema
Você já ouviu falar em estatística? Alguns podem dizer que não, mas é pouco provável. Talvez
apenas não tenham associado às informações que lêem nos jornais, ouvem nos rádios ou que
assistem pela TV com o conceito de estatística.
Em nosso dia a dia, a estatística está sempre presente. Por exemplo, quando você assiste à previsão
do tempo, aos cálculos de temperatura máxima, mínima e à previsão de chuva, tudo isso está
relacionado a cálculos estatísticos.
Outro exemplo muito importante é o Censo Populacional feito pelo IBGE (Instituto Brasileiro de
Geografia e Estatística). O censo populacional é uma pesquisa feita com toda a população de um
país. Ele coleta informações sobre as condições de vida da população (escolaridade, saúde,
saneamento básico, entre outros).
A partir da análise dos dados coletados pelo Censo, o governo avalia suas políticas públicas nas
áreas da saúde, educação, distribuição de renda etc., e é capaz de redirecionar recursos e criar
novas políticas que atendam as necessidades da população.
No campo empresarial, a estatística está presente de diversas formas. Pode estar no controle de
qualidade numa linha de produção, na pesquisa de opinião de consumidores sobre um novo produto.
Esses são apenas alguns exemplos.
Nesta unidade, você encontrará uma introdução ao estudo de estatística. Nosso objetivo é que
conheça alguns conceitos e definições, base para nosso estudo. Vamos em frente!
Reflexão
Como futuro profissional da área de gestão, você deverá ser capaz de criar e avaliar estratégias,
ações internas e externas que visem não só à permanência de sua empresa no mercado de forma
competitiva, mas, também, ao crescimento dela.
Unidade 1: Introdução
1. Conteúdo Didático
1.1. Introdução
Estatística é uma ciência que compreende todo um conjunto de métodos para coletar, organizar,
resumir, apresentar, analisar um (ou mais) conjunto(s) de dados de tal modo que permitam quantificá-
los, qualificá-los ou ordená-los para que possamos concluir, deduzir ou predizer propriedades,
eventos ou estados futuros.
Para facilitar o entendimento, a estatística pode ser dividida em três grandes áreas:
Ao longo do curso, iremos trabalhar com as duas primeiras áreas Estatística Descritiva e
Probabilidade, a Inferência é uma área mais avançada da Estatística e não será tratada em nossa
disciplina.
Para fazer arredondamentos, devemos definir primeiramente qual o número de casas decimais
desejado. De maneira geral, utilizamos arredondamento de uma ou duas casas. Essa definição é feita
pelo pesquisador levando em consideração a natureza dos dados e objetivos da pesquisa.
Existem, apenas, duas regras para arredondamento que devem ser observadas.
1.3. Variáveis
Nominal
Qualitativa Ordinal
Intervalar
Variável
Discreta
Quantitativa
Fonte: Autora Contínua
Vamos agora definir alguns conceitos que serão utilizados em nosso estudo.
Muitas vezes não é possível pesquisar todos os elementos de uma população. A população pode ser
grande e de difícil acesso aos pesquisadores, gerando um custo muito alto, ou ainda, grandes
volumes de dados que podem dificultar ou demorar muito para serem analisados.
Como seria possível uma empresa entrevistar todos os seus consumidores? – um problema de tempo
e dinheiro. Existem, ainda, razões éticas, por exemplo, nas pesquisas feitas com seres vivos. Ou,
ainda, situações, onde é realmente impossível, como no caso do exame de sangue de uma pessoa.
Não poderíamos extrair todo o sangue para que fosse feita a pesquisa, não é mesmo?
População Amostra
Fonte: Autora
Existem regras a serem seguidas para seleção de amostras: são as técnicas de amostragem. Veja no
próximo tópico.
Para que possamos tirar conclusões sobre uma população, tendo como base dados obtidos numa
amostra, devemos garantir que a amostra represente a população como um todo. Caso contrário,
poderíamos chegar a conclusões equivocadas (MILONE, 2004).
Um exemplo claro de como o plano de amostragem é importante, foi o acontecido numa pesquisa de
intenção de voto em 1936, durante as eleições presidenciais dos Estados Unidos da América,
publicada no Literary Digest. O Literary ouviu a opinião de 2 milhões de pessoas (...). A pesquisa
predisse uma fácil vitória para Alfred Landon, quando, na realidade, Franklin D. Roosevelt venceu por
ampla margem (DOWNING & CLARK, 2003, pág.177). Ao fazer a seleção da amostra, foi utilizada a
lista telefônica. Acontece que, naquele tempo, as pessoas que possuíam telefone não representavam
a população adequadamente; logo, essa não era uma amostra representativa (DOWNING & CLARK,
2003).Mas como garantir uma amostra representativa?
A primeira prevê seleção ao acaso, equivalente a um sorteio, uma seleção aleatória dos elementos da
amostra, em que cada elemento da população tem uma chance de participar da amostra, conhecida e
diferente de zero. Os três principais métodos de amostragem probabilística são: Amostragem
Aleatória Simples, Amostragem Sistemática e Amostragem Estratificada.
A amostragem não probabilística é aquela determinada pelo pesquisador, por isso é subjetiva e
depende do julgamento de quem a realiza. Pode ser intencional, quando o elemento é selecionado
pelo pesquisador; ou voluntária, quando os elementos populacionais apresentam-se
espontaneamente para o estudo (MILONE, 2004, pág. 15). Esse tipo de amostragem pode ainda ser
chamada de amostragem por conveniência (DOWNING & CLARK, 2003, pág. 178):
Amostragem estratificada
Amostragem
Intencional
Não probabilística
Voluntária
Fonte: Autora
Sim, de fato isso é verdade! Mas um pesquisador comprometido com a verdade e, consciente de seu
papel na sociedade, não age dessa maneira. Mesmo que tenha selecionado, ele mesmo,
intencionalmente os elementos da amostra, não significa que o estudo tenha sido tendencioso. Esse
tipo de amostragem é indicado para populações pequenas ou conhecidas a fundo pelo pesquisador
ou, ainda, quando o estudo trata de assunto delicado ou constrangedor (MILONE, 2004, pág. 15).
É difícil convencer uma transeunte a dar informações sobre sua vida sexual, por exemplo, ou a tomar
um novo medicamento que será testado num grupo de pessoas. Daí a importância desse tipo de
amostragem. Mas devemos tomar cuidado quanto às generalizações feitas com dados coletados em
amostras não probabilísticas, pois eles não podem ser submetidos à inferência estatística, já que
essa técnica aplica-se somente a amostras probabilísticas. Contudo, não perdem o efeito de retratar
uma realidade, devemos apenas informar de maneira criteriosa como a amostra foi selecionada e o
motivo de se optar pela amostragem não probabilística.
É a seleção de elementos para composição de amostra por sorteio ao acaso. Nela, todos os
elementos têm igual chance de serem selecionados. Para que seja realizada, é necessária uma
listagem ou banco de dados com todos os elementos da população, o que pode, em alguns casos,
ser um empecilho. O sorteio é equivalente a escrever o nome ou número identificador de cada
elemento da população em um papel, colocar numa urna e sacar os elementos para constituir a
amostra; porém é uma tarefa difícil, dependendo do número de elementos da população. Para
simplificar e agilizar, utilizamos a tabela de números aleatórios (TNA) ou a geração de números
aleatórios por programas de computador (o Excel é um deles) para substituir o sorteio.
Para fazer um sorteio utilizando a tabela de números aleatórios (TNA), o pesquisador escolhe um
número de linha e coluna para o início da leitura, determinando também o sentido em que a leitura
seguirá. A seleção de elementos, no sorteio, deve respeitar o tamanho da amostra e a natureza da
codificação atribuída aos elementos da população.
Vejamos a TNA apresentada abaixo. Ela contém 25 linhas numeradas para facilitar a localização dos
números e 45 colunas, agrupadas em 9 colunas. Observe!
Cada coluna da
tabela possui 5
colunas de
Nº das linhas números.
Vamos, como exemplo, localizar o número na 12ª linha e 8ª coluna. O número indicado é o 8. A partir
daí, o sorteio pode continuar para baixo, seguindo o sentido da coluna (o próximo seria 7) ou para a
direita seguindo a linha (o próximo seria 0, que representa o número 10) ou em qualquer outra
direção preestabelecida pelo pesquisador.
Como faremos amostragem sem repetição, caso o número sorteado seja repetido ou esteja fora da
população (por exemplo: população com 80 elementos, sorteado o elemento 97), ele será
desconsiderado ou ignorado, continuando o sorteio até completar o número de elementos da
amostra.
Vamos a um exemplo!
Os custos médios (em reais) de determinado produto, produzido em um mesmo setor, com a
utilização de um mesmo processo, foram observados e registrados em 30 diferentes remessas. Os
valores são apresentados a seguir. Extraia uma amostra aleatória simples de tamanho n = 6. TNA 13 a
L e 13a C.
Sorteio: o primeiro número é o 9, mas queremos com dois algarismos, logo é 96, que não faz parte da
população e será ignorado. Seguimos as colunas para baixo, o próximo é 00 (que representa o 100 e
também não faz parte da população e será desprezado), continuamos assim até obter a quantidade
de elementos válidos desejada.
A amostragem sistemática pressupõe um intervalo regular para a tomada de elementos para compor
a amostra: como entrevistar duas pessoas a cada hora, ou retirar 5 aparelhos para inspeção a cada 2
horas na linha de produção de uma fábrica.
Esse intervalo regular pode ser estabelecido pelo pesquisador ou calculado a partir do tamanho da
N
amostra que se deseja, através da razão , onde N é o tamanho da população e n é o tamanho da
n
amostra. Vejamos um exemplo!
35 19 20 22 36 42 25
42 20 28 24 23 29 33
37 14 22 35 30 30 38
39 29 27 21 27 32 49
18 26 24 33 34 29 39
Primeiro, nós iremos codificar a população, atribuindo um número para identificar cada elemento.
1 35 2 19 3 20 4 22 5 36 6 42 7 25
8 42 9 20 10 28 11 24 12 23 13 29 14 33
15 37 16 14 17 22 18 35 19 30 20 30 21 38
22 39 23 29 24 27 25 21 26 27 27 32 28 49
29 18 30 26 31 24 32 33 33 34 34 29 35 39
Aqui o intervalo será definido de acordo com o tamanho da amostra; logo, para uma população de 35
35
elementos com uma amostra de 7, o intervalo será de 5 , ou seja, a seleção será de 5 em 5.
7
Mas qual será o primeiro elemento? Ele pode ser sorteado pela TNA, seguindo orientações do
pesquisador. Atenção, nesse caso, apesar da população conter 35 elementos, o sorteio será apenas
do 1º elemento, que poderá ser 1, 2, 3, 4 ou 5, por causa do intervalo (de 5 em 5), logo o sorteio será
de um número com um algarismo, de 1 a 5. Vamos utilizar a TNA 23ª linha e 26ª coluna. Veja!
O número que aparece na indicação de linha e coluna é o 7, mas não pode ser utilizado (tem que ser
de 1 a 5); o próximo (abaixo do 7) é o zero que representa 10, também não serve; logo abaixo vem o
2. Esse será o nosso primeiro elemento.
Com isso, nossa amostra será composta pelos elementos de número: 2, 7, 12, 17, 22, 27 e 32
(começando pelo 2 e seguindo intervalo de 5 em 5). Agora é só fazer a correspondência dos números
selecionados com os elementos da população.
Observe o exemplo!
Os dados abaixo referem-se ao tempo de execução (minutos) de uma dada etapa em um processo
produtivo, quando foi observado o desempenho de 53 operários em três diferentes turnos.
Turno I:
81 50 86 92 91 91 88 87 86 86
91 87 88
Turno II:
94 94 97 96 96 96 90 94 93 95
97 95 96 97 93
Turno III:
Considere cada turno como um estrato e extraia uma amostra estratificada proporcional de tamanho
9.
Turno I :
1 8 2 5 3 8 4 9 5 9 6 9 7 8 8 8 9 8 10 8
1 0 6 2 1 1 8 7 6
11 9 12 8 13 8
1 7 8
Turno II:
1 9 2 9 3 9 4 9 5 9 6 9 7 9 8 9 9 9 10 9
4 4 7 6 6 6 0 4 3
11 9 12 9 13 9 14 9 15 9
7 5 6 7 3
Turno III:
O segundo passo é determinar o número de elementos a ser selecionado dentro de cada estrato.Para
isso, calculamos por regra de três simples:
53.x 9.13
53 x 117
117
x Como x deve ser um número inteiro, arredondamos
53
para 2.
x 2,2
x2
Fonte: Autora
Agora, faremos o sorteio dos elementos de cada estrato, respeitando a quantidade calculada
anteriormente. Para o sorteio de cada estrato, utilizaremos uma indicação de linha e coluna diferente,
pré-estabelecida pelo pesquisador, seguindo a leitura no sentido da coluna para baixo.
Apesar de conter duas vezes o 96, não há repetição de elementos, já que eles são referentes a
elementos distintos da população. É o mesmo que acontece quando duas pessoas numa turma têm a
mesma idade, o valor é o mesmo, mas os elementos da população são distintos. Isso vale para todas
as técnicas estudadas aqui.
Engana-se aquele que pensa que a estatística começa com as informações em mãos. O método
estatístico tem fases que vão desde a preparação até a conclusão final da pesquisa. Então, vamos ao
conhecimento de cada uma delas.
Toda pesquisa começa com uma pergunta. A resposta a essa pergunta consiste
I. I. Planejamento do objetivo da pesquisa. No planejamento, é feita a delimitação do problema, a
construção do objetivo, a elaboração do cronograma de atividades, a planilha de
custos, a determinação da população e da amostra (se for o caso), como os dados
serão analisados (manualmente ou por computador), tipo de informação
(questionário ou observação), modelo para registro das informações coletadas; em
suma, todos os passos a serem dados desde a pergunta inicial até sua resposta.
Após a coleta dos dados, passamos à crítica. Essa etapa visa eliminar, do
III. Critica
conjunto de questionários respondidos ou do conjunto de observações, possíveis
falhas, sejam questionários incompletos ou dados ilegíveis.
Como última etapa, temos a análise dos resultados. É nessa fase que será feita
VI. Análise dos
Resultados a conclusão da pesquisa levando em conta o seu objetivo e os resultados obtidos.
Podemos ainda ir mais fundo na análise de dados, utilizando inferência estatística.
Mas, como a estatística será utilizada em administração de empresas? Umas das principais
atividades, senão a principal, de um gestor é a tomada de decisão. A estatística aparece, nesse
cenário, como uma ferramenta que irá fornecer subsídios para decidir. Ela pode ser utilizada como
sondagem, obtendo e analisando dados que possibilitem avaliação da situação atual, que visem ao
estabelecimento de metas para criar melhorias. Pode ser usada também como método para
verificação ou avaliação de planos de ações já implementados, possibilitando a adequação de
recursos humanos, financeiros ou de materiais.
A partir do século XVI, aparecem as primeiras análise sistemáticas, com o surgimento de tábuas,
tabelas e números relativos.
Consideramos que, por volta do século XVII, iniciaram-se os estudos formais sobre probabilidade.
Segundo Milone (2004), o surgimento dos estudos preliminares sobre o assunto aconteceu por causa
da populariadade dos jogos de azar que utilizavam dados e cartas de baralho, gerando, na
comunidade da época, certa curiosidade. De fato, é nessa época que surgem as indagações de Méré
(1607-1684) – jogador, filósofo e homem das letras – e Pascal (1623–1662) – filósofo, físico e
matemático – sobre jogos de azar; mas é na correspondência trocada entre Pascal e Fermat (1601-
1665) que ambos chegam a um mesmo resultado para o problema da divisão das apostas, questão
teórica proposta por Méré (Milone, 2004, p. 345).
Atualmente, são muitos os recursos tecnológicos apropriados pela estatística. Os mais acessíveis e
simples são as calculadoras científicas, que permitem cálculos diretos com a utilização de banco de
dados armazenados na memória interna. Para saber como operar as funções estatísticas da sua
calculadora, leia o manual! Cada calculadora funciona de maneira diferente.
Temos ainda programas de análise de dados, elaboração de tabelas e gráficos, como o Excel. Nele é
possível executar todos os cálculos da estatística descritiva, como média e desvio padrão; e ainda
programas específicos de tratamento estatístico de informações como o Minitab que consiste em uma
poderosa ferramenta de análise e apresentação de dados.
Bom pessoal, encerramos a parte introdutória do conteúdo, na próxima unidade iremos trabalhar as
formas de apresentação de dados estatísticos que são muito utilizadas mas, às vezes, sem atenção
devida às normas. Até lá!
2. Teoria na Prática
Nessa reportagem, verificamos o resultado de uma pesquisa realizada pelo IBGE em parceria com
CGI – Comitê Gestor da Internet no Brasil. A PNAD – Pesquisa Nacional por Amostra de Domicílio,
como o próprio nome sugere, é baseada em amostra, e a população referência do estudo é a
população brasileira, todos os habitantes do nosso país.
O jornal Correio de Uberlândia apresentou uma reportagem sobre o mesmo assunto no caderno
Cidade, no dia 24/03/2007, divulgando dados da mesma pesquisa, com o seguinte título e chamada: “
Pesquisa mapeia uso da internet: Segundo o IBGE, cerca de 79% dos brasileiros nunca acessaram
a net.”
Que diferenças você percebe ao comparar os títulos e as chamadas das duas reportagens? Não
existe certo e errado na divulgação de resultados de pesquisas. Há diferenças na interpretação e
enfoque dado aos dados. Podemos perceber que a chamada da segunda reportagem tem um cunho
mais negativo, destacando o percentual de brasileiros que nunca acessaram a internet. Observe que
a mesma informação está na primeira linha da primeira reportagem, mas sem alarde.
Esse exemplo ilustra como devemos ser cautelosos ao apresentar dados. Uma simples alteração de
escala na construção de um gráfico pode destacar equivocadamente um comportamento de queda ou
ascensão acentuado. O mesmo aconteceu no caso tratado. A informação é a mesma, com a mesma
fonte; porém o destaque da informação é diferente em cada uma das reportagens.
3. Síntese
População é o nome dado ao conjunto de todos os elementos que possuem uma ou mais
características de interesse do estudo.
Nominal
Qualitativa Ordinal
Intervalar
Variável
Discreta
Quantitativa
Contínua
Toda amostra deve ser representativa para que possamos, com base nos dados observados na
amostra, predizer ou concluir sobre a população.
A amostragem probabilística pode ser selecionada com reposição, quando os elementos sorteados
voltam para a urna ou podem ser considerados mais de uma vez na leitura da TNA (tabela de
números aleatórios); ou sem reposição em que cada elemento só pode ser sorteado uma única vez,
não retornando à população quando é sorteado, ou é desconsiderado quando seu número aparece
novamente na leitura da TNA.
1 Conteúdo Didático
1.1 Introdução
Quando realizamos um estudo, ou pesquisa, fazemos a coleta de dados. Após a coleta, é feita a
apuração dos dados, ou seja, organizamos as informações. Mas como apresentar o resultado do
estudo?
Sumarizar significa resumir, condensar as tabelas e gráficos que, assim, servem para apresentar os
dados das pesquisas coletados.
Para tirar conclusões sobre um conjunto de dados coletados, devemos organizá-los, mas, mesmo
após a organização, o volume de dados pode ser muito grande dificultando sua interpretação. Então,
para facilitar, construímos tabelas. As tabelas podem ser as séries estatísticas ou distribuição de
frequência que estudaremos nesta unidade.
A elaboração de tabelas e gráficos deve seguir algumas regras que iremos estudar a seguir.
Vamos lá!
Séries Estatísticas são tabelas que trazem dados resumidos de um estudo ou pesquisa em função da
época, do local ou de uma categoria (CRESPO, 1995).
Tanto os quadros como as tabelas dispõem as informações em linhas e colunas, porém, as tabelas
permitem cálculos e leituras em diversas direções, enquanto os quadros apenas apresentam dados.
Além disso, as tabelas exigem um rigor técnico de apresentação. Para trabalhos e publicações
científicas, as tabelas devem seguir as Normas de Apresentação Tabular do IBGE.
1.2.1 Classificação
Podemos classificar as séries estatísticas de acordo com a variação dos dados apresentados, essa
variação ocorre em função do período, do local ou de espécie.
Quando uma série estatística apresenta dados com variação do período, ou tempo, recebe o nome
de histórica (ou cronológica ou temporal). Essa variação pode ser expressa em anos, meses, dias ou
qualquer outra unidade temporal necessária.
Exemplo:
Ano População
(em milhões)
Neste exemplo,
os dados sobre 1920 30,6
a população 1940 41,2
brasileira estão
apresentados 1950 51,9
em função do
tempo, logo 1960 70,2
recebe a
1970 93,1
classificação de
série histórica. 1980 121,1
1991 146,8
2000 166,1
Fonte: Censo Demográfico do IBGE.
Série geográfica (ou territorial ou espacial) apresenta informações em função do local: cidades,
estados, países, etc. A época e o fenômeno estudados mantêm-se constantes.
Exemplo:
Oceania 8,923
Fonte: Atlas Mundial Folha de S. Paulo.
Já a série específica (ou categórica) mantém fixos o local e o período do estudo, variando a categoria
dos dados. Observe o exemplo abaixo:
Número de correspondências
da semana
Esta tabela apresenta
a quantidade de Tipo Quantidade
correspondências E-mails 1932
recebidas em função
do tipo (espécie ou Cartas 94
categoria), por isso é Fax 44
classificada como
série categórica. Total 2070
Fonte: Revista Veja 20/04/2004
Todos os exemplos anteriores apresentam séries simples, ou seja, tabelas que contêm apenas duas
colunas. Existem séries que necessitam de tabelas com maior número de colunas, são as chamadas
séries conjugadas ou séries mistas. A classificação das séries conjugadas segue o mesmo critério
das séries simples (histórica, geográfica ou específica), mas a sua classificação será composta por
dois nomes, por exemplo, histórico-geográfica ou específico-geográfica. Acompanhe os exemplos a
seguir e veja como é feita a classificação de séries conjugadas.
Exemplos:
Variação de
lugar.
A série acima apresenta número de municípios em função da região e do ano. Por isso, será
classificada como série histórico-geográfica.
Variação de
lugar.
Por apresentar dados sobre terras indígenas em função da região e de categoria (demarcadas e não
demarcadas), essa série é classificada como específico-geográfica.
Para classificar séries estatísticas, devemos observar, em função do que os dados estão sendo
apresentados, tempo, local ou categoria. Nas tabelas de apenas duas colunas, observamos os
dizeres da primeira coluna. Se for indicado tempo, seja em anos ou meses ou outra medida de tempo,
sua classificação será histórica; se for indicado lugar, como cidades, estados, etc., será geográfica;
caso indique espécie ou categoria, será específica.
Em muitos casos as informações são apresentadas na forma de gráficos. Vejamos, a seguir, como
apresentar os dados em gráficos.
160
barras, setores (pizza), pictogramas ou 140
120
cartogramas. Não existe regra para 100
80
definição do tipo de gráfico a ser utilizado, 60
40
20
porém os gráficos de linhas ficam restritos 0
1920 1940 1950 1960 1970 1980 1991 2000
para representar séries temporais ou
Ano
evoluções históricas. Veja o exemplo a
seguir: Fonte: Censo Demográfico do IBGE.
Os gráficos de barras e colunas possuem a mesma finalidade diferindo somente na posição dos
retângulos. Damos preferência para barras quando os dizeres ou nomes a serem representados são
extensos. Nada impede, no entanto, que você prefira o gráfico de colunas, nesse caso, os nomes
devem ser escritos de baixo para cima.
América Central
Oceania
Europa
Antártida
América do Sul
América do Norte
África
Ásia
0 10 20 30 40 50
Os gráficos de setores, também chamados de pizza, devem ser utilizados quando se deseja ressaltar
a participação de segmentos em relação ao todo. É adequado quando representamos no máximo
sete dados, um número maior polui o gráfico e dificulta sua leitura.
Os cartogramas são gráficos que utilizam mapas cartográficos como base para a apresentação de
dados. Servem somente a séries geográficas, uma vez que os dados apresentados são referentes a
lugares (países, estados, cidades, etc.). Os pictogramas são gráficos que utilizam desenhos no lugar
das formas básicas para representar dados. Geralmente esses desenhos ilustram a natureza dos
dados apresentados.
Vimos duas formas de apresentar dados estatísticos : tabelas e gráficos. Veremos a seguir outra forma de
apresentação e resumo de dados: as distribuições de frequência.
1.3.1 Conceito
Tabelas de distribuição de frequência são aquelas que relacionam o valor da variável (ou um intervalo
de valores) com sua frequência no conjunto de dados observados, ou seja, quantas vezes ela
aparece no conjunto.
Dados brutos ou tabela primitiva são os dados na forma como foram coletados.
Rol conjunto obtido após a ordenação dos dados.
Exemplo:
Dados brutos: 13 25 35 25 25 15
Rol: 13 15 25 25 25 35
As distribuições de frequência são formadas por elementos básicos, o nome de cada elemento e sua
denominação ou símbolo devem ser bem observados, pois serão utilizados posteriormente na
aplicação de fórmulas de cálculos estatísticos. Fique atento!
Amplitude amostral (AA): diferença entre o valor máximo e o mínimo observado na amostra.
Observe que, numa distribuição sem intervalo de classe, AA = AT.
Ponto médio de uma classe (pm): média aritmética entre os limites do intervalo.
Algumas fórmulas estatísticas utilizam esses elementos e símbolos, por isso fique atento!
A elaboração da tabela sem intervalo de classe é simples: na primeira coluna, escrevemos os valores
que a variável assume e, na segunda coluna, a frequência, ou seja, quantas vezes ela aparece no
conjunto de dados.
Os limites dos intervalos podem ser calculados pela fórmula h= AT/i, lembrando que a amplitude da
classe (h) deve ser arredondada sempre para mais (CRESPO, 1995, p. 62) e deve respeitar a
precisão dos dados (número de casa decimais). Lembre-se de que o limite superior da classe é
excluído pelo uso do símbolo |–, logo, para determinar AT, fazemos AA+1, ou seja, o maior valor do
conjunto menos o menor mais um.
Na maioria das vezes, devido a arredondamentos, o valor de i x h é diferente de AT. Para que a
diferença não fique acumulada de um lado só da distribuição, fazemos um ajuste para centralizar e
distribuir a diferença, repartindo igualmente entre o início e o fim da AT. Dessa forma, temos a AT a
ser considerada na construção dos limites das classes (MILONE, 2004, p. 39).
Após a definição do número de classes (i), da amplitude da classe (h) a ser considerada e da
amplitude total ajustada (AT), determinamos os limites das classes somando h ao limite inferior da
primeira classe para obter o limite superior, este será o inferior da segunda classe e, assim,
sucessivamente até chegar ao limite superior estipulado pela AT ajustada. Note que o limite inferior
da primeira e o limite superior da última classe são iguais aos estipulados pela AT ajustada. Agora é
só determinar a frequência de cada classe. Acompanhe esse exemplo:
248 251 256 259 262 264 265 265 266 266 268 268
249 252 257 260 262 264 265 266 266 267 268 269
250 253 258 260 263 264 265 266 266 267 268 270
250 255 258 260 263 264 265 266 266 268 268 270
Fonte: Dados fictícios
i 1 3,3 log N
i 1 3,3 log 48 Como i deve ser um número natural
arredondamos para 7.
i 6,5481
i7
2º) Determinação da amplitude total (AT):
A amplitude total (AT) a ser considerada será 23 (AA + 1, logo devemos ter limites que vão de 248 até
271, já que o limite superior é excluído da classe pela utilização do símbolo |–.
4º) Ajuste
AT = 23 h x i = 7 x 4 = 28 28 – 23 = 5
A diferença entre AT calculada e o valor de h x i deve ser repartida entre o início e o fim da
distribuição. Como a diferença é um valor ímpar (5), não pode ser repartida igualmente; faremos duas
partes desiguais (2 e 3), ficando a maior no final da amplitude total. A princípio, consideramos de 248
até 271, ajustando a diferença, subtraímos 2 no início e acrescentamos 3 ao final; dessa maneira, a
amplitude total ajustada será:
A amplitude total (AT) ajustada, a ser considerada na distribuição, é de 246 até 274.
Começamos pelo limite inferior determinado pela AT ajustada (246) e acrescentamos h para
determinar o limite superior da primeira classe, esse será o limite inferior da segunda; acrescentamos
h e teremos o limite superior da segunda classe que será, também, o limite inferior da terceira e,
assim, sucessivamente até atingir o limite superior estipulado pela AT ajustada (274). Observe:
+4 +4 +4 +4 +4 +4 +4
246 250 254 258 262 266 270
274
248 251 256 259 262 264 265 265 266 266 268 268
249 252 257 260 262 264 265 266 266 267 268 269
250 253 258 260 263 264 265 266 266 267 268 270
250 255 258 260 263 264 265 266 266 268 268 270
Fonte: Dados fictícios
A primeira classe contempla valores de 246 até 250, excluindo esse último; logo, os valores do
conjunto que pertencem ao primeiro intervalo são 248 e 249. O 250 pertence ao segundo intervalo
(250 |– 254). Dessa forma, a frequência da primeira classe será 2. A segunda classe engloba os
números 250, 251, 252 e 253, sua frequência será 5 e assim sucessivamente.
Demanda f
(em milhares de Está pronta a
caixas) tabela de
246 |– 250 2 distribuição de
250 |– 254 5 frequência com
254 |– 258 3 intervalos de
258 |– 262 6 classe!
262 |– 266 13
266 |– 270 17
270 |– 274 2
Total 48
Fonte: Dados fictícios
O somatóro das frequências das classe deve ser igual ao número de elementos no conjunto original.
Dessa forma está pronta e pode ser analisada.
Frequência acumulada decrescente (Fad) Frequência simples da classe somada com todas as
frequências simples das classes posteriores a ela.
Frequência simples relativa (fr) Razão entre a frequência simples da classe e a frequência total.
Pode ser informada em porcentagem (%) ou em número decimal. Para o primeiro caso, o total deve
ser 100 e para o segundo deve ser 1. Devido a sucessivos arredondamentos, pode acontecer do total
não ser exatamente igual a 100 (ou igual a 1); nesses casos, devemos ajustar a frequência da
seguinte forma: caso o somatório ultrapasse (100,1; por exemplo), devemos diminuir a diferença (0,1)
na menor frequência, caso o somatório seja menor (99,9; por exemplo), devemos acrescentar a
diferença na maior frequência. Se houver empate na maior ou menor frequência, devemos pegar a
segunda maior ou a segunda menor. Esse princípio deve-se ao fato de que não iremos alterar a
ordem de grandezas entre as frequências fazendo esse ajuste, já que o maior continua sendo o maior
e o menor continua sendo o menor.
Frequência acumulada relativa (Fr) frequência simples relativa da classe somada com todas as
frequências simples relativas das classes anteriores a ela. Assim como a frequência simples relativa,
ela pode ser informada em porcentagem ou número decimal.
Como não existe significado para o somatório das colunas de frequências acumuladas, utilizamos
dois pontos (∙∙) nas células relativas a esses totais na tabela. Acompanhe a determinação dessas
frequências no exemplo:
Demanda
fr
(em milhares de f Fac Fad Fr
(%)
caixas)
246 |– 250 2 2 48 4,2
250 |– 254 5 7 46 10,4
254 |– 258 3 10 41 6,3
258 |– 262 6 16 38 12,5
262 |– 266 13 29 32 27,1
266 |– 270 17 46 19 35,4
270 |– 274 2 48 2 4,2
Total 48 •• •• 100,1
Fonte: Dados fictícios
Perceba que, ao fazer o somatório de fr, obtemos 100,1. Devemos ajustar a frequência para que o
total seja 100. Como há excesso de 0,1, devemos diminuir essa diferença da menor frequência, que
seria 4,2; porém, existem duas classes com essa frequência, então, devemos utilizar a segunda
menor 6,3 referente à classe 254 |– 258, passa ser então 6,2.
Demanda
fr
(em milhares de f Fac Fad Fr
(%)
caixas)
246 |– 250 2 2 48 4,2 4,2
250 |– 254 5 7 46 10,4 14,6
254 |– 258 3 10 41 6,2 20,8
258 |– 262 6 16 38 12,5 33,3
262 |– 266 13 29 32 27,1 60,4
266 |– 270 17 46 19 35,4 95,8
270 |– 274 2 48 2 4,2 100
Total 48 •• •• 100,0 ••
Fonte: Dados fictícios
Cada um dos números das colunas de frequência possui um significado. Observe os valores da 5ª
classe:
f: Em 13 das 48 semanas pesquisadas, a demanda foi entre 262 e 265 milhares de caixas.
Fac: Em 29 semanas, a demanda foi de até 265 mil caixas.
Fad: 39 semanas apresentaram demanda de pelo menos 262 mil caixas.
fr: Em 27,1% das semanas, a demanda foi de 262 a 265 mil caixas.
Fr: Em 60,4% das semanas, a demanda foi de até 265 mil caixas.
Para o nosso exemplo veja o histograma e o polígono, ambos construídos a partir da frequência
absoluta simples.
Bons estudos e até a próxima unidade! Mas, antes, não deixem de visitar as próximas seções.
2. Teoria na Prática
Podemos perceber que o gráfico apresenta os dados de uma série histórico-categórica pois
apresenta informações em função do tempo (anos, eixo horizontal) e de categorias (faixa estário,
legenda). Os dados estão na forma percentual. O percentual de crianças e jovens (representado pela
linha escura) na população brasileira está diminuindo enquanto o percentual de idosos (representado
pela linha clara) está aumentando.
Vejamos, agora, alguns itens a serem analisados em relação às informações do gráfico. Considere as
seguintes afirmativas e julgue-as em CERTO ou ERRADO.
Crianças e jovens são representados no gráfico pela linha escura. Podemos perceber que o maior
percentual registrado para essa parcela da população é registrado em 1960 e, a partir daí, esse
número diminui ano a ano. Portanto, a afirmativa está CERTA.
Crianças e jovens são representados no gráfico pela linha escura e idosos pela linha clara. Em 1950,
temos, no gráfico, crianças e jovens 41,8% e idosos 4,2%, somando temos 46%, logo a afirmativa
está CERTA.
D. Se, em 2005, a população brasileira era de 180 milhões de habitantes, mais de 115
milhões de brasileiros tinham de 15 a 59 anos.
0 a 14 27%
35,4%
60 ou mais 8,4%
100 35,4 64,6
3. Síntese
Séries estatísticas são tabelas que apresentam dados que podem ser operados ou analisados em
diversas direções. Podem ser classificadas em temporal, geográfica ou específica quando possuem
apenas duas colunas (séries simples) ou através da combinação de dois desses nomes, quando
possuem três ou mais colunas (séries conjugadas).
Tabelas de distribuição de frequência são aquelas que relacionam o valor da variável (ou um
intervalo de valores) com sua frequência no conjunto de dados observados, ou seja, quantas vezes
ela aparece no conjunto.
Para tabelas de distribuição de frequência, temos tipos específicos de gráficos que utilizam as figuras
padrão como, colunas e linhas, porém com disposições e funções diferentes, são chamados de
histogramas e polígonos. Para fazer a apresentação de dados de uma pesquisa devemos utilizar
tabelas e gráficos construídos em conformidade com as normas da ABNT.
Até a próxima!
1. Conteúdo Didático
Medidas características, ou medidas de resumo, são valores que buscam representar, resumir e
caracterizar um conjunto de dados, facilitando a interpretação e comparação de um ou vários
conjuntos.
As medidas de posição são assim chamadas pois se relacionam à posição de determinados valores
no conjunto ordenado de dados. Entre as medidas de posição, destacamos:
Tendência central: observadas no centro do conjunto ordenado, são elas: média, moda
e mediana.
Medidas separatrizes: determinam valores que dividem o conjunto em partes iguais; os
quartis, por exemplo, dividem o conjunto em quatro partes de mesmo tamanho.
1.1.1 Média
Média: É representada pelo símbolo x quando se refere a uma amostra; ou (mi), quando se
refere à população. É calculada pela razão entre o somatório de todos os dados observados e o
número de dados (quantidade). Quando temos um rol ou acesso aos dados originais (não
x , onde
agrupados), é representada pela fórmula x
n
x é o somatório de todos os valores
Exemplo:
Determine a média para o conjunto: 85, 82,97, 88, 89, 97, 89, 93, 88, 97, 96, 97, 98, 93, 97
Observe que temos 15 elementos no conjunto. Deste modo, a média será a soma desses elementos
dividido por 15. Veja!
x
x x
85 82 97 88 89 97 89 93 88 97 96 97 98 93 97 1386
92,4
n 15 15
x
f .x
n
x
f .pm
f.x é o somatório do produto entre o valor n
da variável e sua respectiva frequência.
n é a frequência total.
1.1.2 Moda
Moda: É o valor mais frequente no conjunto, ou seja, aquele que se repete mais vezes. É
representada pela sigla Mo.
Exemplo 1:
Determine a moda no conjunto: 85, 82, 97, 88, 89, 97, 89, 93, 88, 97, 96, 97, 98, 93, 97.
Na distribuição de frequência sem intervalo, a moda será o valor que possuir a maior frequência
simples (f).
Um conjunto pode apresentar mais de uma moda, será BIMODAL quando apresentar dois valores
que se repetem em igual número de vezes sendo esses o maior do conjunto; trimodal, se forem três
valores.
Exemplo: Conjunto Bimodal: 2, 3, 3, 3, 5, 5, 7, 7, 7, 8, 8, 9.
Mo = 3 e 7 (repare que esses números aparecem três vezes, conforme destaco abaixo.)
Conjunto bimodal: 2, 3, 3, 3, 5, 5, 7, 7, 7, 8, 8, 9.
Para conjuntos onde não há repetição, ou onde todos os valores aparecem em igual número de
vezes, não haverá moda. Esses conjuntos recebem o nome de AMODAL.
Exemplo: Conjunto Amodal: 10, 10, 12, 12, 15, 15, 19, 19.
Para determinação da moda em dados não agrupados, observamos o elemento que mais se repete.
Para distribuição com intervalo de classe, a moda será calculada pela aplicação da fórmula de Czuber
à classe com maior frequência simples (f).
D1
Mo Li h D1 f f ( ant) D2 f f ( post)
D1 D2
Legenda:
Li é o limite inferior da classe considerada.
D1 é a diferença entre a frequência simples da classe e a frequência simples da classe anterior.
D2 é a diferença entre a frequência simples da classe e a frequência simples da classe posterior.
h é a amplitude da classe (Ls – Li).
Ls: Limite superior da classe
1.1.3 Mediana
Para dados não agrupados, a mediana será o elemento central, determinada após a ordenação
(geralmente ordem crescente) dos dados. Caso o conjunto tenha quantidade par de elementos, a
mediana será determinada pela média aritmética dos dois valores centrais.
Exemplo 1
Determine a mediana para o conjunto: 85, 82, 97, 88, 89, 97, 89, 93, 88, 97, 96, 97, 98, 93, 97.
Primeiro, devemos ordenar o conjunto em ordem crescente. A mediana será o valor central. Como
temos 15 elementos, será aquele que ocupa a 7ª posição:
82, 85, 88, 88, 89, 89, 93, 93, 96, 97, 97, 97,97, 97, 98
Posição Elementos
1 82
2 85
3 88
4 88
5 89
5 89
7 93 Md = 93
8 93
9 96
10 97
11 97
12 97
13 97
14 97
15 98
Em tabelas de distribuição de frequência sem intervalo de classe, identificamos o valor central como
aquele que possui Fac (frequência acumulada crescente) imediatamente superior a n , sendo n a
2
frequência total. Nas tabelas de distribuição de frequência, a última linha apresenta o somatório das
colunas para a coluna de f (frequência absoluta simples). O total representa o número de elementos
que foram pesquisados.
n
Observação: Caso haja classe com Fac exatamente igual , a mediana será
2
dada pela média aritmética entre o valor que possui essa Fac e o valor posterior.
Em distribuição com intervalo de classe, identificamos a classe que contém a mediana sendo a que
contém Fac imediatamente superior a n . Após a identificação, aplicamos a fórmula abaixo aos dados
2
dessa classe.
n
Fac ( ant )
Md Li 2 h , onde Li é o limite inferior do intervalo; n é a frequência total; Fac (ant) é a
f
frequência acumulada crescente da classe anterior; f é a frequência simples da classe; e h é
amplitude do intervalo.
n
Observação: caso haja classe com Fac igual , a mediana será dada pelo
2
limite superior dessa classe.
1.1.4 Quartil
Quartil: São três valores que dividem o conjunto em quatro partes de mesmo tamanho, sendo que
cada uma das partes contém 25% do total de elementos. O conjunto terá 3 medidas (linhas de corte)
que o separam em 4 partes.
Q1 Q2 Q3
Num conjunto de dados não agrupados, o quartil de ordem k será o elemento que ocupar a
n
posição imediatamente superior a k no conjunto ordenado (geralmente ordem crescente).
4
Exemplo 1:
Determine os quartis inferior e superior para o conjunto: 85, 82, 97, 88, 89, 97, 89, 93, 88, 97, 96, 97, 98, 93,
97.
15
Quartil inferior (Q1): Elemento que ocupa a posição superior a 1 3,75 , 4º elemento. Q1 = 88
4
15
Quartil superior (Q3): Elemento que ocupa a posição superior a 3 11,25 , 12º elemento. Q3 = 97
4
Posição Elementos
1 82
2 85
3 88
4 88 Q1 = 88
5 89
6 89
7 93
8 93
9 96
10 97
11 97
12 97 Q3 = 97
13 97
14 97
15 (Total de 98
elementos)
Observação: caso haja classe com Fac igual n , o quartil será dado pela
k
4
média aritmética entre o valor que possui essa Fac e o valor posterior.
# 2ª Classe
* 3ª Classe
n 20
Quartil superior: Fac k Fac 3 Fac 15 (3ª classe)
4 4
O quartil será o valor da variável correspondente à classe determinada.
Q1 = 4
Em distribuição com intervalo de classe, identificamos a classe que contém o quartil de ordem k,
n
sendo aquela que possui Fac imediatamente superior a k . Após a identificação, aplicamos a
4
fórmula abaixo aos dados dessa classe.
n
k Fac ( ant )
Q k Li 4 h , onde Li é o limite inferior do intervalo; n é a frequência total; Fac (ant) éa
f
frequência acumulada crescente da classe anterior; f é a frequência simples da classe; e h é
amplitude do intervalo.
n
Observação: Caso haja classe com Fac igual a k , o quartil será dado pelo
4
limite superior dessa classe.
n 28
Quartil superior: Fac k Fac 3 Fac 21 (6ª classe)
4 4
Aplicaremos a fórmula aos dados da 5ª classe.
n
k Fac ( ant )
Qk Li 4 h
f
21 20
Q1 4,4 0,3 4,44
8
1.1.5 Percentil
Assim como os quartis, os percentis são medidas de posição. Enquanto os quartis apresentam 3
medidas (Q1, Q2 e Q3), que dividem o conjunto em 4 partes, os percentis apresentam 99 valores que
dividirão o conjunto em 100 partes. Cada um desses 99 valores recebe a indicação de P 1, P2, P3, ...,
P99.
Veja a representação do P80 (percentil de ordem 80 ou octogésimo percentil) que divide os dados,
estando 80% abaixo e 20% acima dele.
Total 20 ∙∙ n n
k Para o exemplo, calculamos k , ou
Fonte: Dados fictícios
100 100
20
seja, 85 17 . A classe que apresenta o P85
100
será aquela que apresenta Fac imediatamente
acima de 17, ou seja, a quarta classe, cuja
Fac=18.
O P85 será o valor da variável correspondente à
classe determinada.
20
Fac 85 Fac 17 4 a Classe
100
P85 5
n
Observação: caso haja Fac exatamente igual ao valor de k , o percentil será a média
100
aritmética entre a classe que contém essa Fac e a posterior.
Para distribuição de frequência com intervalo de classes, seleciona-se a classe com Fac
n
imediatamente superior a k , e aplica-se a fórmula abaixo.
100
Li – limite inferior da classe
n – frequência total
n
k Fac( ant ) Fac(ant) – frequência acumulada crescente da
Pk Li 100 h classe anterior.
f f – frequência simples da classe
h – amplitude da classe
n
Observação: caso haja alguma Fac exatamente igual a k , o percentil será o limite superior
100
dessa classe.
Veremos a seguir um exemplo da resolução desta fórmula.
As medidas de posição não são suficientes para caracterizar completamente o conjunto de dados,
muitas vezes, precisamos de informações que nos permitam comparar conjuntos quanto a sua
distribuição de elementos, ou seja, os elementos que compõem o conjunto apresentam valores
próximos ou não. Para fazer essa análise, utilizamos as medidas de variabilidade. Veja a seguir!
Variância e desvio padrão: A variância é representada por s2, se for referente à amostra e, por σ2
(sigma minúsculo), se for referente à população. O desvio padrão, por ser operacionalmente a raiz
quadrada da variância, será representado por s, se referente à amostra e σ, se referente à
população. Não existe significado para o desvio padrão tomado de maneira isolado. Sua
aplicabilidade está ligada à comparação de conjuntos de dados de mesma natureza. Aquele conjunto
que apresenta o menor desvio padrão (ou variância) é o conjunto mais homogêneo ou mais regular.
Vamos conhecer as fórmulas:
Variância Onde:
Dados não agrupados Dados Agrupados
s2 – variância amostral
x x ou f x x 2 ou
2
σ2 – variância populacional
s2 s2 n – número de
n 1 n 1
observações
Amostral
1 x 2 1
f x 2 fn x
2 x – valor de cada
s2
n 1
x2
n
s2
n 1
elemento, quando se tratar
de distribuição de
frequência , x será o ponto
x f x 2
2
médio de cada classe.
2 ou 2 x – média amostral
n n
μ – média populacional
Populacional
fn x
∑ - símbolo matemático
2
1
x2
x 2 2
1
f x 2
2
que indica somatório
n n n
Existem duas fórmulas diferentes para o cálculo da variância e, consequentemente, para o desvio padrão.
A diferença entre elas é o uso da média do conjunto ( x ). Perceba que sendo a média um valor não inteiro,
feito o arredondamento, teremos um erro associado ao cálculo que será maior ainda, já que esse valor
será elevado ao quadrado. Por isso, daremos preferência à segunda fórmula – sem o uso da média.
O desvio padrão será a raiz quadrada da variância, também, respeitando distinção entre amostral e
populacional. Basta inserir uma raiz quadrada sobre qualquer uma das fórmulas dadas para variância.
Desvio Padrão
Amostral Populacional
s s2 2
Resolveremos o problema pelas duas fórmulas apresentadas para o cálculo de variância (chamamos de 1º
método: com o uso da média; 2º método: sem o uso da média.)
Para facilitar, montamos uma tabela com as colunas necessárias ao cálculo.
A média é 92,4.
1o método 2o método
Calculando a Variância
2º Método
1º Método
s
2 1
x
2
x
2
n 1
x x n
2
s 2
n 1 1 1386
2
s 2 128442
375,6 375,6 14 15
s2 26,8285714286
15 1 14
128442 128066,4
1
26,83 14
1
375,6 26,8285714286 26,83
14
O desvio padrão é uma medida estatística muito importante mas que não assume significado quando
tomado isoladamente, sua aplicação está ligada à comparação entre conjuntos de mesma natureza
quando avaliamos a variabilidade do dados. Além disso ele é a base para muitos cálculos utilizados
em inferência estatística como margem de erro de pesquisas e outros.
Para determinar o desvio padrão, basta extrair a raiz quadrada do resultado obtido na variância.
s s2
s 26,83 5,18
1o Método
Solução: Acrescentamos as colunas
Número de cômodos ocupados por vinte famílias necessárias ao cálculo f.(x – x )2.
entrevistadas
f x x 2
Belo Horizonte 2005
x f s2
f x x 2 n 1
2 4 9,61
3 7 2,1175
28,95 28,95
4 5 1,0125 s2 1,5236842105 3 1,52
5 2
20 1 19
4,205
6 2 12,005
Total 20 28,95
Fonte: Dados fictícios
2o Método
Número de cômodos ocupados por vinte famílias Solução: Acrescentamos as colunas
entrevistadas necessárias ao cálculo f.x e f.x2.Variância
Belo Horizonte 2005
1
fn x
2
x f f.x f.x2
s2 f x 2
2 4 n 1
8 16
3 7
21 63
1 712
281 252,05
1
4 5
20 80 s2 281
19 20 19
5 2
10 50
6 2 1,5236842105 3 1,52
12 72
Total 20 71 281
Fonte: Dados fictícios
Desvio Padrão
s s2
s 1,52 1,23
Para o cálculo de variância, em dados agrupados com intervalo de classe, substituímos o valor da
variável (x) pelo ponto médio da classe, o mesmo processo utilizado no cálculo da média. Veja!
1o Método
Notas atribuídas a 28 produtos de informática pelo convênio Folha/USP
São Paulo – 1996
Notas f Pm f pm f pm x 2 Para calcular variância e
2,9 |– 3,2 1 3,05 3,05 1,2321 desvio padrão para dados
3,2 |– 3,5 1 3,35 3,35 0,6561
agrupados com intervalo de
3,5 |– 3,8 2 3,65 7,3 0,5202
3,8 |– 4,1 5 3,95 19,75 0,2205 classe substituímos x por pm
4,1 |– 4,4 11 4,25 46,75 0,0891
4,4 |– 4,7 8 4,55 36,4 1,2168 nas fórmulas.
Total 28 ∙∙ 116,6 3,9348
Fonte: Folha de S. Paulo, 22-01-1997
x
f pm 116,6 4,16
n 28
s 2
f pm x
2
n 1
3,9348 3,9348
s2 0,146
28 1 27
2o Método
f npm
Notas atribuídas a 28 produtos de informática pelo convênio Folha/USP
1
2
São Paulo – 1996
Notas f Pm f pm s2 f pm 2
2
f pm n 1
2,9 |– 3,2 1 3,05 3,05 9,3025
3,2 |– 3,5 1 3,35 3,35 11,2225
s2
1
489,49
116,62
3,5 |–
3,8 |–
3,8
4,1
2
5
3,65
3,95
7,3
19,75
26,645
78,0125
27 28
4,1 |– 4,4 11 4,25 46,75 198,6875
4,4 |– 4,7 8 4,55 36,4 165,62
489,49 485,556 0,146
Total 28 ∙∙ 116,6 489,49 1
Fonte: Folha de S. Paulo, 22-01-1997
27
Desvio Padrão
s s2
s 0,146 0,382
Exemplo: O desempenho de uma turma em uma prova de matemática, valendo 20 pontos foi média
17,5 com desvio padrão 5. Em estatística, a prova valia 10, a média foi 6,8 com desvio padrão 2.
Podemos responder a essa pergunta com base no coeficiente de variação. Para isso, calculamos
separadamente o CV de cada disciplina:
5 2
CV MAT 100 28,6% CV EST 100 29,4%
17,5 6,8
Legenda:
CV MAT = coeficiente de variação das notas de matemática
CV EST = coeficiente de variação das notas de estatística
A distribuição será assimétrica quando “puxar” para um dos lados. Nesses casos, não haverá
coincidência entre os valores de média, moda e mediana:
Mo <Md< x
x <Md< Mo Curva assimétrica à direita ou
Curva assimétrica à esquerda ou assimetria positiva
assimetria negativa.
AS 3
x Md
s
O resultado do cálculo indica o tipo de assimetria através dos sinais negativo e positivo. Quanto à
intensidade, utizamos a seguinte escala avaliando o módulo (valor desprezando o sinal) do resultado
da fórmula acima.
Fonte: autora.
Exemplo: Em 1996, o convênio Folha/USP, em São Paulo, avaliou 28 produtos de informática. A nota
média foi 4,16 pontos com desvio padrão de 0,382 pontos e a mediana foi 4,24 pontos. Determinar e
classificar a assimetria.
AS 3
x Md 3 4,16 4,24 0,628
s 0,382
Esse conjunto apresenta assimetria negativa ou à esquerda, e possui intensidade moderada, de
acordo com a escala apresentada.
Terminamos aqui mais uma unidade, mas antes de avançar para a unidade 4, visite as próximas
seções, “Teoria na Prática” e “Sintese”. Aguardo você lá.
2. Teoria na Prática
Vejamos outras formas de calcular a média para classes com ou sem intervalos.
x
f .x x
71
3,55
n 20
x
f . pm x
116,6
4,16
n 28
3. Síntese
Média
Tendência central Moda
Mediana
Posição
Separatrizes Quartil
Medidas resumo
Variabilidade
Variância
Desvio padrão
Coeficiente de
variação
Outra medida que caracteriza um conjunto é a assimetria que indica o grau de proximidade da curva
polida (construída com base no polígono de frequência) e a curva padrão (curva Normal ou também
chamada de curva de Gauss).
Essas medidas permitem ao pesquisador retratar características dos conjuntos que permitem
comparar e a partir daí fazer a análise em relação às informações obtidas.
Unidade 4: Probabilidade
1. Conteúdo Didático
As probabilidades fazem parte do cotidiano de qualquer pessoa. Mesmo sem perceber, estamos
sempre em contato com elas, por exemplo, ao ver a previsão da meteorologia. Outra aplicação
interessante está ligada ao cálculo de valor a ser pago por seguro, seja de vida, automóveis ou outros
bens com a utilização do perfil do segurado. É por meio da probabilidade que o valor a ser pago é
calculado. Por exemplo, no seguro de um automóvel, se o proprietário tem garagem, qual a
implicação disso no valor a ser pago? O carro estando na rua, existirá uma maior probabilidade de
roubo do veículo e, consequentemente, maior probabilidade da seguradora ter que ressarcir o
proprietário. O sexo, a idade e o estado civil também são fatores determinantes nesse caso.
É isso aí, vamos ver agora o que é probabilidade! Como vimos na unidade 01, probabilidade é a parte
da Estatística que se ocupa do estudo de fenômenos de caráter aleatório, ou seja, aqueles cujos
resultados possíveis são conhecidos, porém, incertos. Por exemplo, o amigo oculto, que consiste em
fazer um sorteio entre um grupo de pessoas, é uma brincadeira muito popular nas festas de fim de
ano,. Cada um retira o nome de uma pessoa para presentear, quando você vai retirar o seu
papelzinho, sabe exatamente quais são os possíveis resultados, mas não consegue dizer ao certo
qual será.
Antes de ver os cálculos das probabilidades e suas teorias, precisamos entender alguns conceitos.
Veja a seguir!
1.1 Conceitos
Para entender a Teoria das Probabilidades, devemos conhecer alguns conceitos utilizados. É
necessário conhecer cada um deles para facilitar a compreensão. Veja a seguir!
Na aplicação das definições de probabilidade, utilizamos esses conceitos, portanto, fique atento a
cada um deles para que você possa diferenciá-los e identificá-los.
Nesse conceito, a probabilidade de ocorrência de um evento A, denominada como p(A), é dada pela
razão (divisão) entre o número de elementos do evento A - denominado n(A) - e o número de
elementos do espaço amostral - denominado n(S).
nA
p( A)
nS
A probabilidade pode ser expressa de 3 maneiras distintas: na forma de fração, por número decimal
ou na forma de porcentagem. Veja o exemplo!
pA f A , onde p(A) indica a probabilidade de ocorrência do evento A e f(A) é a frequência relativa
Durante 30 dias, foi observado o número de acidentes numa empresa. O resultado está apresentado
a seguir:
Número de Número
p(x)
acidentes (x) de dias
18
0 18 0,60
30
6
1 6 0,20
30
4
2 4 0,13
30
2
3 2 0,07
30
Total 30 1,00
Fonte: Dados fictícios
Já vimos que eventos são subconjuntos do espaço amostral que determinam elementos com alguma
característica em comum. Vimos um evento qualquer e o cálculo de probabilidade de ocorrência.
Vamos ver agora outros tipos de eventos.
Evento certo: ocorre sempre, sua probabilidade de ocorrência é 100%, ou seja, os conjuntos
evento e espaço amostral são iguais. Podemos citar como evento certo obter um número
menor que sete no lançamento de um dado. Os dados têm faces numeradas de 1 a 6; logo,
qualquer um dos resultados atende ao evento número menor que sete.
Dois eventos são ditos complementares quando a união deles resulta no espaço amostral.
Consideremos o lançamento de um dado e dois eventos A e B sendo:
Dois eventos são considerados independentes quando a ocorrência, ou não, de um deles não
interfere na ocorrência do segundo, e vice-versa. Veja o exemplo!
A: obter o número 3
B: obter o número 5
A regra do produto diz que a probabilidade de ocorrência de dois ou mais eventos independentes,
simultaneamente, é dada pelo produto das probabilidades de ocorrência de cada um.
p pA pB
A regra da soma diz que, se dois eventos são mutuamente exclusivos, a probabilidade de ocorrência
de um ou outro na realização de um experimento é dada pela soma das probabilidades de ocorrência
individual de cada um.
p pA pB
Considere o lançamento de duas moedas, o espaço amostra é S={ (cara, cara), (cara, coroa), (coroa,
cara), (coroa, coroa)}. Associamos um número x a cada ponto amostral, representado o número de
caras, assim teremos:
Ponto amostra x
coroa, coroa 0
coroa, cara 1
cara, coroa 1
cara, cara 2
x é a variável aleatória e representa o número de caras, assume valores inteiros entre 0 e 2. Dessa
forma, a função probabilidade é dada por f x p( X x) , ou seja, a probabilidade da variável
aleatória X assumir um valor x. p(x=1) indica a probabilidade de ocorrer 1 cara no lançamento das
duas moedas.
Com base na variável aleatória x (número de caras), no nosso exemplo, podemos montar a
distribuição de probabilidade, associando a ocorrência do número de caras e sua respectiva
probabilidade, veja:
Temos dessa forma p(x=1)=50% ou seja, a probabilidade de ocorrer 1 cara no lançamento de duas
moedas é de 50%.
Estudaremos agora dois modelos de distribuição teóricos: distribuição binomial e distribuição normal.
Esses modelos podem ser aplicados a diversas situações, devemos apenas observar a aplicação de
cada um comparando com o fenômeno estudado.
Suponha que uma moeda seja lançada 15 vezes. Qual a probabilidade de obter 9 caras? Para
resolver essa questão, utilizaremos a distribuição binomial.
E por que optamos por essa distribuição? Porque a distribuição binomial é um modelo teórico de
distribuição que se aplica a experimentos que serão repetidos n vezes, cujo resultado é dado por
fracasso ou sucesso, podendo assumir outras denominações de acordo com a questão proposta,
sendo homem/mulher, certo/errado, em dia/atrasado, cara/coroa etc.
Sua utilização pressupõe probabilidades individuais que não se alteram independente do número de
vezes que o experimento é realizado, ou seja, a cada prova (experimento) realizada a probabilidade
de sucesso ou fracasso permanece constante.
n
P( X k ) p k q n k , onde p indica a probabilidade de sucesso em um único
k
n
experimento, q é a probabilidade de fracasso, também, num único experimento e é o número
k
n n!
k k !n k !
binomial de n sobre k, calculado por .
Perceba que a soma de p e q é sempre igual a um já que os eventos sucesso e fracasso serão
sempre complementares.
Considerando a questão inicial: Qual a probabilidade de obter 9 caras lançando uma moeda 15
vezes? Nas condições do problema que se enquadram na distribuição binomial, teremos:
15
n = 15 P X 9 0,5 9 0,5 6
9
k=9
p = 0,5 Primeiro vamos calcular o binomial de 15 sobre 9, veja!
15
q = 0,5 15 ! 15 14 13 12 11 10 9 ! 3603600 5005
9 9 !6 ! 9 !6 5 4 3 2 1 720
Dessa forma:
Outro modelo de distribuição muito utilizado é a distribuição normal. Essa distribuição atende a
variáveis que possuem simetria em torno das medidas de tendência central (média, moda e
mediana), ou seja, curva em forma de sino. A avaliação sobre a validade dessa distribuição passa
pela análise de simetria ou assimetria do conjunto, como foi visto na unidade 3.
São vários os fenômenos que possuem essa característica como o peso, altura, coeficiente de
inteligência, tempo de gestão de seres vivos, despesas de famílias, rendimento de máquinas, etc.
Esse modelo consiste na padronização dos valores do fenômeno considerado, a fim de enquadrá-lo
na curva normal que possui média 0 e desvio padrão 1. A probabilidade de a variável assumir valores
num intervalo é dada pela área abaixo da curva. Esses valores são tabelados em função da variável
padronizada z, também chamado de escore z.
Os valores da probabilidade na distribuição Normal são calculados pela área abaixo da curva
delimitada pelo valor de z, através de uma fórmula muito complexa que envolve inclusive a utilização
de integral. Por isso, é comum o uso da tabela de distribuição de probabilidade Normal que pode ser
encontrada em qualquer livro de estatística, ou pode ser construída pela planilha eletrônica do Excel.
A construção no Excel não é um processo simples, requer um conhecimento avançado da função e
da teoria da distribuição normal. Veja a tabela!
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
Fonte: Autora
Encontre a área compreendida entre 0 e 1,37 , simbolizado por p(0 < z < 1,37).
Para encontrar a área destacada na tabela, devemos proceder a leitura da seguinte forma: na 1ª
coluna localizamos 1,3, então, cruzamos essa linha com a coluna 0,07. O número procurado é
0,4147, esta é a área compreendida entre 0 e 1,37. 1,3 + 0,07=1,37
A curva normal é perfeitamente simétrica, logo cada uma das metades tem área igual a 0,5 sendo a
área total igual a 1 o que representará na distribuição de probabilidade 100%.
Agora, vamos determinar a área compreendida entre – 2,41 e 1,55 ou p(– 2,41 < z < 1,55).
Observe que cada uma das metades da curva tem área igual a 0,5 e que a curva normal é simétrica,
ou seja, a área entre 0 e 2,45, por exemplo, é igual a área entre – 2,45 e 0.
– 2,41 0 1,55
A tabela nos fornece apenas valores positivos, mas, considerando a simetria, podemos calcular a
área como a soma das áreas de 0 a 2,41 mais a área de 0 a 1,55.
p(–2,41 < z < 1,55) = p(0 < z < 2,41) + p(0 < z < 1,55)
Fazendo a leitura da tabela encontramos:
=0,4920 + 0,4394 = 0,9314
Exemplo: Uma pesquisa na empresa W revelou que o salário médio dos funcionários é R$ 870,00
com desvio de 55 reais. Considerando que o salário dos funcionários dessa empresa é normalmente
distribuído, determine a probabilidade de um funcionário escolhido ao acaso receber até R$ 900,00.
0 0,55
2. Teoria na Prática
Qual a probabilidade de uma pessoa ganhar na Mega-Sena com um bilhete de aposta simples?
A Mega-Sena é um jogo em que são sorteados 6 números de 01 a 60. Assim, o espaço amostral do
jogo é dado por todas as combinações possíveis de 60 elementos tomados 6 a 6, dado pela fórmula
que faz parte do estudo de análise combinatória por:
n!
C n, p Dúvidas para calcular
p !n p ! o número de
, onde n é a quantidade de elementos
combinações?
disponível e p é o número de elementos de cada combinação. Consulte um livro de
matemática do
No caso da mega-sena, teremos: Ensino Médio.
60 ! 60 59 58 57 56 55 54 !
C60, 6 50.063.860
6 !60 6 ! 6 5 4 3 2 1 54 !
. Este é o total de
jogos possíveis....
Uma aposta simples é composta por um conjunto de 6 números e representa uma combinação das
50.063.860 possíveis, dessa forma a probabilidade de um jogador acertar os 6 números com uma
aposta simples será:
nA
pA
1
1,9974 10 8 ou 0,000019974 %
nS 50.063 .860
E aí? Está disposto a arriscar? Bem, as chances são pequenas, mas você poderá se tornar
milhonário!
3. Síntese
Modelos teóricos de distribuição de probabilidade servem como padrão e podem ser aplicados a
diversos fenômenos, observando a aplicação de cada caso.
Binomial: aplicado a experimentos que têm como possíveis resultados fracasso ou sucesso. As
probabilidades de fracasso e sucesso na realização de um único experimento são fixas, ou seja, não
se alteram com a realização das provas.
Normal: aplicado a fenômenos que têm distribuição de frequência em forma de sino. A probabilidade
da variável aleatória assumir um intervalo de valores é dada pela área abaixo da curva normal
(valores esses apresentados na tabela de distribuição normal).
1. Conteúdo Didático
A correlação indica como duas variáveis se relacionam matematicamente. Essa relação pode ser
modelada através de funções (sentenças matemáticas) que traduzem a relação entre as variáveis,
permitindo prever valores não observados e comportamentos futuros.
É importante notar que essa análise deve ser empregada em variáveis que, ao menos intuitivamente,
apresentam relação de causa e efeito entre si, ou seja, a variação de uma causa variações nas outras
ou vice versa.
Existem muitos métodos de análise de regressão que podem ser separados em: Linear ou Não
Linear e, ainda, em Simples ou Múltipla; a Simples relaciona duas variáveis; e a Múltipla, três ou
mais.
Em nosso estudo trataremos da Regressão Linear Simples, ou seja, aquelas que relacionam duas
variáveis, sendo uma independente (x) e outra dependente (y) por uma linha reta. Agora vamos ver o
que é correlação!
1.1 Correlação
Damos o nome de correlação à forma como as variáveis x e y se relacionam. Ela pode ser positiva,
quando as variáveis são diretamente proporcionais, ou seja, quando uma aumenta, a outra também
aumenta. Pode ser negativa, quando as variáveis são inversamente proporcionais ou o aumento de
uma acarreta diminuição da outra.
Cada uma das variáveis recebe a denominação de dependente ou independente de acordo com a
natureza da interação entre elas. Geralmente, a independente é chamada de x e a dependente de y.
Chamamos de variável independente aquela que produz a variação na outra variável, que então
recebe o nome de dependente. Esse conceito pode ser ilustrado pela marcante frase de um comercial
publicitário em que o anunciante dizia: “é fresquinho porque vende mais ou vende mais porque é
Uma forma preliminar de estabelecer se há correlação entre as variáveis e de qual tipo – positiva ou
negativa – é através da construção do diagrama de pontos.
45
40
35
30
25
20
15
10
5
0
0 2 4 6 8
Em nosso estudo, focaremos as correlações lineares, ou seja, aquelas que formam ou que podem ser
expressas por equação de reta ou função do primeiro grau. Veja um exemplo abaixo:
Estudos anteriores comprovam a existência de relação de causa e efeito entre o investimento feito em
publicidade e propaganda e o faturamento de lojas. Acompanhe os valores observados em uma
determinada loja de departamentos de Belo Horizonte.
Investimento Faturamento
(em milhares de reais) (em milhares de reais)
1,0 28
3,0 34
4,0 37
6,0 44
7,0 43
8,0 43
9,0 46
11,0 51
13,0 56
14,0 60
Fonte: Dados fictícios
Construa o diagrama de pontos e analise quanto à correlação entre as variáveis.
A alteração de atribuição de nomes das variáveis X e Y não traz prejuízos à análise, uma vez que a
relação apresentada entre elas não é alterada e sim apenas os valores relacionais.
30
20
A construção do diagrama de pontos pode
ser laboriosa e de difícil interpretação, por
10
isso, utilizamos o coeficiente de correlação
0
0 2 4 6 8 10 12 de Pearson para determinar com que
intensidade se dá a relação entre as
variáveis.
n x y x y
r
[n x 2 x ] [n y 2 y ]
2 2
Seu valor fica no intervalo fechado de −1 a +1, sendo o sinal − (negativo) indicativo de correlação
negativa – as variáveis são inversamente proporcionais – enquanto uma aumenta a outra diminui.
O sinal + (positivo) indica correlação positiva – as variáveis são diretamente proporcionais, se uma
aumenta a outra também aumenta e vice-versa. Portanto, quanto mais próximo de um for o módulo
do valor de r, mais forte é a correlação. Graficamente, a correlação positiva apresenta uma reta
crescente e a correlação negativa uma reta decrescente.
Dizemos que a correlação é significativa se, a partir da reta de regressão, podemos prever valores
para o fenômeno estudado. Para Crespo (1995), a correlação será significativa quando o valor do
módulo de r for maior ou igual a 0,6. Já Milone (2004) estabele outras classificações. Veja abaixo:
Coeficiente Classificação
r 0,5 Imprópria
positivo ou negativo.
Acompanhe o cálculo do coeficiente de correlação linear de Pearson. Para facilitar o cálculo, iremos
construir na tabela as colunas auxiliares de cálculo x. y, x2 e y2. Veja nosso exemplo:
n x y x y
r
[n x x ] [n y y ]
2 2 2 2
Temos então uma correlação linear positiva e, segundo Milone, de classificação ótima. Isso nos leva
a concluir que esse fenômeno pode ser modelado por uma equação de reta.
A regressão linear simples tem por objetivo determinar a equação da reta ajustada (modelo
matemático linear) que atende aos dados disponíveis com o menor erro possível. O erro é a diferença
encontrada entre o valor observado (real) e o valor calculado pela equação.
A equação da reta no plano cartesiano é dada por y mx b , onde m e b são coeficientes angulares
e lineares, respectivamente. Você pode encontrar outras denominações para esses coeficientes, de
acordo com a referência bibliográfica utilizada! O coeficiente angular diz respeito à inclinação da reta
em relação ao eixo X, e pode ser entendido como a variação (que é constante para toda a reta) de Y
em função de X. O coeficiente linear é o valor onde a reta intercepta o eixo Y.
y=mx+b
Para montar a equação da reta ajustada, determinamos os coeficientes angular e linear pelas
fórmulas:
x 2 y x x y n x y x y
b m
n x 2 x n x 2 x
2 2
Os resultados dos somatórios podem ser calculados construindo-se as respectivas colunas na própria
tabela de dados, os valores utilizados são os mesmos necessários para calcular o coeficiente de
correlação de Pearson. Vamos retomar nosso exemplo e determinar a equação da reta ajustada!
Exemplo:
Investimento (x) Faturamento (y)
(em milhares de (em milhares de x.y x2 y2
reais) reais)
1 28 28 1 784
3 34 102 9 1156
4 37 148 16 1369
6 44 264 36 1936
7 43 301 49 1849
8 43 344 64 1849
9 46 414 81 2116
11 51 561 121 2601
13 56 728 169 3136
14 60 840 196 3600
Σ x = 76 Σ y = 442 Σx.y = 3730 Σ x2 = 742 Σ y2 = 20396
Fonte: Dados fictícios
b
x y x x y 742 442 76 3730 327964 283480 44484 27,0584
2
A equação da reta será yˆ 2,2555 xˆ 27 ,0584 . Utilizamos o símbolo ^ sobre o nome da variável
para indicar o valor calculado. Assim X e Y representam valores observados – os apresentados na
tabela – e x̂ e ŷ são os valores calculados pela equação da reta.
Com base na equação da reta, podemos fazer previsões. Por exemplo, qual o investimento calculado
para um faturamento de 52 mil reais?
Estamos procurando o valor de x̂ para y 52 . Então, fazemos:
yˆ 2,2555 xˆ 27,0584
2,2555 xˆ 27,0584 52
A partir do resultado, vimos que investimento calculado para
2,2555 xˆ 52 27,0584 um faturamento de 52 mil é aproximadamente de 11 mil
2,2555 xˆ 24,9416 reais.
24,9416
xˆ 11,06
2, ,2555
Devemos tomar alguns cuidados ao fazer previsões com a utilização da regressão linear. A reta
ajustada é construída com base em dados passados, se a relação entre as variáveis for alterada a
equação determinada não será mais adequada para modelar o fenômeno. Devemos evitar extrapolar
os valores, ou seja, utilizar valores fora do intervalo de dados observados, uma vez que não
conhecemos o comportamento das variáveis fora do conjunto de dados considerados. Pode ser que
elas não tenham o mesmo comportamento e assim, a reta não será adequada para essa situação.
(DOWNING & CLARK, 2003)
O erro padrão é uma medida que permite mensurar a precisão das estimativas feitas com base na
reta de regressão linear. Seu valor é baseado na análise da dispersão dos pontos observados em
relação à reta de regressão linear construída. O erro padrão, associado ao modelo linear, é entendido
como a diferença entre o valor observado y e o valor calculado ŷ , e é calculado pela seguinte
fórmula:
Se
y 2
b y m x y
n2
y 2
20396 b 27,0584 m 2,2555 x y 3730 n 10
Se
y 2
b y m x y
20396 27,0584 442 2,2555 3730
1,7019
n2 10 2
Muitas vezes, duas variáveis se relacionam, não entre si somente, mas com outros fatores. O
coeficiente de explicação indica qual a fração da variação da variável dependente que pode ser
explicada ou justificada pela variação ocorrida na variável independente, indicando que o restante
seria explicado por outros fatores relacionados a elas, mas não estabelecidos ou explicitados no
r 2
n x y x y 2
[ n x ( x ) ] [ n y ( y ) ]
2 2 2 2
Vamos determinar o coeficiente de explicação para o nosso exemplo! Para o exemplo que estamos
trabalhando, temos:
n x y x y
2
10 3730 76 442 0,9729
2
n 10 x 76 y 442 x 2
742 y 2
20396 x y 3730
b 27,0584 m 2,2555
Portanto, o coeficiente de explicação é 0,9729 ou 97,29%. Isso significa que 97,29% da variação de Y
pode ser explicada pela variação de x. Ou seja, 97,29% da variação do faturamento pode ser
explicado pelo investimento em publicidade e propaganda.
O valor de r2 também pode ser obtido a partir do valor do coeficiente de correlação de Pearson r. Para
isso, basta elevar o valor de r ao quadrado.
A regressão linear é uma importante ferramenta de modelagem matemática que irá auxiliá-lo na
compreensão de fenômenos de natureza linear.
Ao longo dessas 5 unidades aprendemos alguns processos de tratamento de dados estatísticos que
irão auxiliá-lo na compreensão de fenômenos e servirão como ferramenta para basear a tomada de
decisões. Devemos ressaltar que o principal papel do pesquisador está na análise dos dados e
resultados obtidos em uma pesquisa. Porém, para que seja feita de maneira correta é preciso
conhecimento sobre os processos que levaram àqueles resultados.
Sucesso!
2. Teoria na Prática
Uma empresa resolveu estudar a variação da demanda (em unidades) de seu produto em função do
preço de venda (em reais) praticado. Para isso, foram coletados os seguintes dados:
Preço (x) 36 43 49 55 61 63 69 72 74 77
Demanda (y) 350 330 296 252 230 218 203 196 188 167
Preço Demanda
x2 y2
x.y n x y x y
r
[n x 2 x ] [n y 2 y ]
(x) (y) 2 2
b) Determine a equação da reta ajustada caso a correlação entre as variáveis seja significativa.
Conforme o valor de r, podemos dizer que a correlação é significativa.
b
x 2 y x x y
37611 2430 599 137808
511,1640
n x 2 x 10 37611 599 2
2
c) Considerando que a relação entre as variáveis não é alterada mesmo fora do intervalo observado,
determine qual a demanda esperada para um preço de 80 reais.
3. Síntese
A análise de correlação e regressão linear é uma técnica da estatística inferencial que permite fazer
previsões para determinados fenômenos, a partir da modelagem matemática deles através de
equações de retas no plano cartesiano.
A intensidade da correlação existente entre duas variáveis pode ser calculada pelo coeficiente linear
de Pearson, através da fórmula:
n x y x y
r
[n x 2 x ] [n y 2 y ]
2 2
Ressaltando: para que duas variáveis recebam o tratamento pela regressão linear, é necessária a
existência de relação de causa e efeito entre elas, caso contrário, mesmo que a relação estatística
possa ser comprovada não tem validade prática. A interação de causa e efeito entre as variáveis é
estabelecida pelo pesquisador com base em seu conhecimento sobre o assunto e/ou através de
estudos passados.
A relação linear entre as variáveis é descrita por uma reta de equação y mx b . Os coeficientes
m
n x y x y b
x y x x y
2
n x x n x x
2 2 2 2
O erro associado ao modelo linear é chamado de erro padrão, e representa a diferença encontrada
entre os valores observados e calculado pela equação. Ele é chamado Se e calculado pela fórmula:
Se
y 2
b y m x y
n2
r 2
n x y x y ,
2
[ n x ( x ) ] [ n y ( y ) ]
2 2 2 2
Seu valor é sempre entre 0 e 1. Quanto mais próximo de um, melhor é o ajuste da reta aos dados
observados.
4. Referências
BUNCHAFT, Guenia; KELLER, Sheilah Rubino de Oliveira. Estatística sem mistérios. Vol. I.
Petrópolis: Vozes, 3a edição, 2000.
CRESPO, Antônio Arnot. Estatística Fácil. São Paulo: Saraiva, 13ª ed., 1995.
DOWNING, Douglas; CLARK, Jeffrey. Estatística Aplicada. São Paulo: Saraiva, 2a edição, 2003.
FREUND, John e SIMON, Gary A, Estatística aplicada. 9ª ed. Porto Alegre: Bookman, 2000.
MAGALHÃES, Macos Nascimento; LIMA, Antônio Carlos Pedroso de. Noções de probabilidade e
estatística. São Paulo: IME – USP, 3a edição, 2001.
MILONE, Guiseppe. Estatística: geral e aplicada. São Paulo: Pioneira Thomson Learning, 2004.