Você está na página 1de 43

FACULDADE SANTA RITA DE CÁSSIA - IFASC

CURSO DE ADMINISTRAÇÃO

Estatística

Professor: Douglas Messias Lamounier Camargos Rezende

Itumbiara - 2015
2

1- Introduçao

Panorama Histórico:
A Estatística é um ramo da Matemática Aplicada que fornece métodos para a coleta,
organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na
tomada de decisões.
A palavra estatística teve sua origem na palavra grega “Statizei” cujo significado geral
está relacionado com informações sobre o Estado, o qual detinha as condições de levantar
quantidades de dados numéricos sobre a economia e a população que compunha a sociedade.
Outros autores acreditam que a origem veio da palavra latina “Status”. Desde a Antigüidade,
vários povos já registravam o número de habitantes, de nascimentos, de óbitos, faziam
estimativas das riquezas individual e social, distribuíam eqüitativamente terras ao povo,
cobravam impostos e realizavam inquéritos quantitativos por processos que, hoje,
chamaríamos de estatísticas. A associação entre estatística e o Estado é bem antiga, a exemplo
disso, o Império Romano utilizava a mediana para cobrar um imposto mais justo ao cidadão
romano. Mas foi somente no século XVI que começaram a surgir as primeiras análises
sistemáticas de fatos sociais, como batizados, casamentos, funerais, originando as primeiras
tábuas e tabelas, e os primeiros números relativos.
Quem batizou a Estatística e determinou o seu objetivo e sua relação com as ciências
foi Godofredo Achenwall no século XVIII. Deste ponto em diante a Estatística se tornou o
estudo de como chegar a conclusões sobre o todo (população), partindo da observação de
partes desse todo (amostras). A Estatística cresceu e se desenvolveu até se tornar um método
de análise que tem aplicações nas ciências exatas, sociais, humanas e da saúde. A estatística
tem seu suporte na teoria da probabilidade que foi fundamentada por Kolmogorov no início
do século XX. Com os trabalhos de Sir Ronald Fischer, na década de 1920, considerado o pai
da estatística moderna, esta ciência passou a ter seu papel bem definido. Atualmente podemos
olhar a ciência estatística por dois grandes ramos: a estatística descritiva e a inferencial que
envolve a suposição de modelos probabilísticos para os dados.
As medidas descritivas dos dados são muito úteis nas empresas, pois a maioria delas
necessita de informações para planejar ações, tais como crescimento da produção, salário dos
funcionários, números de empregados, gráficos, etc. Com o avanço da informática, o mercado
para computadores coloca à disposição softwares acessíveis, permitindo que toda empresa
informatize seus serviços, criando condições para que mantenha um banco de dados no qual
3

se registra as informações de interesse da empresa. Estes registros podem ser compactados na


forma de tabelas, gráficas e distribuições de freqüência, oferecendo informações estatísticas
descritivas de interesse que ajudam a empresa a controlar estoques, produção, tomar decisões
importantes para sua sobrevivência no mercado.
A informação rápida é uma ferramenta necessária nos dias atuais na administração
empresarial e todos os setores que participam das decisões consultam um banco de dados. No
momento de apresentar informações importantes, torna-se necessária fazer uso das técnicas
estatísticas descritivas.

Método Científico
Método científico é um conjunto de meios dispostos convenientemente para se chegar
a um fim que se deseja.
Dos métodos científicos, vamos destacar o método experimental e o estatístico.
O método experimental consiste em manter constantes todas as causas (fatores),
menos uma, e variar esta causa de modo que o pesquisador possa descobrir seus efeitos, caso
existam.
É o método preferido no estudo da Física, da Química, etc.
O método estatístico é geralmente utilizado nas ciências sociais e biológicas. Diante da
impossibilidade de manter as causas constantes, admitem-se todas essas causas presentes,
variando-as, registrando essas variações e procurando determinar, no resultado final, que
influencias cabem a cada uma delas.

Fases do Método Estatístico


A Estatística pode ser dividida em dois grandes grupos:
 Estatística Descritiva: trata da coleta, da organização e da descrição dos dados;
 Estatística Indutiva ou Inferencial: trata da análise e da interpretação dos dados.
1. Coleta de dados: é o processo de captura dos dados. Pode ser dividida em direta ou
indireta.
Coleta direta é aquela feita sobre os elementos informativos de registro obrigatório,
elementos pertinentes aos prontuários dos alunos de uma escola, ou ainda, quando os dados
são coletados pelo próprio pesquisador através de inquéritos ou questionários. Com relação ao
tempo, elas podem se classificadas em:
 Contínua (registros) - quando feita continuamente (nascimentos, casamentos,
óbitos, freqüência dos alunos em sala de aula);
4

 Periódica - quando feita em intervalos constantes de tempo (censo demográfico,


avaliações dos alunos, notas das etapas ou semestres);
 Ocasional - quando feita extemporaneamente, a fim de atender a uma conjuntura
ou emergências (epidemias, doenças).
A coleta se diz indireta quando é inferida de elementos conhecidos (coleta direta) e/ou
do conhecimento de outros fenômenos relacionados com o fenômeno estudado (mortalidade
infantil).
2. Crítica dos dados: é o processo de visualização dos dados para que possíveis absurdos
possam ser retirados ou analisados. A crítica é externa quando visa às causas dos erros por
parte do informante, por distração ou má interpretação das perguntas que lhe forma feitas; é
interna quando visa observar os elementos originais dos dados da coleta.
3. Apuração dos dados: é a soma e o processamento dos dados obtidos e a disposição
mediante critérios de classificação. Pode ser manual, eletromecânica ou eletrônica.
4. Exposição ou apresentação dos dados: os dados devem ser apresentados de forma
adequada (tabelas ou gráficos), tornando mais fácil o exame daquilo que está sendo objeto de
tratamento estatístico e posterior obtenção de medidas típicas.
5. Análise dos resultados: realizadas as fases anteriores (estatística descritiva), fazemos uma
análise dos resultados obtidos, através dos métodos da Estatística Indutiva ou Inferencial, que
tem por base a indução ou inferência, e tiramos desses resultados conclusões e previsões.

Usos e Abusos da Estatística, olhar Introdução à Estatística, Triola, pp 5-8.


Exercícios

1- O que é estatística?
2- Como surgiu esta ciência?
3- Quem é considerado o pai da estatística moderna?
4- Diferencie o método científico do método estatístico.
5- Quais são os dois grandes grupos que se divide a estatística?
6- Fale sobre cada fase do método estatístico.
5

2 - Coleta de dados
2.1 - Algumas definições
Variáveis qualitativas: são aquelas para as quais uma medição numérica não é
possível. Ex: cor dos olhos, cor dos cabelos, sexo, cidade de origem, etc.
Variáveis quantitativas: são aquelas que podem ser mensuradas numa escala de
valores. Ex: idade, número de filhos, número de alunos, peso, altura, etc. Podem ser
subdivididas em discretas e contínuas.
 Discretas: só podem assumir valores pertencentes a um conjunto inteiro,
geralmente provenientes de dados de contagem, é sempre um conjunto enumerável de valores.
Ex: número de filhos, número de alunos, etc.
 Contínuas: podem assumir, teoricamente, qualquer valor entre dois limites,
geralmente provenientes de medições, quando se usa algum instrumento para captar o valor.
Ex.: peso, altura, comprimento, etc.
População estatística = universo estatístico: conjunto de todos os elementos que
possuem pelo menos uma característica em comum. Ex: eleição - população são todos os
indivíduos portadores de título de eleitor.
Cliente: Todo indivíduo que está cadastrado em uma loja, empresa, firma, e que irá
constituir a população estatística de interesse a uma determinada pesquisa. Pode ser clientes,
fornecedores, empregados registrados, alunos matriculados, pessoas registrados no cartório
como eleitores de uma determinada cidade, carros fabricados por determinada empresa, etc...
Consumidor: todo indivíduo da população estatística de interesse e que não está
regularmente cadastrado em uma loja, empresa, firma, etc... Pode ser: aquele que abastece em
um posto de gasolina e que não tem ficha, aquele que almoça ocasionalmente em um
restaurante, aquele que compra em determinado supermercado ocasionalmente e que não tem
ficha, etc...
É muito importante para a pesquisa na área de administração que seja definida qual
tipo de população será alvo da pesquisa, anteriormente ao início da mesma. Ou seja para se
determinar qual processo amostral fazer, antes precisa-se saber se a população é constituída
de consumidores ou clientes. Cada tipo de população irá proporcionar processos amostrais
diferentes.
Amostra: é qualquer subconjunto da população. Deve possuir as mesmas
características da população de onde foi extraída. A amostra deve ser representativa da
população, ou seja, possuir um número de elementos suficientes para que as estimativas
6

encontradas possam ser extrapoladas para toda a população. Ex: eleição - uma amostra pode
ser formada por 10% da população, distribuída por toda a cidade de forma a seguir as
características básicas da população.
2.2 - Teoria da Amostragem:
Objetivo: fazer inferências sobre a população, ou seja, fazer afirmações sobre
características da população, tomando-se por base os resultados de uma amostra.

População Amostra

 x
2 Erro s2
P p̂
Parâmetros populacionais desconhecidos Estimadores amostrais
Quadro 1.: Descrição do processo de amostragem
As vantagens da amostragem sobre o recenseamento são o menor custo e menor tempo
gasto no processo além de uma massa menor de dados. A grande vantagem do recenseamento
sobre a amostragem é a exatidão das informações, uma vez que o censo tem as informações
de toda a população e a amostra tem informações apenas de partes dessa população.
A maneira de se obter a amostra é tão importante, e existem tantos modos de fazê-lo,
que estes procedimentos constituem uma especialidade dentro da Estatística, conhecida como
Amostragem. A amostragem pode ser dividida em dois grandes grupos, probabilística e não
probabilística.
Amostragem probabilística ou aleatória: se todos os indivíduos da população tiverem
probabilidade conhecida, igual e não nula de pertencer à amostra, ou seja, todos os indivíduos
da população têm a mesma probabilidade de pertencer à amostra. Dentre as diversas
modalidades deste tipo de amostragem os mais importantes são:
 Amostragem simples ao acaso (ASA);
 Amostragem sistemática;
 Amostragem por conglomerado;
 Amostragem estratificada.
Amostragem não probabilística, ou não aleatória, ou escolha justificada ou racional:
nesse caso nem todos os indivíduos da população têm a mesma chance de pertencer à
amostra, ou seja, alguns indivíduos da população possuem probabilidade muito baixa ou até
mesmo zero de pertencer à amostra. As principais modalidades deste tipo de amostragem são:
7

 Inacessibilidade a toda a população;


 Intencional;
 Amostragem sem norma ou a esmo;
 População formada de material contínuo.
Tanto a amostragem probabilística como a não probabilística têm suas vantagens e
desvantagens. A grande vantagem das modalidades de amostragem probabilística é medir a
precisão da amostra obtida, baseando-se no resultado contido na própria amostra. Tais
medidas já são bem mais difíceis para as modalidades de amostragem não probabilísticas.

2.2.1 - Amostragem Probabilística


a) Amostragem Simples ao Acaso (ASA): Este tipo de amostragem é equivalente a um
sorteio aleatório. Enumera-se todos os elementos de uma população, e sorteia-se n elementos
dessa seqüência através de um dispositivo aleatório qualquer: tabela de números aleatórios,
papéis numerados em urnas, função "randon" em calculadoras e computadores.
A amostragem obtida através da tabela de números aleatórios é feita da seguinte
forma:
1. Enumera-se toda a população de 1 até N;
2. Escolhe-se uma linha ou uma coluna da tabela; o sentido em que iremos lê-la e quantos
dígitos iremos retirar de cada vez da tabela;
3. Faz-se o sorteio, usando a seguinte fórmula:
n º tab  N
elemento  ,
1Zeros
Sendo que, o número de zeros do denominador tem que ser igual ao número de dígitos
retirados da tabela;
Obs: o número de dígitos retirados da tabela, sempre tem que ser igual ou superior ao número
de dígitos da população (N).
4. O sorteio é feito tantas vezes quanto for necessário para se obter uma amostra de tamanho
n, estabelecida à priori. Caso algum elemento da amostra se repita, ou seja, 0 anula-se este
elemento da amostra e outro elemento será amostrado, até que a amostra n seja completada.

b) Amostragem Sistemática: É uma simplificação do processo anterior. Neste caso o 1º


elemento é sorteado e os demais são retirados em uma progressão aritmética, com uma
determinada razão r, até completar o total de elementos da amostra (n).
1º Passo: Calcula-se a razão r utilizando a seguinte fórmula:
8

N
r ;
n
Onde, N é o "tamanho" da população e n é o "tamanho" da amostra.
2º Passo: Sorteia-se o primeiro elemento da amostra utilizando a seguinte fórmula:
n º tab  r
1º elemento 
1Zeros
3º Passo: Soma-se a razão r ao 1º elemento para encontrarmos o 2º elemento; soma-se a razão
ao 2º elemento para encontrarmos o 3º elemento; e assim por diante até encontrarmos o
último elemento de nossa amostra.
c) Amostragem por Conglomerado: Quando a população apresenta subdivisões naturais de
grupos menores (denominados conglomerados), sorteia-se um número suficiente desses
grupos (ou conglomerados) e todos os elementos destes, vão compor a amostra.

d) Amostragem Estratificada: A população é constituída de subpopulações (estratos) que são


homogêneos internamente, podendo ser heterogêneos, de estrato para estrato. Pode ser
dividida em três modelos: uniforme, proporcional ou ótima.
 Amostragem Estratificada Uniforme: A população é subdividida em k estratos, de onde
são retiradas amostras de mesmo tamanho. É geralmente utilizada quando os estratos
populacionais possuem o mesmo tamanho. A fórmula que utilizamos para calcular quantos
elementos iremos retirar de cada estrato é a seguinte:
n
ni  , i = 1, 2, 3, ... , k.
k
Onde, ni é o "tamanho" da amostra em cada estrato i.
 Amostragem Estratificada Proporcional: Cada estrato da população fornece uma
quantidade de elementos (ni), proporcional ao tamanho populacional do respectivo estrato
(Ni), para formar a amostra de tamanho n. A fórmula que utilizamos para calcular quantos
elementos iremos retirar de cada estrato é a seguinte:
Ni
ni   n , i = 1, 2, 3, ... , k.
N
Onde, ni é o "tamanho" da amostra em cada estrato i; Ni é o "tamanho" da população em cada
estrato i.
 Amostragem Estratificada Ótima: De cada estrato da população retira-se uma quantidade
de elementos proporcionais ao tamanho da população e ao desvio padrão populacional do
respectivo estrato (i). A fórmula que utilizamos para calcular quantos elementos iremos
9

retirar de cada estrato é a seguinte:


N i  i  n
ni  , i = 1, 2, 3, ... , k.
k
 N i i
i 1

Onde, ni é o "tamanho" da amostra em cada estrato i; Ni é o "tamanho" da população em cada


estrato i; i é o desvio padrão populacional do estrato i.
Com isso consegue-se otimizar a obtenção de informações sobre a população, pois no
estrato que houver menor variação haverá uma menor quantidade de elementos amostrados.
 Crítica: Necessidade de conhecer o desvio padrão populacional em cada estrato, para a
variável estratificadora, o que em geral não é possível, pela possibilidade de se fazer
estratificações qualitativas.

2.2.2 - Amostragem Não Probabilística


a) Inacessibilidade a Toda a População: É quando não se tem acesso à toda a população. A
amostragem é realizada na parte da população que é acessível. Ex: Fabricação de um certo
implemento: a amostra é realizada nos implementos produzidos, a outra parte é hipotética
(não foi produzida ainda);
b) Amostragem sem Norma (ou a Esmo): Não se usa nenhum sorteio, embora o amostrador
procure ser aleatório. Ex: Escolher 100 galinhas num galinheiro com 3000. Se a população for
homogênea, então o processo é equivalente à amostragem probabilística.
c) População Formada de Material Contínuo: Ex: líquido ou gás  homogeneizar e retirar a
amostra a esmo. Obs: é impraticável o sorteio.
d) Intencional: O pesquisador escolhe deliberadamente certos elementos para formar a
amostra, baseado num pré-julgamento. Ex: Pesquisa de mercado para lançar uma nova marca
de leite tipo A. O pesquisador vai selecionar apenas indivíduos com poder aquisitivo médio /
alto.
Exercícios
1- Defina e diferencie, variáveis qualitativas e quantitativas. Dê exemplos diferentes dos da
apostila para ambas.
2- Diferencie variável quantitativa discreta da contínua. Dê novos exemplos para ambas.
3- O que é população estatística?
4- O que é amostra? Qual seu principal objetivo?
5- Defina e diferencie clientes de consumidores? Por que é importante esta diferenciação no
início de nossa pesquisa?
10

6- Quais são os dois grupos de amostragem e seus principais tipos?


7- Fale sobre os tipos de amostragem não probabilística.
8- Uma nova empresa está sendo criada em Luz, e está contratando mão de obra para montar
o seu banco de dados para futuras contratações. Pensando nisso 96 pessoas se cadastraram
para um emprego nesta empresa.
a) Retire uma amostra de 20% do número de cadastrados pelo processo simples ao acaso,
usando a tabela de números aleatórios, 6ª linha da direita para a esquerda, com 3 dígitos
b) Retire uma amostra sistemática n=12 da população acima, seguindo a 4ª coluna da tabela
de números aleatórios de cima para baixo, com 2 dígitos.
c) Sendo cada dia da semana considerado um estrato da população, retire uma amostra
estratificada uniforme, depois uma ASA de tamanho n=20, seguindo a 9ª coluna da tabela de
números aleatórios de baixo para cima, com 3 dígitos. Informação: as inscrições ocorreram
somente de segunda a quinta-feira e em todos os dias houve o mesmo número de inscrições.
d) Sendo cada dia da semana considerado um estrato da população, retire uma amostra
estratificada proporcional, depois uma amostragem sistemática de tamanho n=16, seguindo a
13ª linha da tabela de números aleatórios da esquerda para a direita, com 4 dígitos.
Informação: as inscrições ocorreram de quarta a sexta-feira, sendo que no terceiro dia houve o
dobro das inscrições dos outros dois dias.
9- A população de cadastrados em 5 empresas da região é de 1239 pessoas. Sabendo que na
empresa 1, são 321 cadastrados; na empresa 2, 453 cadastrados; na empresa 3, 57 cadastrados;
na empresa 4, 178 cadastrados; e na empresa 5, 230 cadastrados. Pede-se:
a) Determine quantas pessoas entrevistar em cada empresa, no processo de amostragem
estratificada uniforme, para formar uma amostra de 100 pessoas.
b) Qual a porcentagem amostrada em cada empresa? E qual a porcentagem da população foi
amostrada?
c) Determine quantas pessoas entrevistar em cada empresa, no processo de amostragem
estratificada proporcional, para formar uma amostra de 100 pessoas.
d) Qual a porcentagem amostrada em cada empresa? E qual a porcentagem da população foi
amostrada?
2.3 - Elaborando Questionários
Nenhum questionário pode ser considerado ideal para obter todas as informações
necessárias a um estudo. Quase todos têm vantagens e falhas. Para podermos minimizar as
falhas e aumentar as vantagens de nosso questionário é importante, sempre que possível,
formamos um grupo de foco (pessoas com profundo conhecimento sobre o assunto que será
11

estudado) para colaborarem na formulação das perguntas.


Depois de formuladas as perguntas, faz-se um pré-teste envolvendo umas poucas
pessoas, sem se preocupar com o rigor estatístico da aleatoriedade da amostra com o objetivo
de avaliar o próprio questionário em relação a alguns fatores:
 Clareza do questionário: as perguntas são compreendidas pelos entrevistados? Há ainda
ambigüidades? As opções de resposta são claras o suficiente para extrair as informações
desejadas?
 Abrangência do questionário: observar se as perguntas e opções de resposta são
abrangentes e não se constata a presença de perguntas irrelevantes, incompletas ou
redundantes.
 Aceitabilidade do questionário: há problemas em relação à extensão? Há perguntas que
ultrapassam o limite da privacidade dos entrevistados? Ou que representam padrões éticos ou
morais, e que devem ser corrigidas?
Ao final se houverem muitas modificações pode haver a necessidade de outro pré-
teste, caso contrário o questionário estará pronto para ser aplicado.
Para a aplicação do questionário é interessante mostrar ao nosso entrevistado a
importância do trabalho para que ele se sinta bem em estar participando da pesquisa. O
entrevistado deve ter certeza de que todas as respostas são valiosas, que não há respostas
"corretas" ou "incorretas". Também é importante que o entrevistador se apresente, diga a
finalidade e para que empresa está sendo feita a pesquisa.
2.3.1 - Formato das perguntas: Aberto ou Fechado
Em sua maioria, as perguntas de um questionário têm opções ou categorias de resposta
fechadas. Essas perguntas fornecem uma lista fixa de alternativas de resposta e pedem que o
entrevistado selecione uma ou mais como indicativa da melhor resposta possível. Ao
contrário, as perguntas abertas não possuem categorias prefixadas de respostas e dão ao
entrevistado ampla liberdade de expressão.

a) Vantagens das perguntas fechadas.


Uma das vantagens deste tipo é que o conjunto de alternativas de resposta é uniforme
e, portanto facilita comparações entre os entrevistados, o que permite a transferência direta de
dados do questionário para as tabelas, sem estágios intermediários. Outra é que a lista fixa de
possibilidade de resposta tende a tornar a pergunta mais clara para o entrevistado. Caso ele
tenha alguma dúvida sobre a pergunta, ela pode ser esclarecida pelas categorias de respostas.
Além disso, essas categorias podem fazer com que ele se lembre de alternativas que, caso
12

contrário, não seriam consideradas ou seriam esquecidas.


Assuntos delicados são muitas vezes melhor abordados fazendo-se perguntas com uma
gama preestabelecida e implicitamente "aceitável" de alternativas de resposta do que se
pedindo uma resposta específica a uma questão que poderá ser considerada pessoal. Também
perguntas sobre a renda anual, idade, peso, podem deixar o entrevistado constrangido e este
nos fornecer informações errôneas. Para contornar esse problema formulamos alternativas na
forma de faixas de renda que tenderão a amenizar esse sentimento, gerando assim um nível
muito alto de número e fidelidade de respostas.
Respostas fixas são menos penosas para o entrevistado, percebidas como mais fáceis.
Assim, o uso de perguntas com alternativas fixas, aumenta a probabilidade de resposta para
todas as questões.

b) Desvantagens das perguntas fechadas


Existem, entretanto, certas desvantagens nas perguntas fechadas que os pesquisadores
devem levar em conta na elaboração de um questionário. Por exemplo, sempre existe a
possibilidade de o entrevistado estar incerto quanto à melhor resposta e selecionar ao acaso
uma das respostas fixas em vez de usar um critério próprio. Portanto, a facilidade em
responder é acompanhada por algumas conseqüências potencialmente negativas.
Analogamente, um entrevistado que entender mal a pergunta pode selecionar uma resposta ao
acaso ou uma resposta errada. Perguntas abertas, nas quais o entrevistado é solicitado a
responder com suas próprias palavras, podem amenizar esses inconvenientes. Contudo, como
veremos, elas também têm algumas desvantagens.
De certa forma perguntas fechadas forçam os entrevistados a escolher a "representação
mais próxima" da sua resposta real, na forma de uma resposta fixa específica. Distinções sutis
entre entrevistados não podem ser detectadas nas categorias preestabelecidas. Esta
desvantagem é freqüentemente compensada inserindo-se outra alternativa no formato de
resposta fixa: "Outros, por favor, especifique ____________". Esta alternativa representa um
meio-termo excelente entre os formatos aberto e fechado, pelo fato de ser uma pergunta aberta
dentro de um formato fechado.
Porém, em nome da simplicidade e da facilidade de resposta, o uso dessa opção dever
ser cuidadosamente controlado. A decisão de incluir a categoria de resposta "outros" para
determinada pergunta deve se basear em evidências obtidas durante o pré-teste do instrumento
de pesquisa. Caso as evidências mostrem que um número relativamente alto de respostas à
pergunta não está de acordo com o conjunto preliminar de alternativas fixas, então o
13

pesquisador deverá formular categorias fixas adicionais para as respostas que apareçam
freqüentemente e guardar a categoria "outros, favor especificar" para as respostas menos
freqüentes. Caso não haja indícios da necessidade dessa categoria, ela não deve ser incluída.
Há uma tendência maior de a simplicidade do formato de resposta fixa levar à maior
probabilidade de erros inadvertidos nas respostas. Por exemplo, um entrevistador ou
entrevistado pode, sem perceber, assinalar uma resposta adjacente à pretendida. Perguntas
abertas eliminam essa possibilidade de erro. Além disso, as perguntas fechadas tendem a
restringir a amplitude do assunto do questionário e impedem que os entrevistados expressem
suas opiniões da forma mais abrangente possível. Para evitar esse problema, o pesquisador
pode optar pelo uso de uma ou mais perguntas abertas no decorrer da pesquisa.

c) Usando perguntas abertas


As perguntas abertas são usadas pelos pesquisadores em situações nas quais as
restrições às perguntas fechadas superam as inconveniências das abertas, tanto para o
pesquisador quanto para o entrevistado. Recomenda-se que perguntas abertas sejam usadas
com cautela e somente quando necessário. Na medida em que forem usadas, o pesquisador
precisará estar ciente de determinados problemas a elas inerentes.
Primeiro: perguntas abertas provocam inevitavelmente certo volume de informações
irrelevantes e repetitivas. Segundo: a resposta satisfatória a uma pergunta aberta requer maior
aptidão de comunicação por parte do entrevistado do que numa pergunta fechada. Assim, o
pesquisador poderá constatar que essas perguntas provocam respostas difíceis de entender e às
vezes incoerentes.
Um terceiro fator é que a análise estatística exige certo grau de padronização dos
dados. Isso impõe aos pesquisadores a categorização interpretativa, subjetiva e demorada das
respostas. E, finalmente, essas perguntas tomam mais tempo do entrevistado, inconveniente
que pode gerar um índice maior de recusa em preencher o questionário.

d) Extensão do questionário
O questionário deve ser o mais conciso possível, mas cobrindo a gama necessária do
assunto requerido pelo estudo. O pesquisador deve tomar cuidado para resistir à tentação de
elaborar perguntas que, apesar de interessantes, são periféricas ou alheias ao foco do projeto
de pesquisa.
A finalidade do cuidado quanto à extensão do questionário é assegurar que ele não
fique tão longo para o entrevistado a ponto de gerar relutância em preenchê-lo, pondo assim
14

em risco o índice de respostas.


À medida que as perguntas crescem em complexidade e dificuldade, o questionário
pode ser considerado tedioso e mais extenso do que realmente é. Assim, o pesquisador precisa
levar em conta fatores como o número de perguntas, o tempo e esforço exigidos do
entrevistado para respondê-las.
Como diretrizes gerais, as entrevistas por telefone devem durar não mais de vinte
minutos; os questionários pelo correio não devem tomar mais que trinta minutos ao
entrevistado, inclusive as respostas abertas; e as entrevistas pessoais devem ser limitadas entre
45 minutos e uma hora. Estas são durações máximas. Idealmente, as pesquisas por telefone
devem durar dez minutos, as pelo correio, cerca de 15 e as entrevistas pessoais devem durar
menos de trinta minutos.

Retirado de: REA, L.M.; PARKER, R.A. Metodologia de pesquisa - do planejamento à


execução. Ed. Pioneira, São Paulo, SP. 2000. Capítulo 2, pp 39-56.
Exercício
1. Monte um questionário para levantar informações, sobre a religiosidade das pessoas, a
prática de exercícios físicos, a prática de esportes e quais modalidades de esporte são
praticadas por cada faixa etária.
2. Monte um outro questionário para levantar informações que sejam de sua curiosidade e
explique o porquê das perguntas.
15

4 - Séries Estatísticas

Um dos objetivos da estatística é sintetizar os valores que uma ou mais variáveis


podem assumir, para que tenhamos uma visão global da variação dessa ou dessas variáveis. E
isso ela consegue, inicialmente, apresentado esses valores em tabelas e gráficos, que irão nos
fornecer rápidas e seguras informações a respeito das variáveis em estudo, permitindo-nos
determinações administrativas e pedagógicas mais coerentes e científicas.

4.1 Tabelas: tabela é um quadro que resume um conjunto de observações. Na representação


abaixo estão os termos obrigatórios (maiúsculo) e opcionais (minúsculo) em uma tabela.

Tabela 1: Produção de café - Brasil - 1991/1995 TÍTULO


Anos Produção (1000 t) CABEÇALHO
1991 2535
1992 2666 CORPO DA TABELA
1993 2122
1994 3750 CASA ou CÉLULA
1995 2007
 13080 Total
Fonte: IBGE, 1996. Rodapé

TÍTULO: conjunto de informações, as mais completas possíveis, respondendo às perguntas:


O quê?, Quando?, Onde?, localizado no topo da tabela;
CABEÇALHO: parte superior da tabela que especifica o conteúdo das colunas;
CORPO DA TABELA: conjunto de linhas e colunas que contém informações sobre a
variável em estudo;
CASA ou CÉLULA: espaço destinado a um só número;
Total: parte inferior da tabela que especifica os totais de cada coluna numérica, quando os
nossos dados exigirem um total;
Rodapé: local onde colocamos informações complementares da tabela, como fonte, notas e
chamadas, a fonte pode ser oculta quando os dados foram obtidos pelo próprio pesquisador,
mas quando os dados são de terceiros, sempre devem ser informados.
De acordo com a Resolução 886 da Fundação IBGE, nas casas ou células devemos
colocar:
 Um traço horizontal ( ) quando o valor é zero, não só quanto à natureza das coisas,
como quanto ao resultado do inquérito;
16

 Três pontos (...) quando não temos os dados;


 Um ponto de interrogação (?) quando temos dúvida quanto à exatidão de determinado
valor;
 Zero (0) quando o valor é muito pequeno para ser expresso pela unidade utilizada. Se os
valores são expressos em numerais decimais, precisamos acrescentar à parte decimal um
número correspondente de zeros (0,0; 0,00; 0,000;...).

Exemplo:
Tabela 2: Duração média dos estudos superiores - 1994
Países Número de anos
Itália 7,5
Alemanha 7,0
Franca 7,0
Holanda 5,9
Inglaterra Menos de 4
Fonte: Revista Veja, 1995.
O nome Tabela deve vir sempre acima do corpo da tabela, ele deve ser escrito em
negrito com a primeira letra em maiúsculo. As tabelas devem ser numeradas de acordo com
sua aparição no texto, a primeira tabela a aparecer é a Tabela 1, segunda é a Tabela 2 e assim
sucessivamente. Tabelas não são cercadas por bordas, as únicas “linhas” (bordas) que
aparecem numa tabela são acima e abaixo do cabeçalho e acima e abaixo do total, quando este
estiver presente, ou, abaixo do último texto da tabela caso o total não esteja presente.

4.2 Séries Estatísticas: toda tabela que apresenta a distribuição de um conjunto de dados
estatísticos em função da época, do local ou da espécie.
a) Séries históricas, cronológicas, temporais ou marchas: descrevem os valores da variável,
em determinado local, discriminados segundo intervalos de tempo variáveis.

Exemplo:
Tabela 3: Preço do acém no varejo - São Paulo - 1989/94
Anos Preço médio (US$)
1989 2,24
1990 2,73
1991 2,12
1992 1,89
1993 2,04
1994 2,62
Fonte: APA, 1995.
17

b) Séries geográficas, espaciais, territoriais ou de localização: descrevem os valores da


variável, em determinado instante, discriminado segundo regiões.

Exemplo:
Tabela 4: Duração média dos estudos superiores - 1994
Países Número de anos
Itália 7,5
Alemanha 7,0
Franca 7,0
Holanda 5,9
Inglaterra Menos de 4
Fonte: Revista Veja, 1995.

c) Séries específicas ou categóricas: descrevem os valores da variável, em determinado


tempo e local, discriminados segundo especificações ou categorias.

Exemplo:
Tabela 5: Rebanhos Brasileiros - 1992
Espécies Quantidade (1000 cabeças)
Bovinos 154.440,8
Suínos 34.532,2
Ovinos 19.955,9
Caprinos 12.159,6
Bubalinos 1.423,3
Eqüinos 549,5
Fonte: IBGE, 1993.

d) Séries conjugadas ou tabela de dupla entrada: conjugando duas séries em uma única
tabela, obtemos uma tabela de dupla entrada. Em uma tabela desse tipo ficam criadas duas
ordens de classificação: uma horizontal (linha) e uma vertical (coluna).

Exemplo:
Tabela 6: Terminais telefônicos em serviço - 1991/93
Regiões 1991 1992 1993
Norte 342.938 375.658 403.494
Nordeste 1.287.813 1.379.101 1.486.649
Sudeste 6.234.501 6.729.467 7.231.634
Sul 1.497.315 1.608.989 1.746.232
Centro-Oeste 713.357 778.925 884.822
Fonte: Ministério das Comunicações, 1994.
18

4.3 Dados absolutos e dados relativos:


Os dados estatísticos resultantes da coleta direta da fonte, sem outra manipulação
senão a contagem ou medida, são chamados dados absolutos.
Dados relativos são o resultado de comparações por quociente (razões) que se
estabelecem entre dados absolutos e têm por finalidade realçar ou facilitar as comparações
entre quantidades. Em geral são traduzidos por meio de percentagens, índices, coeficientes e
taxas.
Índices: são razões entre duas grandezas tais que uma não inclui a outra. Exemplo:
população renda
densidade demográfica = ; renda per capita = ; etc...
sup erfície população
Coeficientes: são razões entre o número de ocorrências e o número total (nº de
nascimentos
ocorrências e nº de não-ocorrências). Exemplo: coeficiente de natalidade = ;
população
óbitos
coeficiente de mortalidade = ; etc...
população
Taxas: são os coeficientes multiplicados por uma potência de 10 (10; 100; 1.000 etc...)
para tornar o resultado mais inteligível. Exemplo: taxa de natalidade = coeficiente de
mortalidade x 1.000; taxa de mortalidade = coeficiente de mortalidade x 1.000; etc...
19

5 - Gráficos Estatísticos

O gráfico é uma forma de apresentação dos dados, cujo objetivo é o de produzir, no


investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em
estudo, já que os gráficos falam mais rápido à compreensão que as tabelas.
A representação gráfica de um fenômeno deve obedecer a certos requisitos
fundamentais para ser realmente útil.

a) Simplicidade: o gráfico deve ser o mais simples possível, sem sofisticações


desnecessárias, e sem itens que confundam os leitores (retirar 3-D, linhas de grade e cores);
b) Clareza: o gráfico deve ser o mais claro possível, ou seja, deve possibilitar uma correta
interpretação dos valores representativos do fenômeno em estudo;
c) Veracidade: o gráfico deve expressar a verdade sobre o fenômeno em estudo.

5.1 Tipos de gráficos:


a) Gráfico em Linhas ou em Curvas: este tipo de gráfico se utiliza a linha poligonal para
representar a série estatística.
Exemplo:

Produção Brasileira de Óleo de Dendê -


1987/92

75
70
Quantidade (1000 t)

65
60
55
50
45
40
35
30
1987 1988 1989 1990 1991 1992
Anos

Fonte: Agropalma, 1993.


Figura 1: Produção Brasileira de Óleo de Dendê - 1987/92

b) Gráfico em coluna: é a representação de uma série por meio de retângulos dispostos


verticalmente.
20

Exemplo:

Produção Brasileira de Óleo de Dendê -


1987/92

75
70
Quantidade (1000 t)

65
60
55
50
45
40
35
30
1987 1988 1989 1990 1991 1992
Anos

Fonte: Agropalma, 1993.


Figura 2: Produção Brasileira de Óleo de Dendê - 1987/92
c) Gráfico em barras: é a representação de uma série por meio de retângulos dispostos
horizontalmente. Exemplo:

Produção Brasileira de Óleo de Dendê -


1987/92

1992 59,5

1991 69,1

1990 65,1
Anos

1989 53,9

1988 39,1

1987 39,3

30 40 50 60 70 80
Quantidade (1000 t)

Fonte: Agropalma, 1993.


Figura 3: Produção Brasileira de Óleo de Dendê - 1987/92
d) Gráfico em colunas múltiplas: é geralmente empregado quando queremos representar,
simultaneamente, dois ou mais fenômenos estudados com o propósito de comparação.
Exemplo:
21

Fonte: Ministério da Fazenda, 1994.


Figura 4: Balança comercial do Brasil - 1989/93.
e) Gráfico em setores: este gráfico é construído com base em um círculo, e é empregado
sempre que desejamos ressaltar a participação do dado no total. Exemplo:

Rebanho Suíno do Sudeste do Brasil - 1992

São Paulo
33%

Minas Gerais
55%
Rio de
Janeiro
5%
Espírito
Santo
Fonte: IBGE, 1993. 7%
Figura 5: Rebanho Suíno do Sudeste do Brasil - 1992.

f) Cartograma: é a representação sobre uma carta geográfica. É empregado quando o


objetivo é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas
ou políticas. Exemplo:
22

Fonte: IBGE, 1994.


Figura 6: População e densidade populacional projetada da região
sul do Brasil - 1994.
g) Pictograma: constitui um dos processos gráficos que melhor fala ao público, pela sua
forma ao mesmo tempo atraente e sugestiva. A representação gráfica consta de figuras.
Exemplo:

Fonte: IBGE, 1992.


Figura 7: População do Brasil, 1960/90.

Fonte: Ministério da Saúde, 1993.


Figura 8: Crescimento do total de drogados, nos casos de AIDS, no
Brasil.
23

Como vimos anteriormente, os nomes das tabelas devem vir acima das mesmas, no
caso de figuras ou quadros, os nomes devem, obrigatoriamente, vir abaixo de suas
representações, como nos exemplos acima, devem estar em negrito, com a primeira letra em
maiúsculo e sempre numerada de acordo com a aparição no texto. Neste caso segue a
recomendação para a fonte das tabelas, pode ser oculto quando os dados apresentados foram
obtidos pelo próprio pesquisador. No caso de gráficos, deve estar presente: título
(obrigatório), eixo X, eixo Y, legenda e fonte, em alguns casos podem ser ocultados.

5.2. Quadros

Quadro é uma representação de informações semelhante a uma tabela, onde não há


dados numéricos, somente informações textuais, ou desenhos, ou modelos. Deve-se colocar o
nome do quadro abaixo do mesmo e deve-se numerá-lo de acordo com sua aparição no texto
do primeiro até o último, como as tabelas e figuras. O quadro pode ter todas as “linhas”
(bordas). Ele possui os mesmo elementos primordiais de uma tabela, a diferença esta no local
da colocação do título.

Exemplo:
País Capital Moeda
Brasil Brasília Real
Argentina Buenos Aires Peso
Espanha Madri Euro
Inglaterra Londres Libra Esterlina
Quadro 1: Alguns países, com suas respectivas capitais e moedas.
24

6. Distribuição de Freqüência
Quando apuramos (ou contamos) os dados de uma série atemporal com o objetivo de
apresentá-los numa tabela, chamaremos esta tabela de distribuição de freqüência. O objetivo
da Distribuição de Freqüência é resumir grandes massas de dados brutos (ou rol) em classes
ou categorias e determinar o número de indivíduos pertencentes a cada uma dessas classes.
Este número é chamado de freqüência da classe. O arranjo tabular dos dados por classes ou
categorias e suas freqüências correspondestes é denominado de Distribuição de Freqüência ou
Tabela de Distribuição de Freqüência e diz-se que os dados estão agora agrupados. Os dados
agrupados perdem muitos detalhes originais ou informações, mas ganham em clareza
tornando evidente algumas relações importantes.
Observe que dada uma relação de valores, lista ou rol de valores (ou série de valores
ou série estatística), é quase impossível entender estes valores (ou conjunto de valores) se ele
é apresentado no seu estado bruto, (sem ser tabulado). Por isso surge a necessidade da
tabulação destes valores na forma de uma tabela de distribuição de freqüência.
A fórmula sugerida por Oliveira, M.S. para determinar o número de classes (k),
baseado no tamanho amostral (n) apresenta a expressão, lembrando que k varia de 5 até 20:
Tamanho da amostra (n) Número de classes (k)
Até 100 k = n (inteiro mais próximo)
Acima de 100 k = 5 log 10 n (inteiro mais próximo)

Conhecendo o valor de k, calcula-se o valor da amplitude total (A), onde


A = maior valor - menor valor, sabedores deste resultado busca-se a amplitude de classe (c),
A
onde, c  . Depois disso temos que calcular qual será o primeiro limite inferior, ou seja
k 1
c
o limite inferior da primeira classe (LI 1ª), onde, LI 1ª  menor valor - . Em seguida é
2
construída a Distribuição de Freqüência por classe com a primeira classe sendo LI 1ª ├ LI1ª+c
(LS1ª), a segunda classe LI2ª = (LS1ª) ├ LS2ª = (LI2ª + c), e assim por diante até que a classe k
seja estabelecida. Vejamos na prática como funciona esta idéia:
Exemplo: Deseja-se fazer uma distribuição de freqüência das idades dos funcionários da
firma A. Os dados coletados destas idades foram os seguintes:
18 19 19 21 21 23 23 25 25 26 26
26 27 28 31 31 32 32 32 32 34
34 39 42 42 43 43 46 47 47 48
25

Neste caso, n = 30. Então, pela fórmula de Oliveira, k  31  5,57  6 . Adotaremos k = 6.

30
Depois calcula-se o valor da amplitude que é: A = 48 - 18 = 30. Agora, c  = 6. Agora
6 1
6
calcula-se o primeiro limite inferior: LI1ª  18 - = 18 - 3 = 15.
2
A distribuição de freqüência com intervalo de classe (note que idade é uma variável
contínua), ficará como na tabela 5, deixando para o leitor completar as freqüências como
exercício. A fórmula de Oliveira não é a palavra final sobre o número de classe, ela deve ser
usada como um ponto de partida para a escolha de k. Dependendo da necessidade ou do
problema, o valor de k é escolhido livremente e, com raríssimas exceções, está abaixo de 5 ou
acima de 20.
Tabela 5: Distribuição de freqüência da idade de 30 funcionários da firma A
i IDADE xi fi Fi fri Fri fpi Fpi
1 15 ├ 21 18
2 21 ├ 27 24
3 27 ├ 33 30
4 33 ├ 39 36
5 39 ├ 45 42
6 45 ├ 51 48
Total
i é o índice de classe, ele varia de 1 até k;
xi é o ponto médio da classe, (LI + LS)/2; Obs.: o 1º ponto médio é igual ao menor valor e o
último é próximo ou igual ao maior valor do grupo de dados;
fi é a freqüência simples da classe, ou seja, quantos valores no grupo de dados são maiores ou
iguais ao limite inferior e menores que o limite superior; Obs.: o somatório da freqüência
simples é igual a n;
Fi é a freqüência acumulada crescente;
fri é a freqüência relativa simples, que é calculada dividindo-se a freqüência simples por n;
Obs.: seu somatório é igual a 1,00;
Fri é a freqüência relativa acumulada crescente;
fpi é a freqüência percentual simples, que é calculada dividindo-se a freqüência simples por n
e multiplicando o resultado por 100, o resultado é dado em %; Obs.: seu somatório é igual a
100,00;
26

Fpi é a freqüência percentual acumulada crescente;


Obs: 1ª- O primeiro ponto médio de classe deve ser igual ou muito próximo ao menor valor
do grupo de dados, e o último ponto médio de classe deve ser igual ou muito próximo ao
maior valor do grupo de dados;
2ª- O somatório das freqüências simples, sempre é igual ao valor de n.
3ª- Só as colunas de freqüências simples tem totalização, nenhuma outra coluna tem total, não
tem sentido nenhuma outra ter total.
Vejamos agora um exemplo com distribuição de freqüência sem intervalo de classe,
ou seja, quando a variável é do tipo Discreta.
Exemplo: O número de filhos dos 30 funcionários da firma A foi:
0 0 0 1 1 1 1 1 1 2 2 2 2 2 2
2 3 3 3 3 3 4 4 4 4 5 5 5 6 7
Fazer uma distribuição de freqüência do número de filhos é bem mais simples que no
caso anterior, pois basta observar que o número de filhos variou de 0 a 7 e anotaremos o
número de vezes que estes valores ocorreram no rol (anotaremos a freqüência de cada valor).
O resultado está na tabela 6.
Tabela 6: Distribuição de freqüência do número de filhos de 30 funcionários da firma A
i Número de Filhos fi Fi fri Fri fpi Fpi
1 0
2 1
3 2
4 3
5 4
6 5
7 6
8 7
Total
Obs: Neste tipo de tabela de distribuição de freqüência não temos o ponto médio e o i varia
até a última classe sempre começando por 1.

Exercício: Nas tabelas 5 e 6 calcule as freqüências simples, relativa, percentual e acumulada.


Agora responda: (a) Qual a porcentagem de funcionários que tem idade abaixo de 30 anos?
(b) Qual a porcentagem de funcionários que possuem mais de 3 filhos? (c) Qual o número de
filhos mais freqüentes entre os funcionários?
27

7 - Medidas de Posição

Uma curiosidade que sempre acompanhou o homem é conhecer o centro do Universo,


o centro das galáxias, enfim, o centro de muitos mistérios. Ao obter suas observações,
coletadas e tabuladas, esta curiosidade traduz a procura do centro das medidas realizadas. Em
busca desta resposta criou-se medidas que representassem o centro dos valores. A estas
medidas deu-se o nome de Medidas de Posição ou de Tendência Central e as mais
conhecidas são médias, moda e mediana que procuram mostrar o centro.
Uma medida de tendência central procura sintetizar as informações da amostra em um
único e informativo valor. Ao examinar uma distribuição amostral simétrica ou
aproximadamente simétrica, nota-se que geralmente, eles são mais freqüentes perto de um
valor central e mais raro ao afastar-se deste. A obtenção deste valor central é de suma
importância nos levantamentos amostrais, seja na pesquisa ou na extensão. As principais
medidas de posição estão apresentadas a seguir.

MÉDIAS
As principais médias são: Aritmética, Geométrica, Harmônica e Quadrática.
Quando não é especificado o tipo de média, está se falando da média aritmética.
 Média Aritmética ( x ): A média aritmética é a mais fácil de ser calculada e todos já a
calculam diariamente ou a calcularam algum dia de sua vida, para saber a média semanal de
horas trabalhadas, a média de gastos com alimentação, a média de consumo de combustível
de nossos veículos, a média das notas, etc. É a principal medida de posição, sendo utilizada
principalmente quando os dados apresentam distribuição simétrica ou aproximadamente
simétrica, como acontece na maioria das situações práticas. Deve-se diferenciar, através de
notação apropriada a média populacional (μ) da amostral ( x ). A população refere-se a todos
os elementos de interesse do pesquisador, para a qual fica praticamente impossível tomar as
informações elemento a elemento. A amostra por sua vez refere-se a um subconjunto de
elementos desta população, tomada de acordo com alguns critérios para que haja uma
representatividade da população da qual foi extraída, e para a qual se deseja extrapolar as
informações (inferências estatísticas). A fórmula para a média amostral também é muito
simples de ser compreendida e está apresentada a seguir:
28

n
 xi n
i 1
a) Dados brutos: x  , onde  x i é o somatório de todos os elementos;
n i 1

n
 fi xi n
i 1
b) Dados agrupados: x  , onde  f i x i é o somatório da multiplicação de cada
n i 1

freqüência simples pelo seu respectivo ponto médio.


Obs.: quando tratamos de média populacional (μ) o divisor muda de n (número de elementos
da amostra) para N (número de elementos da população)
A média aritmética é muito afetada por valores extremos e seu valor poderá não ser
um dos elementos do conjunto observado. Uma propriedade interessante da média é que a
soma dos desvios (diferenças) em relação à média é zero. E a soma dos quadrados dos desvios
em relação à média é um valor mínimo.
 Média Geométrica (G):Tem aplicações no cálculo no índice do custo de vida e em
estimativas de crescimento demográfico. A expressão para o cálculo de G é dado por:
n
G  n x 1  x 2  ...  x n n x i 1
i

Para n ≥ 3 devemos usar as propriedade de logaritmos e calcular a média geométrica com a


n
expressão log(G)   log x i / n e desta expressão calculamos G.
i 1

 Média Harmônica (H): Uma série de valores de n elementos tem média harmônica igual
ao inverso da média aritmética do inverso destes valores, ou seja:
n n
H , ou H  n
1 1 1 1
  ...  
x1 x 2 xn i 1 x i

Pode ser usada quando desejamos confrontar grandezas que são inversamente
proporcionais.
 Média Quadrática (Q): Muito utilizada na formação das medidas de dispersão, que
estudaremos mais adiante. É definida por:
n
Q  x i2 / n
i 1

A relação entre as médias é H ≤ G ≤ x ≤ Q. A igualdade ocorrerá se todas os


elementos do grupo de dados forem iguais.
29

MEDIANA (Md)
É o valor que divide um conjunto de dados ordenados em dois subconjuntos de mesmo
número de elementos. No primeiro conjunto estarão todos os elementos menores que a
mediana e no segundo todos os elementos maiores que a mediana. Em outras palavras, a
mediana é o valor que fica no centro quando os dados estão ordenados. Para calcular a
mediana, primeiramente deve-se ordenar os dados brutos, aí o valor central será a mediana,
este valor será único quando n for ímpar. Se n for par ocorrerão dois valores no centro e
deve-se então retirar a média desses dois valores centrais e o valor desta média será o valor da
mediana.
Para dados agrupados, tem-se a seguinte expressão:
 n 
  2 Fa  
 
M dLI md   c,
 f md 
 
 
Onde c = amplitude de classe; LImd = Limite inferior da classe mediana; n = número total de
elementos ou tamanho da amostra; fmd = freqüência simples da classe mediana; Fa =
Freqüência acumulada anterior à classe mediana; e, a classe mediana é aquela cuja freqüência
acumulada ultrapassa n/2 pela primeira vez (ou é igual a n/2), ou seja ultrapassar 50% dos
dados.
A mediana não é afetada por valores extremos como a média, sendo bem adequada
nos níveis de mensuração ordinais, quando a série tem valores distintos, 50% dos dados estão
abaixo dela e 50% estão acima. Ela divide o Histograma ao meio.

MODA (Mo)
Moda é o valor mais freqüente de um conjunto de dados, é o valor que mais se
repete. Se em um conjunto, dois valores se repetem com a mesma e maior freqüência, diz-se
que este conjunto é bimodal. Um conjunto com mais de duas modas será dito multimodal.
Podem ocorrer casos em que todos os elementos do conjunto têm a mesma freqüência, neste
caso diremos que este conjunto não tem moda, ou seja, ele é amodal.
Para dados brutos, basta localizar o elemento que mais repete e diz-se que este é a
moda. No caso de dados agrupados em classes ou sem intervalo de classes, existe a fórmula
de King, a de Czuber e alguns autores sugerem o ponto médio da classe. Apresentaremos a de
Czuber (demonstrada em Toledo, 1995).
30

 1 
MoLI mo  c,
 1   2 
onde c = amplitude de classe, LImo = limite inferior da classe de maior freqüência,  1 =

freqüência da classe modal menos a freqüência da classe vizinha anterior,  2 = freqüência da


classe modal menos freqüência da classe vizinha posterior.
A vantagem da moda é que ela não é influenciada por valores extremos da série. Se
ocorrer classes com limites infinitos (por exemplo, a classe que contém todos valores abaixo
de 2, ou seja, (-∞, 2)), ela pode ser calculada. É sempre representada por um elemento da série
de valores e não depende de todos o valor da série nem de sua ordenação.

Exemplos:
1- As taxas de juros recebidas por 10 ações durante um certo período foram (medidas em
porcentagem) 2,50; 2,55; 2,57; 2,59; 2,60; 2,61; 2,62; 2,63; 2,64; 2,64. Calcule a média, a
mediana e a moda para este grupo de dados.
Resolução:
10

x i
2,50  2,55  2,57  2,59  2,60  2,61  2,62  2,63  2,64  2,64
a) Média: x  i 1

10 10
25,95
  2,595  2,60 , então a média das taxas de juros recebidas foi de 2,60 %.
10
b) Mediana: como o grupo de dados é par, então buscou-se os dois valores centrais, neste
2,60  2,61
caso 2,60 e 2,61; tirou-se a média deles, Md   2,605  2,60 , então a
2
mediana é 2,60 %.
c) Moda: a moda é o valor que mais repete, neste caso o único valor que repetiu foi 2,64 que
apareceu duas vezes no banco de dados, então a moda é: 2,64 %.

2- Para facilitar um projeto de ampliação da rede de esgoto de uma certa região de uma
cidade, as autoridades tomaram uma amostra de tamanho 50 dos 270 quarteirões que
compõem a região, e foram encontrados os seguintes números de casas por quarteirão:
2 2 3 10 13 14 15 15 16 16 18 18 20 21 22 22 23 24 25 25 26 27 29 29 30
32 36 42 44 45 45 46 48 52 58 59 61 61 61 65 66 66 68 75 78 80 89 90 92 97
Calcule a média, a mediana e a moda para este grupo de dados.
31

Resolução:
50

x
i 1
i
2  2  3  ...  92  97 2021
a) Média: x     40,42 , então a média do número de
50 50 50
casas por quarteirão é de 40,42 casas.
b) Mediana: como o grupo de dados é par, então buscou-se os dois valores centrais, neste
30  32
caso 30 e 32; tirou-se a média deles, Md   31 , então a mediana é 31 casas.
2
c) Moda: a moda é o valor que mais repete, neste caso o valor que repetiu mais vezes (3
vezes) foi 61, então a moda é: 61 casas.
3- Numa pesquisa realizada com 100 famílias, levantaram-se as seguintes informações:
Número de filhos 0 1 2 3 4 5 Mais de 5
Freqüência de famílias 17 20 28 19 7 4 5
a) Qual a mediana do número de filhos? 2 filhos, pois o 50º e o 51º elemento valem 2.
b) Qual a moda do número de filhos? 2 filhos, pois é o grupo que tem maior freqüência 28
elementos.
c) E qual a média do número de filhos? Tem-se um problema para calcular a média, pois não
está expresso quantos filhos as últimas famílias tiveram, para burlar este problema
podemos assumir que todas as famílias que tiveram mais de 5 filhos, tiveram 6 filhos,
assim podemos calcular a média.
6

f x
i 1
i i
0  17  1  20  2  28  3  19  4  7  5  4  6  5 211
x    2,11 , então a
100 100 100
média foi de 2,11 filhos por família.

Exercício:
Calcule a média, a moda e a mediana dos dados brutos e das tabelas de distribuição de
freqüência feitas como exercício do capítulo anterior.
32

8 - Medidas de Dispersão

As medidas de posição não informam sobre a variabilidade dos dados e são


insuficientes para sintetizar as informações amostrais. Observe as notas de dois alunos nas
provas de Português e Matemática. José com notas 0 e 10 e Maria com notas 5 e 5. Ambos
possuem média 5, mas José tem rendimento irregular, então pode-se observar que elas
diferem em variabilidade. Para diferenciar as duas situações, surgiu a necessidade de uma
medida que avaliasse o grau de dispersão, ou variabilidade, ou seja, o afastamento dos valores
em relação ao valor central. A estas medidas, deu-se o nome de Medidas de Dispersão. Desta
forma pode-se afirmar que uma amostra deve ser representada por uma medida de posição e
uma medida de dispersão. As principais medidas de dispersão serão apresentadas a seguir:
 Amplitude Total (A): A amplitude por definição é a distância entre os extremos de um
grupo de valores, ou seja, a diferença entre o maior e o menor valor da amostra.
A amplitude tem a desvantagem de a: só considerar os valores extremos,
principalmente se houver "outlier"; e b: ser influenciada pelo tamanho da amostra. Esta última
desvantagem pode ser entendida pelo fato de que pequenas amostras fornecem estimativas
menores para a amplitude do que grandes amostras, com relação à amplitude da população da
qual a amostra foi extraída.
 Variância e Desvio Padrão: Poderia se pensar então em utilizar a soma dos desvios em
relação à média como medida de dispersão ou de variabilidade. No entanto, esta medida não
pode ser usada devido ao fato da soma de desvios em relação à média ser nula, e todos os
conjuntos amostrais teriam variabilidade nula. Uma medida de variabilidade que considera
todas as observações, e que é a mais utilizada na maioria das situações na estatística, devido
às propriedades que possui, é a variância ou a sua raiz quadrada, o desvio padrão. A variância
é dada pela "média" da soma de quadrados de desvios em relação à média. Numa amostra de
tamanho n, deveria ser utilizado este valor (n) como divisor, desta soma de quadrados de
desvios. No entanto, devido a motivos associados a propriedades dos estimadores e a
inferência estatística, como divisor da variância amostral é usado n-1 em lugar de n na
expressão do cálculo da variância que será apresentada a seguir.
n   n  
2

 x  x  xi  
2
i 
1  n 2  i 1  
S 
2 i 1

n 1
ou S 
2
 xi  n  ,
n  1  i 1
 
 
33

Sendo a segunda mais fácil de ser empregada. n-1 é denominado graus de liberdade.
A unidade da variância é igual ao quadrado da unidade dos dados originais. O desvio
padrão, por sua vez, é expresso na mesma unidade do conjunto de dados, sendo obtido por:

S  S2 ,
Onde, S2 representa a variância de um conjunto de dados.
Quando tem-se recenseamento (coleta de dados de toda a população), usa-se a letra
2
grega σ (sigma minúsculo) no lugar de S, e σ no lugar de S2. Esta medida isoladamente pode
ter pouco significado se não se tem outra para compará-la, mas coletando dados regularmente,
obtém-se uma idéia da homogeneidade dos valores se comparado com outro desvio-padrão ou
variância da série obtida em outro levantamento.
Têm muitas aplicações para simples cálculos de limites de tolerância supondo que os
dados seguem a distribuição normal, por exemplo: Uma firma contrata pedreiros e faz um
teste medindo o tempo que o mesmo gasta para assentar 1m2 de cerâmica. Após 30 testes,
pode-se usar a regra de que aproximadamente 95% dos pedreiros possuirão tempo entre
t 2S,t2S. Outro exemplo, quando a hemoglobina do nosso sangue está normal é porque os
valores dela estarão em uma faixa de valores que para ser determinada levou-se em
 
consideração o desvio padrão, podendo ser t 3S,t 3S (99%). Este mesmo intervalo pode
servir para uma intervenção no processo de produção de peças. Se o diâmetro de algumas
dessas peças começar a sair desse intervalo, então se pode interromper a produção para avaliar
qual problema está ocorrendo e calibrar a máquina.
Para dados agrupados, a fórmula para o cálculo da variância será a seguinte:
 n  
2
   fi xi  
1 n 2  i 1  
S 
2
  fi xi  
n  1 i 1 n
 
 

Algumas propriedades da variância são: a) somando ou subtraindo uma constante aos


dados a variância não se altera; b) multiplicando todos os dados por uma constate K a nova
variância ficará multiplicada por K2.
E algumas propriedades dos desvios padrão são: a) somando ou subtraindo uma
constante aos dados o desvio padrão não se altera; b) multiplicando todos os dados por uma
constante K o novo desvio padrão ficará multiplicado por K.
34

 Coeficiente de Variação (CV): O desvio padrão ou variância permitem a comparação da


variabilidade entre conjuntos numéricos que possuam a mesma média e a mesma unidade ou
grandeza. Diz-se que o desvio padrão é uma medida de dispersão absoluta. Nos casos em que
os conjuntos referem-se a diferentes unidades e possuam médias amostrais diferentes, uma
medida de dispersão relativa, como o coeficiente de variação (CV), é necessária para se
comparar a variabilidade. O coeficiente de variação refere-se a variabilidade dos dados em
relação à média dos mesmos, sendo obtido pela seguinte expressão:
S
CV   100
x
Obs: O coeficiente de variação sempre deverá ser expresso em porcentagem.
 Erro Padrão da Média ( S x ): Deve-se lembrar que médias amostrais estão sujeitas à
variação e formam populações de médias amostrais. No entanto é intuitivo que as médias
amostrais variem menos que uma simples observação. A variabilidade de uma média é
mensurada pelo seu erro padrão ( S x ):
S
Sx  ,
n
O erro padrão dá idéia da precisão com que a média foi calculada.
Observe que uma menor medida de dispersão dos dados significa maior
homogeneidade destes dados.

Exercício:
Calcule as medidas de dispersão para os dados brutos e as tabelas de distribuição de
freqüência feitas como exercício do capítulo 6.
35

9 - Correlação e Regressão

Relação entre duas variáveis: freqüentemente procura-se verificar se existem


relações entre duas ou mais variáveis. O peso pode estar relacionado com a idade das pessoas;
o consumo das famílias pode estar relacionado com sua renda; as vendas de uma empresa e os
gastos promocionais podem relacionar-se, bem como a demanda de um determinado produto
e seu preço. A verificação da existência e do grau de relação entre variáveis é objeto do
estudo da correlação.
Uma vez caracterizada, procura-se descrever uma relação sob forma matemática,
através de uma função. A estimação dos parâmetros dessa função matemática é o objetivo da
regressão.
Correlação Linear de Pearson (r)
O estudo da correlação, ou relação correlacionada, tem por objetivo medir e avaliar o
grau de relação entre duas variáveis aleatórias. Por exemplo, é sabido que o aumento da
cotação do dólar, aumenta o preço da gasolina para nós consumidores, mas qual é essa
relação? Sabemos que é positiva (o aumento de uma variável indica o aumento da outra), mas
quanto ela mede? Outro exemplo, sabemos que, quanto mais exercícios fizermos em minutos,
menor será nosso teor de colesterol (mg/dl) ou triglicérides (mg/dl). Neste caso a correlação
existente será negativa, ou seja, o aumento de uma variável indica a diminuição da outra
variável. A correlação procura medir a relação entre as variáveis X e Y através da disposição
dos pontos (X e Y) em torno da reta.
O principal instrumento de medida da correlação linear é dado pelo Coeficiente de
Correlação de Pearson. Sua fórmula é a seguinte:
 x  y
COV( x, y)  xy  n
r , ou r 
Sx  Sy   x
 x 2  
2

  y 
2
 y 
2


 n   n 

1   x  y
,onde COV( x, y)   xy   , Sx é o desvio padrão da variável X e Sy é o
n  1  n 
desvio padrão da variável Y.
A correlação varia de -1 até +1, e quanto mais próximo de -1 ou +1 estiver, mais forte
será o grau de correlação entre as variáveis, e quanto mais próximo a zero estiver, mais fraca
será. Uma sugestão de classificação do grau de relação entre duas variáveis X e Y é, se
36

r = 0, diz-se que há uma correlação nula, ou não existe correlação entre X e Y;


0 < | r | < 0,4 há uma correlação fraca entre X e Y;
0,4 < | r | < 0,7 há uma correlação moderada entre X e Y;
0,7 < | r | < 1,0 há uma correlação forte entre X e Y;
r = 1,0, a correlação entre X e Y é perfeita;
A variação de duas variáveis pode ser visualizada graficamente, através do diagrama de
dispersão. Os gráficos seguintes ilustram alguns tipos de relação entre duas variáveis X e Y:
Gráfico de Dispersão das Gráfico de Dispersão das Gráfico de Dispersão das
Variáveis X e Y Variáveis X e Y Variáveis X e Y
Y Y Y

X X X

Correlação Linear Positiva Correlação Linear Negativa Correlação Nula


Gráfico de Dispersão das Gráfico de Dispersão das
Variáveis X e Y Variáveis X e Y
Y Y

X X

Correlação não-linear Correlação não-linear


Obs: Exemplos de interpretação dos gráficos de dispersão são apresentados em Toledo, G.L.;
Ovalle, I.I. Estatística Básica. Editora Atlas, São Paulo, S.P. pp. 413-415.
Exemplo 1: Estimar a correlação linear de Pearson para medir o grau de associação entre as
notas de Matemática e de Estatística para um grupo de 10 alunos do 3º Ano Colegial.
Tabela 7: Notas de Matemática e Estatística de 10 alunos do 3º Ano Colegial.
Aluno Matemática (X) Estatística (Y) X2 Y2 XY
1 5 6 25 36 30
2 8 9 64 81 72
3 7 8 49 64 56
4 10 10 100 100 100
5 6 5 36 25 30
6 7 7 49 49 49
7 9 8 81 64 72
8 3 4 9 16 12
9 8 6 64 36 48
10 2 2 4 4 4
Σ 65 65 481 475 473
37

Vamos utilizar a fórmula:


COV( x, y)
r , para isto precisamos calcular primeiramente a covariância entre X e Y e o
Sx  Sy

desvio padrão de X e de Y.

1   x  y 1  65  65  1
 473  422,5   50,5
1
COV( x, y)   xy  =  473  
n  1  n  10  1  10  9 9

=> COV(x,y) = 5,6111;


Desvio Padrão de X = 2,5495; Desvio Padrão de Y = 2,4152, buscados diretamente da
calculadora;
5,6111
r  r  0,9112 .
2,5495  2,4152
Podemos então concluir que existe sim uma correlação entre as notas de matemática e de
estatística e esta correlação é forte e positiva, ou seja, quanto maior for a nota em matemática,
teoricamente, também será maior a nota de estatística dos alunos do 3º Ano Colegial.
Algumas Observações Importantes: Correlação e Casualidade, um valor alto do
coeficiente de correlação não significa necessariamente que existe uma relação de causa e
efeito entre as variáveis. Por exemplo, um estudo mostrou uma alta correlação positiva entre o
número de cegonhas avistadas numa região da Europa e o número de nascimentos de crianças
nesta região. Obviamente, seria ingênuo pensar que a matança de cegonhas seria útil para
controlar a natalidade na região. Este tipo de relação é chamado de relação espúria, e pode ser
devida a uma terceira variável casual desconhecida. O valor de r é simplesmente um indicador
de correlação, devendo ser interpretado com cuidado dentro do contexto do estudo.

Regressão Linear Simples


A análise de regressão tem por objetivo descrever através de um modelo matemático, a
relação existente entre duas variáveis, a partir de n observações dessa variáveis. Supondo X a
variável independente e Y a variável dependente, diremos que Y  f  X  (a variável Y é
função da variável X). Em regressão considera-se apenas a variável Y como aleatória e a
variável X como supostamente sem erro. Então a relação entre X e Y não é regida apenas por
uma lei matemática, ou seja, para um dado valor de X, não observaremos necessariamente o
mesmo Y. Assim sendo, a relação entre X e Y deverá ser escrita como segue: Y  f  X   e
onde a variável e irá captar todas as influências sobre Y não devidas a X.
Dado um conjunto de valores observados de X e Y, construir um modelo de regressão
38

linear de Y sobre X consiste em obter, a partir desses valores, uma reta que melhor represente
a relação entre essas variáveis. A determinação dos parâmetros dessa reta é denominada
ajustamento. O processo de ajustamento deve partir da escolha da função através da qual os
valores de X explicarão os de Y. Para isso recorre-se ao diagrama de dispersão. A reta
ˆ  ˆa  ˆbX , ou, Y
ajustada é representada por Y ˆ  ˆb  ˆb X , ou ainda, Y
ˆ  ˆ X , onde a
ˆ 
i 0 1

e b são os parâmetros do modelo: a é o ponto onde a reta ajustada corta o eixo da variável Y
(coeficiente linear), e b é a tangente do ângulo que a reta forma com uma paralela ao eixo da
variável X (coeficiente angular).
 x  y
 x i y i  nxy x y
i i

COV(X, Y)
ˆ  y  ˆ x , e ˆ  , ou, ˆ  n , ou ainda, ˆ 
x 2
 nx 2
 x 2 S 2x
x
i 2
i 
n
Obs:
1- Como estamos fazendo uma de uma amostra para obtermos os valores dos parâmetros, o
resultado, na realidade, é uma estimativa da verdadeira equação de regressão. Sendo assim,
sempre devemos colocar o símbolo matemático "^" que representa um valor estimado do
valor verdadeiro.
2- Quando usamos um valor de X ou Y dentro do intervalo de dados originais para calcular o
outro valor do par de dados, dizemos que estamos fazendo uma interpolação aos dados; e
quando usamos um valor de X ou Y fora do intervalo de dados originais para calcular o outro
valor do para de dados, dizemos que estamos fazendo uma extrapolação ao dados. Uma
norma fundamental no uso de equações de regressão é a de nunca extrapolar, exceto quando
considerações teóricas ou experimentais demonstrem a possibilidade de extrapolação.
Exemplo 2: usando os dados das notas de Estatística e Matemática apresentadas no exemplo
1, ajustar a equação de regressão para a variável Estatística em função da variável
Matemática:
ˆ 
Tem-se que Y ˆ X ; então primeiramente devemos estimar  e  .
ˆ 

ˆ  COV( X , Y )  5,6111  0,8632 ;


  ˆ x  6,5  0,8632 * 6,5  0,8892
ˆ  y 
S 2x 2,54952
Então temos que a equação da reta para a regressão linear das notas de estatística em função
das notas de matemática é:
ˆ  0,8892  0,8632X
Y
39

Coeficiente de Determinação (R2)


Freqüentemente denominado coeficiente de determinação, o poder explicativo da
regressão tem por objetivo avaliar a "qualidade" do ajuste. Seu valor fornece a proporção da
variação total da variável Y explicada pela variável X através da função ajustada. Podemos
expressar R2 por:
ˆ 2  S 2x ˆ  COV(X, Y)
R 
2
2
, ou, R 2
 2
; 0  R 2  1 , ou, 0  R 2  100%
Sy Sy

Onde, COV (X, Y) é a covariância entre as variáveis X e Y; S 2x é a variância da variável X; e


S2y é a variância da variável Y.
Se R2 = 100%, a reta ajustada explicará toda a variação de Y. assim sendo, quanto
mais próximo de 100% estiver o valor de R2, melhor "a qualidade" do ajuste da função aos
pontos do diagrama de dispersão e quanto mais próximo de zero pior será a "qualidade" do
ajuste.
Se o poder explicativo do teste for, por exemplo, 98%, isto significa que 98% das
variações de Y são explicadas por X através da função escolhida para relacionar as duas
variáveis e 2% são atribuídas a causas aleatórias.
Exemplo 3: calcular o coeficiente de determinação para o ajustamento da reta das notas de
estatística em função das notas de matemática (exemplos 1 e 2):

ˆ  COV(X, Y)
Usaremos a equação R 2  , para calcularmos o valor do coeficiente de
S 2y

determinação. Então:
ˆ  COV( X , Y ) 0,8632  5,6111

R2    0,7656 ; ou R2 = 76,56%;
2
Sy 2,5152 2

isto implica que a relação linear obtida explica 76,56% das variações totais da variável Y e
23,44% das variações de Y são consideradas aleatórias caso seja adotado o modelo linear. O
modelo não explica muito bem o que acontece com os dados.

Exercícios: Estime a correlação linear, a equação de regressão e o coeficiente de


determinação para os seguintes grupos de dados:

a) Na tabela abaixo estão apresentados os pesos (kg) aparentes e reais de alguns objetos.
Peso real 18 30 42 62 73 97 120
Peso aparente 10 23 33 60 91 98 159
40

b) Na tabela abaixo estão apresentados os resultados de dois testes X e Y obtidos por um


grupo de alunos da escola A:
X 11 14 19 19 22 28 30 31 34 37
Y 13 14 18 15 22 17 24 22 24 25

c) Certa empresa, estudando a variação da demanda de seu produto em relação à variação de


preço de venda, obteve a tabela:
Preço (X) 38 42 50 56 59 63 70 80 95 110
Demanda (Y) 350 325 297 270 256 246 238 223 215 208

d) Pretendendo-se estudar a relação entre as variáveis "consumo de energia elétrica" (X) e


"volume de produção nas empresas industriais" (Y), fez-se uma amostragem que inclui vinte
empresas, computando-se os seguintes valores:

 x  11,34;  y  20,72;  x 2
 12,16;  y 2  84,96;  xy  22,13 .
41

Anexos
1 - Arredondamento de dados

Arredondar um número é reduzir seus dígitos ao número de dígitos significativos garantido


pelo cálculo realizado. A regra é:
 Se você vai “cortar” dígitos e o resto é menor do que 5 (0,1,2,3,4), apenas faça o corte;
Exemplo: 53,224 passa a 53,22
 Se você vai “cortar” dígitos e o resto é maior do que 5 (6,7,8,9), aumente o último dígito do
número em uma unidade;
Exemplo: 42,087 passa a 42,09
25,008 passa a 25,01
53,999 passa a 54,00
 Se você vai “cortar” dígitos e o resto é “exatamente 5”, a convenção é:
- Se o dígito anterior ao que vai ser cortado é par, apenas faça o corte, não importando qual seja
o resto do número;
Exemplo: 24,2856 passa a 24,28
24,2851 passa a 24,28
24,2855 passa a 24,28
- Se o dígito anterior ao que vai ser cortado é ímpar, aumente esse dígito de uma unidade, não
importando qual seja o resto do número;
Exemplo: 24,2756 passa a 24,28
24,2751 passa a 24,28
24,2755 passa a 24,28
OBS.: 1 - Nós sempre iremos trabalhar com números pares de casas decimais, duas, quatro seis, etc...
2 – Não usaremos o arredondamento sucessivo, ou seja, se desejamos duas casas decimais,
observaremos apenas a terceira casa decimal e descartaremos o restante.

Compensação de Resultados

Suponhamos os dados abaixo, aos quais aplicamos as regras de arredondamento:


25,032 25,03
17,085 17,08
10,044 10,04
+ 31,017 + 31,02
83,178 83,18 (??)
(83,17)
Verificamos que houve uma pequena discordância: a soma é exatamente 83,17 quando, pelo
arredondamento, deveria ser 83,18. Entretanto, para a apresentação dos resultados, é necessário que
desapareça tal diferença, o que é possível pela prática do que denominamos compensação,
conservando o mesmo número de casas decimais.
Praticamente, usamos “descarregar” a diferença no(s) maior(es) dígito(s) descartado(s).
Assim, passaríamos a ter:
25,03
17,09
10,04
+ 31,02
83,18
Extraído de: VIEIRA, S. Princípios de Estatística, Ed. Afiliada, 1999.
CRESPO, A.A. Estatística Fácil, Ed. Saraiva, 1998.
42

2 – Técnicas de Somatório
1- Sejam os conjuntos:
X={1; 3; 4; 5; 5; 6; 7; 8; 12; 15} Y={1; 2; 2; 3; 3; 4; 6; 6; 7; 8} Z={1; 3; 5; 9; 10; 11; 12; 13; 14; 15}
10 10 10 8 9 7
a)  xi b)  yi c)  zi d)  xi y i e)  y i z i   xi
i 1 i 1 i 1 i 5 i 3 i 3

10
10 10
zi  z i2 10
xi2 10
f)  2 xi   2
g) i 1
10 h)  3 xi  2 z i  3
i)  xi
i 1 i 1
 xi2 i 1 i 1
i 1

2- Dada a Tabela abaixo:


Linha (x) Coluna (y) 1 2 3 4
1 4,0 6,0 3,0 5,0
2 5,0 8,0 9,0 8,0
3 5,0 9,0 5,0 11,0
4 6,0 12,0 7,0 10,0
5 7,0 10,0 3,0 4,0

Obtenha:
5 4 5 4 3 4 5 1 5
a)  xij b)  xij2 c)   xij d)  xij e)  xij j = 1, 3
i 1 j 1 i 1 j 1 i 1 j  2 i 1 j 1 i 1

5 3 3 4
f)  xij j = 1, 2, 3, 4 g)  xij i = 1, 2, 5 h)  xij i = 1, 2, 3, 4, 5 i)  xij i = 1, 2, 3, 4, 5
i 1 j 1 j 1 j 1

GABARITO:
1) a) 66 b) 42 c) 93 d) 129 e) 359+27=386 f) 132-(93/2)=85,5 g) 1071/594=1,8030
h) 198-186+198=210 i) 24,4649399
2) a) 137 b) 1075 c) 64 d) 27 e) 1=27; 2=27 f) 1=27; 2=45; 3=27; 4=38
g) 1=13; 2=22; 3=20 h) 1=13; 2=22; 3=19; 4=25; 5=20 i) 1=18; 2=30; 3=30; 4=35; 5=24
43

3- Fórmulas das Medidas de Posição e de Dispersão


Medidas de Posição
Dados Dados Agrupados Descrição de alguns símbolos
Ordenados
n n

 xi x f i i
Média ( x ) x i 1
x i 1
n
n
f
i 1
i

Observação Md  LI md  2
 
 n  FA 
c
LImd = Limite inferior da classe média;
FA = Freqüência acumulada das classes
Mediana Central  f  md anteriores;
(Md)  md
 fmd = Freqüência simples da classe
mediana.
 1  LImo = Limite inferior da classe modal;
Observação que Mo  LI mo     c mo 1 = Diferença entre a freqüência
Moda (Mo) mais se repete 
 1   2  simples da classe modal para a anterior;
2 = Diferença entre a freqüência
simples da classe modal para a
posterior.

Medidas de Dispersão
Dados Ordenados Dados Agrupados
Amplitude (A) Maior valor – menor valor Maior valor – menor valor
Variância
1  x i   2
1  f i x i  2

2 (população)     x i2 
2
    f i x i2 
2

N N  N N 
   
S2 (amostra)
1   x i 2  1   f i x i 2 
S 
2

n 1
 xi  n 
2
S 
2

n 1
 fi xi  n 
2

   
Desvio Padrão
 (população)   2   2
S (amostra)
S  S2 S  S2
Coeficiente de Variação (CV) CV  100 S  x CV  100 S x
Erro Padrão da Média ( S x ) S S
SX  SX 
n n

Você também pode gostar