Métodos Estatísticos e A Administração PDF

Universidade regional do noroeste do estado do rio grande do sul – unijuí
vice-reitoria de graduação – vrg

coordenadoria de educação a distância – CEaD
Coleção Educação a Distância

Série Livro-Texto
Ruth Marilda Fricke

Iara Denise Endruweit Battisti
Antonio Édson Corrente
métodos estatísticos
e a administração
Ijuí, Rio Grande do Sul, Brasil

2009
 2009, Editora Unijuí
Rua do Comércio, 1364
98700-000 - Ijuí - RS - Brasil
Fone: (0__55) 3332-0217
Fax: (0__55) 3332-0216
E-mail: editora@unijui.edu.br
Http://www.editoraunijui.com.br
Editor: Gilmar Antonio Bedin
Editor-adjunto: Joel Corso
Capa: Elias Ricardo Schüssler
Revisão: Véra Fischer
Designer Educacional: Vanessa Francieli da Frota
Responsabilidade Editorial, Gráfica e Administrativa:
Editora Unijuí da Universidade Regional do Noroeste
do Estado do Rio Grande do Sul (Unijuí; Ijuí, RS, Brasil)
Catalogação na Publicação:
Biblioteca Universitária Mario Osorio Marques – Unijuí
F897m
Fricke, Ruth Marilda.
Métodos estatísticos e a administração / Ruth Marilda Fricke,
Iara Denise Endruweit Battisti, Antonio Édson Corrente. – Ijuí :
Ed. Unijuí, 2009. – 164 p. - (Coleção educação a distância. Série
livro-texto).
ISBN 978-85-7429-840-5
1. Estatística. 2. Administração. 3. Amostragem. 4. Ban-
co de dados. 5. Excel. I. Battisti, Iara Denise Endruweit.
II. Corrente, Antonio Édson. III. Título. IV. Série.
CDU : 311
311:658
Sumário
Conhecendo os Professores............................................................................................7
Apresentação............................................................................................................................9
Unidade 1 – CONCEITOS BÁSICOS ESTATÍSTICA NA ADMINISTRAÇÃO......................11
Seção 1.1 – A Estatística e a Administração............................................................................11
1.1.1 Um Olhar na Ciência da Administração....................................................................12
1.1.2 Um Olhar na Ciência da Estatística – Métodos Estatísticos.....................................14
1.1.3 Interligando o Potencial das Duas Ciências..............................................................15
Seção 1.2 – Ajustando a Linguagem por meio dos Conceitos Básicos da Estatística............16
1.2.1 Informantes..................................................................................................................17
1.2.2 Informações.................................................................................................................20
Seção 1.3 – Aplicações..............................................................................................................22
Resumo da Unidade 1..........................................................................................................24
Unidade 2 – BANCO DE DADOS, TABELAS E GRÁFICOS:
Sistematização e Apresentação de Dados ..........................................................25
Seção 2.1 – Banco de Dados ....................................................................................................26
Seção 2.2 – Tabelas Simples – Univariadas e Bivariadas – Com Variáveis Qualitativas.......29
Seção 2.3 – Tabelas em Série Numérica e Distribuição de Frequências
com Variáveis Quantitativas.................................................................................36
Seção 2.4 – Representação Gráfica e sua Leitura....................................................................45

Unidade 3 – MEDIDAS QUE DESCREVEM O CONJUNTO DE DADOS............................55
Seção 3.1 – Quadro-Resumo das Fórmulas.............................................................................56
Seção 3.2 – Medida de Tendência Central e de Variabilidade
– conceitos e operacionalização...........................................................................58
3.2.1 Operacionalização de Medidas Descritivas em Série Numérica.............................62
3.2.2 Operacionalização de Medidas Descritivas em Distribuição de Frequências.........70
Unidade 4 – INTRODUÇÃO À AMOSTRAGEM.....................................................................87
Seção 4.1 – Padrões a Seguir no Processo Amostral...............................................................89
4.1.1 Fatores Intervenientes ...............................................................................................89
4.1.2 Métodos de Cálculo da Amostra ...............................................................................90
Seção 4.2 – Delineamento Amostral: dimensionamento e seleção .......................................93
Resumo da Unidade 4........................................................................................................101
Unidade 5 – Noções de Inferência Estatística.....................................................103
Seção 5.1 – Conceitos e Definições........................................................................................104
Seção 5.2 – Estimativas e sua Projeção..................................................................................104
5.2.1 ESTIMATIVAS .........................................................................................................105
5.2.2 TESTES DE HIPÓTESES PARA GENERALIZAÇÃO
DE ESTATÍSTICAS AMOSTRAIS............................................................................106
Seção 5.3 – Aplicações............................................................................................................117

Unidade 6 – REGRESSÃO LINEAR SIMPLES......................................................................119
Seção 6.1 – Correlação Entre Variáveis.................................................................................120
Seção 6.2 – Diagrama de Dispersão.......................................................................................121
Seção 6.3 – Coeficiente de Correlação...................................................................................122
Seção 6.4 – Coeficiente de Determinação ( R 2 ).....................................................................124
Seção 6.5 – Análise de Regressão...........................................................................................125
Seção 6.6 – Banco de Dados...................................................................................................127
Unidade 7 – FERRAMENTAS DE ANÁLISE ESTATÍSTICA NO EXCEL............................129
Seção 7.1 – Elaborando um Banco de Dados no Excel.........................................................131
Seção 7.2 – Utilizando as Técnicas Estatísticas para Analisar os Dados no Excel..............133
Seção 7.3 – Medidas Descritivas para as Variáveis Quantitativas.......................................134
Seção 7.4 – Tabelas Simples para as Variáveis Qualitativas

e para as Variáveis Quantitativas com Pouca Variabilidade.............................136
Seção 7.5 – Tabelas Cruzadas.................................................................................................142
Seção 7.6 – Gráficos de Setores, Colunas e Barras...............................................................145
Seção 7.7 – Histograma e Polígono de Frequências..............................................................154
Seção 7.8 – Gráfico de Linha..................................................................................................159
Referências............................................................................................................................163
EaD
Conhecendo os Professores
métodos estatísticos e a administração
São três os professores contribuindo para este material didá-

tico:
A doutora Ruth Marilda Fricke nasceu em Ijuí (RS) no dia 16 de

março de 1946. Foi professora estadual e é professora de Estatística
desde 1976, na Unijuí (RS) com Graduação em Pedagogia pela Unijuí
(Ijuí – RS-1977), Aperfeiçoamento em Estatística na FDRH (PoA –
RS – 1975), Especialização em Metodologia do Ensino Superior na
Unijuí (Ijuí – RS – 1978), Especialização em Estatística na UPF (Passo
Fundo – RS – 1979), Mestrado em Estatística pela Unicamp (Campi-
nas – SP– 1990), Doutorado em Educação pela Unicamp (Campinas
– SP– 1999). Vem lecionando em diversos cursos da Unijuí desde essa
época atuando como professora titular de Estatística. Sua produção
como pesquisadora centra-se em quatro campos: 1) Educação Esta-
tística e na produção de material didático para o ensino de Estatística
na Educação Básica: Fundamental e Médio; 2) Modelagem Estatís-
tica na Produção de Indicadores de Qualidade de Vida Urbana; 3)
Modelagem Estatística para o Tratamento de Variáveis Qualitativas:
Questões Abertas na Pesquisa de campo, 4) Relações entre formação
e desemprego dos trabalhadores urbanos. Neste material didático é
autora da introdução e das unidades 1 a 5.
A doutora Iara Denise Endruweit Battisti é a autora da Uni-

dade 7 deste material didático. Nasceu em 8 de outubro de 1974
no município de Ijuí (Rio Grande do Sul). Cursou Informática na
Universidade Regional do Noroeste do Estado do Rio Grande do Sul
(Unijuí) de 1992 a 1996, fez Especialização em Estatística e Mode-
lagem Quantitativa na Universidade Federal de Santa Maria (Rio
Grande do Sul) entre 1997 e 1998. De 1999 a 2001 fez Mestrado em
Estatística e Experimentação Agropecuária na Universidade Federal
de Lavras (Minas Gerais). Fez Doutorado em Epidemiologia na Uni-
versidade Federal do Rio Grande do Sul com tese sobre amostragem
complexa e modelos multiníveis entre 2004 e 2008.
7
Atua como professora de Estatística no magistério superior
desde agosto de 1998 na Unijuí e nos cursos de Especialização desta
universidade. É docente e pesquisadora do Mestrado em Modelagem
Matemática da Unijuí.
Antonio Édson Corrente nasceu em 16 de outubro de 1962 em

Ijuí (RS), e neste material didático é o autor da unidade 6. Possui Gra-
duação em Ciências e Matemática – Licenciatura Curta – pela Univer-
sidade Regional do Noroeste do Estado do Rio Grande do Sul (1988),
Graduação em Matemática – Habilitação Plena – pela Universidade
Regional do Noroeste do Estado do Rio Grande do Sul (1990) e Mes-
trado em Modelagem Matemática pela mesma universidade (1999).
Atualmente é professor assistente na Unijuí. Tem experiência na área
de Matemática, com ênfase em Estatística, lecionando em diferentes
cursos esta disciplina e atualmente atua nos seguintes temas: mode-
lagem estatística, comunicação comunitária, formas de codificação de
dados e elaboração de questionários e análise multivariada.
EaD
Apresentação
Estamos começando uma relação de conhecimento dos métodos estatísticos relacionados

com a profissão do administrador. Algumas etapas são comuns a todas as áreas, algumas são
mais específicas, no entanto ao longo de todo conhecimento vamos tentar fazer a conexão entre
essas áreas de forma que o próprio estudo gere conhecimento válido para você. Entendemos que
as aplicações técnicas são cada dia mais facilitadas em virtude dos avanços das novas tecnolo-
gias, mas visualizamos que estas só fazem sentido quando pensadas e interpretadas por nós,
seres humanos. Então este aspecto nos leva a dominar o desenvolvimento de todas as etapas e
direciona a metodologia que pretendemos empregar:
• compreensão dos conceitos;
• domínio das técnicas;
• entendimento da pertinência das aplicações;
• capacidade de utilizar a informática como ferramenta que permite a obtenção de resultados

mais ágeis, dinâmicos e corretos, potencializando o tempo da análise;
• a sistematização e avaliação dos conhecimentos adquiridos acompanhará todo o desenvolvimen-

to dos capítulos. Ademais, é proposta uma aplicação que será realizada por meio de pesquisa
de campo numa temática definida na área de Administração e tratada estatisticamente.
Procuraremos partir sempre de uma situação de estudo, real e prática, que desencadeie
a utilização da Estatística pertinente, de forma a potencializar maior compreensão do conteú-
do. Você deve acompanhar este desenvolvimento, refazer os passos que foram desenvolvidos,
realizar as atividades previstas, buscar apoio didático para suas dúvidas ou certezas, plenificar
seu conhecimento fazendo uma resenha do mesmo para que em suas próprias palavras e na sua
compreensão os conceitos trabalhados se solidifiquem.
O objetivo deste material é introduzir o educando nos conhecimentos básicos dos métodos
estatísticos que permitem a sistematização de dados e a sua projeção em pesquisas amostrais de
modo a transformá-los em informações confiáveis contribuindo para melhorar a performance do
profissional da área de Administração.
Para tal desenvolveremos:
1) noções conceituais que permitam estabelecer uma linguagem comum e conhecer a conexão
estreita entre os métodos estatísticos e a Administração;
9
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
2) estatísticas descritivas que sistematizam as informações obtidas em forma de tabelas e gráficos

descrevendo os fenômenos em suas ocorrências;
3) medidas descritivas que buscam descrever o padrão dos dados sintetizando-os por meio de
números típicos e a análise do comportamento dos mesmos em relação a estes números típi-
cos.
Uma vez conhecendo o comportamento padrão dos dados e podendo descrevê-los e apre-
sentá-los, passamos a uma segunda fase do tratamento estatístico: o conhecimento dos padrões
populacionais a partir de um estudo por amostragem.
4) noções de amostragem que delimitam as restrições essenciais para obtermos uma amostra
com potencial representativo corretamente definido;
5) noções de inferência que permitem a generalização da amostra para a população, intensifi-

cando o uso de proporções;
6) relações entre variáveis quantitativas que tratam de expor o que estudos descritivos não
visualizam, ou seja, as relações que estão por trás dos fenômenos;
7) estatística no excel por que após o conhecimento detalhado dos métodos estatísticos é im-
portante que os mesmos possam ser obtidos por meio de técnicas informacionais, de modo
que as análises sejam relatadas com uma base mais confiável de resultado. Todos os métodos
estatísticos avaliados da unidade 1 a 6 serão retomados nesta unidade com o software Excel.
Ruth Marilda Fricke
10
EaD
Unidade 1
CONCEITOS BÁSICOS ESTATÍSTICA NA ADMINISTRAÇÃO

Ruth Marilda Fricke
OBJETIVO DESTA UNIDADE:
• Conhecer a relação entre a Estatística e a Administração, principalmente, dominando os con-

ceitos básicos que as inter-relacionam.
AS SEÇÕES DESTA UNIDADE:
• Seção 1.1 – A Estatística e a Administração.
• Seção 1.2 – Ajustando a linguagem por meio dos conceitos básicos da Estatística.
• Seção 1.3 – Aplicações.
As áreas da Administração e da Estatística fazem parte do mesmo campo de estudos das

Ciências: o das Ciências Aplicadas. Muitos alocam a Estatística no campo das Ciências Exatas,
no entanto, ela é uma ciência não determinística, trata do conhecimento dos fenômenos sociais e/
ou naturais como o retrato de um momento, propiciando uma visão das tendências futuras como
um evento probabilístico, com chances conhecidas/estimadas de ocorrer, portanto não exata, que
trata dos fenômenos sociais e/ou naturais em sua evolução.
Então, a partir desta breve introdução, você consegue estabelecer a diferença entre deter-
minístico e não determinístico? Busque maiores conhecimentos para ampliar seu conhecimento
sobre este assunto.
Vejamos, a seguir, a relação existente entre a Administração e a Estatística.
Seção 1.1
A Estatística e a Administração
Iniciamos com observações sobre cada uma das ciências para depois entender como se
estabelecem os links entre elas.
11
EaD
1.1.1 UM OLHAR NA CIÊNCIA DA ADMINISTRAÇÃO
As áreas preferenciais da Administração são:
• Administração financeira.
• Administração da produção.
• Administração pública.
• Administração de materiais.
• Marketing.
• Gestão de pessoas.
• Gestão sistêmica.
• Administração de sistemas de informação.
• Organização, sistemas e métodos.
• Comércio internacional.
A existência da Administração, segundo a Wikipédia, está relacionada a “normas e funções

elaboradas para disciplinar elementos de produção, que têm como objetivo alcançar um resultado
eficaz e retorno financeiro”. Pode-se afirmar, conforme a Wikipédia, que se trata do gerenciamento
dessa operacionalização mediante o conhecimento e uso de técnicas de Administração:
• Planos: Um conjunto de propostas resultantes de um processo de planejamento econômico,

urbano, regional, etc., que visam a determinado objetivo.
• Pareceres: Avaliação de conjunturas no sentido de emitir um parecer sobre o comportamento

do fenômeno analisado.
• Relatórios: Produzir um relato das ocorrências de uma etapa de trabalho.
• Projetos: Elaboração de linhas de ação e estratégias sobre uma determinada realidade para atin-
gir determinados fins. Tem um tempo finito de execução, e pretende criar um produto, serviço
ou resultado único. Segundo a Wikipédia: pode ser uma demanda de mercado, necessidade
organizacional, solicitação de um cliente, avanço tecnológico ou requisito legal. Apresentam:
objetivos, hipóteses, cronograma, orçamento, responsabilidades.
• Laudos: Relato de técnico ou especialista designado para avaliar determinada situação que
estava dentro de seus conhecimentos.
12
EaD
Segundo John Riegel:
o êxito do desenvolvimento de executivos em uma empresa é resultado, em grande parte, da atuação e

da capacidade dos seus gerentes no seu papel de educadores. Cada superior assume este papel quando
ele procura orientar e facilitar os esforços dos seus subordinados para se desenvolverem (1995).
Atualmente as principais funções administrativas são:
• Planejamento.
• Conhecimento dos problemas.
• Busca e encaminhamento de soluções.
• Definição dos recursos (humanos, financeiros e tecnológicos).
• Liderar as ações na empresa.
• Gerenciar os fenômenos organizacionais que envolvem as transações da empresa.
• Tomadas de decisão.
• Controle dos fatos e fenômenos mediante técnicas de conhecimento, mensuração, acompanha-

mento, avaliação das informações relacionadas ao negócio da empresa.
Essas perspectivas de atuação dependem efetivamente da capacidade do administrador

de encontrar as alternativas mais viáveis e potencialmente bem-sucedidas nas diferentes etapas
do processo decisório. Para tal precisa essencialmente identificar o problema e seu entorno. Isto
é, deve ser capaz de definir o que parece, e o que realmente é, contextualizado no âmbito da
ocorrência dos fatos e fenômenos, com pesquisa, levantamento e sistematização estatística dos
mesmos. Dessa forma começamos a compreender a importância dessa interação entre a Adminis-
tração e os métodos estatísticos. Estes, na sua essencialidade, subsidiam a ação do administrador/
gestor, tanto o público quanto o privado.
Os tipos de decisões envolvendo aspectos quantificáveis que são tomadas em uma orga-
nização:
• Identificação dos custos para poder valorar os produtos, incluindo a produção (matéria-prima,
equipamentos, ferramentaria, maquinaria), recursos humanos, distribuição, logística, armaze-
namento.
• Planejamento das despesas e orçamento das diferentes áreas da organização.
• Análise das margens e da rentabilidade dos produtos.
• Análise dos custos de venda.
• Planejamento do marketing (pesquisa de mercado, aceitação, satisfação do cliente).
13
EaD
Segundo Araújo (2004), entende-se como características do gestor suas funções, habilidades
e competências: planejar, organizar, liderar e controlar. O planejamento envolve a determinação no
presente do que se espera para o futuro da organização, incluindo quais as decisões que deverão
ser tomadas para que as metas e propósitos sejam alcançados. As metas organizacionais adaptam
as funções aos recursos da empresa e aos recursos humanos necessários para concretizá-los. O
gestor precisa conduzir o processo de forma a influenciar todas as pessoas a trabalharem em
torno de objetivos comuns, suscitando participação e adesão, gerenciando democraticamente o
processo. O controle integra as ações para o acompanhamento do processo em busca do sucesso
do empreendimento. Estas características dão conta de que somente a união de todos permite
atingir com sucesso os objetivos.
Vamos agora abordar a ciência Estatística, como ela se organiza no tratamento de dados.
1.1.2 UM OLHAR NA CIÊNCIA DA ESTATÍSTICA – MÉTODOS ESTATÍSTICOS
As áreas preferenciais da Estatística são:
• Estatística descritiva.
• Probabilidade.
• Amostragem.
• Inferência.
• Relações entre variáveis.
• Estatística paramétrica.
• Estatística não paramétrica.
• Estatística Bayesiana.
• Bioestatística.
• Estatística aplicada: medicina, sociedade, gestão pública e privada, indústria, comércio, agri-
cultura, psicologia, saúde...
A teoria da Estatística preocupa-se em construir modelos com base em técnicas estatís-

ticas capazes de descrever, relacionar e fazer projeções a partir das situação reais na empresa.
A criação de modelos, sejam eles descritivos ou inferenciais, pretende subsidiar a resolução de
problemas de tomada de decisão, uma vez que sistematizam os dados obtidos e permitem uma
apresentação mais didática e compreensível.
14
EaD
É por meio de tabelas, gráficos, medidas descritivas, amostragem, inferências, relações

entre variáveis, que se fazem representações da realidade. Com isso pretendemos descrever
os fenômenos como eles ocorrem, simular situações futuras e avaliar a probabilidade de sua
ocorrência. Simplificam, dão visibilidade para os fenômenos e permitem que representemos
a realidade, com condições de projetar as tendências e interferências na realidade de modo a
melhorar nosso poder decisório. Com isso:
• entendemos melhor os fatos reais;
• damos visibilidade a relações existentes entre distintas variáveis que compõem o problema em
estudo, não perceptíveis apenas ao primeiro olhar;
• os métodos estatísticos trabalham o problema como um todo e de forma multivariada, com

múltiplas variáveis ao mesmo tempo;
• conseguem acompanhar a evolução do fenômeno no tempo e no espaço, acompanhando os

resultados parciais, incluindo novos fatores no desenvolver do estudo;
• conduzem a soluções quantitativas, mais compreensíveis e mais argumentativas;
• permitem uso de computadores para processar grandes volumes de dados.
1.1.3 INTERLIGANDO O POTENCIAL DAS DUAS CIÊNCIAS
Um candidato ou candidata a um emprego leva, seguramente, vantagem se tiver em sua

bagagem de conhecimento o domínio dos métodos estatísticos, uma vez que essa habilidade pode
ser de grande interesse para as empresas contratantes. A leitura de um gráfico, de uma tabela,
a interpretação e análise de relações e de tendências permitem uma nova linguagem a serviço
da organização empresarial.
Para fazer essa interligação entre a Administração e os métodos estatísticos apresentamos

diferentes níveis de aprofundamento nessa leitura da realidade dos fatos e fenômenos sociais e/
ou naturais:
a. Estatística Descritiva: nesse âmbito, como o próprio nome diz, pretende-se descrever os fenô-
menos. Trata-se de técnicas estatísticas para sistematização, sintetização e apresentação de
fenômenos de forma compreensível, dando visibilidade ao que realmente aconteceu ou acon-
tece. Como compreender os diferentes estágios do nível de pobreza nos municípios gaúchos,
N = 496, sem uma descrição completa de sua localização, magnitude, permitindo avaliar e
traçar metas em relação aos bolsões de miserabilidade no Estado. Qual o gestor público que
não deseja ter à disposição essa descrição do fenômeno ao traçar planos e metas, definir prio-
ridades?
15
EaD
b. Estatística Inferencial: observamos que o termo “inferência” provém do verbo inferir, quer
dizer, que pretendemos olhar um quadro de resultados e projetá-los para um universo maior.
A inferência reúne um conjunto de métodos que permitem fazer essas projeções com garantia
e conhecimento da margem de erro máxima inerente às inferências realizadas com base em
uma amostra. Como podemos projetar o sucesso do lançamento de um novo produto no merca-
do sem antecipar seu potencial de vendas? Para tal busca é impossível represar o lançamento
esperando que se conheça qual a fatia do mercado que se interessaria pela sua aquisição,
portanto é um caso típico para inferir o resultado populacional mediante uma amostra dos
possíveis clientes.
c. Estatística Aplicada: nos dois itens anteriores passamos uma ideia sobre a existência de um
conjunto de métodos e técnicas estatísticas, construindo descrições e inferências dos dados.
Após o uso das mesmas, estando aptos a traçar um perfil descritivo do nosso conjunto de dados,
vamos aplicar algumas técnicas que revelam relações entre variáveis de forma a mostrar o que
está por trás dessas relações descritivas. Podemos descobrir, por exemplo, que as mulheres
compram preferencialmente determinados produtos; podemos conhecer o quanto a idade pode
estar relacionada à quantidade de gastos com multas de trânsito; podemos avaliar os limites
permitidos de diâmetro de uma determinada peça; podemos avaliar a resposta em termos de
volume de vendas com o passar dos meses...
Nós, seres humanos, e até mesmo os animais e as plantas, temos diferentes formas de nos
expressar. Dependendo da situação, empregamos as mesmas palavras para expressar diferentes
ideias. O mesmo se dá nas diversas Ciências. A palavra “população” na Demografia expressa
os habitantes de uma determinada região; já na Estatística sob a idéia de população agregamos
todos os indivíduos, animais, objetos, lugares, períodos ou máquinas, etc., que apresentam ca-
racterísticas comuns predefinidas que constituem o nosso universo de informantes. Na seção a
seguir vamos apresentar os principais conceitos da Estatística.
Seção 1.2
Ajustando a Linguagem por meio dos Conceitos Básicos da Estatística
Os principais conceitos da Estatística dizem respeito aos informantes e às informações que

formam as bases do tratamento estatístico. Os métodos estatísticos aparecem, então, intimamente
relacionados com esse contexto, pois permitem conhecer e explorar os fenômenos. Dois são os
âmbitos da perspectiva estatística: INFORMANTES E INFORMAÇÕES.
16
EaD
1.2.1 INFORMANTES
O que queremos dizer com Informantes?
Trata-se da proveniência dos dados, quem os fornece. Nossos informantes podem ser as
empresas, os trabalhadores, os produtos... Eles são a origem das informações. Ao analisar as
empresas posso obter delas uma série de informações que constituirão o objeto da estatística.
Os informantes podem se constituir numa população ou numa amostra.
a. POPULAÇÃO: É o conjunto de todas as unidades que reunimos a partir de características

que as definem e que são o espaço temático de nosso estudo. Segundo o dicionário Aurélio:
“População é o conjunto de habitantes de um território, de um país, de uma região, de uma
cidade, etc.”
Ainda no Dicionário Aurélio (1995, p. 1.115): “Estat. Conjunto, em geral infinito ou com
um grande número de membros, cujas propriedades se investigam por meio das características
dos subconjuntos que lhes pertencem, universo”.
Segundo a Wikipédia Português:
Genericamente, uma população é o conjunto de pessoas ou organismos de uma mesma espécie que
habitam uma determinada área, num espaço de tempo definido. O termo população tem, consoante
a disciplina a que se refere, distintas definições. Em Biologia define-se como um grupo de indivíduos
que acasalam uns com os outros, produzindo descendência. Em Estatística chama-se população ao
conjunto de todos os valores que descrevem o fenômeno que interessa ao investigador (grifo nosso).
Em Sociologia define-se como um conjunto de pessoas adscritas a um determinado espaço, num dado
tempo (p. 1.115).
E assim por diante. Na Geografia, população são os indivíduos que fazem parte de um
mesmo grupo: habitantes de um país, de uma tribo, de uma região, de um Estado, ou ainda mais
específica, economicamente ativa, desocupados, inativos...
Entendemos que na área da Administração, sob o ponto de vista dos métodos estatísticos,
população é um conjunto de instituições, empreendimentos, clientes, negócios, produtos, traba-
lhadores, indicadores, etc. Nesse caso, basta que nosso estudo esteja centrado nessa população,
de forma que como nossos informantes, eles forneçam as informações que estão no entorno de
nossa temática.
Para serem população é necessário que se constituam de um grupo exaustivo de elemen-

tos que são definidos sob as características mencionadas. Um grupo exaustivo quer dizer que é
composto por todas as unidades possíveis que só podem ser avaliadas censitariamente, isto é,
17
EaD
por meio de um censo, em que nenhuma das unidades fique de fora. As características tornam
único aquele conjunto de dados, de forma que se distingue logo se uma unidade pertence ou
não àquela população.
Vejamos no Quadro 1 alguns exemplos de população:
Quadro 1: Exemplos de população e sua descrição estatística
População Características Tamanho Definição
Pe s s o a s c o m 1 0 a n o s o u m a i s q u e N = 1.875
Ωx : { x ∈ (1, 2, 3,
Tr a b a l h a d o r e s são a PEA – região Metropolitana mil pessoas
...., 1.875.000}
d e Po r t o A l e g r e – m a r ç o d e 2 0 0 8 .
Da construção de Ijuí registradas

Ωx : { x ∈ (1, 2, 3,
Empresas n o C a d a s t r o d a Pr e f e i t u r a M u n i - N = 121
...., 121}
cipal de Ijuí – 2006.
Comercializados pela empresa X Ωx : { x ∈ (1, 2, 3,

Pr o d u t o s 2 mil itens
de Ijuí – março de 2009. ...., 2000}
Fonte: Elaboração da autora.
b) AMOSTRA: entendemos por amostra quando temos um conjunto significativo da população

que apresenta as mesmas características e que a distingue de outros informantes. Nesse caso,
nenhuma características particular pode dominar a amostra e não estar presente em toda a
população. Por exemplo: se nossa população são os cães de nossa cidade, não pode a amostra
constituir-se só de fêmeas, pois nesse caso acrescentaria uma nova característica, que excluiria
uma parte dos cães da cidade.
No Dicionário Aurélio (1995, p. 88), a definição 2 de amostra afirma que é uma
porção, fragmento ou unidade de um produto natural ou fabricado destituído de valor comercial, e

apresentado para demonstrar sua natureza, qualidade ou tipo (...). Em Farm. Amostra grátis de me-
dicamentos que laboratórios farmacêuticos distribuem, como propaganda, para conhecimento dos
médicos. Amostra indeformada Constr. Amostra de solo obtida de tal modo que se podem considerar
como subsistentes nela todas as características que se verificam no local em que foram extraídas.
Reunindo todos os resultados do Dicionário Aurélio (1995, p. 88), que se referem ao conceito
estatístico observamos que amostra é
18
EaD
Subconjunto de uma população por meio do qual se estabelecem ou estimam as propriedades ou ca-
racterísticas dessa população (...) Amostra acidental, obtida por meio de um processo de amostragem
casual; (...) Amostra pequena que tem um número de elementos insuficientes para permitir fazer uma
estimativa não viciada1 dos parâmetros2 da população; (...) Amostra representativa que foi obtida por
um processo isento de vício.
A partir destas explicações podemos constatar que em quase todas as áreas do conheci-
mento a amostra apresenta finalidades que têm suas bases apoiadas no sentido estatístico, isto
é, pretende de forma sintética, rápida, menos custosa e eficiente conhecer, estimar o comporta-
mento da população. Em Estatística, pretendemos obter uma amostra que tenha um potencial
comprovado de fazer essas inferências, de modo que dependemos de um bom delineamento
amostral: dimensionamento formal (por meio de fórmula) do tamanho necessário de unidades
amostrais, seleção aleatória e representatividade das características do perfil que interessa manter,
tais como por sexo (50% de mulheres e 50% de homens se for esta a composição da população),
faixa etária, escolaridade...
Exemplificando: uma auditoria numa empresa identificou telefonemas dados a sua prin-
cipal concorrente, e como foi constatado que algumas das promoções planejadas pela empresa
vazaram antes de serem postas em prática, há necessidade de rapidamente detectar de qual(is)
linha(s) interna(s) partiu (partiram) as chamadas e verificar a demanda e o responsável por elas.
Entendeu-se que inicialmente o processo por amostragem seria o mais rápido de realizar. Na
empresa existem 240 ramais telefônicos, e foram constatadas ligações em 15% deles. Neste caso
definimos como:
• População: Ramais com ligações efetuadas para o principal concorrente
• N = 36 ramais, N: tamanho da população
• Dimensionamento da amostra: n = 20
• Numerados os ramais de U1 a U60, procedemos ao sorteio das unidades amostrais
• Unidades amostrais conforme sorteio:
1
Não viciada é uma expressão estatística que significa não tendenciosa, isto é, um resultado confiável, que não sofreu interferências
externas que o deturpassem.
2
Parâmetros são os números típicos, tipo média aritmética, obtidos em dados populacionais, enquanto que estatísticas são estimativas
destes parâmetros obtidos num processo amostral.
19
EaD
Quadro 2: Amostras sorteadas3 para a pesquisa e as reservas
RAMAL SORTEADO RESERVAS
Ordem Ramal Ordem Ramal Ordem Ramal Ordem Ramal Ordem Ramal
1 3 6 13 11 21 16 28 21 17
2 5 7 15 12 22 17 29 22 9
3 8 8 16 13 23 18 30 23 24
4 10 9 19 14 25 19 31
5 12 10 20 15 27 20 35
Na seção seguinte vamos conhecer o outro lado do tratamento estatístico. Se por um lado
precisamos dos informantes, por outro necessitamos saber quais as informações sobre a popu-
lação/amostra nos interessam e que são importantes para tirarmos conclusões que respondam
as nossas perguntas/hipóteses.
1.2.2 INFORMAÇÕES
Por informações entendemos os próprios dados que serão trabalhados estatisticamente

com os métodos estatísticos. O tema a ser investigado, as hipóteses e os objetivos é que definem
quais são as informações de interesse nesse campo. Estas informações são denominadas de
variável aleatória.
VARIÁVEL ALEATÓRIA (VA)
Um problema bem estruturado tem suas principais variáveis conhecidas. Por variável
entendemos o conjunto de informações de interesse que estão envolvidas no problema. Essas
informações são aleatórias, isto é, podem ser definidas num conjunto possível de respostas, porém
se combinam ao acaso e não são predeterminadas. Não são informações isoladas, únicas, mas
cada unidade investigada apresenta uma resposta, que mostra diferenças entre elas, isto é, tem
variedade, e apresenta respostas esperadas num grande conjunto de repetições.
Se avaliamos as características físicas do produto principal da empresa podemos encontrar

informações sobre tamanho, espessura, finalidade, valor, custo, cor, formato, tempo de produção,
materiais empregados na sua fabricação, máquinas utilizadas na produção, função dos trabalha-
3
Sorteio realizado com o auxílio do Excel por meio da função: Aleatório ()*36, que gerou 20 nºs entre os 36 ramais da População e mais
3 para reserva em caso de problemas de acesso ao ramal sorteado.
20
EaD
dores envolvidos na produção, locais e formas de comercialização, durabilidade... Estas, portan-

to, são variáveis envolvidas no produto. Observamos que algumas delas apresentam respostas
quantitativas e outras qualitativas.
Se considerarmos o exemplo utilizado para explicar a questão da amostra, podemos consi-

derar que a metodologia a ser empregada na obtenção dos dados é a de quebra do sigilo telefô-
nico nos ramais sorteados (este procedimento deve ser previamente autorizado). Serão colhidas
algumas informações como: X1: autor da ligação, X2: cargo do autor da ligação, X3: tempo de
serviço na empresa e X4: destinatário da ligação; X5: cargo do destinatário da ligação na empresa
concorrente, X6: data e X7: tempo da ligação; X8: assunto abordado na ligação, X9: abordagem
de assunto relacionado com os pré-lançamentos, X10: nº de ligações realizadas para a empresa
concorrente, X11: nº total de ligações, X12: frequência de realização, X13: relação das datas com
períodos de pré-lançamento de produtos, etc. Algumas respostas são categóricas (qualitativas)
outras são numéricas (quantitativas).
a. Variáveis aleatórias qualitativas: são informações cujas respostas são categóricas que podem
apresentar uma ordem ou não entre as diferentes categorias de respostas. Permitem que se
codifique as diferentes alternativas possíveis, são obtidas por meio de contagem de suas repeti-
ções, chamadas de frequências (fi). Entre as variáveis relacionadas anteriormente encontramos
como variável qualitativa (VA Qualitativa):
Quadro 3: Exemplos de variável qualitativa e sua classificação estatística
Variável Categorias Classificação
branca, cinza, verde, azul, ver- Variável Aleatória Qualitativa

Cor
melha... Não Ordenável
Projetista, operador de máquina,

Função dos trabalhadores envol- Variável Aleatória Qualitativa
alimentador de matéria-prima,
vidos na produção Não Ordenável
carregador, pintor...
Variável Aleatória Qualitativa

Durabilidade Mínima, Média, Máxima
Ordenável
b) Variáveis aleatórias quantitativas: são variáveis que apresentam valores quantitativos como
respostas. Podem ser somente valores inteiros (VA Quantitativas discretas) ou admitem valores
fracionários (VA Quantitativas contínuas) como respostas. São finitas (N conhecido) ou infinitas
(N desconhecido). Podem ser enumeradas em ordem crescente ou decrescente, apresentam
valores mínimos (Li) e valores máximos (Ls), são obtidas por meio de técnica de mensuração.
Entre as variáveis relacionadas anteriormente encontramos como variável qualitativa (VA
Qualitativa):
21
EaD
Quadro 4: Exemplos de variável quantitativa e sua classificação estatística

Va riá v e l Va l o r es C la ssi fi ca ç ã o
Variável Aleatória Quantitativa

C u s t o de pr o d u ç ã o X > R$ 00,00
C o ntí nua
N º de t ra b a l ha d o r e s e n vo l - Variável Aleatória Quantitativa

X ∈ ( 0, 1, 2, 3, .....)
v ido s n a pr o d u ç ã o Di screta
Com esse Quadro 4 concluímos a apresentação da base necessária para constituir um tra-
balho estatístico, isto é, seu objeto e seu objetivo, construídos na ótica de buscar os informantes
e por meio deles obter as informações necessárias para conhecer de forma ampla a temática de
nosso interesse. Com as aplicações pretendemos abrir um espaço de uso desse conteúdo de forma
que possa alargar os horizontes do conhecimento estatístico. Lembre-se de que esta adequação
inicial em termos de linguagem, conceitos, identificações, vão permitir que o seu tratamento dos
dados seja adequado e pertinente.
Seção 1.3
Aplicações
a. Considere o exemplo dos ramais, as variáveis sugeridas, complementando-as e classificando-

as organizando um quadro como os utilizados anteriormente.
b. Organize três estudos definindo:
A temática, população, N, amostra, n, sorteio, variáveis e sua classificação.
No banco de dados (Inep/IBGE/PNAD) a seguir, defina Temática, População, N, Variáveis

e sua classificação:
22
EaD
Tabela 1: Rendimento médio mensal e número de profissionais por tipo de profissão segundo regiões geográficas e Brasil – 2001
(Em R$ 1,00)
Nº de
Centro–
profissio- Brasil Norte Nordeste Sudeste Sul
Oeste
nais
Professor da educação infantil 201.232 422,78 388,89 232,79 522,44 435,87 749,61
Professor de 1a a 4a série 881.623 461,67 443,17 293,18 599,19 552,72 567,38
Professor de 5a a 8a série 521.268 599,85 600,99 372,81 792,82 633,92 593,52
Funções adm. de nível superior

139.575 849,16 753,20 549,60 1.092,85 738,27 834,86
em educação
Professor de nível médio 348.831 866,23 826,28 628,08 979,16 804,32 872,20
Suboficial das Forças Armadas 517.038 868,73 817,55 723,52 986,19 747,23 910,93
Professor-pesquisador no E.
6.448 898,80 215,33 1.150,16 946,56 712,65 875,47
Superior
Agente administrativo público 316.761 911,82 661,40 679,31 1.072,50 926,14 1.103,37
Administrador de empresas 502.895 1.202,86 986,87 774,85 1.411,18 1.057,85 1.123,93
Técnico de nível superior –

421.318 1.310,56 1.053,94 794,02 1.586,97 1.308,30 1.876,79
público
Policial civil 72.743 1.510,64 1.344,46 1.320,40 1.457,90 1.488,02 2.087,23
Oficial das Forças Armadas 89.387 2.091,53 2.129,41 1.674,46 2.250,53 1.949,68 2.321,03
Economista 44.772 2.254,66 1.700,77 2.009,08 2.227,19 1.641,35 3.592,64
Auditor 68.870 2.408,40 3.512,94 1.584,94 2.588,47 1.986,32 3.133,88
Advogado 271.241 2.496,76 3.893,83 2.245,35 2.431,04 2.597,39 2.768,25
Professor de nível superior 136.977 2.565,47 1.800,30 2.252,08 3.086,95 2.122,77 2.190,10
Delegado/Perito 13.973 2.660,52 2.753,91 1.347,25 2.650,73 3.714,45 5.969,61
Médico 257.414 2.973,06 4.429,82 2.576,78 2.801,77 3.260,41 4.110,87
Juiz 10.036 8.320,70 5.905,38 8.038,88 9.018,42 9.750,00 7.331,08
Fonte: Pesquisa Nacional por Amostra de Domicílios (Pnad) – 2001.
Nota: (1) Valor em R$ de setembro de 2001.
Obs. Não estamos enfatizando o processo amostral nestas aplicações da Unidade 1, posto que
esta será tratada mais detalhadamente na Unidade 4.
23
EaD
RESUMO DA UNIDADE 1
Esta é uma unidade essencial, pois nela conhecemos termos e sig-

nificados que vão acompanhar nossos estudos até o final deste livro
e muito além. Aprendemos que a Estatística basicamente utiliza In-
formantes (População e Amostra) e Informações (Variáveis aleatórias
quantitativas e qualitativas) para descrever (Estatística Descritiva),
projetar (Estatística Inferencial) e estabelecer relações (Estatística
Aplicada). Neste curso vamos trabalhar esses três níveis de conhe-
cimento estatístico.
Referências que consultamos especificamente para esta Unidade e sugerimos aos alunos
que consultem:
• CHIAVENATO, Idalberto. Introdução à Teoria Geral da Administração. 4. ed. São Paulo:

Makron, 1993.
• DRUCKER, Ferdinand P. A profissão de administrador. São Paulo: Pioneira Thompson

Learning, 1998.
• FERREIRA, Aurélio Buarque de Holanda. Dicionário da Língua Portuguesa. Rio de Janeiro:

Nova Fronteira, 1995.
• LACOMBE, F. J. M.; Heilborn, G. L. J. Administração: princípios e tendências. 1. ed. São Paulo:

Saraiva, 2003.
• MONTANA, Patrick J. Administração. 2. ed. São Paulo: Saraiva, 2003.
• ARAÚJO, Luis César G. Teoria geral da Administração: aplicação e resultados nas empresas
brasileiras. São Paulo: Ed. Atlas, 2004.
• RIEGEL, John. Employee interest in company success-how can it be stimulated and maintained?
Address on industrial relations. Bureau of Industrial Relations; University of Michigan; Ann
Arbor, 1955. p. 25.
24
EaD
Unidade 2
BANCO DE DADOS, TABELAS E GRÁFICOS:

Sistematização e Apresentação de Dados
Ruth Marilda Fricke
• Dominar três formas especiais de sistematizar e apresentar dados estatísticos transformando-os

em informações de apoio na área administrativa: bancos de dados, tabelas e gráficos.
SEÇÕES DESTA UNIDADE:
Seção 2.1 – Banco de Dados
Seção 2.2 – Tabelas Simples – Univariadas e Bivariadas – com Variáveis Qualitativas
Seção 2.3 – Tabelas em Série Numérica e Distribuição de frequências com Variáveis Quantitativas
Seção 2.4 – Representação Gráfica e sua Leitura
Seção 2.5 – Aplicações
As áreas da Administração e da Estatística interagem a partir do momento em que ambas

trabalham com informações da realidade. Estas informações são mais bem conhecidas a partir do
tratamento estatístico, que permite uma visão mais global do comportamento dos dados quando
visualizados em sua individualidade, e das relações que elas estabelecem entre si quando ana-
lisadas conjuntamente, em um plano bidimensional ou tridimensional. Esse tratamento, que se
inicia com o banco de dados, é organizado em forma de tabelas e apresentado em forma de grá-
ficos. Com isso a Administração potencializa as tomadas de decisão embasada em informações
estatísticas que conduzem as ideias e sustentam os projetos da área administrativa.
25
EaD
Utilizaremos na apresentação deste conteúdo alguns indicadores calculados a partir de

estatísticas dos municípios gaúchos apresentados pelo IBGE; disponível em: <www.ibge.gov.br/
cidades/default.php>. Acesso em: jun. 2009. Inicialmente precisamos entender que a divisão po-
lítica do RS é realizada em mesorregiões, em número de 7, 35 microrregiões e 496 municípios.
Vamos então iniciar pela utilização do banco de dados, uma espécie de planilha de dados
que apresenta não apenas os dados, mas as variáveis, informa a população, número de registros
e dados pareados1 de todas as unidades (populacionais ou amostrais) que estão sendo apresen-
tadas.
Seção 2.1
Banco de Dados
Para dar início ao tratamento estatístico necessitamos coletar dados que provêm das per-
guntas que nos fazemos em relação à nossa população dentro da temática que nos interessa.
Assim, se formos estudar a distribuição dos municípios da Microrregião de Três Passos,

suas potencialidades econômicas e capacidade de atender à demanda na região em que está
estabelecida, podemos buscar dados sobre:
1
Pareados significa que todos os dados apresentados numa mesma linha referem-se à mesma unidade e não podem ser isolados nem
misturados, pertencem àquela unidade. Por exemplo, se temos idade, sexo, escolaridade, data de admissão na empresa, estas são sempre
informações particulares do sujeito e não podem desconectar-se dele.
26
EaD
Quadro 1: Codificação e variável com classificação e categorias do banco de dados
X N Nº de ordem do município
X1 Mun Município
X2 POP População Residente – Variável aleatória quantitativa discreta
X3 PIB_cap PIB per capita – Variável aleatória quantitativa contínua
Classificação do PIB per capita – Variável aleatória qualitativa ordenável –[1) Pobre:
X4 Cls_PIB <7 mil dólares /ano; 2) Em desenvolvimento: de 7 a 24,99 mil dólares/ano; 3) Rico: >
25 mil dólares/ano ou mais]
X5 N_agFin Nº de agências financeiras no município -– Variável aleatória quantitativa discreta
Valor_ Valor retorno do Fundo de Participação dos Municípios– Variável aleatória quantita-
X6
FPM tiva contínua
X7 Valor_ITR Valor do Imposto Territorial Rural– Variável aleatória quantitativa contínua
X8 Ind_Res Nº de indústrias por mil hab. – Variável aleatória quantitativa contínua
Classificação da relação entre indústrias por mil habitantes– Variável aleatória

qualitativa ordenável – [1) Não industrializado < 1 indústria por 1000 hab.; 2) Pouco
X9 Cls_ind industrializado – 2 a 4,9 indústrias por 1000 hab.; 3) Média industrialização 5 a 10,9
indústrias por 1000 hab.; 4) Bem Industrializado – 11 a 19,9 indústrias por 1000 hab.;
5) Industrial – ≥ 20 indústrias por 1000 hab.;]
X10 Área Área territorial do município em km²– Variável aleatória quantitativa contínua
Classificação da área territorial – Variável aleatória qualitativa ordenável– [1) Peque-

X11 Cls_Área na – < 200 km²; 2) Médio – 200 a 500 km²; 3) Grande 501 a 1000 km²; 4) Extenso – >
1000 km²]
X12 Densidade Densidade demográfica Hab/km² – Variável aleatória quantitativa contínua
Classificação da Densidade demográfica– Variável aleatória qualitativa ordenável–

X13 Cls_Dens [1) Alta densidade: > 1000 hab./km²; 2) Grande densidade: 501 a 1000 hab./km²; 3)
média densidade: 100 a 500 hab./km²; 4) baixa densidade: < 100 hab./km²]
Nossa população são todos os municípios da Microrregião de Três Passos. Isso se consti-
tui no nosso N, numeradas de 1 a N. Todas as informações que obtivermos às nossas perguntas
constituirão nossas variáveis. As informações referem-se a cada um dos municípios, portanto
constituem informações casadas, relacionadas, e não podem ser misturadas, pois cada uma está
ligada a um município em particular.
Trata-se, portanto, de uma relação de dados obtidos por meio de uma pesquisa, de um
levantamento de dados e contém todas as informações que foram levantadas e as transforma-
ções que foram realizadas para conseguir ampliar a base das mesmas. No banco de dados nº 1,
27
EaD
as variáveis básicas são X1, X2, X3, X5, X6, X7, X8, X10. Com estas variáveis foram feitas algumas
transformações que resultaram nas variáveis X4, X9, X11, X12, X13. Assim, o banco de dados vai se
constituindo com as variáveis originais e as que são geradas a partir das mesmas.
As informações dos municípios entrarão nas linhas e as variáveis nas colunas. O total de
municípios é o N = 20, neste caso
Quadro 2: Banco de dados nº 1– Municípios da Microrregião de Três Passos
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X1

Den-
PIB_ Cls_ N_ Valor_ Ind_ Cls Cls
N Mun POP Valor_FPM Clsind Area sida-
cap PIB agFin ITR Res area dens
de
Barra do
1 2.969 6.508 1 0 2.797.615,36 533,7 2 2 65 1 45,7 5
Guarita
Boa Vista do
2 6.468 10.114 1 2 2.797.615,36 1.902,02 17 4 109 1 59,3 5
Buricá
Bom Pro-
3 2.441 7.338 1 0 2.797.615,36 2.369,08 5 3 89 1 27,4 3
gresso
4 Braga 3.826 6.984 1 0 2.797.615,36 4.145,13 3 2 129 1 29,7 3
Campo
5 5.581 9.658 1 2 2.810.105,39 15.989,17 7 3 222 2 25,1 3
Novo
6 Crissiumal 14.726 9.687 1 3 5.267.727,46 5.417,75 8 3 362 2 40,7 5
7 Derrubadas 3.378 8.957 1 0 2.410.580,60 4.060,42 1 1 361 2 9,4 1
Dr Maurício
8 5.494 10.597 1 2 3.512.012,00 7.660,00 6 3 256 2 21,5 3
Cardoso
Esperança
9 3.445 7.821 1 0 2.798.876,06 1.724,62 3 2 148 1 23,3 3
do Sul
10 Horizontina 18.305 19.805 2 4 5.595.230,83 8.291,42 8 3 229 2 79,9 5
11 Humaitá 4.923 11.774 1 1 2.797.615,36 2.519,68 8 3 135 1 36,5 4
12 Miraguaí 4.869 6.473 1 1 2.797.615,36 1.324,74 4 2 130 1 37,5 4
Nova Can-
13 2.739 12.368 1 0 2.797.615,39 946,85 4 2 98 1 27,9 3
delária
14 Redentora 9.600 5.122 1 1 2.810.105,36 6.674,59 2 2 303 2 31,7 4
São Marti-
15 5.853 10.212 1 2 2.797.615,36 5.514,40 10 4 172 1 34,0 4
nho
16 Sede Nova 2.968 11.782 1 0 2.797.615,36 4.554,22 7 3 119 1 24,9 3
Tenente
17 13.906 7.301 1 2 4.340.091,71 3.703,25 7 3 338 2 41,1 5
Portela
Tiradentes
18 6.928 6.765 1 0 2.797.615,36 2.944,97 2 2 234 2 29,6 3
do Sul
19 Três Passos 23.467 12.755 1 5 9.657.490,50 5.196,27 8 3 268 2 87,6 5
Vista Gaú-
20 2.713 9.920 1 0 2.797.615,76 922,33 8 3 89 1 30,5 4
cha
Fonte: IBGE/cidades.
O banco de dados é na verdade uma listagem de todas as informações obtidas, sejam elas
originais ou transformações.
Nos casos em que as variáveis forem qualitativas, utilizamos um código para representar as
diversas categorias de resposta, como fizemos com a variável – Classificação do PIB per capita,
na qual utilizamos os seguintes códigos, com as respectivas classificações e faixa de dados:
28
EaD
1) Pobre– < 7 mil dólares/ano.
2) Em desenvolvimento – 7 a 24,99 mil dólares/ano.
3) Rico-> 25 mil dólares/ano.
Se não obtivermos informação podemos assumir um código único para todo o banco de
dados representando a Não Resposta: 99, 999 por exemplo. Essa informação será contabilizada
como um valor não válido e será descontada do total para obtermos um percentual válido sobre
as respostas válidas. É importante obtermos todas as respostas para os questionamentos feitos,
pois o excesso de “Não resposta” pode inviabilizar a análise e a retirada de conclusões, isto é,
nossa base de informações pode não estar realmente “informando”.
Na próxima seção vamos estudar os tipos de tabelas simples – univariadas (uma única
variável na tabela) e bivariadas (duas variáveis tratadas conjuntamente numa única tabela,
apresentando o comportamento interativo das duas). Esse tratamento abrange as variáveis qua-
litativas na maioria dos casos.
Seção 2.2
TABELAS SIMPLES – Univariadas e Bivariadas – Com Variáveis Qualitativas
A tabela univariada apresenta uma única variável e é também chamada de tabela simples.
É utilizada para representar variáveis qualitativas, cujas respostas são nominais, são categorias. A
estatística neste caso está limitada a descrever o que ocorreu em termos de repetições. As partes
da tabela são: título, barra de informações, dados obtidos, barra de totais e fonte das informações.
Nenhuma dessas partes pode faltar para que o trabalho estatístico tenha validade, seja feita uma
leitura das informações obtidas e possam ser compreendidas.
1) Uma tabela deve apresentar um título que apresenta a variável que está sendo apresentada,
população, local e tempo em que os dados foram coletados.
2) Na parte superior da tabela simples existe uma barra de informações, em que constam todos
os tipos de informações que serão apresentadas ou trabalhadas na tabela.
3) No corpo da tabela contabilizamos as repetições das respostas e calculamos o valor percentual.

As repetições são números reais e absolutos, permitem avaliar a importância das diferentes
categorias, no entanto só podemos comparar com outras variáveis se o número de dados for
igual. Nesse caso, se a intenção é fazer comparações temos de utilizar um valor relativo, que
é a porcentagem.
29
EaD
• Nº: são as repetições de uma determinada resposta no banco de dados;

Nº
• %: é o valor relativo do Nº em relação ao total de respostas, o n %= *100
n
• % válido: é o valor relativo calculado sobre o total de respostas válidas, isto é, n* = n – NR,
Nº
não respostas. % = *100, n* = n − NR , ou seja:
n*
%..válido
%.
f i*100
• f i*100 ; % = ;
%= n − NI
n
NI :.mis sin g
Na parte inferior, uma barra com os totais, ou seja, as somatórias das colunas do Nº (fi) que
no caso representa o n, Total de dados, (∑ fi = n) e dos percentuais, cuja soma deve ser 100%.
Neste cálculo vários arredondamentos são possíveis de serem utilizados: a) em primeiro
lugar, optamos por trabalhar com duas casas após a vírgula para que os arredondamentos não
possuam efeito muito drástico, capaz de alterar a interpretação do resultado; b) utilizamos, pre-
ferencialmente, os seguintes critérios: se a 3ª casa for um nº no intervalo de 0 a 4, eliminamos
(exemplo % = 5/26*100 = 19,23077 ≅ 19,23); se a 3ª casa for um nº no intervalo de 5 a 9, elimi-
namos e aumentamos um ponto na 2ª casa (exemplo % = 6/26*100 = 23,07692 ≅ 23,08).
• Fonte: informa a proveniência dos dados, potencializando que se busquem mais informações,
que as atualizemos e também referem a credibilidade dos dados.
Estes detalhes podem ser vistos na Tabela 1 a seguir.
Apresentamos um exemplo com base no banco de dados sobre a participação da população
com 100 anos ou mais na população com 60 anos ou mais segundo o local de moradia e sexo nas
UF/BR – 2007. Esta tabela demonstra as duas possibilidades – Presença de todas as Respostas e
presença de dados censurados NI (missing) – ou seja, falta de informação:
%.deRaros.Mulher.Rural.com. > de.100anos %..válido.de.raros.MR.c. > 100.anos

6 6*100
% = *100 = 23,08% ; %= = 24%
26 .......26 − 1
NI :.mis sin g = 1
30
EaD
Tabela 1: Participação de idosos com 100 anos ou mais no grupo de pessoas com 60 anos ou mais,
considerando sexo e local de moradia, nas diversas UF/BR – 2007
% MR
Participação MR % MR HR % HR MU % MU HU % HU
válido
Raros (0 a 4/10 mil idosos) 6 23,08 24,00 19 73,08 8 30,77 19 73,08
Nº Médio (5 a 14/10 mil idosos) 14 53,85 56,00 7 26,92 17 65,38 7 26,92
Grande Nº (15 ou +/10 mil idosos) 5 19,23 20,00 1 3,85
Total 25 96,15 100,00 26 100,00 26 100,00 26 100,00
NR 1 3,85
Total 26 100,00
Obs.: Siglas: MR – Mulheres da área Rural; HR – Homens da área Rural;
MU – Mulheres da área Urbana; HU – Homens da área Urbana;
Categorias da participação: Raros: % < 0,05; Nº Médio: 0,05 a 0,14; Grande Nº: % > 0,14
Na Tabela 1 estamos avaliando a variável Participação de Idosos com 100 anos ou mais no
grupo de Idosos da População com 60 anos ou mais, considerando diferentes informações que
potencializam obter diferentes aspectos que podem ser comparados.
Estamos comparando os Estados segundo sua distribuição de longevidade a partir de di-

ferenças apresentadas por sexo (H ou M) e por localização (R ou U). Nesse caso a variável é a
mesma, as populações apresentam características diferenciadas.
O comentário que vamos apresentar a seguir de cada tratamento específico dos dados é
uma das diversas “leituras” dos resultados estatísticos. Procuramos, especialmente, nesse tipo
de comentário:
• apresentar inicialmente uma idéia geral à qual o tratamento estatístico permitiu chegar, au-
xiliando o leitor a “enxergar” nos resultados o que estes nos revelam, isto é, encaminhando a
leitura na direção que é compatível com os objetivos para os quais os dados foram coletados;
• sustentar as ideias, argumentações com as estatísticas calculadas. Estas são argumentativas

por si próprias e devem convencer o leitor. Por exemplo, não basta dizer “a maioria” dos Esta-
dos, é necessário informar de quanto é essa proporção para que ela convença o leitor sobre a
superioridade em termos de presença dessa categoria;
• evitar referir todos os dados da tabela, apenas os que queremos colocar em destaque;
• procurar apresentar informações que estão subjacentes, retrabalhadas, tipo a soma de dois
dados, o complementar de algum deles.
Comentário 1: Com base nesta tabela constatamos que a maior participação de

pessoas com 100 anos ou mais na população idosa são as mulheres do meio ru-
ral (MR), que apresentam em 76% dos Estados um número médio de idosos,
31
EaD
em torno de 5 a 14 idosos com 100 anos ou mais em cada 10 mil idosos (56%), 15 ou mais
idosos com 100 anos ou mais em cada 10 mil idosos (20%). A menor presença é de homens
com mais de 100 anos, tanto no meio urbano como no rural. São raros (menos de 5 idosos com
100 anos ou mais em cada 10 mil idosos) em 73% dos Estados em ambos os casos.
Outro exemplo deste tratamento utilizando múltiplas tabelas para traçar o perfil pode ser
vista na Tabela 2. Nesse caso, diferentes variáveis são consideradas para uma mesma população,
mas ainda tratadas isoladamente. O que muda é a apresentação conjunta.
Vejamos então, na Tabela 2, variáveis da Microrregião de Três Passos, apresentando seu

perfil econômico a partir de 5 delas: Porte dos municípios, Classificação da densidade demográ-
fica, Classificação pelo PIB per capita, Nº de Agências Financeiras e Classificação nº indústrias/
mil hab.
Tabela 2: Classificação dos municípios segundo potencial econômico da Microrregião de Três Passos com 20 municípios 2
N=20 Nº %
Porte dos Municípios 2
1 – Pequeno Porte I (até 20 mil hab.) 11 55,00

2 – Pequeno Porte II (20 a 50 mil hab.) 9 45,00
Classificação da densidade demográfica*
1 – (< 10hab. /km²) 1 5,00
3 – (20 a 29 hab./km²) 8 40,00
4 – (30 a 39 hab./km²) 5 25,00
5 – (40 e mais hab./km²) 6 30,00
Classificação pelo PIB per capita
1 – Pobre 19 95%
2 – Em desenvolvimento 1 5%
Nº de Agências Financeiras
0 9 45,00
1 3 15,00
2 5 25,00
3 1 5,00
4 1 5,00
5 1 5,00
Classificação nº indústrias/mil hab.
1) Não industrializado (<1/mil hab.) 1 5,00
2) Pouco industrializado (2 a 4,9/mil hab.) 7 35,00
3) Média industrialização ( 5 a 10,9 /mil hab.) 10 50,00
4) Bem Industrializado – (11 a 19,9/mil hab.) 2 10,00
* Todos os municípios apresentam densidade inferior a 100 hab./km2, logo tem baixa densidade demo-
gráfica. A classificação evidencia 5 níveis (1 a 5) sendo 1 o menor e 5 o maior dentro do grupo
2
Fonte: Atlas de Desenvolvimento Humano, 2002.
32
EaD
Estas variáveis oferecem uma visão geral da Microrregião, não permitindo fazer desta-
ques de municípios individualmente, mas pretende dar uma visão da Microrregião em termos
econômicos.
Comentário 2: Utilizando o banco de dados da Microrregião de Três Passos, buscamos fazer

uma avaliação do potencial econômico da riqueza da região. Constata-se na Tabela 2 que são
20 municípios de pequeno porte (55% de nível I com até 20 mil habitantes e 45% de nível II com
20 a 50 mil habitantes), em sua maioria com baixo rendimento econômico e baixa densidade
demográfica: menos de 100 hab./km2. Apenas três municípios apresentam um destaque em
termos econômicos: Três Passos, Crissiumal e Horizontina. Os demais apresentam populações
pobres, com baixo rendimento e baixo potencial de desenvolvimento. Podemos observar que em
termos de PIB per capita (fatia do PIB por residente nos municípios da Microrregião), 95% dos
municípios podem ser considerados subdesenvolvidos/pobres, uma vez que o PIB per capita/
ano é inferior a US $ 7 mil dólares/ano, o que daria uma base em torno de R$ 1000,00/mês.
Nessa Microrregião 45% dos municípios não dispõem sequer de uma agência financeira, e o
número médio de agências financeiras por município é de 1,25. O número de indústrias para
cada mil habitantes indica que existem apenas dois municípios que apresentam uma maior
industrialização, com 11 a 20 indústrias por mil habitantes. 40% dos municípios são pouquís-
simo ou nada industrializados (menos de 5 indústrias por mil habitantes).
As tabelas bivariadas, por sua vez, apresentam simultaneamente duas ou mais variáveis,
cada variável é uma dimensão. Quando trabalhamos com uma ou até duas dimensões os resul-
tados do tratamento são simples de explicar e compreender, porém se trabalharmos com três ou
mais dimensões torna-se bem mais complexo. Por isso vamos nos restringir a duas dimensões.
Ao sistematizar duas variáveis vamos construir uma tabela bivariada, também chamada
de tabela cruzada, ou tabela de dupla entrada.
Estas variáveis devem ser qualitativas ou então transformadas em qualitativas pela orga-
nização de dados quantitativos em intervalos tipo faixa etária, por exemplo. Uma variável entra
na linha (li ) e outra na coluna (cj ) da matriz. Nas margens da Tabela teremos os dados de cada
variável em separado, e no interior a frequência conjunta (fij ), em que i representa a informação
da linha e j a informação da coluna. Se estamos tratando de sexo e consumo de determinado
bem, podemos ter os seguintes pares de informações conjuntas: masculino e consome; mascu-
lino e não consome; feminino e consome; feminino e não consome. Resumidamente, temos os
seguintes pares: (M;C); (M;N); (F;C); (F;N). Vamos contar a repetição de cada par para formar
a frequência conjunta. Se tivermos seis homens que consomem este bem, então a primeira fre-
quência conjunta é 6.
33
EaD
Nas tabelas cruzadas temos três tipos de frequência relativa:
• de linha (em relação a cada categoria da variável que está na linha), permitindo saber como
essa categoria se distribuiu ante as que estão na coluna;
• de coluna (em relação a cada categoria da variável que está na coluna), permitindo saber como
essa categoria se distribuiu ante as que estão na linha;
• do total (em relação ao total geral), permitindo saber como essa categoria se distribuiu ante o
grupo todo, total geral.
As fórmulas para o cálculo desses percentuais são estas:
%.de.linha %.de.coluna %.de.total

f i , j*100
%i , j = ; % = f i , j*100 ; % = f i , j*100
∑ li i, j
∑cj
i, j
n
No exemplo:
%.de.sexo %.de.consumo %.de.total

6 ; 6 ; f
%1,1 = *100 = 20,0% %1,1 = *100 = 11,8% %i , j = i , j*100
30 51 n
Para apresentar a tabela bivariada, ou tabela conjunta, estamos utilizando um exemplo do

banco de dados sobre o padrão alimentar de um grupo de alunos. Encontramos inicialmente as
frequências conjuntas e as frequências marginais (estas formam os resultados como se fossem
uma tabela simples). A seguir, empregando as fórmulas apresentadas anteriormente, calculamos
os percentuais, realizando logo a seguir o comentário (leitura) das informações sistematizadas
nessa tabela:
Tabela 3: Consumo de alimento “light” por sexo
Sexo\consumo Consome Não Consome Total p/sexo

Masculino 6 24 30
% sexo 20,0 80,0 100,0
% consumo 11,8 58,5 32,6
% do total 6,5 26,1 32,6
Feminino 45 17 62
% sexo 72,6 27,4 100,0
% consumo 88,2 41,5 67,4
% do total 48,9 18,5 67,4
Total p/consumo 51 41 92
% sexo 55,4 44,6 100,0
% consumo 100,0 100,0 100,0
% do total 55,4 44,6 100,0
Fonte: Registro de aula.
34
EaD
Comentário 3: Observa-se que a preocupação com o consumo de alimentos “light”, conside-

rados com menor potencial de prejuízo à saúde, está associado com o sexo do consumidor:
mulheres consomem mais do que homens. Constata-se que é maior entre as mulheres (72,6%
das mulheres) do que entre os homens (apenas 20% dos homens), referindo portanto que
88,2% do consumo é realizado por pessoas do sexo feminino e 58,5% dos que não consomem
são homens.
Para fazer a análise da tabela bivariada realizamos o mesmo tipo de recorte permitido nas
tabelas simples.
• apresentar a idéia síntese da intenção que motivou a tabela;
• um cuidado é o de não rediscutir todos os percentuais;
• não utilizar todos os percentuais referentes a uma frequência conjunta. Escolher o que melhor
expressa a intenção da pesquisa;
• procurar embasar os comentários com as estatísticas mais adequadas, isto é, escolher o que vai
sustentar melhor, convencer melhor o leitor.
Ao fazermos a leitura da tabela temos de nos conscientizar de que o fazemos para terceiros,
que não terão a visão dos dados brutos e nem das diferentes maneiras pelas quais os mesmos
podem ser sistematizados, apresentados ou interpretados. Muitas relações que estão subjacentes
aos dados podem ser ressaltadas nesses comentários pelo autor, encaminhando a compreensão
que o leitor vai ter da temática. Com isso, alertamos para a parcialidade do comentário, não há
neutralidade nele. O autor deve assumir que conduz o leitor à interpretação.
A seguir vamos apresentar outro exemplo: Condições Econômicas dos Municípios da Mi-
crorregião de Três Passos, a partir do banco de dados nº 1.
Tabela 4: Nº de Agências financeiras segundo o porte dos municípios da Microrregião de Três Passos em 2007.
Nº Agências
Po r t e d o s m u n i c í p i o s
0 1 2 ou mais To t a l p o r A g ê n c i a s
Pe q u e n o Po r t e I 7 2 2 11
% área 63,6 18,2 18,2 100,0
% agências 77,8 66,7 40,0 55,0
% total 35,0 10,0 10,0 55,0
Pe q u e n o Po r t e I I 2 1 6 9
% área 22,2 11,1 66,8 100,0
% agências 22,2 33,3 83,3 45,0
% total 10,0 5,0 30,0 45,0
To t a l p o r Po r t e 9 3 8 20
% área 45,0 15,0 40,0 100,0
% agências 100,0 100,0 100,0 100,0
% total 45,0 15,0 40,0 100,0
35
EaD
Comentário 4: O número de agências financeiras no município depende do porte do mesmo.

Na Microrregião de Três Passos observa-se que três municípios apresentam melhores con-
dições econômicas em termos de PIB per capita. O porte do município explica o número de
agências financeiras observado em cada município. Assim, constata-se que 35% deles são
de Pequeno Porte nível I, isto é, com até 20 mil habitantes e não apresentam agência finan-
ceira, enquanto que 30% são de Pequeno Porte nível II, de 20 a 50 mil habitantes, e possuem
5 agências financeiras.
Agora que construímos tabelas simples e cruzadas para sistematizar e apresentar as variáveis
qualitativas, vamos ver como se organizam dados quantitativos. Basicamente a organização de
dados quantitativos é realizada com dois procedimentos distintos: Série Numérica (uma relação
de dados não agrupados) e Distribuição de frequências (os dados agrupados em intervalos).
Seção 2.3
Tabelas em Série Numérica e Distribuição de Frequências
com Variáveis Quantitativas
A sistematização dos dados de variáveis quantitativas permite um pouco mais de trata-

mento estatístico. O número de informações com as quais trabalhamos e a apresentação de um
comportamento padronizado ou não vão definir se a sistematização será feita por meio de Série
Numérica (pequenas amostras, n<20), que trabalha com toda a informação individualizada, isto
é, listada uma a uma, ou de Distribuição de frequências (grandes amostras, n≥20), que distribui
as repetições dentro de intervalos, informando, portanto, que naquela faixa de valores existem
fi (frequência, nº), que são as observações.
Na Série Numérica, quando trabalhamos com pequenas amostras de tamanho menor do

que 20, listamos os valores de Xi (variável aleatória) ordenados em ordem crescente, do menor
para o maior. Consideramos a listagem dos dados absolutos nesse caso, pois devido ao pequeno
tamanho da Amostra ou População, o agrupamento dos valores observados em intervalos signi-
ficaria uma perda de informações que inviabilizaria a compreensão do fenômeno. Após fazer a
listagem dos dados ordenados o máximo que podemos obter, nessa fase inicial, são:
• Informações sobre o n, valor mínimo (Li – Limite Inferior), o valor máximo (Ls – Limite Supe-
rior), a amplitude total (At = Ls – Li, Faixa de variação dos dados entre o maior e o menor).
• Referências para um agrupamento qualitativo, formação de categorias que reagrupem os

valores de forma nominal.
36
EaD
xi
• Avaliação da composição do total pelo valor relativo da parte considerada. VR = n
*100
∑ xi
i =1
Empregamos, para exemplificar, os dados referentes aos municípios que estão separados
por Porte, como municípios de Pequeno Porte Nível I e II, da Microrregião de Três Passos. No
caso dos Municípios de Pequeno Porte I ou II, observa-se que:
Quadro 3: Informações básicas da Microrregião de Três Passos
Municípios de Pequeno Porte I Municípios de Pequeno Porte II

nI = 11 nII = 9
Li = R$ 533,70 Li = R$ 2.944,97
Li = R$ 5.514,40 Li = R$ 15.989,17
At = R$ 4.980,70 At = R$ 13.044,20
Apesar do número diferenciado de municípios de Pequeno porte por Nível, n = 11 no

caso do Nível I e n = 9 no Nível II, a variação entre o menor valor do ITR no primeiro caso é
de aproximadamente R$ 5.000,00 (0,5 a 5,5 mil reais), enquanto no segundo caso é de quase 3
vezes mais (2,9 a 15,9 mil reais).
Tabela 5: Valor do ITR (Imposto Territorial Rural) nos municípios de Pequeno Porte Nível I e II
da Microrregião de Três Passos – RS – 2007.
Pequeno Porte I Pequeno Porte II

N Município Valor_ITR VR N Município Valor_ITR VR
1 Barra do Guarita 533,70 2,02 1 Tiradentes do Sul 2.944,97 4,91
2 Vista Gaúcha 922,33 3,49 2 Tenente Portela 3.703,25 6,18
3 Nova Candelária 946,85 3,58 3 Derrubadas 4.060,42 6,77
4 Miraguaí 1.324,74 5,01 4 Três Passos 5.196,27 8,67
5 Esperança do Sul 1.724,62 6,52 5 Crissiumal 5.417,75 9,04
6 Boa Vista do Buricá 1.902,02 7,19 6 Redentora 6.674,59 11,14
7 Bom Progresso 2.369,08 8,95 7 Dr Maurício Cardoso 7.660,00 12,78
8 Humaitá 2.519,68 9,52 8 Horizontina 8.291,42 13,83
9 Braga 4.145,13 15,67 9 Campo Novo 15.989,17 26,68
10 Sede Nova 4.554,22 17,21 Total 59.937,84 100,00
11 São Martinho 5.514,40 20,84
Total 26.456,77 100,00
37
EaD
Estes dados são apresentados em forma de série numérica pois em ambos os casos, n<20:3
municípios de Pequeno Porte I, nPPI = 11; Municípios de Pequeno Porte I, nPPII = 9. Agrupá-los
e distribuí-los em intervalos é inviável porque ocorre muita perda de informação. Como são
valores quantitativos, procurou-se avaliar a contribuição total em cada grupo de municípios e a
participação de cada um deles nesse montante. Para calcular essa participação utilizamos o VR
= valor relativo, isto é, a parte da cada município dentro do total do grupo.
Comentário 5: O montante arrecadado de ITR nos Municípios de Pequeno Porte nível II é

aproximadamente o dobro do outro grupo, perfazendo quase 60 mil reais. O município que
mais contribui para o primeiro montante (R$ 26.456,77) é São Martinho, que arrecada 20,84%
do valor total. O município que mais contribui para o segundo montante (R$ 59.937,84) é
Campo Novo, que arrecada 26,86% do valor total. Aproximadamente 90,9% dos municípios de
Pequeno Porte I apresentam baixa arrecadação de ITR, enquanto que no grupo de municípios
de Pequeno Porte II, 66,7% dos municípios apresentam arrecadação média.
Com esse resultado poderíamos formar 2 grupos de arrecadações do ITR, apresentados a

seguir mediante tabelas simples, pois criaram-se a partir dessa informação estatística dois grupos:
com baixa e média arrecadação, visualizados na Tabela 6:
Tabela 6: Classificação dos municípios segundo o porte e valor de ITR arrecadado na Microrregião de Três Passos
Pequeno Porte I Pequeno Porte II

Arrecadação Intervalo
Nº % Nº %
Baixa < R$ 5.000,00 10 90,91 3 33,33
Média ≥ R$ 5.000,00 1 9,09 6 66,67
Total 11 100,00 9 100,00
Fonte: Elaboração da autora com base nos dados do IBGE/cidades.
Na Distribuição de frequências, quando trabalhamos com grandes amostras de tamanho

maior ou igual a 20, podemos adotar essa técnica de agrupamento de dados, que é uma ferra-
menta poderosa na sistematização dos dados, pois apresenta bastante flexibilidade na escolha
da amplitude parcial e dos limites dos intervalos com pequena perda de informações. As únicas
exigências que se fazem nesse caso são:
a. que o Li seja incluído no 1º intervalo, entendendo-se neste caso que o limite inicial do 1º
intervalo não precisa necessariamente ser o Li, mas este deve estar obrigatoriamente contido
nele;
3
N PPI: número de municípios de pequeno porte I.
N PPII: número de municípios de Pequeno Porte II.
38
EaD
b. que o Ls seja incluído no último intervalo, entendendo-se neste caso que o limite final do último
intervalo não pode ser o Ls, mas tem de estar obrigatoriamente contido nele;
c. que todos intervalos precisam ter frequência maior do que zero, isto é, fi > 0.
Observadas à risca estas exigências, iniciamos o tratamento dos dados para um conjunto de
dados cujo n > 20.
Essa tarefa de sistematização passa pelo levantamento das informações básicas, ordenação
em forma crescente do menor para o maior valor com o Ramo e Folhas, avaliação da ocorrência de
valores soltos, fora do padrão, por meio do Diagrama de Pontos, dimensionamento dos intervalos
mediante a Amplitude Parcial, construção da Distribuição de Frequências (DF):
• Informações básicas dos dados
Para iniciar o processo de agrupar os dados em intervalos precisamos saber o montante

de variação que deve ser distribuído em intervalos, usualmente de tamanho regular. Essas in-
formações podem ser obtidas sem qualquer tratamento prévio: n – número de dados; Li – valor
mínimo da distribuição de valores; Ls – valor máximo do conjunto de observações. De posse destas
informações podemos calcular a faixa de variação dos dados pela diferença entre o mínimo e o
máximo. Este dado é denominado de At = Amplitude total.
Quadro 4: Informações básicas necessárias para a construção de uma distribuição de frequências
n= Nº de valores
Li = Menor valor
Ls = Maior valor
At = Faixa de Variação
• Ordenação dos dados por meio do Ramo e Folhas
Na natureza ou na sociedade quando obtemos os dados eles seguem uma sequência ale-
atória que no mais das vezes não cumpre um ordenamento crescente. A distribuição de frequ-
ências pressupõe a construção de intervalos com padrões regulares e crescentes de forma que
nos primeiros intervalos serão alocados os valores mais baixos e nos últimos serão contados os
valores mais altos. Por isso, precisamos ordenar os dados de forma crescente. Como cada valor
representa uma observação, mesmo repetidas, cada uma deve constar para posterior contagem
da frequência.
39
EaD
Esta ordenação pode ser feita usando o programa Excel que classifica os dados por uma
variável ou fazer uma ordenação manual. O modo manual comumente utilizado, o da ordenação
visual, é muito demorado em grandes amostras. Temos uma outra alternativa, que é da organi-
zação em ramos e folhas.
Esta técnica busca nos dados duas faixas de variação: uma para os ramos – de variação
mais demorada, construída a partir da avaliação dos limites Li e Ls computada anteriormente
para o caso. Observamos de quanto a quanto os dados variam e construímos faixas de referên-
cias de maior amplitude; outra para as folhas, que é uma faixa de variação mais rápida dentro
da maior.
Por exemplo, se escolhemos uma variação nas dezenas para os Ramos, nas Folhas a va-
riação será das unidades. Após organizar o Ramo e folhas, alocamos cada observação no Ramo
adequado e registramos a parte da observação que não aparece no ramo. A apresentação do Ramo
e Folhas fica assim, se as informações básicas fossem estas (referentes ao ITR dos municípios de
Pequeno Porte I da Microrregião de Três Passos):
Quadro 5: Informações básicas necessárias para a construção de uma distribuição de frequências
Li = R$ 0.533,00
Ls = R$ 15.989,00
Observações:
534 1902 2369 4145 15989 5418 4060 7660 1725 8291
2520 1325 947 6675 5514 4554 3703 2945 5196 922
Usando as informações básicas vamos considerar os valores de Li (R$ 0.533,00) e da Ls

(R$ 15.989,00) estrategicamente colocados um sobre o outro. Observando atentamente, verifi-
camos que o primeiro valor é inferior a mil, logo tem 0 (zero) milhares, e o máximo é superior
a 15 mil. Podemos então considerar o Ramo com a variação mais demorada: de 0 a 15 mil, e as
Folhas que apresentam uma Variação menor, ou seja, mais rápida na centena, dezena, unidade
– 000 a 999. Como verificamos que um grande vazio ocorre isolando o valor máximo, podemos
optar por informar todos os intervalos ou então indicar apenas o vazio, como foi realizado no
quadro a seguir. Os dados são distribuídos pelas linhas em acordo com o valor e a faixa correta,
registrando-se nas Folhas apenas o restante do número que não aparece no Ramo. Neste caso,
registramos centena, dezena e unidade. O passo seguinte é ordenar os valores nas linhas. Este
processo pode ser acompanhado no Quadro 6:
40
EaD
Quadro 6: Dados distribuídos pela técnica de Ramo e Folhas
RAMO E FOLHAS não ordenado RAMO E FOLHAS ordenado na linha

RAMO FOLHAS RAMO FOLHAS
0 534 725 947 922 0 534 725 922 947
1 902 325 1 325 902
2 369 520 945 2 369 520 945
3 703 3 703
4 145 .060 554 4 .060 145 554
5 418 514 196 5 196 418 514
6 675 6 675
7 660 7 660
8 291 8 291
. .
. .
15 989 15 989
Com essa técnica olhamos os dados apenas uma vez. São distribuídos inicialmente já nas
faixas certas e posteriormente ordenados em cada faixa, de forma rápida.
• Diagrama de Pontos
Outra técnica importante para verificar se a padronização dos dados está garantida, isto
é, se não há nem um valor muito fora do padrão, é o Diagrama de Pontos. Faz-se uma régua
parcial, dando conta da variação dos dados e se desenha um ponto para cada valor, respeitando
a primeira casa das Folhas apenas.
Com isso, será possível verificar se algum dos valores está muito fora do esquema e tam-
bém concluir sobre a forma provável da distribuição dos dados. Vamos enxergar as regiões de
concentração dos valores, e também, conseguimos visualizar as faixas de dispersão em que os
pontos se tornam mais raros, dispersos.
Chamamos os valores fora do padrão de pontos isolados, tecnicamente são os “outliers”.

Estes valores precisam ser reconhecidos, pois atrapalham a distribuição das observações nos
intervalos, constituindo uma quebra da terceira regra que impõe uma exigência de frequência
maior do que zero em todos os intervalos. Se a distância entre o penúltimo ponto e o “outlier” for
muito grande corremos o risco de ter fi = 0. Neste caso, este ponto deve ser descartado, colocado
em uma observação e o padrão será calculado com os pontos restantes. Necessariamente vamos
ter que redimensionar o n, Li ou Ls e o At. Vejamos como fica no exemplo dos Quadros 5 e 6.
41
EaD
Quadro 7: Diagrama de Pontos dos municípios (em milhares)
o
o o o o
o o o o o
o o o o o o o o o o
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Neste Diagrama de Pontos observamos perfeitamente que a maioria dos municípios apre-
senta ITR de 0 a 8 mil reais; este é, portanto, o padrão destes municípios, no entanto encontramos
um valor que pode ser considerado um “outlier”: o 15.989. Ele se encontra afastado dos demais e
não poderá ser agrupado, está fora do padrão. Existe um vazio entre ele e o valor imediatamente
anterior de mais de 7.500 reais. O tratamento dos dados deve colocar este valor à parte e informar
que temos um caso de valor fora do padrão, “outlier”, portanto.
Não se trata de perda de informação, mas sim de tratá-la em separado para evitar tenden-
ciosidades nas estatísticas. Os “outliers” tanto podem ser informações corretas que apresentam
uma outra tendência que não a do grupo de dados mais homogêneos, quanto pode ser valor
incorretamente observado.
Excluindo-se este valor as informações básicas modificam e passam a ser:
Quadro 8: Informações básicas readequadas ao novo cenário de ocorrência de “outlier”
n= 19
Li = R$ 534,00
Ls = R$ 8.291,00
At = R$ 7.757,00*

* Excluído o valor de R$ 15.989 por estar fora do padrão.
• Amplitude Parcial (hi)
Após o ajuste dos dados, o passo seguinte é calcular o número e o tamanho dos intervalos
que vão dar lugar à Amplitude Parcial (hi). A distribuição em faixas, usualmente, de igual ta-
manho, deve facilitar a leitura e a compreensão das informações. Em alguns casos, como o de
faixas etárias da população, é interessante adotar as faixas comumente utilizadas pelo IBGE,
permitindo uma comparação com resultados censitários. Este também é o caso de faixa de renda,
tamanho de propriedades rurais que impõem o uso de intervalos de tamanho diferenciado em
função da extrema variação de renda e hectares, por isso é interessante utilizar as faixas como
o faz o IBGE.
42
EaD
• O número de intervalos pode variar entre 4 e 10, tendo em vista que agrupar os dados pretende
facilitar a visão do conjunto de dados. Nesse caso o excesso de intervalos acabaria diluindo a
informação de forma a prejudicar a análise. O número de intervalos é dado pela n . Caso o
resultado dessa raiz for superior a 10, é possível adaptar para um resultado mais favorável.
• A amplitude parcial (hi) é o tamanho do intervalo, este resulta da aplicação de uma fórmula,
cuja resposta deve ser olhada apenas como um indicador do entorno de amplitude a ser em-
pregada. O ajuste deve sempre favorecer a visibilidade da informação, por isso nem sempre
o valor encontrado é diretamente utilizado. É necessário fazer uma aproximação do mesmo
de forma a atingir os objetivos de sua utilização. Essa aproximação permanece no entorno do
valor encontrado.
At
hi = ,. At = Ls − Li
n
• Distribuição de Frequências (DF)
O passo seguinte é a construção da tabela de Distribuição de Frequências (DF). A ideia é
distribuir a frequência dos valores dentro das faixas construídas, mediante contagem delas no
Ramo e Folhas ordenado.
• é usual, tendo em vista a continuidade dos dados numa DF, utilizar um intervalo do tipo [ li
|-------– ls ]. Esta forma indica que valores a partir de li estarão sendo contados no intervalo,
pertencem a ele, no entanto valores iguais a ls serão incluídos no intervalo seguinte;
• decisão sobre o limite inicial do primeiro intervalo, lembrando que qualquer valor pode ser
utilizado, desde que se garanta a contagem de li nesse primeiro intervalo. A seguir, ls= li+ hi
permitirá construir todos os intervalos;
• checagem se o último intervalo contém o último valor. É preciso verificar se ele não é igual ao
limite superior (ls) do último intervalo, pois nesse caso não será contado no mesmo;
• outra checagem fundamental é quanto às frequências (fi) em cada intervalo. Todas elas devem
ser maiores do que zero, fi> 0;
43
EaD
• Além do fi, utilizaremos outros recursos para compreender o comportamento do fenômeno:
• fa: frequência absoluta acumulada. A ideia é a de ir acumulando as frequências observadas

de forma a verificar como elas se concentram. No primeiro intervalo, fa= fi; a partir de então
será acrescentada a do segundo intervalo e assim por diante fa2= fa1+ fi2
xi
• fr%: frequência relativa percentual fr % = * 100
n
• fr%ac: frequência relativa percentual acumulada, a primeira repete, a segunda fr%ac2= fr%ac1+
fr%2
Vejamos esta sequência de tratamentos aplicados ao exemplo dos municípios da Micror-

região de Três Passos no que se refere ao ITR.
• Informações básicas após o ajuste de “outlier”
Como foi observada a presença de um “outlier”, a sua supressão gera modificações nas
informações básicas.
Quadro 9: Informações básicas readequadas ao novo cenário de ocorrência de “outlier”
n= 19
Li = R$ 534,00
Li = R$ 8291,00
At = R$ 7.757,00
• Cálculo do tamanho do intervalo:
At 7.757,00 7.757, 00
hi = = = = 1779,57 ≅ 2. 000,00
n 19 4,3589
Como o valor para a raiz de n é 4,3589, faremos aproximadamente 5 intervalos de tamanho

2 mil.
Tabela 7: Valor (R$ ) do Imposto Territorial Rural (ITR) arrecadado nos municípios da Microrregião de Três Passos – RS/2007
Valores de Xi fi fa fr% fr%ac

0 |-------- 2.000 6 6 31,58 31,58
2.000 |-------- 4.000 4 10 21,05 52,63
4.000 |-------- 6.000 6 16 31,58 84,21
6.000 |-------- 8.000 2 18 10,53 94,74
8.000 |-------- 10.000 1 19 5,26 100,00
∑ 19 100,00
Obs.: Exceto o município de Campo Novo com valor do ITR= R$15.989,17, representando 26,68% do
imposto arrecadado na microrregião, considerado “outlier”, isto é, valor isolado, pois se encontra fora do
padrão dos demais municípios.
44
EaD
Comentário 7: A arrecadação de ITR constitui-se de valores baixos (de 500 a 8,5 mil reais),
caracterizando pequenas propriedades na Microrregião, excetuando-se Campo Novo, que
apresenta um valor mais elevado, acima de R$ 15.000,00. Observa-se que em 84,21% dos
municípios a arrecadação do ITR foi inferior a 6 mil reais. Na faixa de menos de R$ 2.000,00
se concentram 31,58% dos municípios.
Na sequência de nossos estudos vamos verificar como a utilização de gráficos facilita a

leitura dos dados que foram sistematizados em tabelas. A diferença entre usar tabela ou gráfico
está na agilidade da informação ou no seu detalhamento: o gráfico dá um impacto direto, per-
mitindo a visualização rápida do comportamento geral dos dados, enquanto a tabela vai deixar
que o leitor conheça todos os detalhes desse comportamento, exigindo maior tempo de avaliação
para uma melhor compreensão do fenômeno. Vamos adiante?
Seção 2.4
Representação Gráfica e Sua Leitura
Nada melhor do que um gráfico para potencializar uma visão geral e rápida do comporta-
mento dos dados. Os diagramas de colunas, barras, setores (pizza), linhas, pontos, são os mais
utilizados para apresentar tabelas simples e cruzadas e o histograma, polígono de frequências e
setores (limitado a 7 intervalos na DF) para representar a distribuição de frequências. O gráfico
pode ser feito manualmente ou com auxílio de um software tipo “Excel”.
Um cuidado que devemos ter é o de fazer uma escolha, ou utilizamos a tabela ou o grá-
fico, nunca os dois ao mesmo tempo, pois apesar de permitirem visões diferenciadas (a tabela
um olhar detalhista, o gráfico uma visão mais geral), as informações são as mesmas, e faremos
uma repetição desnecessária e incômoda para o leitor. A nossa análise é que vai definir o que
pretendemos enfatizar naquele momento, permitindo a escolha.
A composição do gráfico agrega essencialmente o título, a figura e a fonte:
• Título: deve identificar a variável apresentada, a população de origem, local e tempo de ocor-
rência. Quer dizer, o leitor do gráfico deve ficar perfeitamente situado em relação às informações
que lhe estão sendo apresentadas. O título pode ser colocado na parte superior ou inferior da
figura, pode ser numerado e seguir um mesmo padrão em todos eles.
• Figura: A figura deve identificar as informações que estão sendo apresentadas em cada eixo, de
preferência apresentar os valores em % para permitir comparações, uma vez que o valor absoluto
só permite comparações quando os n são iguais. Outro cuidado extremamente importante é
45
EaD
relativo à escala de apresentação dos dados. Deve-se ter o cuidado de apresentar como se fosse
uma régua, respeitando a base decimal. Algumas dicas na escolha dos gráficos: escolha o de
colunas, se as categorias forem palavras curtas ou siglas; opte pelo de barras se as categorias
forem palavras longas ou expressões; adote o de linhas se estiver apresentando uma variável
temporal, isto é, que evolui no tempo; escolha o de setores (pizza) se o objetivo for comparar o
desempenho das alternativas e estas forem num número máximo de 7 categorias; o histograma
de frequências se quiser representar uma Tabela de Distribuição de Frequências.
• Fonte: é imprescindível informar a fonte dos dados para agregar credibilidade e possibilidade
de voltar à informação original se for o caso.
Um gráfico sem estas três partes não é considerado um gráfico.
Vejamos alguns EXEMPLOS de gráficos:
GRÁFICO DE COLUNAS
Gráfico 1: Distribuição dos municípios da Microrregião de Três Passos

Gráficosegundo
1: Distribuição dosdemográfica
a densidade municípios(hab./km
da Microrregião
2
) RS/2007de Três
Passos segundo a densidade demográfica (hab./km²) RS/2007
8
8
6
6 5
Municípios 4
2 1
0
(< 10) (20 a 29) (30 a 39) (40 e mais)
Habitantes/km²
Fonte: IBGE
Fonte: IBGE.
Comentário: De forma geral podemos observar que a Microrregião de Três Passos apresenta
uma densidade demográfica igual a 20 hab./km², indicando uma boa concentração popula-
cional. O que mais ocorre são municípios com densidade entre 20 e 29 hab./km². O que menos
ocorre são municípios com pouca densidade, inferior a 10 hab./km².
46
EaD
GRÁFICO DE BARRAS
Gráfico 2: Distribuiçção dos municípios da Microrregião de Três Passos por porte – RS/2007
Gráfico 2: Distribuição dos municípios da Microrregião de Três
Passos por porte - RS/2007.
2 - Pequeno Porte II
9
(20 a 50 mil hab.)
Porte
1 – Pequeno Porte I
11
(até 20 mil hab.)
0 2 4 6 8 10 12
Nº de muncípios
Fonte: IBGE
Fonte: IBGE.
Comentário: A Microrregião de Três Passos é formada por 20 pequenos municípios. Observa-

se que 55% deles são classificados como Pequeno Porte nível I (< de 20 mil hab.) e 45% deles
como Pequeno Porte nível II (de 20.001 a 50 mil habitantes).
GRÁFICO DE SETORES (PIZZA)
Gráfico 3: Avaliação do Gráfico

potencial 3: Avaliação
municipal dodopotencial
a partir municipal
Indicador de a partir
Industrialização doindústrias/10 mil hab.)
(nº de
Indicador de Industrialização (nº de indústrias/10 mil hab.)
Microrregião de Três Passos – 2007
Microrregião d eTrês Passos - RS/2007.
10% 5%
35%
50%
1) Não industrializado 2) Pouco industrializado 3) Média industrialização 4) Industrializado
Fonte: IBGE.
47
EaD
Comentário: A sociedade em geral tem a percepção que um município deve incentivar inves-
timentos na instalação de indústrias visando a potencializar a criação de empregos. Observa-
mos que 50% dos municípios têm de 5 a 10,9 indústrias/10 mil habitantes, uma concentração
média. Apenas 5% das comunidades são Não Industrializadas, certamente com atividades
mais rurais.
GRÁFICO DE LINHAS
Gráfico
Gráfico 4: Nº de agências 4: Nº de agências
financeiras financeiras
no município no município
– Microrregião de- Três Passos – RS/2007
Microrregião de Três Passos - RS/2007.
50
40
30
%
20
10
0
0 1 2 3 4 5
Nº de Agências
Fonte : IBGE
Fonte: IBGE.
Comentário: Numa sociedade capitalista como a nossa, a função das agências financeiras
canaliza as movimentações, no entanto, o avanço das agências virtuais por meio da Internet
minimiza a necessidade do acesso físico no local de moradia. A agência presencial facilita
a solução de problemas por potencializar o contato pessoal. Na Microrregião, 45% das loca-
lidades não têm agência financeira e isto é explicado pelo porte dos municípios. Apenas três
municípios apresentam três ou mais agências.
GRÁFICO DE TABELAS CRUZADAS (BIVARIADAS)

Gráfico 5: Distribuição dos municípios (%) segundo o nº de
Gráfico 5: Distribuição
agências dos municípios
financeiras e o porte(%) segundo o -nºMicrorregião
do município de agênciasde
financeiras
e o porte do município – Microrregião de Três Passos – RS/2007
Três Passos - RS/2007.
80 63,6 66,8
60
40
%
22,2 18,2 18,2

20 11,1
0
0 1 2 ou mais
Nº de Agências
Pequeno I Pequeno II
Fonte: IBGE.
48
EaD
Comentário: A análise dessa visão bidimensional corrobora com a opinião emitida no gráfico
anterior. Os municípios que não têm agência financeira são 63,6% dos de pequeno porte I
e os que possuem 2 ou mais agências são 66,8% dos municípios de pequeno porte II. Desta
forma podemos verificar que existe uma associação entre a presença de agências financeiras
e o porte do município na Microrregião de Três Passos.
HISTOGRAMA DE FREQUÊNCIAS
Gráfico 6: Arrecadação do ITR - Imposto Territorial Rural por
Gráfico 6: Arrecadação do ITRmunicípio
Imposto na
Territorial Rural pormunicípio
Microrregião na Microrregião
de Três Passos - RS/2007. de Três Passos – RS/2007
35 31,58 31,58
30
25 21,05
20
%
15 10,53
10
5 0
0
0 2.000 4.000 6.000 8.000 10.000
ITR (R$)
Fonte: IBGE.
Fonte: IBGE
Comentário: Entendemos que a Microrregião de Três Passos tem uma tradição de pequenas
propriedades rurais e produção de alimentos com mão de obra familiar. As duas faixas de ar-
recadação que concentram os municípios incluem aqueles que arrecadam ITR < R$ 2.000,00
(31,58%) e ITR no intervalo de 4 a 6 mil reais também com 31,58% dos municípios. No geral,
85% das localidades arrecadam menos de R$ 6.000,00.
Nesses exemplos foi possível comprovar que visualizar as informações das tabelas por
meio de gráficos torna a informação muito mais dinâmica e rápida, porém tem suas limitações
em termos de detalhes. Vejamos agora como aplicar estes conhecimentos. Seguem-se alguns
bancos de dados que precisam ser trabalhados conforme o conhecimento exemplificado até ago-
ra: tabelas simples uni e bivariadas, gráficos, comentários. Agilize-se e mostre o que aprendeu,
aproveitando para refazer os exemplos ampliando seu conhecimento.
Seção 2.5
Aplicações
Para desenvolver habilidades na aplicação dos conceitos e tratamentos apresentados ante-

riormente, solicitamos que aplique o tratamento adequado nos seguintes bancos de dados:
49
EaD
1) Banco de dados número 2 apresenta algumas variáveis sociais da Mesorregião Centro Oci-
dental Rio-Grandense por município, fornecidas pelo IBGE, com classificações que foram
pesquisadas em artigos publicados na Internet para serem aqui atribuídas. Como vimos, o RS
é constituído de sete mesorregiões. A Centro-Ocidental abrange três microrregiões (Santiago,
Restinga Seca e Santa Maria) e 31 municípios. A abordagem pretendida com este tratamento
estatístico visa a construir um panorama referencial de informações que dizem do exercício
da democracia e cidadania por meio de Indicadores Sociais. Aproveite e complete os espaços
pontilhados:
Quadro 10: Informações sobre variáveis e categorias 456
N: Nº de ordem dos registros

Município: Variável ............................ pois seus valores são ................................................................................;
X1: Índice de Pobreza, Variável...............................................................................................................................;
X2: Classificação do Índice de Pobreza, Variável aleatória ...................................................................................,
sendo 1) Baixa proporção (<15%); 2) Média Proporção (15 a 29%); 3) Alta proporção (≥ 30%)4
X3: Índice de Pobreza Subjetiva, V. A. ....................................................................................................................
X4: Classificação da Pobreza Subjetiva , V. A. ........................................................................................................
X5: Índice de Gini, Indicador de distribuição de renda, V. A. ...............................................................................
X6: Classificação do IG V. A. ........................... (0 a 8, (0-Igualdade e 8-Desigualdade), 0 -< 25; 1– 25 a 29,9;
2– 30 a 34,9; 3– 35 a 39,9; 4-40 a 44,9; 5– 45 a 49,9; 6– 50 a 54,9; 7-55 a 59,9; 8– 60 e mais5
X7: Residentes, V. A. ................................................................................................................................................
X8: Porte do município V. A, ...................................; ( 1: Pequeno I – até 20 mil hab.; 2: Pequeno II – 20001 a
50000; 3: Médio – 50001 a 100000; 4: Grande – 100001 a 900000; 5: Metrópole – > 900 000.6
4
www.pnud.org.br/hdr/hdr97/rdh7-1.htm
5
Coeficiente de Gini, Origem: Wikipédia, a enciclopédia livre.
6
portalsocial.sedsdh.pe.gov.br/.../Gloss%E1rio%20tabela%20dos%20munic%EDpios.pdf
50
EaD
Quadro 11: Banco de dados nº 2: variáveis sociais da Mesorregião Centro Ocidental Rio-Grandense por município
N Mun Pobreza Cls_pobr Pobresubj Cls_pobsubj Igini Cls_IG Residentes Porte

1 Agudo 17,35 2 13,55 1 0,41 4 16.714 1
2 Cacequi 34,21 3 27,6 2 0,41 4 13.629 1
3 Capão do Cipó 999 999 999 999 999 999 3.180 1
4 Dilermando de Aguiar 20,31 2 15,93 2 0,35 3 3.129 1
5 Dona Francisca 23,21 2 18,16 2 0,42 4 3.572 1
6 Faxinal do Soturno 21,99 2 17,05 2 0,43 4 6.343 1
7 Formigueiro 20,37 2 15,75 2 0,39 3 7.116 1
8 Itaara 29,94 2 23,4 2 0,39 3 4.633 1
9 Itacurubi 25,67 2 20,48 2 0,38 3 3.568 1
10 Ivorá 15,96 2 11,64 1 0,36 3 2.378 1
11 Jaguari 19,72 2 14,94 1 0,39 3 11.626 1
12 Jarí 20,12 2 15,9 2 0,35 3 3.692 1
13 Júlio de Castilhos 30,37 3 23,89 2 0,39 3 19.541 1
14 Mata 22,12 2 16,96 2 0,37 3 5.291 1
15 Nova Esperança do Sul 28,63 2 21,25 2 0,36 3 4.775 1
16 Nova Palma 17,49 2 12,93 1 0,37 3 6.432 1
17 Pinhal Grande 22,83 2 16,9 2 0,37 3 4.496 1
18 Quevedos 22,66 2 17,95 2 0,37 3 2.732 1
19 Restinga Seca 21,02 2 16,77 2 0,4 4 15.595 1
20 Santa Maria 25,26 2 18,98 2 0,44 4 263.403 4
21 Santiago 26,76 2 20,75 2 0,41 4 49.558 2
22 São João do Polêsine 14,18 1 10,6 1 0,4 4 2.702 1
23 São Martinho da Serra 18,29 2 13,47 1 0,35 3 3.409 1
24 São Pedro do Sul 26,3 2 21 2 0,4 4 16.613 1
25 São Sepé 27,43 2 20,66 2 0,4 4 23.787 2
26 São Vicente do Sul 23,61 2 17,91 2 0,39 3 8.361 1
27 Silveira Martins 18,86 2 13,74 1 0,36 3 2.479 1
28 Toropi 15,79 2 11,73 1 0,34 2 3.070 1
29 Tupanciretã 30,05 3 24,12 2 0,39 3 22.556 2
30 Unistalda 25,9 2 19,67 2 0,36 3 2.392 1
31 Vila Nova do Sul 24,67 2 19,04 2 0,36 3 4.255 1
Fonte: IBGE, contagem 2007.
Obs.: 9)99 é o código para NI, NR, Não Tem a informação.
Nossa pergunta relaciona-se com o Perfil da Pobreza na Mesorregião Centro Ocidental Rio-
Grandense.
2) Banco de dados número 3 apresenta algumas variáveis da Microrregião de Ijuí, com as

mesmas variáveis do banco número 2, e responde à mesma pergunta anterior, porém nesta
microrregião.
51
EaD
Quadro 12: Banco de dados número 3: variáveis sociais relacionadas com as condições de acesso
à riqueza da Microrregião de Ijuí por município
Cls_ Pobre- Cls_po- Area_ Cls_ Densi- Cls_

N Mun Pobreza Igini Cls_IG Residentes Porte
pobr subj bsubj terr area dade dens
1 Ajuricaba 19,3 2 13,79 1 0,37 3 7.261 1 323 2 22,5 4
2 Alegria 25,42 2 20,1 2 0,38 3 4.789 1 173 1 27,7 4
3 Augusto Pestana 16,4 2 11,98 1 0,37 3 7.273 1 347 2 21,0 4
4 Bozano 999 999 999 999 999 999 2.296 1 201 2 11,4 4
5 Chiapetta 24,55 2 19,3 2 0,37 3 4.078 1 396 2 10,3 4
6 Condor 23,17 2 17,76 2 0,38 3 6.607 1 465 2 14,2 4
7 Coronel Barros 15,98 2 12,36 1 0,35 3 2.441 1 163 1 15,0 4
8 Coronel Bicaco 26,81 2 20,75 2 0,39 3 7.873 1 492 2 16,0 4
9 Ijuí 26,16 2 19,68 2 0,42 4 76.739 3 689 3 111,4 3
10 Inhacorá 32,31 3 25,7 2 0,35 3 2.290 1 114 1 20,1 4
11 Nova Ramada 12,36 1 9,44 1 0,35 3 2.461 1 255 2 9,7 4
12 Panambi 25,79 2 18,97 2 0,39 3 36.360 2 491 2 74,1 4
13 Pejuçara 22,46 2 16,98 2 0,38 3 3.900 1 414 2 9,4 4
14 Santo Augusto 29,16 2 23,47 2 0,4 4 13.622 1 468 2 29,1 4
15 São Valério do Sul 28,02 2 20,06 2 0,38 3 2.635 1 108 1 24,4 4
Fonte: IBGE/cidade.
É necessário acrescentar algumas definições de variáveis às que já estavam definidas

anteriormente no Quadro 10.
Quadro 13: Informações sobre variáveis e categorias complementares
Área_territorial (km²) V. A. .....................

Cls_área V. A. ..................... (1. Pequeno (<200 km²); 2. Médio (200 a 500 km²); 3. Grande (> 500 km²)
Densidade Demográfica
V. A. .....................
(hab./km²)
Cls_densidade V. A. ..................... (1. < 10; 2. 10 a 19; 3. 20 a 29; 4. 30 a 39; 5. 40 e mais)
3) Banco de dados número 4 apresenta a série histórica de algumas variáveis econômico/sociais

coletadas na Região Metropolitana de Porto Alegre.
52
EaD
Quadro 14: Banco de dados número 4: variáveis econômico/sociais coletadas

na região Metropolitana de Porto Alegre por município
Mês não Mês não Mês não

Tx desocu- Cart Tx desocu- Cart Tx desocu- Cart
Período na quer Período na quer Período na quer
pação assim pação assim pação assim
série trab série trab série trab
mar/02 1 10,4 77,7 47,6 ago/04 30 7,3 84,8 47,6 jan/07 59 8,1 85,3 49,3
abr/02 2 11,2 80,7 48,1 set/04 31 8,4 86,5 47,3 fev/07 60 7,5 85,0 49,7
mai/02 3 10,8 80,0 49,3 out/04 32 7,0 87,3 46,9 mar/07 61 7,3 86,1 50,3
jun/02 4 9,4 80,3 47,3 nov/04 33 7,2 86,9 47,9 abr/07 62 7,1 86,1 48,8
jul/02 5 9,8 79,5 47,8 dez/04 34 6,5 88,7 46,4 mai/07 63 6,5 86,9 49,1
ago/02 6 8,5 80,7 47,4 jan/05 35 6,9 87,2 47,0 jun/07 64 7,8 87,4 49,5
set/02 7 9,4 81,7 47,8 fev/05 36 6,6 87,3 47,9 jul/07 65 7,5 88,2 49,3
out/02 8 8,3 79,8 47,0 mar/05 37 6,9 88,0 49,2 ago/07 66 7,9 88,8 50,8
nov/02 9 8,7 80,8 46,6 abr/05 38 6,5 87,3 49,5 set/07 67 6,7 89,0 49,8
dez/02 10 7,5 79,8 48,5 mai/05 39 6,9 86,6 49,2 out/07 68 5,9 89,3 49,3
jan/03 11 8,2 80,8 49,6 jun/05 40 6,2 86,0 49,6 nov/07 69 5,9 89,2 50,1
fev/03 12 8,7 81,8 49,1 jul/05 41 5,7 87,2 49,7 dez/07 70 5,1 88,6 50,2
mar/03 13 9,8 80,9 48,0 ago/05 42 6,7 87,0 49,7 jan/08 71 5,6 87,2 52,1
abr/03 14 9,3 79,0 47,2 set/05 43 7,6 87,9 48,9 fev/08 72 6,1 87,9 50,6
mai/03 15 9,7 79,4 46,9 out/05 44 6,4 88,4 49,1 mar/08 73 5,5 88,2 50,6
jun/03 16 11,0 81,5 45,7 nov/05 45 7,2 90,0 48,9 abr/08 74 6,9 87,0 50,3
jul/03 17 9,3 81,7 45,1 dez/05 46 6,5 89,1 49,8 mai/08 75 6,0 86,1 50,4
ago/03 18 10,0 82,9 47,2 jan/06 47 7,8 88,1 49,1 jun/08 76 5,9 86,3 50,9
set/03 19 10,6 83,2 46,9 fev/06 48 7,1 89,0 49,4 jul/08 77 5,8 86,6 52,1
out/03 20 9,9 84,3 47,7 mar/06 49 8,0 90,6 48,7 ago/08 78 5,6 87,4 51,0
nov/03 21 9,0 84,8 46,5 abr/06 50 7,8 91,0 48,8 set/08 79 5,6 87,7 51,4
dez/03 22 7,0 84,5 47,0 mai/06 51 8,9 88,4 48,6 out/08 80 5,7 87,9 51,5
jan/04 23 7,6 84,4 48,4 jun/06 52 7,9 87,4 48,4 nov/08 81 5,0 89,4 51,1
fev/04 24 7,4 84,4 48,2 jul/06 53 9,3 86,9 48,7 dez/08 82 4,4 86,8 51,6
mar/04 25 9,1 84,4 48,4 ago/06 54 7,7 87,0 49,2 jan/09 83 5,5 87,2 53,1
abr/04 26 9,2 83,5 48,4 set/06 55 8,1 88,1 49,9 fev/09 84 6,0 87,4 53,2
mai/04 27 8,8 86,2 48,0 out/06 56 8,2 88,7 49,8 mar/09 85 6,0 88,4 52,0
jun/04 28 8,7 84,0 48,6 nov/06 57 7,3 88,8 49,5
jul/04 29 7,8 83,9 47,8 dez/06 58 6,2 87,1 48,9
Fonte: IBGE, Diretoria de Pesquisas, Coordenação de Trabalho e Rendimento,

Pesquisa Mensal de Emprego mar. 2002-mar. 2009.
Classifique as variáveis e crie a pergunta, faça o tratamento dos dados e analise.
5) Banco de dados número 5 apresenta dados das Unidades da Federação relativos à participação
dos idosos e população com 100 anos ou mais.
53
EaD
Quadro 15: Banco de dados número 5: participação dos idosos e população com 100 anos ou mais por UF/BR
Situação do domicílio
Urbana Rural
Sexo Homens Mulheres Homens Mulheres
100 e 100 e 100 e 100 e
100 ou 100 ou 100 ou 100 ou
Idade 60 e mais mais/ 10 60 e mais mais/ 60 e mais mais/ 60 e mais mais/ 10
mais mais mais mais
mil 10 mil 10 mil mil
SP 87 464.003 2 97 334.542 3 11 68.376 2 5 17.690 3
RO 5 21.668 2 3 15.403 2 3 16.795 2 1 3.470 3
TO 9 24805 4 11 19721 6 3 13750 2 1 3171 3
PI 23 56.578 4 34 55.083 6 13 48.145 3 6 18.706 3
SC 22 102.609 2 32 79.422 4 7 45.780 2 5 14.038 4
CE 36 100.831 4 57 84.344 7 34 95.875 4 17 37.972 4
MO 16 55.743 3 14 37.788 4 6 21.794 3 2 3.659 5
PR 49 171.130 3 56 127.382 4 14 76.137 2 14 22.173 6
MS 21 59.602 4 15 45.913 3 2 14.288 1 2 3.140 6
PA 19 54.159 4 26 42.259 6 18 55.138 3 12 18.417 7
ES 19 40.829 5 41 31.419 13 8 24.310 3 5 7.625 7
MA 41 93.405 4 72 94.528 8 26 74.394 3 27 36.347 7
RS 32 188.766 2 76 156.827 5 14 101.524 1 24 32.002 7
AL 22 53.694 4 38 55.859 7 14 28.371 5 12 14.965 8
PB 37 87.113 4 58 90.234 6 23 45.917 5 20 21.044 10
PE 49 106.659 5 86 108.769 8 22 68.573 3 34 33.805 10
MG 139 369.719 4 235 303.217 8 49 156.357 3 57 55.542 10
GO 45 89.364 5 53 68.289 8 9 31.069 3 7 6.613 11
SE 26 32.837 8 48 38.943 12 19 19.580 10 15 12.032 12
RJ 31 104.947 3 53 87.452 6 7 18.150 4 11 8.324 13
BA 133 174.018 8 253 170.736 15 113 176.287 6 126 86.580 15
AM 11 39.727 3 14 38.731 4 7 17.301 4 8 4.619 17
AP 2 7336 3 6 6832 9 1 1381 7 1 502 20
RR 2 4273 5 2 3837 5 1 2324 4 1 496 20
RN 42 70.127 6 60 64.739 9 17 30.472 6 28 12.852 22
AC 2 9130 2 1 8565 1 3 4985 6 - 1305 -
Fonte: IBGE/Estados.
Classifique as variáveis e crie a pergunta, faça o tratamento dos dados e analise.
RESUMO DA UNIDADE 2
Esta unidade foi dedicada a descrever um conjunto de dados obtidos por
meio de pesquisa, de levantamentos, de registros, de censos, mediante sua
sistematização e apresentação em tabelas simples – univariadas e bivaria-
das – e gráficos. Aprendemos que não se deve representar as informações
obtidas por meio de gráficos e tabelas simultaneamente, pois ambas vão
apresentar as mesmas descrições. As tabelas serão elaboradas quando for
necessário fornecer os detalhes e os gráficos quando a intenção for obter
uma visão geral e rápida do comportamento da(s) variável (eis).
54
EaD
Unidade 3
MEDIDAS QUE DESCREVEM O CONJUNTO DE DADOS
Ruth Marilda Fricke
• Descrever o conjunto de dados quantitativos de forma sintetizada por meio da média e suas
alternativas e dominar a variação em torno das mesmas com a finalidade de conhecer sua
tendenciosidade, apoiando a escolha da medida apropriada para descrever comportamentos
padrões na área da administração.
SEÇÕES DESTA UNIDADE:
Seção 3.1– Quadro-resumo das fórmulas
Seção 3.2 – Medida de Tendência Central e de Variabilidade – Conceitos e Operacionalização
Seção 3.3 – Aplicações.
A coleta de dados e sua representação em tabelas e gráficos permite uma visão detalhada
e circunstanciada da informação aliada ao espaço e tempo que está descrevendo. Outra manei-
ra de descrever esse conjunto de informações é expressá-lo por números típicos que consigam
sintetizar esse padrão e forneçam informações comparáveis entre diversos conjuntos de dados,
independentemente do tamanho da amostra que está sendo utilizada.
As medidas típicas de uma variável quantitativa são especialmente a média aritmética, que
considera cada valor da variável com a mesma importância no conjunto de dados e verifica qual o
número que pode dar uma ideia desse comportamento. A população é, então, analisada por esse
número, avaliando-se que cada observação é entendida a partir dele, X i = média ± certo desvio.
Para facilitar o entendimento do tratamento descritivo e das relações entre as medidas vamos
trabalhar de forma relacionada a média e a variabilidade e posteriormente as alternativas para
o caso de a média não se constituir numa informação válida, isto é, para o caso de apresentar
tendenciosidade.
55
EaD
Seção 3.1
Quadro-Resumo das Fórmulas
As medidas descritivas vão fornecer números típicos que descrevem o comportamento dos
dados. São elas as Medidas de Tendência Central e as Medidas de Variabilidade. Para facilitar
o manuseio das fórmulas necessárias para o cálculo das estatísticas desta unidade vamos iniciar
com um quadro-resumo de fórmulas.
As fórmulas para o cálculo das medidas descritivas são apresentadas somente para variáveis
quantitativas com duas opções: para série numérica (n< 20) e distribuição de frequências (n ≥
20), em dois quadros: um para as Medidas de Tendência Central: Média ( X ), Mediana (Md)
e Moda (Mo), outro para as Medidas de Variabilidade: Variância absoluta (s²), Desvio padrão
(s) e Coeficiente de Variação (CV).
Quadro 1: Quadro-resumo das fórmulas das Medidas de Tendência Central – MTC
Me dida s S é r i e Nu m é r i c a Di stri bui çã o de freqüênci a s

Média Aritmética n
xi n
f i xi (li + l s )
( n a a m os t r a e µ X =∑ X =∑ ,... X i =
i =1 n n 2
n a po pu la ç ão ) i =1
n
N par → P = 2 , a M edi a na é
n
a m é d i a d o s d o i s v a lo res cen- P = → lo ca li za r no f a o i m d,
t r a i s , i . é . , d o P- é simo valor e o
2
i nter v a lo m edi a no . Selec i o na o i n-
Me dia n a (M d )
seguinte. ter valo e retira todos os dados com
exc eç ã o da fa a que é o fa a nteri o r.
n +1
N ímpar → P =
2
, a M edi a -
Md = li +
(P − faa )hi
n a é o P- é s i m o v alor.
fi
A m o d a n u m a s é rie numérica é
o v a l o r m a i s r e p etido, i.é, com f i → lo ca li za r no > f i o i m o , i nter-
c o n c e n t r a ç ã o m áxima. A série valo modal. Seleciona o inter valo e
pode ser: reti ra to do s o s da do s.
Am o d a l – s e m m oda  d1 
Mo = li +  hi
Moda (M o) U n i m o d al – u m va lo r m o da l d + d
 1 2 
,
B i m o d al – d o i s va lo res m o da i s
d1 = f m − f ant d 2 = f m − f post
P l u r i m o d a l – m a is de do i s v a lo -
r e s m ai s r e p e t i d o s f m : frequência máxima
f ant : frequência anterior à máxima
f post : frequência posterior à máxima
Fonte: Elaboração da autora a partir da literatura estatística.
56
EaD
Entendemos que será fácil para o estudante visualizar e comparar as diferenças que as fór-
mulas apresentam quando são utilizadas em séries numéricas ou distribuições de frequências.
Fundamentalmente, compreendemos que a série não apresenta grande dificuldade de

obtenção das informações e de compreensão de seu significado e do que elas indicam no caso
da tendência central, pois apresenta uma listagem dos dados. A maior complexidade do cálcu-
lo na distribuição de frequências deve-se ao fato de que os intervalos não dão visibilidade ao
valor em si, mas ao número de ocorrências dentro do intervalo, à respectiva faixa de variação
e principalmente ao fato de que não trabalhamos com o próprio valor, mas sim com um valor
representativo, que é o ponto médio. Isso exige uma certa disposição para recriar a informação.
As fórmulas servem para recuperá-la. Observa-se que para a Média Aritmética e para a Variância
as fórmulas se modificam apenas pela inclusão do Xi ponto médio no caso da DF.
Quadro 2: Quadro-resumo das fórmulas das Medidas de Variabilidade ou Dispersão – MV
Medidas Série Numérica Distribuição de frequências

n 2 n
f i xi2
− (x )
x
S = ∑ − (x ) S2 = ∑
2 i 2 2
i =1 n i =1 n
se pequena amostra (n < 30) , aplica
Variância Absoluta se pequena amostra (n < 30) , aplica
Fator de Correção – n
(s² ou σ²) n
FC = Fator de Correção –
FC =
n −1 n −1
S*2 = S. FC
S*2 = S. FC
D e s v io pa d r ão
(s ou σ)
S = S2 S = S2
Coeficiente de S
C V > 6 0 % , M o da é pa drã o CV =   100
Va ria ç ã o ( C V ) X
S
CV =   100
X
C V < 3 0 % , M édi a é pa drã o
3 0 % ≤ C V ≤ 60% , M edi a na é pa drã o
C V > 6 0 % , M o da é pa drã o
IN 65% = X − S ; X + S
IN 65% = X − S ; X + S
In t e r v a lo d e N o r-
IN 95% = X − 2 * S ; X + 2 * S
ma lida de ( I N ) * IN 95% = X − 2 * S ; X + 2 * S
IN 99% = X − 3* S ; X + 3* S IN 99% = X − 3* S ; X + 3* S
Fonte: Elaboração da autora a partir da literatura estatística.
* O Intervalo de Normalidade só é aplicável quando a média é válida, isto é, CV < 30%.
57
EaD
Alguns conceitos básicos são importantes e serão apresentados num quadro, permitindo
um debate e sua ampliação em pesquisa conceitual.
A seção a seguir vai tratar principalmente do cálculo e interpretação dessas medidas. É

importante para uma boa aprendizagem que todos os exemplos sejam retomados por você.
Seção 3.2
Medida de Tendência Central e de Variabilidade
– conceitos e operacionalização
Iniciamos com uma apresentação dos conceitos, propiciando que sejam discutidas as razões
que levam a sua utilização. A ideia principal, como já foi expresso anteriormente, é a de resumir
o comportamento dos dados em números que sirvam de parâmetro para sua análise.
Como a informação mais usualmente empregada, e observa-se que ela é influenciada pelos
valores extremos da variável, é importante que verifiquemos como os dados se concentram ou
se dispersam em relação à média para avaliar a adequabilidade de seu uso ou a necessidade de
buscar medidas alternativas, como a mediana ou a moda.
Cada uma das Medidas de Tendência Central vai olhar a centralidade dos dados por uma
ótica:
• Média – centro em termos de massa
• Mediana – centro real
• Moda – centro em termos de concentração
A variabilidade vai permitir concluir sobre a homogeneidade ou heterogeneidade dos va-

lores obtidos em relação à média aritmética:
• em sendo homogêneos, a distribuição dos valores se concentra em torno da média;
• em sendo heterogêneos, a distribuição dos valores se dispersa em torno da média.
58
EaD
Quadro 3: Quadro-resumo de conceitos básicos para Medidas de Tendência Central

e das Medidas de Variabilidade ou Dispersão
MEDIDAS DE TENDÊNCIA CENTRAL

MÉDIA ARITMÉTICA Ponto de equilíbrio da variável em termos de massa
Ponto central da distribuição de dados separa o conjunto em dois grupos
MEDIANA
de 50% cada
MODA É o valor mais frequente no conjunto de dados
MEDIDAS DE VARIABILIDADE
VARIÂNCIA ABSOLUTA Mede os desvios quadráticos dos valores em relação à média
DESVIO PADRÃO Informa o desvio médio dos valores em relação à média
Valor relativo da variabilidade em torno da média, permite obter uma
COEFICIENTE DE VARIAÇÃO
conclusão sobre a validade da média
Intervalo em torno da média considerando um afastamento médio em
INTERVALO DE NORMALIDADE
relação a ela
Fonte: Elaboração da autora com base em literatura estatística.
As fórmulas para o cálculo das medidas descritivas são apresentados com duas variações:
para Série Numérica e para Distribuição de Frequências (DF). Como podemos observar no
quadro resumo das fórmulas, a principal diferença é que na série temos os valores individual-
mente e podemos somá-los diretamente, enquanto que na DF eles estão dentro de um intervalo
de valores e o que sabemos é a sua frequência, isto é, a sua repetição. Nesse caso, temos de
encontrar um valor que represente o intervalo. Este valor será denominado de Xi, ponto médio.
É na verdade o meio do intervalo que adotamos como se todos os valores do intervalo fossem
iguais a ele. Por exemplo: num intervalo de 10 |-----– 20 o ponto central é 15 pois (10+20)/2
(li + ls )
= 15, X = ; logo, se nesse intervalo forem contados 5 valores, fi = 5, então a soma dos
i
2
mesmos será 5*15=75.
Vamos trabalhar com a aplicação desses conteúdos num banco de dados que traz informa-
ções sobre o desenvolvimento das microrregiões do RS e respectivas mesorregiões.
59
EaD
Quadro 4: Variáveis, seus conceitos, categorias e tipo de variável do banco de dados nº 5

com as microrregiões do RS e respectivas mesorregiões
Microrregião é, de acordo com a Constituição Brasileira de 1988, um agrupamento de

municípios limítrofes. Sua finalidade é integrar a organização, o planejamento e a exe-
Microrregião
cução de funções públicas de interesse comum, definidas por lei complementar estadu-
al. VA qualitativa não ordenável. Significado dos códigos estão no banco de dados.
Mesorregião é uma subdivisão dos Estados brasileiros que congrega diversos municí-
pios de uma área geográfica com similaridades econômicas e sociais. Foi criada pelo
Mesorregião IBGE e é utilizada para fins estatísticos e não constitui, portanto, uma entidade políti-
ca ou administrativa. VA qualitativa não ordenável. Significado dos códigos estão no
banco de dados.
O Índice de Desenvolvimento Humano (IDH) é uma medida comparativa que engloba
três dimensões: riqueza, educação e esperança média de vida. É uma maneira padro-
nizada de avaliação e medida do bem-estar de uma população. O índice vem sendo
IDH-Médio usado desde 1993 pelo Programa das Nações Unidas para o Desenvolvimento. Primei-
ros do mundo Islândia e Noruega IDH = 0,968. Va Quantitativa Contínua pode ser
transformada em VA qualitativa ordenável ([1. Baixa (0 a 0,499); 2. Médio (0,5 a 0,799);
3. Alto (0,8 a 1).
O produto interno bruto (PIB) representa a soma (em valores monetários) de todos os
bens e serviços finais produzidos numa determinada região (quer seja países, Estados,
cidades), durante um período determinado (mês, trimestre, ano, etc.). O PIB é um dos
indicadores mais utilizados na macroeconomia com o objetivo de mensurar a ativida-
de econômica de uma região. Os indicadores econômicos agregados (produto, renda,
PIB per capita
despesa) indicam os mesmos valores para a economia de forma absoluta. Dividindo-se
esse valor pela população de um país, obtém-se um valor médio per capita. VA Quanti-
tativa Contínua. Pode ser transformado em VA Qualitativa Ordenável [ 1. Pobre PIB PC
< U$ 7 mil; 2.Em desenvolvimento (7 a 24,99 mil dólares); 3. Rico (> de 25 mil dóla-
res)].
Densidade populacional, densidade demográfica ou População relativa é a medida
expressa pela relação entre a população e a superfície do território, geralmente aplica-
da a seres humanos, mas também a outros seres vivos (comumente animais). É geral-
mente expressa em habitantes por quilômetro quadrado. O país com a maior densidade
Densidade populacional é Mônaco (16.620) e a menor é a Mongólia (1). É uma VA Quantitativa
contínua. Se transformada em faixas temos uma VA Qualitativa Ordenável [1. Alta
densidade: mais de 1000 hab./km2; 2.Grande densidade: de 50 hab./km2 a 1000 hab./
km2; 3 Média densidade: de 10 hab./km2 a 500 hab./km2; 4 Baixa densidade: menos
de 100 hab./km2 ]
Fonte: Elaboração da autora com base em dados do IBGE.
60
EaD
Quadro 5: Banco de dados número 5 com as Variáveis sociais e econômicas

com as microrregiões do RS e respectivas mesorregiões
cod_ cod_
microrregião microrre- mesorre- mesorregião IDH_ médio PIB per capita DENSIDADE
gião gião
24. Restinga Seca 24 1 1.Centro Ocidental Rio-grandense 0,778 R$ 10.771,63 22,7
27. Santa Maria 27 1 1.Centro Ocidental Rio-grandense 0,824 R$ 7.107,62 31,8
29. Santiago 29 1 1.Centro Ocidental Rio-grandense 0,781 R$ 11.515,27 10,2
1. Cachoeira do Sul 1 2 2.Centro Oriental Rio-grandense 0,772 R$ 8.085,83 21,1
16. Lajeado-Estrela 16 2 2.Centro Oriental Rio-grandense 0,787 R$ 14.741,40 73,6
26. Santa Cruz do Sul 26 2 2.Centro Oriental Rio-grandense 0,782 R$ 15.779,80 57,1
2. Camaquã 2 3 3.Metropolitana de Porto Alegre 0,765 R$ 9.404,93 22,6
12. Gramado-Canela 12 3 3.Metropolitana de Porto Alegre 0,819 R$ 10.191,58 113,7
18. Montenegro 18 3 3.Metropolitana de Porto Alegre 0,819 R$ 14.885,89 94,4
20. Osório 20 3 3.Metropolitana de Porto Alegre 0,792 R$ 7.222,50 37,1
23. Porto Alegre 23 3 3.Metropolitana de Porto Alegre 0,829 R$ 11.500,41 665,2
31. São Jerônimo 31 3 3.Metropolitana de Porto Alegre 0,779 R$ 45.175,33 28,9
7. Caxias do Sul 7 4 4.Nordeste Rio-grandense 0,852 R$ 17.417,44 153
13. Guaporé 13 4 4.Nordeste Rio-grandense 0,823 R$ 17.866,55 35,8
35. Vacaria 35 4 4.Nordeste Rio-grandense 0,754 R$ 11.381,48 9,4
6. Carazinho 6 5 5.Noroeste Rio-grandense 0,768 R$ 12.005,06 32,9
8. Cerro Largo 8 5 5.Noroeste Rio-grandense 0,756 R$ 10.470,75 30,17
9. Cruz Alta 9 5 5.Noroeste Rio-grandense 0,77 R$ 14.709,39 18,9
10. Erechim 10 5 5.Noroeste Rio-grandense 0,778 R$ 12.514,84 38,2
11. Frederico Westphalen 11 5 5.Noroeste Rio-grandense 0,758 R$ 8.743,02 33,8
14. Ijuí 14 5 5.Noroeste Rio-grandense 0,784 R$ 12.875,91 35,9
19. Não-Me-Toque 19 5 5.Noroeste Rio-grandense 0,786 R$ 19.420,57 28,3
21. Passo Fundo 21 5 5.Noroeste Rio-grandense 0,797 R$ 13.922,97 45,3
25. Sananduva 25 5 5.Noroeste Rio-grandense 0,775 R$ 11.576,32 19,3
28. Santa Rosa 28 5 5.Noroeste Rio-grandense 0,813 R$ 11.606,43 47,1
30. Santo Ângelo 30 5 5.Noroeste Rio-grandense 0,783 R$ 10.076,02 18,77
33. Soledade 33 5 5.Noroeste Rio-grandense 0,75 R$ 7.294,43 20
34. Três Passos 34 5 5.Noroeste Rio-grandense 0,779 R$ 13.743,19 36,7
15. Jaguarão 15 6 6.Sudeste Rio-grandense 0,761 R$ 8.115,95 9,3
17. Litoral Lagunar 17 6 6.Sudeste Rio-grandense 0,786 R$ 16.766,70 27,9
22. Pelotas 22 6 6.Sudeste Rio-grandense 0,794 R$ 6.607,87 48,6
32. Serras de Sudeste 32 6 6.Sudeste Rio-grandense 0,744 R$ 8.152,46 7,4
3. Campanha Central 3 7 7.Sudoeste Rio-grandense 0,78 R$ 6.780,64 11,8
4. Campanha Meridional 4 7 7.Sudoeste Rio-grandense 0,777 R$ 8.631,31 12,6
5. Campanha Ocidental 5 7 7.Sudoeste Rio-grandense 0,789 R$ 10.588,69 12,8
Para compreender a aplicação das medidas descritivas em ambos os casos, SN e DF, vamos
apresentar alguns exemplos usando e analisando as medidas propostas. Retome estes exercícios-
exemplos, pois esse procedimento é muito importante. Se você o fizer vai ter imediatamente a
noção de que acertou os resultados, pois pode compará-los com os que são apresentados na
seção seguinte.
61
EaD
3.2.1 OPERACIONALIZAÇÃO DE MEDIDAS DESCRITIVAS EM SÉRIE NUMÉRICA
A operacionalização aqui pretendida vai desenvolver a busca de números típicos, conhecer

sua validade e utilizar a medida apropriada para avaliar o comportamento de variáveis sociais
em algumas microrregiões do RS.
Vamos trabalhar com a uma parte do banco de dados número 5. São 13 microrregiões que
fazem parte da Mesorregião Noroeste Rio-Grandense. Como n = 13, vamos trabalhar em SN –
Série Numérica, listagem de dados por microrregião, uma a uma.
Quadro 6: Banco de dados número 5 com as variáveis sociais e econômicas

com as microrregiões do RS da Mesorregião Noroeste Rio-Grandense
n Microrregião X Y Z X² Y² Z²
1 6. Carazinho 0,768 12.005,06 32,9 0,589824 144.121.465,60 1.082,41
2 8. Cerro Largo 0,756 10.470,75 30,2 0,571536 109.636.605,56 912,04
3 9. Cruz Alta 0,770 14.709,39 18,9 0,5929 216.366.154,17 357,21
4 10. Erechim 0,778 12.514,84 38,2 0,605284 156.621.220,23 1.459,24
5 11. Frederico Westphalen 0,758 8.743,02 33,8 0,574564 76.440.398,72 1.142,44
6 14. Ijuí 0,784 12.875,91 35,9 0,614656 165.789.058,33 1.288,81
7 19. Não-Me-Toque 0,786 19.420,57 28,3 0,617796 377.158.539,12 800,89
8 21. Passo Fundo 0,797 13.922,97 45,3 0,635209 193.849.093,62 2.052,09
9 25. Sananduva 0,775 11.576,32 19,3 0,600625 134.011.184,74 372,49
10 28. Santa Rosa 0,813 11.606,43 47,1 0,660969 134.709.217,34 2.218,41
11 30. Santo Ângelo 0,783 10.076,02 18,8 0,613089 101.526.179,04 353,44
12 33. Soledade 0,750 7.294,43 20,0 0,5625 53.208.709,02 400,00
13 34. Três Passos 0,779 13.743,19 36,7 0,606841 188.875.271,38 1.346,89
Total 10,097 158.958,90 405,4 7,845793 2.052.313.096,89 13.786,36

Obs.: Denominamos as variáveis neste estudo de X, Y e Z que são, respectivamente: X – IDH_ médio; Y
-PIB per capita (R$); Z -DENSIDADE
Questão em Estudo: Comportamento Padrão da Mesorregião Noroeste Rio-Grandense em

Termos de Desenvolvimento.
Para desenvolver esta temática precisamos conhecer as Medidas Descritivas dessa Me-
sorregião composta por 13 microrregiões. Observando no Banco anterior temos três variáveis
quantitativas contínuas: IDH, PIB PC, Densidade, tal que X: IDH médio (varia de 0,75 a 0,813);
Y: PIB pc (R$ 7.294,00 a R$ 19.421,00); Z: Densidade (18,8 a 47,1).
a. Medidas de Tendência Central
a1. Média Aritmética X ()

Inicialmente vamos calcular a Média Aritmética, a mais conhecida das medidas de Tendên-
cia Central para as 3 variáveis (lembrando que X: IDH; Y: PIBpc ; Z: Densidade demográfica).
62
EaD
n
xi 10,097
X =∑ = = 0,7766923 ,
i =1 n 13
Este IDH é um índice classificado como médio pelas categorias expressas no Quadro 4, o
que não é a pior situação, uma vez que a média do Estado é de 0,785, ficando, portanto, estatis-
ticamente na mesma situação do Estado.
n
yi 158.958,90
Y =∑ = = R$12.227,61 ,
i =1 n 13
Este é um PIB per capita médio, que indica que nossa região apresenta uma receita eco-
nômica insatisfatória, isto é, a riqueza produzida não a retira da classificação de região pobre,
em torno de US$ 7.000,00 (utilizando-se uma base de 2:1), próxima ao valor do estadual, R$
12.504,29, ficando, portanto, um pouco acima da do Estado, mas no seu entorno, indicando que
é uma das mesorregiões consideradas pobres no Estado, pois fica abaixo de US$ 7.000,00.
n
zi 405, 4
Z =∑ = = 31,18hab. / km ² ,
i =1 n 13
Esta é uma baixa densidade, uma vez que a média do Estado é de 54,64 hab./km², ficando,
portanto, abaixo da do Estado, entendendo-se que é pouco povoada, permitindo ainda expansão
em termos populacionais. Outro fator motivador dessa baixa densidade são as áreas rurais, que
praticamente estão reduzidas a poucas famílias que resistem e à concentração da área rural em
propriedades maiores com expansão do latifúndio e às migrações urbanas em busca de melhores
condições de trabalho pela baixa industrialização da região.
b. Mediana e Moda
Temos outras medidas descritivas alternativas para a Média: a Mediana e a Moda. As

outras medidas de Tendência Central, Mediana (Md) e Moda (Mo), na série numérica não de-
pendem de grandes cálculos, pois a mediana é uma medida separatriz que separa o grupo em
dois, cada um com 50% das informações e a moda informa qual o valor com maior frequência,
isto é, mais repetido.
Neste caso, a primeira providência para o cálculo destas duas medidas é a ordenação dos
dados em ordem crescente. Essa providência permite que rapidamente se visualize o valor cen-
tral (Mediana) e o valor com maior repetição (Moda). Vamos agora calcular as outras medidas
de Tendência Central para cada uma das 3 variáveis: X, Y e Z.
63
EaD
b1. Variável X: IDH-Médio
Quadro 7: Variável: IDH-Médio, dados ordenados, para obtenção da mediana e da moda

– Valores por microrregiões da Mesorregião Noroeste Rio-Grandense do RS
IDH_ médio
0,750 0,756 0,758 0,768 0,770 0,775 0,778 0,779 0,783 0,784 0,786 0,797 0,813
Xi Ordenados
1 2 3 4 5 6 7 8 9 10 11 12 13
IDH_ médio
0,75 0,76 0,76 0,77 0,77 0,78 0,78 0,78 0,78 0,78 0,79 0,80 0,81
Xi aproximados
Para calcular a mediana (Md) consideramos que n = 13 é ímpar, logo a posição do valor
n + 1 13 + 1
mediano é dada por: P= = = 7º valor , a mediana é então o P-ésimo valor de IDH. O
2 2
7º valor se observarmos no Quadro 7 é 0,778. Assim, conclui-se que 50% das microrregiões não
apresenta IDH superior a 0,778, um valor considerado médio (intervalo de 0,5 a 0,799).
Para calcular a moda (Mo) verificamos quais dentre as microrregiões apresentam valores
iguais de IDH, implicando valor mais repetido. Para o caso de considerarmos três casas decimais,
não encontramos valor repetido no IDH, podendo considerar a série amodal.
Se considerarmos a aproximação para duas casas decimais, o valor mais repetido é 0,78,
que ocorre 5 vezes, conforme pode ser observado no Quadro 7, formando uma série unimodal.
Neste caso, o valor modal para IDH é 0,78, confirmando a ideia de que a Mesorregião Noroeste
Rio-Grandense apresenta um Índice de Desenvolvimento Humano médio. Como a Média é de
0,776, Mediana é 0,778 e Moda é 0,78, podemos afirmar que a Moda não difere significativa-
mente da Média e da Mediana e permitindo concluir que:
X ≅ Md ≅ Mo
Esta igualdade nos informa que estamos diante de dados com muita simetria, cuja concen-
tração central apresenta todas as 3 medidas, logo a curva dos dados tende a normal, simétrica
com concentração central.
64
EaD
b2. Variável Y: PIB per capita
Quadro 8: Variável: PIB per capita, dados ordenados, para obtenção da Mediana e da Moda
PIB per capita – ordenado

7.294,43 8.743,02 10.076,02 10.470,75 11.576,32 11.606,43 12.005,06 12.514,84 12.875,91 13.743,19 13.922,97 14.709,39 19.420,57
1 2 3 4 5 6 7 8 9 10 11 12 13
7,3 8,7 10,1 10,5 11,6 11,6 12,0 12,5 12,9 13,7 13,9 14,7 19,4
Para calcular a Mediana (Md), novamente consideramos que n = 13 é ímpar, logo a posição
n + 1 13 + 1
do valor mediano é dada por: P = = = 7º valor , a Mediana é o P-ésimo valor que é o
2 2
sétimo valor do PIBC é 12.005,06. Observa-se, portanto, que 50% das microrregiões não apresenta
PIB per capita superior a R$ 12.005,06, um valor um pouco abaixo de US$ 7.000,00, confirmando
a classificação como região pobre. Apenas dois municípios apresentam classificação de Região
em desenvolvimento.
Para calcular a Moda (Mo), consideramos quais dentre as microrregiões apresentam valo-
res iguais de PIBpc. Não encontramos valor repetido no PIB, podendo considerar a série amodal.
Com uma aproximação para milhares, isto é, dividindo todos os valores por mil, observamos que
o valor de PIBpc = 11,6 mil reais é o único repetido. Neste caso, como a Média é de R$ 12.227,61
e a Mediana é de R$ 12.005,06, verificamos que a Moda é menor do que a Mediana e esta, por
sua vez, menor que a Média, indicando uma distribuição assimétrica:
X > Md > Mo
Esta desigualdade nos informa que estamos diante de dados com assimetria, cuja con-
centração não é central. Apresenta o ponto mais alto da distribuição, a Moda, nos valores mais
baixos, logo a curva é assimétrica positiva.
b3.Variável Z: Densidade
Quadro 9: Variável densidade, dados ordenados, para obtenção da Mediana e da Moda
DENSIDADE 18,8 18,9 19,3 20,0 28,3 30,2 32,9 33,8 35,9 36,7 38,2 45,3 47,1
1 2 3 4 5 6 7 8 9 10 11 12 13
DENSIDADE 19 19 19 20 28 30 33 34 36 37 38 45 47
65
EaD
Para calcular a Mediana (Md), novamente consideramos que n = 13 é ímpar, logo a posi-
n + 1 13 + 1
ção do valor mediano é dada por: P = = = 7º valor , a Mediana é o P-ésimo valor que
2 2
é densidade= 32,9 hab./km². Observa-se, portanto, que 50% das microrregiões não apresenta
densidade inferior a 32,9 hab./km², um valor um pouco maior que o valor médio, que é de 31,2
hab./km².
Para calcular a Moda (Mo), consideramos quais dentre as microrregiões apresentam va-
lores iguais de densidade. Não encontramos valor repetido na densidade, podendo considerar
a série amodal. Com uma aproximação para inteiros observamos que o valor de densidade =
19 hab./km² é o único repetido. Neste caso, a Moda é menor do que a Mediana e esta é maior
do que a Média, indicando uma distribuição assimétrica, no entanto não dentro do padrão, e
podemos concluir que:
X < Md > Mo
Esta desigualdade nos informa que estamos diante de dados com assimetria, cuja con-
centração não é central. Apresenta o ponto mais alto da distribuição, a Moda, nos valores mais
baixos, mas como a Mediana é maior que a Média, podemos entender como uma curva tendendo
à assimétrica negativa.
c. Medidas de Variabilidade
Para avaliarmos qual das três medidas de Tendência Central (Média, Mediana ou Moda)
consegue apresentar melhor o padrão dos dados avaliamos a variabilidade. Como a Média é
a mais utilizada e é uma medida paramétrica, esta é o melhor número típico para evidenciar
a forma do padrão de afastamento dos valores observados. Eles estabelecem uma relação, in-
formam a variação em torno da Média. Vamos analisar a homogeneidade (valores distribuídos
proximamente à Média) ou heterogeneidade (valores muito espalhados, dispersos em relação à
Média) dos dados com base nos afastamentos.
Entende-se que se a variação relativa dos afastamentos em torno da Média forem menores
do que 30%, esta é considerada baixa, aceitável, então a Média é representativa, válida como
padrão dos dados; caso a variação fique entre 30% e 60%, a variação é considerada grande,
66
EaD
grupo heterogêneo, e a melhor medida para informar o padrão é a Mediana; em último caso, se
a variação for maior que 60%, sem limite final, o grupo é heterogêneo e a medida que pode ser
considerada um padrão para os dados é a Moda.
()
| média X | mediana (Md )| mod a (Mo )
→ CV
| .......................30%....................60%......................
c1. Variável X: IDH-médio
• Variância Absoluta (s²)
Vamos utilizar a fórmula para série numérica, pois o conjunto de dados tem n = 13 < 20.
n
xi2 2  n  , com fator de correção para pequenas amostras
S 2 = [∑ − (x ) ] 
i =1 n  n − 1
Vamos utilizar os somatórios que já foram realizados junto ao banco de dados. Vamos pre-
cisar da soma de xi², entendendo-se que cada valor da variável vai ser colocado ao quadrado e
por fim somado.
n
xi2 2  n  7,845793 13 
S 2 = [∑ − (x ) ]   =[ − (0,7766923)²]*   = 0,000294243
i =1 n  n − 1 13 12 
Apesar de este valor estar expresso na mesma unidade de valor da variável, como é uma
média quadrática, isto é, de diferenças elevadas ao quadrado, o resultado não vai ser avaliado
efetivamente.
• Desvio Padrão (s)
A partir deste momento os cálculos seguem em sequência, por isso o melhor é deixá-los
no visor da calculadora, sem desligá-la.
S = S 2 = 0,000294243 =0,01753533 unidades de IDH de diferença média entre os valores

e a média com um limite de 4 desvios padrões a mais e 4 a menos.
• Coeficiente de Variação (CV)
Com valores absolutos a comparação e compreensão do significado torna-se complicada,

por isso utilizamos uma medida relativa dessa variação, que é o Coeficiente de Variação.
S  0,01753533 
CV =   100 =  *100 = 2, 26%
X  0,7766923 
67
EaD
Como CV<30%, pois o desvio encontrado representa apenas 2,26% de afastamento em

relação à média, podemos afirmar que se trata de um grupo homogêneo e o padrão do IDH é o
indicado pela média = 0,777, revelando que a Mesorregião Noroeste Rio-Grandense tem um
Índice de Desenvolvimento Humano médio.
c2. Variável Y: PIB per capita
Vamos utilizar a fórmula para série numérica, pois n = 13 < 20.
n
xi2 2  n  , com fator de correção para pequenas amostras
S 2 = [∑ − (x ) ] 
i =1 n  n − 1
Vamos empregar os somatórios que já foram realizados junto ao banco de dados. Vamos
precisar da soma de xi², entendendo-se que cada valor da variável vai ser colocado ao quadrado
e por fim somado.
n
xi2 2  n  2.052.313.096,89 13 
S 2 = [∑ − (x ) ]   =[ − (12227,61)²]*   = 9.052.107,829
i =1 n  n − 1 13 12 
Apesar de este valor estar expresso na mesma unidade de valor da variável, como é uma mé-
dia quadrática, isto é, de diferenças elevadas ao quadrado, não vai ser avaliado efetivamente.
S = S 2 = 9.052.107,829 =3.008,672104 reais de diferença média entre os valores e a média

com um limite de 4 desvios padrões a mais e 4 a menos.

S  3.008,672104 
CV =   100 =   *100 = 24,6%
X  12.227,61
Como CV<30%, pois o desvio encontrado representa 24,6% de afastamento em relação à

média, podemos afirmar que se trata de um grupo homogêneo e o padrão do PIB per capita é o
indicado pela média = R$12.227,61, revelando que a Mesorregião Noroeste Rio-Grandense tem
um padrão abaixo de 7 mil dólares.
68
EaD
c3. Variável Z: Densidade
Vamos utilizar a fórmula para série numérica, pois n = 13 < 20.
n
xi2 2  n 
S = [∑ − (x ) ] 
2
, com fator de correção para pequenas amostras
i =1 n
 n − 1
Vamos utilizar os somatórios que já foram realizados junto ao banco de dados. Vamos pre-
cisar da soma de xi², entendendo-se que cada valor da variável vai ser colocado ao quadrado e
por fim somado.
xi2
n
2  n  13.786,36 13 
S = [∑ − (x ) ]
2
=[ − (31,18)²] *   = 95, 6549 [hab./km²]²
i =1 n  n −1  13 12 
Apesar de este valor estar expresso na mesma unidade de valor da variável, como é uma mé-
dia quadrática, isto é, de diferenças elevadas ao quadrado, não vai ser avaliado efetivamente.
S = S 2 = 95,6549 =9,780332305 hab./km² de diferença média entre os valores e a média

com um limite de 4 desvios padrões a mais e 4 a menos, neste caso, 36 a mais ou a menos.
S  9,780332305 
CV =   100 =   *100 = 31, 4%
X  31,18
Como 30%<CV<60%, pois o desvio encontrado representa 31,4% de afastamento em re-
lação à média, podemos afirmar que se trata de um grupo heterogêneo e o padrão da densidade
demográfica não é bem informada pela Média, sendo indicado usar a Mediana Md=32,9 hab./
km², indicando que a Mesorregião Noroeste Rio-Grandense tem um padrão baixo de povoamento,
havendo espaço ainda para o crescimento populacional.
69
EaD
Conclusão: Observa-se que a Mesorregião Noroeste Rio-Grandense é um lugar com potencial

para se viver com espaço de crescimento em termos de desenvolvimento, merecendo maior
atenção tanto por parte da esfera pública como dos moradores. Observou-se um IDH médio na
Mesorregião de 0,777, considerado um médio indicador, sendo que este varia de 0,75 a 0,813,
um PIBPC baixo de R$ 12.227,61, um padrão ainda abaixo do esperado, pois não garante
a superação da faixa de 7 mil dólares per capita, que a colocaria na condição de região em
desenvolvimento. Apresenta espaço de crescimento populacional, pois as estatísticas indicam
que as microrregiões têm uma densidade em torno de 31,18 hab./km². A região precisa ser
incentivada para gerar mais riqueza e promover maior distribuição da renda e da riqueza.
No tópico seguinte vamos mostrar como se calcula e interpretam as Medidas Descritivas
em dados agrupados em forma de Distribuição de Frequências.
3.2.2 OPERACIONALIZAÇÃO DE MEDIDAS DESCRITIVAS EM DISTRIBUIÇÃO DE FREQUÊNCIAS
Considerando a situação em que os valores observados são em n> 20 e podem ser agru-
pados em faixas de frequência, precisamos rever as fórmulas a serem aplicadas no cálculo das
medidas descritiva: tendência central e de variabilidade.
Na prática, a alteração observada na Média e nas medidas de variabilidade limitam-se à
necessidade de calcular o ponto médio do intervalo que representa os xi’s, e considerar que os
mesmos apresentam uma repetição expressa em termos de frequência (fi). Este valor é que vai
ser acrescentado nas fórmulas da Média e da Variância. Os demais cálculos permanecem os
mesmos.
Estamos analisando agora o padrão estadual a partir do banco de dados número 6, que
contém os dados das 35 microrregiões do Estado do RS. Vamos utilizá-lo e as variáveis presentes
para responder à seguinte questão e poder comparar com o resultado da Mesorregião Noroeste
Rio-Grandense tratada a partir de uma análise descritiva realizada em série numérica, pois n=13
microrregiões que fazem parte da mesma.
Questão em estudo: Qual é o comportamento padrão do Estado do Rio Grande do Sul em

termos de desenvolvimento?
70
EaD
Neste momento, ao tratar do âmbito estadual, vamos trabalhar com dados agrupados em
faixas empregando a Distribuição de Frequências. Não vamos desenvolver os cálculos para a
construção da DF, mas apresentaremos as informações básicas necessárias para você refazer
essa construção.
As medidas de Tendência Central são medidas de posição, porque posicionam o conjunto

de dados na reta, isto é, nos informam sobre os pontos em que ocorrem as respostas de nossas
variáveis, neste caso, as mesmas utilizadas anteriormente: IDH-médio, PIB per capita e Densi-
dade populacional. O tratamento estatístico vai partir de uma DF, com os cálculos necessários
para realizar a análise pretendida.
a1. Variável X: IDH-médio
Vamos começar pelo procedimento usual de agrupamento de dados (construção da Dis-

tribuição de Frequências).
Quadro10: Informações básicas sobre o IDH-médio das microrregiões do RS
N 35
Li 0,744
Ls 0,852
At 0,108
Raiz n 5,916079783
Hi 0,018255332 ≅ 0,02
Depois destas informações construímos a Distribuição de Frequências com 6 intervalos

de tamanho 0,02, iniciando em 0,74, pois Li = 0,744, e finalizando em 0,86, uma vez que Ls =
0,852.
Tabela 1: Distribuição do IDH-médio do RS por microrregião
Valores de Xi fi fa fr% fr%ac Xi fi*xi fi*xi²

0,74 |------- 0,76 5 5 14,29 14,29 0,75 3,75 2,8125
0,76 |------- 0,78 11 16 31,43 45,72 0,77 8,47 6,5219
0,78 |------- 0,80 12 28 34,29 80,00 0,79 9,48 7,4892
0,80 |------- 0,82 3 31 8,57 88,58 0,81 2,43 1,9683
0,82 |------- 0,84 3 34 8,57 97,15 0,83 2,49 2,0667
0,84 |------- 0,86 1 35 2,86 100,00 0,85 0,85 0,7225
Total 35 100,00 27,47 21,5811
Fonte: Elaboração da autora com dados do IBGE.
71
EaD
• Média Aritmética ( x )
Para preparar a DF para o cálculo da Média precisamos da coluna do Xi, ponto médio (soma
dos limites do intervalo dividida por 2). Após obter o ponto médio, multiplicamos cada um pela
frequência (fi*xi), que será a soma dos valores nesse intervalo. Após o cálculo do último produto
somamos e obtemos a soma geral que será utilizada na fórmula, como evidenciamos a seguir:
n
f i xi 27, 47
X =∑ = = 0,785 , IDH-médio do Estado do RS.
i =1 n 35
Apesar de ser um valor alto, ainda não se encontra na faixa dos melhores IDHs, que se inicia
em 0,8. O “Brasil entrou pela primeira vez para o grupo de países com elevado desenvolvimento
humano, com um índice medido em 0,800 no ano de 2005. Em 2006 obteve uma melhora no
índice de 0,007, com uma pontuação de 0,807. Encontra-se na 70ª colocação mundial, posição
que já mantinha no ano anterior”(Wikipédia, IDH, 14/7/2009).
• Mediana (Md)
O cálculo da Mediana numa DF deve ser feito a partir de uma fórmula que recupere o
valor que separa o grupo em duas partes, com 50% cada. Inicialmente precisamos encontrar o
ponto central, ou seja, sua posição (P), que vai nos indicar em qual intervalo se encontra o valor
mediano.
Sua localização será feita na coluna do fa, aquele que contém o p-ésimo valor. Nossa refe-
rência é que o valor que se encontra naquele intervalo é a posição do último valor que foi contado
naquele intervalo. Nesse caso, o intervalo deve conter o valor P. Explicando mais concretamente,
se os valores do fa são 1, 5, 20,... isto significa que no primeiro intervalo só entrou um dado, do
2º ao 5º entrou no segundo intervalo, do 6º ao 20º no terceiro intervalo e assim por diante. Com
isso, se n=30, P = 15º, valor que estará contido no 3º intervalo. Do intervalo mediano, que foi o
selecionado, retiraremos toda a informação necessária. A única informação que não segue este
critério é o fa a (frequência acumulada do intervalo anterior ao mediano). Quando o intervalo
mediano ocorrer no primeiro intervalo o fa a será zero.
n 35
P = = = 17,5 → l o c a l i z a o f a n o t e rc e i ro i n t e r v a l o , p o i s a s m i c ro r re g i õ e s
2 2
17 até a 28 se encontram nesse inter valo mediano, o im d . Seleciona o inter valo
e r e t i r a t o d o s o s d a d o s d o m e s m o c o m exc e ç ã o d a f a a , q u e é o f a a n t e r i o r.
Md = li +
(P − f aa )hi = 0,78 +
(17,5 − 16)0,02
= 0,7825
fi 12
72
EaD
Com isso entende-se que 50% das microrregiões do RS não ultrapassam um IDH-médio
de 0,783, têm índices inferiores, mas no limite de 0,75, informando-nos que no RS nenhuma
microrregião é muito problemática em termos de desenvolvimento humano.
• Moda (Mo)
Para obtermos informação sobre o valor que mais ocorre no conjunto de dados, após o
agrupamento dos valores, devemos nos concentrar no intervalo que agrega o maior número de
informações (> fi). Este será denominado de intervalo modal (Imo). Esta localização independe
da localização da Mediana, pois são duas informações diferentes, no entanto algumas vezes,
principalmente em função da simetria da distribuição, as duas medidas utilizam o mesmo in-
tervalo como referência para o cálculo. É uma coincidência, não uma regra. Quando o intervalo
modal ocorrer no primeiro intervalo o fa n t será zero, e o mesmo ocorre se o> fi se encontrar no
último, nesse caso, fp o s t será zero.
f i → localizar no > f i que é 12, no terceiro intervalo, d1 = f m − f ant = 12 − 11 = 1

o mesmo da Mediana neste caso, este é considerado
d 2 = f m − f post = 12 − 3 = 9
em relação a ele o Imo (Intervalo modal). Seleciona o
intervalo e retira todos os dados. f m : frequência máxima
 d1   1  f ant : frequência anterior à máxima
Mo = li +  hi = 0,78 +  * 0,02 = 0,782

 d1 + d 2   1 + 9 
Comparando-se as três informações ( x = 0,785.. ≅ ..Md = 0,783.. ≅ ...Mo = 0,782 ) verificamos

que se trata de uma curva simétrica, pois a Moda não difere significativamente da Média e da
Mediana e podemos concluir que:
X ≅ Md ≅ Mo
Esta igualdade nos informa que estamos diante de dados com muita simetria, cuja concen-
tração central apresenta todas as 3 medidas, logo a curva dos dados tende à normal, simétrica
com concentração central, concluindo-se que o grupo é bastante homogêneo.
73
EaD
Tendo em vista a necessidade de nos reportarmos à Tabela 1 para avaliar a validade da

Média, vamos calcular logo a variação em torno da Média por meio das Medidas de Variabili-
dade, antes de fazermos o tratamento das outras variáveis.
Com as Medidas de Variabilidade queremos responder à seguinte questão:
O IDH médio do RS é válido como padrão para analisar o Estado?
• Variância absoluta (s²)
Para calcular a variância absoluta precisamos de uma coluna com o produto de cada fi
pelo quadrado do Xi, ponto médio. Ao finalizarmos todos os produtos, é a soma dos mesmos que
vai ser utilizada na fórmula. Se n > 30, não há necessidade de aplicar o Fator de Correção – [n/
(n-1)]. Neste caso n=35, então a variância será calculada sem ele.
n
f i xi2 (21,5811)
S2 = ∑ − (x ) =
2
− (0,785)² = 0,000377857
i =1 n 35
Ao calcular o desvio padrão, ou seja, a informação que nos dirá qual é, em média, o afas-
tamento dos dados em relação à média, comumente vamos lembrar que nas pesquisas eleitorais
os resultados são informados num intervalo, por exemplo: (3% para mais ou 3% para menos).
Isto nos auxilia a perceber a importância do desvio padrão.
S = s ² = 0,000377857 = 0,019438544
Para avaliar a validade da Média precisamos verificar quanto representa o desvio padrão
em relação à Média e após tirar uma conclusão com base no esquema que foi apresentado an-
teriormente.
S  0,019438544 
CV =   100 =   100 = 2, 48%
X  0,785
Observa-se que a Média é válida, pois a dispersão em torno dela tende a zero, < 30%.
Trata-se de um grupo homogêneo de dados com pouquíssima variação entre as microrregiões,
uma vez que CV = 2,48%, caso típico de simetria, como vimos anteriormente.
Nesse caso, a aplicação do Intervalo de Normalidade é perfeitamente aplicável.
74
EaD
IN 65% = X − S ; X + S =
{0,785-0,0004;0,785+0,0004}={0,7846;0,7854}
IN 95% = X − 2 * S ; X + 2 * S =
{0,785-2*0,0004;0,785+2*0,0004}={0,7842;0,7858}
IN 99% = X − 3* S ; X + 3* S =
{0,785-3*0,0004;0,785+3*0,0004}={0,7838;0,7862}
Respondendo, então, à questão inicial, formulamos a seguinte conclusão:
Conclusão: O padrão de IDH do Estado gaúcho é 0,785 com pouquíssima diferença entre as
microrregiões, podendo-se definir este IDH como representativo do comportamento estadual.
Tendo em vista que o IDH variando de 0,5 a 0,799 é considerado um Índice de Desenvolvimen-
to Humano médio, entendemos que o RS apresenta um médio padrão de desenvolvimento.
Observando-se o intervalo de normalidade, concluímos que ainda estão faltando mais in-
vestimentos na área social para que o IDH do Estado supere esse nível, pois no IN99% o valor
máximo possível é de 0,786, não superando os limites desse intervalo.
a2. Variável Y: PIB per capita

Quadro 11: Informações básicas do PIB per capita das microrregiões do RS
n 34
Li R$ 6.607,87
Ls R$ 19.420,57
At 12812,7
Raiz n 5,830951895
Hi 2197,359922
Encontramos um outlier = R$ 45.175,33 da Microrregião de São Jerônimo que se encontra

fora do padrão. Por isso no conjunto analisado no Estado para fins deste tratamento estatístico
este foi descartado por ser impossível agrupá-lo com os demais. N = 34 então ≅ 3 mil reais.

de tamanho 3 mil, iniciando em 6, pois Li = R$ 6.607,87 e finalizando em 21, uma vez que Ls
= R$ 19.420,57.
75
EaD
Tabela 2: Distribuição do PIB per capita (em milhares de reais) do RS por microrregião

6 |-------- 9 10 10 29,41 29,41 7,5 75 562,5
9 |-------- 12 11 21 32,35 61,76 10,5 115,5 1212,75
12 |-------- 15 8 29 23,53 85,29 13,5 108 1458
15 |-------- 18 4 33 11,76 97,06 16,5 66 1089
18 |-------- 21 1 34 2,94 100,00 19,5 19,5 380,25
Total 34 100,00 384 4702,5
dos limites do intervalo dividida por 2). Após obter o ponto médio multiplicamos cada um pela
frequência (fi*xi), que será a soma dos valores nesse intervalo. Após o cálculo do último produto,
somamos e obtemos a soma geral que será utilizada na fórmula, como evidenciamos a seguir:
n
f i xi 384
X =∑ = = 11, 294 mil reais
i =1 n 34
O PIB per capita estadual é de R$11.294,00, abaixo do valor mínimo razoável: 7 mil dóla-
res. Este desempenho indica que, no Estado, existem microrregiões que fazem decrescer o valor
médio e pelos padrões mundiais é uma região pobre.
• Mediana (Md)
O cálculo da Mediana numa DF necessita ser feito a partir de uma fórmula que recupere
o valor que separa o grupo em duas partes, com 50% cada. Inicialmente precisamos encontrar o
ponto central, ou seja, sua posição (P), que vai nos indicar em qual intervalo se encontra o valor
mediano. Sua localização será feita na coluna do fa, aquele que contém o p-ésimo valor. Deste
intervalo retiraremos toda a informação necessária. A única que não segue este critério é o valor
do fa a (frequência acumulada do intervalo anterior ao mediano). Quando o intervalo mediano
ocorrer no primeiro intervalo o valor do fa a será zero.
n 34
P= = = 17 → localiza o f a no terceiro intervalo, pois as microrregiões 17 até
2 2
a 28 se encontram nesse intervalo mediano, o imd. Seleciona o intervalo e retira todos
os dados do mesmo, com exceção da faa que é o fa anterior.
Md = li +
(P − f aa )hi =9+
(17 − 10) *3
= 10,91
fi 11
76
EaD
Com isso, entende-se que 50% das microrregiões do RS não ultrapassam um PIB per ca-
pita de R$ 10.910,00, tem índices inferiores, mas no limite de R$ 6.607,87, informando-nos que
no RS a maioria das microrregiões pode ser considerada pobre (26 delas têm classificação de
região pobre, pois o PIB per capita é inferior a 7 mil dólares, 9 delas podem ser consideradas em
desenvolvimento, pois o PIB fica entre 7 e 25 mil dólares.
• Moda (Mo)
agrupamento dos valores, devemos nos concentrar no intervalo que agrega o maior número
de informações (> fi). Este será denominado o intervalo modal. Esta localização independe da
localização da Mediana, pois são duas informações diferentes, no entanto algumas vezes, prin-
cipalmente em função da simetria da distribuição, as duas medidas utilizam o mesmo intervalo
como referência para o cálculo. É uma coincidência, não uma regra. Quando o intervalo modal
ocorrer no primeiro intervalo o fant será zero, e o mesmo ocorre se o> fi se encontrar no último,
nesse caso fpost será zero.
f i → loca liz a r no > f i que é 1 2, n o s e - d1 = f m − f ant = 11 − 10 = 1

gundo intervalo, o mesmo da mediana
d 2 = f m − f post = 11 − 8 = 3
neste caso, este é considerado em relação
a ele o i mo, i n t e r v a l o m o d a l . S e l e c i o n a o f m : fr e q u ê n c i a m á xi m a
i n ter valo e retira t odos os d a dos . f ant : fr e q u ê n c i a a n t e r i o r à m á xi m a
 d1   1 
Mo = li +  hi = 9 +  *3 = 9,75
 1
d + d 
2
 1 + 3  f post : fr e q u ê n c i a p o s t e r i o r à m á xi ma
O que é mais frequente no Rio Grande do Sul são microrregiões que apresentam um PIB
per capita em torno de R$ 9.750,00, um valor muito abaixo do esperado.
Comparando-se as três informações

( x = R$ 11.294,00, > ..Md = R$ 10.910,00.. > ...Mo = R$ 9.750,00 ) verificamos que se trata
de uma curva assimétrica positiva, pois a Moda é o menor valor difere da Média e da mediana
e podemos concluir que:
X > Md > Mo
77
EaD
Esta desigualdade nos informa que estamos diante de dados cuja distribuição é assimétrica,
concluindo-se que o grupo é heterogêneo.

dade, antes de passarmos o tratamento das outras variáveis.
Medidas de Variabilidade
O PIB per capita médio do RS é válido como padrão para analisar o Estado?
Para calcular a variância absoluta precisamos de uma coluna com o produto de cada fi pelo
quadrado do Xi, ponto médio. Ao finalizarmos todos os produtos é a soma destes que vai ser
utilizada na fórmula. Se n > 30, não há necessidade de aplicar o Fator de Correção – [n/(n-1)].
Neste caso n=34 (um dos valores foi isolado por não apresentar o mesmo padrão dos demais),
então a variância será calculada sem ele.
n
f i xi2 (4702,5)
S =∑ − (x ) =
2
2
− (11, 294)² = 10,75438753milreais ²
i =1 n 34
Ao calcular o desvio padrão, ou seja, aquela informação que nos dirá qual é, em média, o
afastamento dos dados em relação à Média, é importante lembrar que nas pesquisas eleitorais
os resultados são informados num intervalo, por exemplo: (3% para mais ou 3% para menos).
Isto nos auxilia a entender a importância do desvio padrão.
S = s ² = 10,75438753 = 3, 279388286 mil reais
Entende-se que o desvio médio para mais e para menos em torno da média é de R$
3.279,00.
Para avaliar a validade da Média, precisamos verificar quanto representa o desvio padrão
teriormente.
S  3, 279388286 
CV =   100 =  100 = 29,04%
X  11, 294 
78
EaD
Observa-se que a Média é válida, pois a dispersão em torno dela é < 30%. Trata-se de um
grupo homogêneo de dados com variação entre as microrregiões, uma vez que CV = 29,04%,
no limite do permitido em termos de variação tendendo a 30%.
Conclusão: que o PIB per capita do Estado gaúcho é R$11.294,00 com pouca diferença entre
as microrregiões, podendo-se considerar este PIB representativo do comportamento estadual,
indicando que uma grande parte das microrregiões e o próprio Estado podem ser considerados
pobres.
a3. Variável Z: Densidade

Quadro 12: Informações básicas da densidade (hab./km²) das microrregiões do RS
N 34
Li 7,4
Ls 153
At 145,6
Raiz n 5, 830951895
Hi 24, 970194
Encontramos um outlier = 665,2 hab. /km² da Microrregião metropolitana de PoA que se

encontra fora do padrão. Por isso no conjunto analisado no Estado para fins deste tratamento
estatístico este foi descartado por ser impossível agrupá-lo com os demais. N = 34 então ≅ 25.

de tamanho 25, iniciando em 5, pois Li = 7,4 hab./km² e finalizando em 150, uma vez que Ls =
145,6 hab./km².
Tabela 3: Distribuição da Densidade Populacional (hab./km²) do RS por microrregião

5 |-------- 30 17 17 50,00 50 17,5 297,5 5206,25
30 |-------- 55 12 29 35,29 85,29 42,5 510 21675
55 |-------- 80 2 31 5,88 91,18 67,5 135 9112,5
80 |-------- 105 1 32 2,94 94,12 92,5 92,5 8556,25
105 |-------- 130 1 33 2,94 97,06 117,5 117,5 13806,3
130 |-------- 155 1 34 2,94 100,00 142,5 142,5 20306,3
Total 34 100,00 1152,5 58356,3
79
EaD
dos limites do intervalo dividida por 2). Após obter o ponto médio, multiplicamos cada um pela
frequência (fi*xi), que será a soma dos valores nesse intervalo. Após o cálculo do último produto
somamos e obtemos a soma geral que será utilizada na fórmula, como evidenciamos a seguir.
n
f i xi 1.152,5
X =∑ = = 33,9hab. / km ²
i =1 n 34
A densidade populacional média no Estado é de 33,9 hab./km², classificada como razoável.

Este é o padrão das 34 microrregiões, que diferem muito da microrregião metropolitana de Porto
Alegre, que apresenta uma densidade de 665,2 hab./km².
• Mediana (Md)
O cálculo da Mediana numa DF é feito a partir de uma fórmula que recupere o valor que
separa o grupo em duas partes, com 50% cada. Inicialmente precisamos encontrar o ponto cen-
tral, ou seja, sua posição (P), que vai nos indicar em qual intervalo se encontra o valor mediano.
Sua localização será feita na coluna do fa, aquele que contém o p-ésimo valor. Deste intervalo
retiraremos toda a informação necessária. A única que não segue este critério é o fa a (frequência
acumulada do intervalo anterior ao mediano). Quando o intervalo mediano ocorrer no primeiro
intervalo o fa a será zero.
n 34
P= = = 17 → localiza o f a no terceiro intervalo pois as microrregiões 17 até
2 2
a 28 se encontram nesse intervalo mediano, o imd. Seleciona o intervalo e retira
todos os dados do mesmo com exceção da faa, que é o fa anterior.
Md = li +
(P − f aa )hi = 5 + (17 − 0) * 25 = 30.hab. / km²
fi 17
Com isso, entende-se que 50% das microrregiões do RS não ultrapassam uma densidade
de 30 hab./km², apresentando uma densidade inferior a 30, indicando que no RS a maioria das
microrregiões pode ser considerada pouco povoada.
• Moda (Mo)
agrupamento dos valores, devemos nos concentrar no intervalo que agrega o maior número de
informações (> fi). Este será denominado de intervalo modal. Esta localização independe da
80
EaD
localização da Mediana, são duas informações diferentes, no entanto algumas vezes, principal-
mente em função da simetria da distribuição, as duas medidas utilizam o mesmo intervalo como
referência para o cálculo. É uma coincidência, não uma regra. Quando o intervalo modal ocorrer
no primeiro intervalo o fa n t será zero, e o mesmo ocorre se o (> fi) se encontrar no último, ou
seja, fp o s t será zero.
f i → localizar no > f i que é 17, no primeiro intervalo, d1 = f m − f ant = 17 − 0 = 17

o mesmo da Mediana neste caso, este é considerado em
d 2 = f m − f post = 17 − 12 = 5
relação a ele o imo intervalo modal. Seleciona o intervalo
e retira todos os dados. f m : frequência máxima
 d1   17  f ant : frequência anterior à máxima

Mo = li +  hi = 5 +  * 25 = 24,3.hab. / km ²

 d1 + d 2   17 + 5 
Entendemos que a densidade populacional mais frequente é de 24,3 hab./km². Comparando-

se as três informações, ( x = 33,9.hab. / km ².. > ..Md = 30.ha. / km ².. > ..Mo = 24,3.hab. / km ² ), verificamos
que se trata de uma curva assimétrica positiva, pois a Moda é o menor valor, difere da Média e
da Mediana e podemos concluir que:
X > Md > Mo
Esta desigualdade nos informa que estamos diante de dados cuja distribuição é assimétrica,
concluindo-se que o grupo é heterogêneo.

dade, antes de realizarmos o tratamento das outras variáveis.
Medidas de Variabilidade
A densidade populacional média do RS é válida como padrão para analisar o Estado?
81
EaD
Para calcular a variância absoluta precisamos de uma coluna com o produto de cada fi pelo
quadrado do Xi, ponto médio. Ao finalizarmos todos os produtos é a soma destes que vai ser
utilizada na fórmula. Se n > 30, não há necessidade de aplicar o Fator de Correção – [n/(n-1)].
Neste caso n=34 (um dos valores foi isolado por não apresentar o mesmo padrão dos demais),
então a variância será calculada sem ele.
n
f i xi2 (58356,3)
S2 = ∑ − (x ) =
2
− (33,9)² = 567,1517647(hab. / km ²)²
i =1 n 34
Ao calcular o desvio padrão, isto é, aquela informação que nos dirá qual é, em média,
o afastamento dos dados em relação à Média, comumente vamos lembrar que nas pesquisas
eleitorais os resultados são informados num intervalo, por exemplo: (3% para mais ou 3% para
menos). Isto nos auxilia a perceber a importância do desvio padrão.
S = s ² = 567,1517647 = 23,81494835.hab. / km ²
Entende-se que o desvio médio para mais ou para menos em torno da média é de 23,815
hab./km².
Para avaliar a validade da Média precisamos verificar quanto representa o desvio padrão
teriormente.
S  23,815494835 
CV =   100 =   100 = 70, 25%
X  33,9
Observa-se que a Média não é válida, pois a dispersão em torno dela é > 60%. Trata-se
de um grupo heterogêneo de dados com variação entre as microrregiões, uma vez que CV =
70,25%. Neste caso a medida padrão a ser utilizada é a Moda = 24,3 hab./km². Assim sendo, a
densidade populacional do Estado está num padrão de baixa ocupação, pois o que mais ocorre
são densidades em torno de 24,3 hab./km².
Conclusão: Verificamos que o Estado do RS apresenta um IDH médio de 0,785, PIB per capi-
ta de R$ 11.294,00, inferior ao padrão de 7 mil dólares, podendo ser considerado um Estado
pobre, e por fim com baixa densidade demográfica, uma vez que a mesma é de 24,3 hab./
km²<100 hab./km2. O Estado reflete uma postura cultural que dá destaque à educação e à
saúde, porém ainda está dominado por políticas públicas que privilegiam a concentração de
renda, a não realização da reforma agrária, protegendo a concentração de terra. Percebe-se
82
EaD
também a falta de investimento para o crescimento das regiões. Para tanto, é importante que
o foco, tanto da organização e da administração pública quanto da sociedade civil, esteja
no cidadão e na cidadã com vistas a ampliar os espaços de participação popular em todos
os níveis. As estatísticas refletem uma falta de vontade política de viabilizar a Qualidade de
Vida com qualidade.
A Estatística é uma ciência presente em todos os aspectos da vida, seja ela humana ou ani-
mal, seja ela com elementos não vivos, mas que se repetem na nossa sociedade e/ou na natureza.
Muitos cálculos aparentemente, mas que no decorrer de sua aplicação vamos compreendendo
que se trata de formatações que se apoiam umas nas outras, repetindo raciocínios e cálculos, com
uma importante contribuição na descrição do comportamento de fatos já ocorridos, na projeção
de resultados, nas tomadas de decisão. Essa é nossa intenção com as aplicações: que você se
torne apto a conhecer estatisticamente e tomar as melhores decisões, com uma grande margem
de segurança.
Como sugestão para tornar esta unidade menos complexa, insistimos que você se disponha
a refazer os exemplos apresentados antes de partir para as aplicações. Além do que, é importante
retomar todos os capítulos anteriores ao realizar as aplicações.
Seção 3.3
Aplicações
Considere o seguinte banco de dados para construir suas questões e desenvolver as esta-
tísticas necessárias para obter as respostas. Este banco traz informações educacionais da:
Mesorregião 2 – Centro Oriental Rio-Grandense com 54 municípios, sendo composta por três
Microrregiões (1. Cachoeira do Sul; 16. Lajeado-Estrela; 26. Santa Cruz do Sul).
Ao fazer o estudo, sugerimos que trabalhe em separado as três Microrregiões, oportuni-

zando duas séries numéricas e uma DF:
1. Cachoeira do Sul (n = 7);
16. Lajeado-Estrela (n = 31);
26. Santa Cruz do Sul (n = 16);
Também trabalhe estatisticamente a Mesorregião como um todo para comparar os achados

estatísticos.
83
EaD
Quadro 13: Banco de dados número 6 – Mesorregião 2 – Centro Oriental Rio-Grandense
Microrre- Doc_ Nal_ Nal_ Nal_

N Mun MatrEF07 MatrEM07 Matr07 Doc_EF07 Doc07
gião EM07 docEF docEM doc07
1 Cachoeira do Sul 1 11.889 3.288 15.177 851 265 1116 14 12 14
2 Cerro Branco 1 689 171 860 60 14 74 11 12 12
3 Novo Cabrais 1 587 154 741 44 12 56 13 13 13
4 Pantano Grande 1 1.777 389 2.166 110 28 138 16 14 16
5 Paraíso do Sul 1 947 231 1178 67 11 78 14 21 15
6 Passo do Sobrado 1 825 239 1064 89 16 105 9 15 10
7 Rio Pardo 1 5.679 1.407 7.086 369 123 492 15 11 14
1 Arroio do Meio 16 2.360 781 3.141 183 52 235 13 15 13
2 Bom Retiro do Sul 16 1.710 499 2.209 121 35 156 14 14 14
3 Boqueirão do Leão 16 1.298 240 1.538 106 21 127 12 11 12
4 Canudos do Vale 16 274 0 274 27 0 27 10 999 10
5 Capitão 16 402 127 529 40 16 56 10 8 9
6 Colinas 16 257 66 323 26 12 38 10 6 9
7 Coqueiro Baixo 16 193 0 193 19 0 19 10 999 10
8 Cruzeiro do Sul 16 1.440 358 1.798 105 33 138 14 11 13
9 Doutor Ricardo 16 290 76 366 35 10 45 8 8 8
10 Encantado 16 2.588 817 3.405 203 66 269 13 12 13
11 Estrela 16 4.238 1.345 5.583 298 122 420 14 11 13
12 Fazenda Vilanova 16 541 154 695 25 9 34 22 17 20
13 Forquetinha 16 303 96 399 29 7 36 10 14 11
14 Imigrante 16 291 96 387 34 14 48 9 7 8
15 Lajeado 16 9.346 2.991 12.337 673 236 909 14 13 14
16 Marques de Souza 16 524 95 619 50 17 67 10 6 9
17 Muçum 16 640 194 834 77 21 98 8 9 9
18 Nova Bréscia 16 400 196 596 32 17 49 13 12 12
19 Paverama 16 886 215 1101 68 18 86 13 12 13
20 Pouso Novo 16 303 76 379 33 11 44 9 7 9
21 Progresso 16 1.081 225 1.306 89 19 108 12 12 12
22 Relvado 16 257 76 333 32 7 39 8 11 9
23 Roca Sales 16 1.123 423 1.546 100 45 145 11 9 11
24 Santa Clara do Sul 16 710 243 953 49 15 64 14 16 15
25 Sério 16 346 108 454 25 13 38 14 8 12
26 Tabaí 16 579 201 780 59 12 71 10 17 11
27 Taquari 16 3.860 1.144 5.004 277 87 364 14 13 14
28 Teutônia 16 3.571 1.187 4.758 259 96 355 14 12 13
29 Travesseiro 16 257 85 342 29 9 38 9 9 9
30 Vespasiano Correa 16 175 67 242 20 9 29 9 7 8
31 Westfália 16 347 98 445 36 9 45 10 11 10
1 Arroio do Tigre 26 1.991 601 2.592 168 45 213 12 13 12
2 Candelária 26 4.485 814 5.299 284 79 363 16 10 15
3 Estrela Velha 26 613 104 717 55 8 63 11 13 11
4 Gramado Xavier 26 787 101 888 70 12 82 11 8 11
5 Herveiras 26 582 101 683 41 11 52 14 9 13
6 Ibarama 26 761 144 905 80 17 97 10 8 9
7 Lagoa Bonita do Sul 26 470 104 574 45 11 56 10 9 10
8 Mato Leitão 26 555 133 688 43 18 61 13 7 11
9 Passa Sete 26 981 222 1203 77 15 92 13 15 13
10 Santa Cruz do Sul 26 16.667 4.333 21.000 1.056 332 1.388 16 13 15
11 Segredo 26 1.284 227 1.511 116 20 136 11 11 11
12 Sinimbu 26 1.542 343 1.885 107 30 137 14 11 14
13 Sobradinho 26 2.193 628 2.821 168 48 216 13 13 13
14 Vale do Sol 26 1.727 176 1.903 93 14 107 19 13 18
15 Venâncio Aires 26 9.321 2.221 11.542 653 200 853 14 11 14
16 Vera Cruz 26 3.445 841 4.286 220 46 266 16 18 16
Fonte: Elaboração da autora com base em dados dos censos do IBGE.

Obs.: 999 é o código de NR
84
EaD
Alguns complementos para apoiar o estudo:
Quadro 14: Variáveis presentes no banco de dados número 6 – Mesorregião 2

– Centro Oriental Rio-Grandense e sua classificação
Variáveis Aleatórias Classificação das variáveis

N Nº de ordem
Nºm Numeração dentro da microrregião
Mun Município
Microrregião Codigo da Microrregião
Mesorregião Código da Mesorregião
MatrEF07 Matrícula no Ensino Fundamental em 2007
MatrEM07 Matrícula no Ensino Médio em 2007
Matr07 Matrícula total em 2007
Doc_EF07 Docentes do Ensino Fundamental em 2007
Doc_EM07 Docentes do Ensino Médio em 2007
Doc07 Total de Docentes em 2007
Nal_docEF Nº de alunos por docente no Ensino Fundamental 2007
Nal_docEM Nº de alunos por docente no Ensino Médio 2007
Nal_doc07 Nº de alunos por docente geral 2007
Fonte: Elaboração da autora com base em dados dos censos do IBGE.
RESUMO DA UNIDADE 3
Nesta unidade abordamos técnicas e métodos estatísticos com a finalidade

de sistematizar os dados coletados, descrever seu padrão comportamen-
tal a partir de medidas descritivas. Estas se repartem em dois tipos de
medidas: as de tendência central, que são Média, Mediana e Moda; e
as de variabilidade que são basicamente a variância, o desvio padrão e o
coeficiente de variação.
85
EaD
Unidade 4
INTRODUÇÃO À AMOSTRAGEM
Ruth Marilda Fricke
OBJETIVO DESTA UNIDADE
• Entender os meandros do processo de amostragem, que substitui os levantamentos censitários

exaustivos, os quais se tornam inviáveis nos processos decisórios do mundo moderno em termos
de delineamento e seleção da amostra.
AS SEÇÕES DESTA UNIDADE
Seção 4.1 Padrões a Seguir no Processo Amostral
Seção 4.2 – Delineamento Amostral: Dimensionamento e Seleção
Seção 4.3 – Aplicações
A coleta de dados e sua representação em tabelas e gráficos permite uma visão detalhada
e circunstanciada dos fenômenos. Apesar do apoio de suporte computacional, no entanto, a
demanda por análise estatística na tomada de decisão e a necessidade de agilizar a informação
retiram da coleta populacional o caráter de fonte única de dados.
O domínio dos mecanismos de uma amostra cientificamente delineada capaz de represen-

tar a população em estudo faz desse método estatístico um elemento de extrema importância na
gestão empresarial da atualidade. O objetivo é introduzir o aluno no processo de amostragem sem
um caráter definitivo, isto é, a proposição é a de estudar os procedimentos básicos na definição
do tamanho da amostra, delineamento e seleção amostral.
O processo amostral é muito útil numa sociedade como a nossa, com grandes populações,
sejam elas de pessoas, animais, coisas, negócios... Este fato, de ocorrerem grandes números
quando realizamos um levantamento de dados, agrega ao processo amostral uma característica
fundamental: a agilidade de coleta, a menor demanda de tempo, rapidez na obtenção de infor-
87
EaD
mações, a diminuição de erros, a possibilidade de qualificar instrumentos e técnicos em coleta

de dados de forma a minimizar os erros não amostrais. Estes erros ocorrem independentemente
do delineamento, decorrem de fatores alheios à diferença entre população e amostra (N≥n).
A coleta censitária exaustiva, único meio de realizar estudos populacionais, só é viável em

casos em que o tamanho da mesma é mínimo, ou em situações em que a magnitude de recursos
para a sua realização é de um montante extraordinário.
Mesmo a precisão não é atingida em sua totalidade, pois o custo leva:
• à diminuição no tempo de treinamento dos coletores de dados;
• à supressão ou insuficiente pesquisa-piloto para melhorar o instrumento de coleta;
• à necessidade de um orçamento de grande dimensão;
• à má qualidade dos softwares de tratamento dos dados;
• à utilização de técnicos com baixa capacidade, sem experiência e pouca capacitação.
Estes fatores demandam um retrabalho sobre os dados coletados, na verificação de ocor-

rência de dados censurados, na necessidade de refazer o processo de coleta, de tratamento, a
acessibilidade a técnicos de alto padrão para validar e liberar o uso dos dados oficialmente.
Com um processo por amostragem, que apresenta uma série de garantias técnicas, cientifi-
camente comprovadas iremos inferir, a partir de uma quantidade menor de dados da população,
estimar os parâmetros populacionais com base nas estatísticas amostrais. Este n é provavelmente
sempre menor do que N. Isso, por si só, já vai garantir mais rapidez e menor custo, além de que
a demanda por coletores e técnicos também se reduz, contribuindo de fato para minimizar os
erros no processo de coleta e tratamento.
Uma das principais vantagens do processo amostral é que temos informação sobre a mar-
gem de erro (podemos estipular o máximo permitido) e a confiança no potencial de resposta com
os dados coletados.
É importante observar que alguns critérios de dimensionamento e seleção devem ser ri-
gorosamente seguidos para garantir bons resultados:
• definição do instrumento com pesquisa piloto prévia;
• treinamento do pessoal em todas as áreas envolvidas;
• traçado prévio da temática, área e período de abrangência, objetivos, hipóteses, referencial

teórico, metodologia de campo e de tratamento estatístico;
• dimensionamento da amostra conforme critérios definidos previamente;
88
EaD
• delineamento para realizar a amostra respeitando as proporções de características de interesse

na população;
• aleatoriedade na seleção das unidades amostrais;
• criteriosidade na construção do banco de dados;
• adequação dos métodos e técnicas estatísticas para o tratamento dos dados;
• correção nos métodos e técnicas para apresentação dos resultados.
Seção 4.1
Padrões a Seguir no Processo Amostral
O trabalho quando realizado por amostragem e não de forma censitária, populacional,

requer algumas estratégias para seu desenvolvimento:
Seguindo uma certa lógica presente neste texto, estamos disponibilizando conceitos no
processo amostral e os meios para sua utilização.
4.1.1 FATORES INTERVENIENTES
Alguns fatores que afetam o tamanho da amostra, conforme já estudamos:
• a variabilidade dos dados – se os dados são homogêneos, isto é, com baixo coeficiente de va-
riação, vão exigir um tamanho de amostra menor para representarem bem a população em
estudo; se os dados populacionais forem heterogêneos vão exigir maior tamanho de amostra
para conterem essa heterogeneidade e, dessa maneira, conseguirem transmitir com maior
adequação as informações pretendidas;
• a margem de erro amostral máxima aceita – o erro fixado é um erro relativo e diz respeito ao
fato de que o tamanho da amostra (n) difere do tamanho da população (N), de tal modo que
n<N. Esse erro quando absolutizado representa uma porção relativa da média, nesse caso
( ε = ε r ∗ µ ;..ε = ε r ∗ X ). O erro relativo deve ter um valor baixo (0,10; 0,05; 0,01 e menores)
porque representa o montante de afastamento entre o resultado obtido e o verdadeiro parâ-
metro;
89
EaD
• a probabilidade de confiança (Pf) – é a confiabilidade na capacidade da amostra realizada de

responder às expectativas de estimativa do parâmetro. A confiança que devemos ter é sempre
um valor alto e não é complementar ao erro, pois se trata de medidas diferentes, que dizem
respeito a aspectos diferentes no dimensionamento da amostra. A Pf deve atingir um valor em
torno de 0,90; 0,95; 0,99 e será expressa em termos de:
a. desvios padrão de afastamento da média dos valores limites(z) da normal padrão que têm
média 0 e variância 1 no caso de conhecermos os valores da variância populacional ou em
caso de estarmos trabalhando com estimativas calculadas a partir de uma amostra piloto de
no mínimo 30 informações;
b. no caso em que a estimativa da variância for feita com uma amostra pequena, n < 30, usa-
mos os limites da distribuição t de Student, obtidos a partir dos graus de liberdade (n-1) e
da Pf desejada.
• Outra informação que pode afetar o tamanho da amostra é a condição de N ser conhecido ou
não. Isto é, estarmos calculando o tamanho da amostra para uma população com tamanho finito
(conhecido) ou uma tendendo a infinito (N desconhecido ou muito grande).
4.1.2 MÉTODOS DE CÁLCULO DA AMOSTRA
Existem diversos métodos para o cálculo do tamanho da amostra. O mais famoso é o Método
de Cochran (1965), adotado no mundo inteiro. Este método leva em consideração:
• se a variância populacional é conhecida ou estimada;
• se a população é finita (N conhecido) ou tendendo a infinita (N desconhecido).
Um fator determinante nesse processo é a quantidade de informação que temos para mu-
niciar as fórmulas que iremos utilizar. Essa quantidade, maior ou menor, tem um efeito direto
no resultado do tamanho da amostra (n):
• se as informações que podemos utilizar no cálculo são pobres, provavelmente o tamanho da

amostra será superdimensionado para compensar;
• se as informações forem mais confiáveis, válidas, ricas, o tamanho da amostra será minimizado.
Vejamos, então, dois métodos e suas variantes:
1º Método de Cochran:
Necessita definir previamente a precisão – margem de erro εr, sendo ε =εr.µ, a fidedig-
nidade – z valor da curva normal – e conhecer/estimar a variabilidade populacional – σ ou s.
Para trabalharmos de forma mais operacional e simplificada, considerando que o ε depende da
90
EaD
média e que o coeficiente de variação também, podemos multiplicar as expressões de cálculo

da amostra pela fração µ/µ, que é igual a 1, portanto não altera a fórmula, e substituir os valores
absolutos pelos relativos.
Para obter os valores de z e de t precisamos nos reportar às tabelas da Normal no caso de

z e de Student no caso de t. A primeira é fácil de obter, pois os valores da Normal padrão são
fixos, basta que seja fixado o valor de probabilidade de confiança desejado, consultando a tabela,
localizando no interior da tabela a metade da probabilidade fixada e retornando ao valor inicial
da linha em questão (os da 1ª coluna) e subindo ao topo da coluna para constituir o valor de z.
Como na maioria dos casos, os valores prefixados são muito repetidos, pois quase sempre
são utilizados os mesmos. É possível determinar os valores da curva normal para esses Pf e dei-
xar num quadro para uso constante. Os valores mais usuais de Pf são: 0,99; 0,95; 0,90. Vemos
no Quadro a seguir os valores de Z da curva normal. Nos casos em que utilizamos estimativas
da variância, Pf será dado por t de Student, no entanto esse dimensionamento depende de uma
informação variável, que é o tamanho da amostra piloto utilizada para estimar a variância, mu-
dando de caso para caso, não permitindo ter um quadro prévio.
Quadro 1: Valores de Z prefixados para três valores de Pf: 0,90; 0,95; 0,99
Pf Valor a procurar no corpo da tabela z

0,90 0,45 1,64
0,95 0,475 1,96
0,99 0,495 2,58
Fonte: Elaboração da autora com base na literatura estatística.
Para encontrarmos o valor de t na tabela t de Student precisamos fixar o valor de Pf e en-

contrar os graus de liberdade fixados por (n-1), sendo n o tamanho da amostra piloto, e localizar
o valor de t no interior da tabela. Por exemplo, se n = 30; 20; 10, α = 0,05, veja os resultados no
quadro a seguir para os valores de t:
Quadro 2: Valores de t calculados para um valor de Pf: 0,95, com n variado: 30; 20 e 10
Pf n-1 t
0,95 30 -1=29 2,262
0,95 20 -1=19 2,093
0,95 10 -1=9 2,045
Quando estamos trabalhando com base em estimativa da variância e n > 120, os valores
de t se aproximam de z e podemos utilizar a aproximação normal.
91
EaD
Para facilitar o dimensionamento da amostra, fizemos uma transformação da Variância (σ)

para valores relativos (CV), o que nos permite utilizar o erro relativo (εr) em lugar do erro absoluto
(ε). Os resultados dessa transformação já estão apresentados nas fórmulas a seguir.
Estas fórmulas para o cálculo da amostra são de Cochran (1965). Para utilizar as fórmulas
necessitamos:
• conhecer a variabilidade da população ou estimá-la por meio de uma amostra piloto. A varia-
bilidade mínima reflete diretamente no tamanho da amostra, pois sendo pequena, inferior a
30%, temos um grupo homogêneo e os dados são muito assemelhados, então a amostra pode
ser pequena, caso contrário vai exigir um tamanho maior;
• definir a margem de erro máxima que podemos admitir tendo em vista os objetivos de nossa
investigação, isto é, precisamos estabelecer um máximo de precisão. Quanto menor essa mar-
gem, maior será o tamanho da amostra para procurar garanti-la;
• estabelecer a probabilidade de confiança (Pf) na amostra que for realizada. Esta Pf deve ser
máxima, altos valores, sua interferência no tamanho da amostra é menor do que a margem de
erro.
A seguir as fórmulas:
1ª fórmula:
2 2
 σ  CV 
n =  zα / 2  ≈  zα / 2
 ε  ε r 
* Esta fórmula é utilizada para populações infinitas ou com N desconhecido, com σ conhecido.
2ª fórmula:
2 2
 sˆ   CV 
n =  tα / 2  =  tα / 2 
 ε   ε r
* Esta fórmula é para populações infinitas ou com N desconhecido, com σ estimado.
3ª fórmula:
N zα2 / 2 σ 2 N zα2 / 2 cv 2
n= ≈
( N − 1)ε 2 + zα2 / 2 σ 2 ( N − 1)ε r 2 + zα2 / 2 cv 2
* Esta fórmula é para populações finitas, com σ conhecido.
4ª fórmula:
N tα2 / 2 sˆ 2 N tα2 / 2 cv 2
n= ≈
( N − 1)ε 2 + tα2 / 2 sˆ 2 ( N − 1)ε r 2 + tα2 / 2 cv 2
* Esta fórmula é para populações finitas, com σ estimado.
92
EaD
2º Método: Populações infinitas
Este método é uma espécie de estimativa do tamanho de n, sem considerar os princípios

básicos do cálculo de amostragem. Respeita apenas a precisão, desconsiderando fidedignidade
e variabilidade. É, portanto, um método com baixa cientificidade e com pouca segurança.
Este método é pobre de informações adicionais, logo vai compensar superestimando o

tamanho da amostra.
5ª fórmula:
2
 1
n= 
ε r
Seção 4.2
Delineamento Amostral: Dimensionamento e Seleção
Esta seção vai nos apresentar a metodologia do delineamento amostral e da seleção alea-
tória que irá garantir a cientificidade dos resultados.
O delineamento amostral prevê algumas atividades fundamentais:
A definição dos fatores de inclusão na amostra, como características especiais da população

e sua distribuição na mesma, deve ser as mesmas população. Por exemplo, se na população a
divisão por gênero é igualitária, devemos delinear a amostra para ter 50% feminino e 50% mas-
culino; se na população 3,5% são pessoas sem escolaridade, a amostra deve ser delineada para
conter 3,5% de pessoas sem escolaridade. Então, delineamento trata de estabelecermos critérios
de pertencimento à amostra para melhor representar a população.
Os cuidados na seleção amostral
Outro fato importante trata-se da seleção aleatória dos indivíduos que comparecem à
amostra. Com isso queremos garantir que cada unidade populacional tenha as mesmas chances
de vir a ser sorteada. Atualmente esse procedimento é facilmente obtido mediante a geração de
números aleatórios multiplicados pelo tamanho da população e restritos ao tamanho da amostra.
No Excel utiliza-se a seguinte função: Aleatório ()*N repetido até obtermos o n necessário com
alguns de reserva para o caso de gerarmos números repetidos.
93
EaD
A seguir, seleciona-se as unidades populacionais na Listagem da População. Por exemplo:

no caso de estarmos sorteando n = 40 municípios do RS, geramos 40 números aleatórios por
meio da função Aleatório()*496, este número é N, a população de municípios gaúchos, e obte-
mos nossa amostra. Em seguida vamos à lista e selecionamos os municípios correspondentes.
Posteriormente, vamos à base de dados que pode ser a FEE ou o IBGE, cidades ou outra base de
dados conhecida e reconhecida, e organizamos um banco de dados com as variáveis de interesse
para nosso estudo.
Exemplificação do processo amostral
Seja o seguinte quadro de informações provenientes de uma população:
Quadro 3: Informações básicas sobre as variáveis em estudo
Po pu l a ç ão RGS E m presa Pro duç ã o

Un ida de b á s i c a M u n i c í p io s Func i o ná ri o s Pro duto s
N 496 2.500 Desco nheci do
P I B p e r c a p i t a em m i -
Va riá ve l Ida de Peso da peç a
l ha r e s d e rea i s
Média 1 1 ,2 9 4 1 18 32,27 2,3 kg
3 ,2 7 8 9 8 3 1 valo r po - 3,8724 v a lo r esti m a - 0,8625 v a lo r esti m a-
D e s v io Pa d r ão
p u l ac i o na l do, n = 20 do , n= 40
Coeficiente de
0 ,2 9 0 3 2 6 63 0,12 0,375
Va ria ç ão
εr 0 ,0 5 0,05 0,10
PF 0 ,9 0 0,95 0,99
Ta m a n h o e s t i m a d o
só com base no Erro, 400 10.000 100
fórmula 5
Fonte: Elaboração da autora com base nos dados do IBGE.
Utilizando os dados do Quadro 3 vamos dimensionar a amostra para cada grupo, conside-
rando as informações disponíveis na hora de escolher a fórmula adequada e proceder à seleção
aleatória.
• Dimensionamento da amostra
Grupo 1: RGS – municípios
Como N é conhecido, N = 496 e σ=3,278931, variância populacional conhecida, vamos

escolher a fórmula 3:
N zα2 / 2 cv 2 496 * (1,64)² * (0, 29032663)²

n= = = 76,8 ≅ 77 municípios
( N − 1)ε r + zα / 2 cv
2 2 2
(496 − 1) * (0,05)² + (1,64)² * (0, 29032663)²
94
EaD
O estudo deve considerar uma amostra de 77 municípios sorteados aleatoriamente para

fazer o estudo entre os 496 que compõem o Estado do RS.
Realizamos o sorteio aleatório utilizando a função do Excel, retirando municípios repetidos,

com a função: =Aleatório ( )*496 e se encontra no Quadro 4 a seguir.
O sorteio realizado é uma AAS – Amostra Aleatória Simples que considera todas as unidades
populacionais com a mesma chance de serem sorteadas para participar da amostra. As unidades
populacionais são os municípios gaúchos enumerados de 1 a 496.
A seguir apresentamos as 77 unidades amostrais sorteadas no Excel, com o respectivo

número de sorteio, que é o número do próprio município.
Quadro 4: Seleção aleatória por sorteio entre os municípios do RS
nº Sorteado Município nº Sorteado Município nº Sorteado Município

1 17 Antônio Prado 27 162 Farroupilha 53 356 Salto do Jacuí
2 20 Aratiba 28 164 Faxinalzinho 54 368 Santa Tereza
3 26 Arroio Grande 29 171 Forquetinha 55 376 Santo Antônio do Palma
4 27 Arvorezinha 30 179 Getúlio Vargas 56 379 Santo Cristo
5 28 Augusto Pestana 31 190 Harmonia 57 385 São Gabriel
6 37 Barra do Ribeiro 32 191 Herval 58 393 São José do Inhacorá
7 39 Barra Funda 33 197 Ibiaçá 59 394 São José do Norte
8 46 Boa Vista do Cadeado 34 202 Ijuí 60 395 São José do Ouro
9 48 Boa Vista do Sul 35 203 Ilópolis 61 403 São Martinho da Serra
10 60 Cacequi 36 215 Itati 62 404 São Miguel das Missões
11 63 Cacique Doble 37 222 Jaguarão 63 408 São Pedro das Missões
12 68 Cambará do Sul 38 232 Lajeado 64 411 São Sebastião do Caí
13 73 Campo Novo 39 244 Marau 65 416 São Vendelino
14 74 Campos Borges 40 254 Minas do Leão 66 419 Sapucaia do Sul
15 83 Capão da Canoa 41 267 Muliterno 67 427 Serafina Corrêa
16 99 Cerro Branco 42 270 Nonoai 68 434 Sinimbu
17 116 Coqueiros do Sul 43 279 Nova Pádua 69 441 Taquara
18 120 Cotiporã 44 283 Nova Ramada 70 443 Taquaruçu do Sul
19 124 Cristal do Sul 45 289 Novo Machado 71 458 Três Forquilhas
20 131 Dilermando de Aguiar 46 294 Palmares do Sul 72 459 Três Palmeiras
21 138 Dona Francisca 47 296 Palmitinho 73 461 Trindade do Sul
22 141 Eldorado do Sul 48 302 Parobé 74 466 Tupanciretã
23 144 Engenho Velho 49 333 Protásio Alves 75 472 Unistalda
24 151 Erval Seco 50 334 Putinga 76 486 Victor Graeff
25 156 Estância Velha 51 343 Rio Grande 77 491 Vista Alegre
26 160 Eugênio de Castro 52 354 Sagrada Família
Fonte: Elaboração da autora com base na relação de municípios do RS no Wikipédia.
Grupo 2: Empresa de Grande Porte – Funcionários
Delineamento: proporcionalidade por sexo: 50%.
Condições: Independente de setor, cargo, tempo de serviço.
Como N é conhecido, N = 2500 e S = 3,8724 a partir de uma amostra piloto de tamanho 20,
logo variância populacional desconhecida, variância estimada, vamos escolher a fórmula 4:
95
EaD
N tα2 / 2 cv 2 2.500 * (2,093)² * (0,12)²

n= = = 24,99 ≅ 25 funcionários
( N − 1)ε r + tα / 2 cv
2 2 2
(2.500 − 1) * (0,05)² + (2,093)² * (0,12)²
O estudo deve considerar uma amostra de 25 funcionários para garantir uma margem
máxima de erro de 5% e uma confiabilidade de 95%. Utilizamos a função da calculadora para
fazer o sorteio com os seguintes passos:
(2nd F+RND)*2500, gerando os 25 números da amostra e mais as 6 reservas, controlando

para não haver repetições.
No sorteio devemos considerar um delineamento que garanta uma distribuição igualitária

por sexo, quer dizer, uma amostra estratificada por sexo. Para tanto, separamos os funcionários
em dois grupos e metade será sorteada entre os do sexo masculino e a outra metade entre as de
sexo feminino.
Como se trata de pessoas que eventualmente podem se negar a responder ou faltar, ou ain-
da não serem encontradas, sorteia-se também um grupo de nomes-reserva chamado de reserva
técnica para fazer substituições caso seja necessário.
O pressuposto, neste caso, é a existência de uma listagem com a relação de trabalhadores.

A cada um deles vai ser atribuído um único número que varia de 1 a N=2.500.
Neste caso, as reservas também têm de ser meio a meio por sexo.
Quadro 5: Amostra sorteada e respectiva seleção.
Masculino Feminino
n2 sorteado nome n2 sorteado nome
1 94 Gustavo 14 960 Anastácia
2 202 Adolfo 15 1.049 Tarsila
3 272 Maximino 16 1.467 Fabiana
4 340 Carlos 17 1.640 Raquel
5 363 Ernesto 18 1.745 Eliana
6 498 François 19 1.798 Edivania
7 907 Gabriel 20 1.825 Alice
8 944 Mateus 21 2.101 Luciana
9 1.467 Frederico 22 2.148 Guilhermina
10 1.688 Homero 23 2.217 Jamilia
11 1.725 Elvis 24 2.217 Constancia
12 1.914 Cassiano 25 2.415 Zuleica
13 2.216 Jo s i a s
reserva M reserva F
1 278 Ricardo 1 727 Inês
2 1.250 Fabrício 2 996 Janaina
3 2.107 Jonas 3 1.137 Débo ra
Fonte: Elaboração da autora com base nos dados da empresa.
96
EaD
Após a seleção amostral, proceder-se-á à coleta das assinaturas nos Termos de Consentimento
Livre e Esclarecido (TCLE) para iniciar a coleta de dados. Este procedimento garante que o pesqui-
sado conhece os objetivos da pesquisa e sua participação, bem como os procedimentos metodoló-
gicos. Também lhe é garantido sigilo de sua participação e em nenhum momento as informações
prestadas serão relacionadas a sua pessoa e lhe causarão prejuízo na empresa ou em qualquer
lugar. Garante ainda que a qualquer momento estará livre para retirar seu consentimento.
Grupo 3: Produção contínua de uma empresa de médio porte – peças
Delineamento: como a produção é contínua, entende-se que a população de peças pro-

duzidas tendem a infinito, por isso não dimensionamos o N. Também é impossível conhecer a
variância populacional, apenas podemos estimá-la mediante uma amostra piloto com uma variável
quantitativa que nos assegure média, variância, desvio padrão e coeficiente de variação. Neste
caso a variabilidade foi estimada a partir de uma grande amostra, n=40. Podemos considerar
então a utilização da primeira fórmula.
Como N é conhecido, N →∞ e CV = 0,375 a partir de uma amostra piloto de tamanho 40,

logo temos variância populacional desconhecida, mas estimada numa grande amostra, com uma
margem de erro fixada em εr= 0,10 e uma probabilidade de confiança, PF=0,99, vamos escolher
a fórmula 1:
2 2
 CV   0,375 
n =  zα / 2 =  2,58* = 93,6 ≅ 94.lote.de. peças
 
εr   0,10 
Não é possível aplicar os métodos de sorteio neste caso, pois se trata de uma produção
contínua e as peças não são numeradas nem identificadas, apenas fazem parte de lotes que
identificam o período, turno e dia em que foram produzidas, o responsável pela máquina, a pró-
pria máquina e o conferente. Cada lote é constituído de dez peças, o que favorece, por exemplo,
o cálculo da proporção de peças defeituosas por lote, etc. A forma que pode ser adotada é a de
fazer uma amostra aleatória sistemática, em que uma razão é estabelecida para o momento da
coleta. Considerando a experiência na produção estabeleceu-se o momento da coleta de 6 em 6
horas, com sorteio da primeira coleta do dia e a partir daí de 6 em 6 horas coleta-se uma amostra,
sendo que a unidade amostral é o lote daquele período. O sistema é repetido até ser composto
o número de lotes definido pelo dimensionamento da amostra.
Sabe-se que a empresa funciona ininterruptamente, 24 horas por dia. O turno de trabalho
para o sorteio inicial é da meia noite às 6 da manhã. É nesse intervalo de tempo que será sorteado
o horário da primeira amostra e a partir daí inicia-se a coleta do lote de 6 em 6 horas. O intervalo
é contabilizado em meia hora e hora completa, formando assim 12 intervalos de tempo:
• Enumeração dos períodos de tempo para o sorteio inicial:
Nº 1 2 3 4 5 6 7 8 9 10 11 12
Horário 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6
97
EaD
• Sorteio da hora de início da coleta dos lotes, um em cada período previsto. Serão sorteados números
de 1 a 12, correspondente ao número de períodos de meia hora da meia-noite às 6 da manhã.
Quadro 6: Amostra de períodos sorteados como hora de início da coleta

Sorteio da primeira hora Sorteio da primeira hora
1 8 4 13 11 5,5
2 3 1,5 14 8 4
3 6 3 15 6 3
4 5 2,5 16 6 3
5 9 4,5 17 12 6
6 3 1,5 18 10 5
7 1 0,5 19 2 1
8 10 5 20 12 6
9 1 0,5 21 3 1,5
10 4 2 22 1 0,5
11 8 4 23 11 5,5
12 1 0,5 24 8 4
A hora inicial é considerada a semente geradora dos horários para o processo amostral, a
qual será então somada com (+ 6) gerando os demais horários do dia. Para completar o último
dia de coleta, o 24º, aproximamos para n = 96.
Quadro 7: Amostra de períodos sorteados gerados a partir da hora sorteada inicialmente

n3 Coleta N3 C oleta n3 C o leta n3 Co leta
1 4 25 5 49 5,5 73 1
2 10 26 11 50 11,5 74 7
3 16 27 17 51 17,5 75 13
4 22 28 23 52 23,5 76 19
5 1 ,5 29 0,5 53 4 77 6
6 7 ,5 30 6,5 54 10 78 12
7 1 3 ,5 31 1 2,5 55 16 79 18
8 1 9 ,5 32 18,5 56 22 80 24
9 3 33 5,5 57 3 81 1,5
10 9 34 1 1,5 58 9 82 7,5
11 15 35 17,5 59 15 83 13,5
12 21 36 2 3,5 60 21 84 19,5
13 2 ,5 37 4 61 3 85 0,5
14 8 ,5 38 10 62 9 86 6,5
15 1 4 ,5 39 16 63 15 87 12,5
16 2 0 ,5 40 22 64 21 88 18,5
17 4 ,5 41 3 65 6 89 5,5
18 1 0 ,5 42 9 66 12 90 11,5
19 1 6 ,5 43 15 67 18 91 17,5
20 2 2 ,5 44 21 68 24 92 23,5
21 1 ,5 45 3 69 5 93 4
22 7 ,5 46 9 70 11 94 10
23 1 3 ,5 47 15 71 17 95 16
24 1 9 ,5 48 21 72 23 96 22
98
EaD
Dessa forma o delineamento está concluído e as amostras serão coletadas em 24 dias.
Para fixarmos os conteúdos, o que acham de resolver algumas questões? Vamos adiante,
pessoal, para finalizar mais esta unidade do nosso livro.
Seção 4.3
Aplicações
O gerente de uma empresa do ramo de calçados populares quer conhecer a interferência

de algumas variáveis na condução de seus negócios. Como o estatístico deve conduzir o processo
amostral?
Em cada proposição identifique:
 a população
 a unidade amostral
 o delineamento
 o cálculo da amostra
 a seleção aleatória
Caso 1) Se ele pretende entrevistar a clientela utilizando a variável “gasto na última aqui-
sição” para delinear a amostra, vai precisar de uma amostra piloto. Com base em 26 notas de
clientes da empresa monte o processo amostral, definindo margem de erro, probabilidade de
confiança e coeficiente de variação a partir dos valores das notas:
Quadro 8: Banco de dados da amostra piloto
1 R$ 136,40 14 R$ 64,00
2 R$ 119,87 15 R$ 117,00
3 R$ 124,33 16 R$ 145,00
4 R$ 112,60 17 R$ 186,90
5 R$ 102,53 18 R$ 166,99
6 R$ 87,90 19 R$ 268,00
7 R$ 99,12 20 R$ 54,80
8 R$ 127,45 21 R$ 145,00
9 R$ 132,90 22 R$ 219,00
10 R$ 123,10 23 R$ 104,00
11 R$ 107,34 24 R$ 131,60
12 R$ 264,00 25 R$ 59,23
13 R$ 148,00 26 R$ 84,50
Fonte: Escritório da empresa.
99
EaD
Caso 2) Se ele pretende utilizar a informação sobre o número de pares de calçados que
vendeu nas últimas exportações para os vizinhos da América Latina, onde tem 180 clientes,
enviando uma mala investigativa via Internet por processo amostral.
Quadro 9: Banco de dados de todos os clientes
n pares n pares n pares n pares n pa res n pa re s
1 411 31 239 61 183 91 267 121 312 151 451

2 577 32 132 62 1 90 92 238 122 384 152 188
3 564 33 445 63 4 42 93 198 123 599 153 252
4 507 34 265 64 190 94 552 124 282 154 317
5 202 35 219 65 410 95 167 125 289 155 437
6 435 36 430 66 1 62 96 210 126 392 156 365
7 513 37 519 67 4 27 97 310 127 493 157 512
8 292 38 225 68 417 98 409 128 150 158 248
9 394 39 485 69 481 99 458 129 532 159 142
10 404 40 259 70 403 100 217 130 461 160 514
11 127 41 148 71 406 101 195 131 327 161 266
12 485 42 401 72 3 50 102 180 132 389 162 284
13 165 43 555 73 110 103 132 133 554 163 573
14 352 44 259 74 534 104 201 134 585 164 274
15 128 45 320 75 176 105 495 135 427 165 571
16 435 46 365 76 3 27 106 224 136 480 166 535
17 520 47 223 77 325 107 453 137 169 167 137
18 435 48 107 78 562 108 514 138 137 168 458
19 137 49 580 79 396 109 533 139 565 169 127
20 415 50 141 80 1 39 110 545 140 136 170 258
21 204 51 560 81 476 111 454 141 118 171 271
22 527 52 572 82 445 112 213 142 412 172 564
23 450 53 356 83 333 113 258 143 526 173 422
24 569 54 391 84 3 44 114 473 144 233 174 290
25 175 55 429 85 188 115 295 145 104 175 259
26 463 56 260 86 574 116 476 146 159 176 550
27 559 57 148 87 296 117 436 147 248 177 334
28 249 58 212 88 3 88 118 585 148 238 178 586
29 500 59 536 89 291 119 503 149 287 179 584
30 103 60 542 90 446 120 405 150 485 180 155
Fonte: Departamento de vendas.
Caso 3) Se ele deseja saber como seria a aceitação de um novo produto entre seus clientes
usuais. Não sabe quantos clientes costumam vir a sua loja e comprar um tipo de calçado como
esse novo produto.
Caso 4) Se ele deseja encontrar o perfil de clientes na aceitação de um novo plano de

promoções. Toma como informação a proporção de clientes que costuma frequentar a loja nos
sábados à tarde: p = 0,54
100
EaD
Caso 5) Sabendo que tem 228 sapateiras, toma uma amostra de 35 delas tomando a infor-
mação sobre o tempo de trabalho na indústria calçadista, deseja conhecer o grau de satisfação
dos trabalhadores da empresa.
Quadro 10: Amostra piloto
n TS n TS n TS
1 0 13 6 25 4
2 13 14 23 26 23
3 3 15 16 27 26
4 12 16 14 28 10
5 24 17 11 29 7
6 4 18 20 30 14
7 12 19 13 31 29
8 1 20 20 32 25
9 24 21 12 33 2
10 27 22 29 34 27
11 18 23 9 35 0
12 12 24 11
Fonte: Registro empresarial.
RESUMO DA UNIDADE 4
Nesta unidade introduzimos o estudante em um dos principais procedi-

mentos dentro da Estatística, que distingue um trabalho de senso comum
de um trabalho científico: o processo amostral. Procuramos trabalhar as
principais fórmulas, o rigor do delineamento e da seleção aleatória das
unidades amostrais.
101
EaD
Unidade 5
Noções de Inferência Estatística
Ruth Marilda Fricke
OBJETIVO DESTA UNIDADE
• Mostrar como, por meio do processo amostral, fizemos a extensão dos resultados amostrais
para descrever o comportamento da população, dominando algumas técnicas de generalização,
como a estimação e teste de hipóteses.
SEÇÕES DESTA UNIDADE
Seção 5.1 – Conceitos e definições
Seção 5.2 – Estimativas e sua projeção
Seção 5.3 – Aplicações.
A Inferência é o processo de generalização e de projeções realizadas a partir da amostra

por meio de Estimativas, Intervalos de Confiança e de Testes de Hipótese. A ideia é fazer as
medidas numa amostra (calculada e selecionada aleatoriamente com critérios científicos, como
foi visto na Unidade 4, aplicar as técnicas estatísticas nessa amostra e projetar os resultados para
a população.
Com isso ganhamos tempo, precisão, agilidade, avaliando também as relações e tendências
futuras. Desse modo, as estatísticas amostrais servirão para conhecer o comportamento de uma
população, que só poderia ser estudada censitariamente, o que nem sempre é possível.
103
EaD
Seção 5.1
Conceitos e Definições
Estimadores:
Os estimadores são as estatísticas amostrais que serão calculadas na amostra e projetadas

por meio de estimativas por ponto (a estimativa é utilizada como se fosse o parâmetro popula-
cional) ou por intervalo (uma estimação que parte da estatística amostral calculada, média ou
proporção, no caso deste texto e acrescentando uma margem de erro para mais e para menos,
que nos informa a faixa de ocorrência do verdadeiro valor populacional).
Intervalo de Confiança:
O Intervalo de Confiança dimensiona uma faixa de possível ocorrência do parâmetro po-

pulacional, ou seja, do verdadeiro valor, desconhecido mas estimado por meio da amostra. Este
intervalo é construído após a definição da probabilidade de confiança que pretendemos ter na
estimativa realizada.
Teste de Hipótese:
Após o cálculo da estimativa precisamos conferir se o valor encontrado está garantido como
uma projeção do valor populacional. Para tal, estabelecemos um nível de significância (uma es-
pécie de margem de erro) para nossa estimativa e conseguimos estabelecer uma garantia para
a informação obtida, possibilitando que as decisões sejam tomadas tendo por base a informação
amostral.
Na seção 5.2 vamos apresentar a metodologia estatística que permite inferir os parâmetros
populacionais a partir de uma amostra, ou seja, generalizar a partir dela. No processo amostral
não interessam por si mesmas as estatísticas da amostra, mas sim as estimativas construídas a
partir dela e que inferem o comportamento populacional.
Seção 5.2
Estimativas e sua Projeção
Nesta seção vamos apresentar as estimativas e os testes de hipóteses que permitem a

projeção dos resultados amostrais. As estimativas são calculadas com valores das estatísticas
amostrais. As projeções são realizadas quando testamos se os valores encontrados na amostra
trazem evidência suficiente para inferirmos os parâmetros populacionais.
104
EaD
5.2.1 ESTIMATIVAS
As estimativas da informação populacional a partir da amostra podem ser realizadas:
• Por ponto: quando se projeta o valor calculado na amostra como se fosse o próprio parâmetro,
o valor populacional. Este procedimento desconsidera a margem de erro presente no processo
amostral e não oferece garantia à estimativa.
• Por intervalo: ao estabelecer a estatística amostral como estimativa, constrói-se em torno dela
um intervalo baseado no potencial de erro de estimativa do processo. Como se diz popularmen-
te, o valor verdadeiro é projetado como a estatística calculada na amostra mais ou menos um
determinado valor que é a margem de erro agregada da confiança. Por isso, é denominado de
Intervalo de Confiança. Usualmente este intervalo é calculado para garantir 95% de confiança
de conter o verdadeiro parâmetro.
Ao utilizarmos a média amostral, já temos comprovação anterior que esta medida é um

estimador ótimo para a média populacional, pois o valor esperado da média amostral é o próprio
parâmetro, ε( )= µ e a variância é mínima, V( )= σ²/n.
Mesmo assim a estimativa por ponto é arriscada, pois fazemos o cálculo amostral a partir
de uma amostra entre todas as possíveis, então é importante que na projeção trabalhemos com
uma estimativa por intervalo, considerando a confiança dentro da margem de erro. Vários são
os parâmetros que podem ser estimados, mas vamos trabalhar somente com os estimadores da
média – µ, e proporção, π.
Intervalo de Confiança para a Média
 σ 
IC 95% =  X ± z∂ / 2  = Pf
 n
Esta é a fórmula para o Intervalo de Confiança no caso de variância populacional conhecida

ou estimada com grandes amostras.
 sˆ 
IC 95% =  X ± t( n −1);∂ / 2  = Pf
 n
Esta é a fórmula para o Intervalo de Confiança no caso de variância estimada. O valor da

variância amostral estimada precisa de uma correção ao valor da variância amostral, pois esta
 n 
apresenta uma tendenciosidade logo sˆ² = s ² *  é a expressão da variância amostral corri-
 n − 1
gida para pequenas amostras, em que n < 30.
105
EaD
Intervalo de Confiança para a proporção
 ( p ) * (1 − p ) 
IC 95% =  p ± z∂ / 2  = Pf
 n 
Esta é a fórmula para o Intervalo de Confiança no caso de proporção. Utilizamos sempre

a padronização normal e o cálculo da média é dado por µ = p , tal que µ é o símbolo da média
populacional, o parâmetro média; a variância é dada por σ² = (p)*(1-p) em que σ² é o símbolo da
variância populacional e p é o valor da proporção obtida na amostra, enquanto π é a proporção
populacional desconhecida.
5.2.2 TESTES DE HIPÓTESES PARA GENERALIZAÇÃO DE ESTATÍSTICAS AMOSTRAIS
Outro tratamento importante que deve ser realizado antes de projetarmos as estimativas
é o teste de hipóteses. O teste de hipóteses deve ser aplicado aos valores amostrais para verifi-
carmos se os mesmos podem ser projetados para a população. Este item merece um estudo mais
aprofundado, no entanto nos restringiremos aos testes da média e da proporção, que são os mais
utilizados nas pesquisas por amostragem.
Quadro 1: Parâmetros, estimadores e teste de hipóteses
Medida Teste de hipóteses

Média
Parâmetro: µ (mi) Estimador: X (xbarra)
H0: µ =µ0, a média atual é igual à antiga.
Ha: µ ≠ µ0, µ >µ0, µ <µ0, a média atual é diferente, menor ou maior que a antiga.
Grandes amostras
X − µ0
zo =
σ n
Rejeitar H0 se: z0<-zα; z0>+zα; Aceitar H0 se: -zα< z0<+zα
Pequenas amostras:
X − µ0
to =
sx n
Rejeitar H0 se: t0<-t(n-1)α; t0>+ t(n-1)α; Aceitar H0 se:– t(n-1)α/2 < t0<+ t(n-1)α/2
Proporção
Parâmetro: π(pi) Estimador: p’ (p proporção)
H0: π =π0, a proporção atual é igual à antiga.
Ha: π ≠ π0, π >π0, π <π0, a proporção atual é diferente, menor ou maior que a antiga.
p '− π 0 , p’= p estimado na amostra, π0= Valor já existente
zo =
(p0 )(1 − p0 ) n
Rejeitar H0 se: z0<-zα; z0>+zα; Aceitar H0 se: -zα< z0<+zα
106
EaD
 EXEMPLO:
Sabe-se que o módulo da propriedade rural na nossa região é de 25 ha. Devido ao modelo
agrícola e sistema de organização social em função de lucro e de acumulação, a população urbana
vem crescendo e a rural diminuindo em função do êxodo rural. Os agricultores e suas famílias
saem do meio rural por causa do endividamento, busca de instituições de saúde e de educação,
do custo elevado de produção agrícola, da dificuldade de acesso às novas tecnologias, etc.
Hipótese: Em função disso entende-se que o módulo rural esteja se modificando.
1) Fazemos uma amostra de propriedades rurais de nossa região
Dados disponíveis para o dimensionamento da amostra:
Seja um estudo de propriedades rurais, avaliando-se a concordância atual com o módulo

rural em 25 ha. O censo agrícola revela que nesta região o número total de propriedades rurais
é de 2.049 estabelecimentos e o número total de hectares é de 51.508.
Dessa relação podemos tirar uma razão de ha/propriedade:
total.de.ha 51.508.ha
Razão = = = 25,13.ha / propriedade
n º de propriedades rurais 2.049 propriedades rurais
Segundo essa razão (25,13 ha/propriedade), observamos que na prática ela corresponde
ao módulo rural.
Como comprovaremos a hipótese de que o modelo de concentração de terras está modifi-

cando o tamanho das propriedades rurais?
Estabelecemos então uma proporcionalidade com a finalidade de ter uma informação bá-
sica para o cálculo da amostra:
P=25/25, 13=0,99 logo q=(1-p)= 0,01
µ’=p=0,99; σ’²=s’² =p*q= 0,99*0,01=0,0099;
s=√( p*q)= √(0,0099)=0,09949874 e
CV= √q/p=√0,01/0,99)=0,10050378
Estabelecendo εr=0,03 e uma Pf=0,95→zα / 2 =1,96, vamos dimensionar o tamanho da

amostra utilizando a fórmula para proporção com N finito:
N zα2 / 2 σ 2 =
n=
( N − 1)ε 2 + zα2 / 2 σ 2
N zα2 / 2 CV 2 2049 * (1,96)² * (0,10050378)²
= = =
( N − 1)ε r + zα / 2 CV
2 2 2
(2049 − 1) * (0,03)² + (1,96)² * (0,10050378)²
= 42,25 ≈ 43 propriedades na amostra.
107
EaD
Como percebemos, em princípio não temos muita informação sobre as propriedades para fazer
um cálculo da amostra; buscamos então um apoio numa proporção que na realidade é uma razão.
A estatística que mais agregaria informação seria a Média, pois ela é uma medida que faz
um aporte de dados individual, isto é, teríamos uma informação conhecida para o cálculo da
Média de cada uma das propriedades.
Como, no entanto, a razão calculada representa baixíssima variabilidade, entendemos que

a amostra não sofrerá superestimação para compensar. Posteriormente, com base na amostra
realizada, poderemos estimar um real tamanho da amostra para verificar o nível de satisfação
com os cálculos realizados.
2) Redimensionamento dos requisitos em termos de erro e confiança, se adotarmos uma amostra

menor do que a calculada.
Uma vez que o n calculado foi de 43 para um εr=0,03 e uma Pf=0,95 e o n realizado foi
de 30, devemos atualizar o erro e/ou a confiança.
Vamos assumir que a Probabilidade de Confiança não se modificou e apenas vamos mexer
na margem de erro, portanto:
Continua Pf=0,95→zα/2=1,96
E vamos deixar como incógnita o εr. Refazemos a conta do dimensionamento da amostra,

substituindo o n, incógnita na versão anterior, por n = 30, tamanho que foi realmente efetivado
e a incógnita agora é o εr. Desse modo, refazendo os cálculos vamos redimensionar o montante
de erro que realmente foi praticado quando a decisão foi reduzir de 43 para 30 o tamanho da
amostra.
Retomemos a fórmula com todos os seus valores substituídos, com exceção do erro.
N zα2 / 2 CV 2 2049 * (1,96)² * (0,10050378)²

30 = =
( N − 1)ε r + zα / 2 CV
2 2 2
(2049 − 1) * (ε r )² + (1,96)² * (0,10050378)²
N zα2 / 2 CV 2 N zα2 / 2 CV 2
n0 = → ( N − 1) ε r
2
= − zα2 / 2 CV 2
( N − 1)ε r 2 + zα2 / 2 CV 2 n0
1/ 2
 N z 2 CV 2  1    N zα2 / 2 CV 2   1  
→ εr =  α /2
2
− zα2 / 2 CV 2    → ε r =  − zα2 / 2 CV 2   
 n0   ( N − 1)    n0   ( N − 1)  
1/ 2
  (2049)(1,96) (0,10050378)   
2 2
1
ε r =  − (1,96) 2 (0,10050378) 2     = 0,036
  30   (2049 − 1)  
108
EaD
Então, diminuindo o tamanho da amostra para 30, considerando que PF = 0,95, estaremos
trabalhando com um erro máximo de εr=0,036
3) Coletamos dados referentes às 30 propriedades rurais, selecionadas aleatoriamente.
4) Construímos o banco de dados das propriedades sorteadas para compor a amostra.
Quadro 2: Relação das variáveis coletadas por meio do instrumento de coleta e sua classificação
X1 Tamanho da propriedade (ha) VA quantitativa contínua

X2 Produção: soja (0.Não produz; 1.Produz) VA qualitativa não ordenável
X3 Produção: milho(0.Não produz; 1.Produz) VA qualitativa não ordenável
X4 Produção: aves(0.Não produz; 1.Produz) VA qualitativa não ordenável
X5 Produção: leite(0.Não produz; 1.Produz) VA qualitativa não ordenável
X6 Nº de moradores da propriedade VA quantitativa
Quadro 3: Banco de dados nº 6 com as variáveis coletadas por meio do instrumento de coleta
X1 X2 X3 X4 X5 X6 X1² X6²
Nº Tam soja milho aves leite moradores tam² moradores
1 28 1 1 1 1 5 784 25
2 12 1 0 1 1 7 144 49
3 15 1 1 0 1 7 225 49
4 5 0 1 1 1 9 25 81
5 8 0 1 1 1 8 64 64
6 55 1 1 0 1 2 3025 4
7 80 1 1 0 0 3 6400 9
8 36 1 1 1 1 4 1296 16
9 27 1 1 1 1 5 729 25
10 10 0 1 1 1 8 100 64
11 47 1 1 0 0 2 2209 4
12 62 1 1 0 0 3 3844 9
13 87 1 1 0 0 3 7569 9
14 13 0 1 1 1 6 169 36
15 25 1 1 0 1 5 625 25
16 42 1 0 0 0 2 1764 4
17 53 1 1 1 1 3 2809 9
18 84 1 1 0 0 2 7056 4
19 27 0 1 0 1 4 729 16
20 18 1 1 1 1 5 324 25
21 15 1 1 1 1 6 225 36
22 61 1 0 0 0 2 3721 4
23 76 1 1 0 1 4 5776 16
24 34 0 1 1 1 3 1156 9
25 29 1 0 1 1 5 841 25
26 50 1 1 0 1 3 2500 9
27 42 1 0 0 0 2 1764 4
28 24 1 1 1 1 2 576 4
29 16 0 1 1 1 8 256 64
30 49 1 1 0 0 4 2401 16
∑ 1130 132 59106 714
p 0,77 0,87 0,50 0,70
Fonte: Elaboração da autora, com base em técnicas de simulação.
109
EaD
Cálculo das estatísticas amostrais das variáveis quantitativas
Quadro 4: Estatísticas descritivas
Medida Fórmula X1: Tamanho X6: Moradores
1.130
Média
n
xi X1 = = 37,67.ha
X =∑ 30 132
Aritmética: i =1 n X6 = = 4, 4 moradores
30
 59.106 2   30   714 2   30 
n
x2 S2 =  − (37,67 )    S2 =  − (4, 4)   
S = ∑ i − (x )
Variância
  30 − 1
2
2
 30   30 − 1  30
i =1 n
= 570,177 ha ² = 22,59310345 moradores ²
S = (570,177 2 =
Desvio
S = S2 = 23,87837934.ha S = (22,59310345) 2 =
Padrão
= 4,753220324
Coeficiente de
S  23,87837934   4,753220324 
Variação CV =   100 CV =   100 = CV =   100 =
X  37,67  4, 4
= 63, 4% = 108%
Quadro resumo das estatísticas e dos resultados da aplicação do intervalo de confiança e

do teste de hipóteses para as variáveis quantitativas
Quadro 5: Quadro resumo: intervalo de confiança e teste de hipóteses
Medidas Intervalo Confiança

Parâmetros estimativa TH Sig.
Li Ls
Tamanho Pro-
µ 37,67 29,12 46,21 2,096 0,0180, *
priedade
Moradores µ 4,4 2,67 6,10 1,325 0,0918 n.s.

Li: Limite Inferior; Ls: Limite Superior; TH: Teste de Hipóteses
Intervalo de confiança de 95% para a Média; utiliza-se o intervalo de confiança com base
na distribuição normal devido ao tamanho da amostra piloto, n = 30.
110
EaD
X1: Tamanho da propriedade (conforme o quadro 3):
 σ   23,87837934 
IC 95% =  X ± z∂ / 2  = Pf → IC 95% = 37,67 ± 1,96  = 0,95
 n  30 
IC 95% = {29,12 ≤ µ ≤ 46, 21} = 0,95
Constatamos que o tamanho médio das propriedades rurais nessa região está estimado em
37,67 ha, o qual pode ser avaliado potencialmente como um valor entre 29,12 e 46,21 há, com
um nível de significância de 5%.
O intervalo de confiança calculado evidencia que o zero não é um valor possível para a
verdadeira média, com 95% de confiança. A verdadeira intenção do estudo, no entanto, é saber
se o módulo rural nessa região continua sendo 25 ha. Para isso vamos construir um teste de hi-
pótese com essa premissa, de que o módulo não se alterou e tem 25 ha.
H 0 : µ =µ 0 →, µ =25 ha a média atual é igual à antiga.
H a : µ >25 ha , a média atual maior que a antiga.
Região crítica do teste
Pf=0,95, α=0,05 → Z=1,96
Logo:
Aceita H0 se z0 ≤ 1,96
Rejeita H0 se z0 > 1,96
Estatística de teste:
Grandes amostras
X − µ0 37,67 − 25
zo = = = 2,906
σ n 23,87837934 30
Conclusão:
Como zo= 2,906 > zt =1,96, tem uma chance de 1,79% de ocorrer no caso da igualdade com
o módulo rural antigo ser verdadeira, garantindo que a diferença é estatisticamente signifi-
cativa (P<0,05). Rejeitamos H0 concluindo que houve mudança no padrão de propriedades,
ocorrendo uma concentração de terras nessa região, constatando-se que o padrão médio não
é mais 25 ha, cresceu e com um nível de significância estatístico de 5%, podemos estimar o
tamanho médio das propriedades em 37,67, com um potencial de variar entre 29 e 46 ha.
111
EaD
X6: Nº de moradores por propriedade (conforme o quadro 3):
 σ   4,753220324 
IC 95% =  X ± z∂ / 2  = Pf → IC 95% = 4, 4 ± 1,96  = 0,95
 n  30 
IC 95% = {2,67 ≤ µ ≤ 6,10} = 0,95
Constatamos que o número médio de moradores das propriedades rurais nessa região está
estimado em 4,4 moradores, e que o tamanho médio pode ser avaliado potencialmente como um
valor entre 2,67 e 6,10 moradores, com um nível de significância de 5%.
verdadeira média, com 95% de confiança, no entanto há informações de que o número médio
de membros nas famílias gaúchas é de 3,25 pessoas. Queremos saber se o número médio dessa
região é maior do que o do Estado. Para isso vamos construir um teste de hipótese com essa
premissa, de que o número médio é igual ao do Estado.
H0: µ =µ0 →, µ =3,25 moradores, a média da região é igual à do Estado.

Ha: µ >3,25 moradores por família, a média da região é maior que a do Estado.

Pf=0,95, α=0,05 → Z=1,96
Logo:
Grandes amostras
X − µ0 4, 4 − 3, 25
zo = = = 1,325
σ n 4,753220324 30
Conclusão:
Como zo= 1,325 < zt =1,96 aceitamos H0, há uma chance de ocorrer de 9,18% no caso de a
igualdade com o número de moradores ser verdadeiramente 3,25, garantindo que a diferença
não é estatisticamente significativa (P>0,05). Aceitamos H0 concluindo que não há diferença
estatisticamente significativa entre a média estadual = 3,25, e a média da região = 4,4. As
famílias, atualmente, como decorrência da vida moderna, do planejamento familiar, acesso
aos meios de contracepção, tendem a ter menos filhos, restringindo-se a 1 ou 2 no máximo.
112
EaD
X2: Produz soja, p: sim; (1-p): não tal que p = 0,77 (1-p) = 0,23
 p(1 − p)   0,77 * 0, 23 
IC 95% =  p ± z∂ / 2  = Pf → IC 95% = 0,77 ± 1,96  = 0,95
 n   30 
IC 95% = {0,71 ≤ π ≤ 0,83}= 0,95
Constatamos que a proporção de propriedades que produz soja é estimada em 0,77, e que
a proporção pode ser avaliada potencialmente como um valor entre 0,71 e 0,83, com um nível
de significância de 5%.
verdadeira média, com 95% de confiança. Supondo, no entanto, que metade das propriedades
rurais produz soja, queremos saber se a proporção estimada é significativamente maior do que a
suposta. Para isso vamos construir um teste de hipótese com essa premissa, de que a proporção
real é igual a 0,50.
H0: π = 0,50→ a proporção de propriedades que produzem soja é de 0,50.
Ha: π = 0,50→ a proporção de propriedades que produzem soja é > que 0,50.
Pf=0,95, α=0,05 → Z=1,96
Logo:
Grandes amostras
p − π0 0,77 − 0,50
zo = = = 3,514
p (1 − p ) 0,77(0, 23)
n 30
Conclusão:
Como zo= 3,514 > zt =1,96 tem uma chance de 0,02% de ocorrer no caso da igualdade
com a hipótese de que 50% das propriedades produzem soja seja verdadeira, é altamente
improvável, garantindo que a diferença é altamente significativa estatisticamente (P<0,01).
Rejeitamos H0, concluindo que há diferença altamente significativa estatisticamente entre a
proporção suposta = 0,50 e a proporção da região = 0,77 quando se trata de produção de soja
113
EaD
com um nível de significância de 1%. Apesar de a soja ser uma produção que exige grandes
extensões rurais e cultivo com maquinário agrícola, a maioria das propriedades (indepen-
dentemente do tamanho) dedica-se a essa cultura pelo manejo exigido e retorno bastante
garantido, bem como pela política agrícola que favorece esta cultura. Podemos então afirmar
que a proporção estimada de produtores de soja é de 77% com grandes possibilidades de o
intervalo de 71% a 83% conter a real proporção da região em termos de produtores de soja,
tenha uma chance de 95% de conter a verdadeira proporção.
X : Produz milho, p: sim; (1-p): não tal que p = 0,87 (1-p) = 0,13
3
 p (1 − p )   0,87 * 0, 23 
IC 95% =  p ± z∂ / 2  = Pf → IC 95% = 0,87 ± 1,96  = 0,95
 n   30 
IC 95% = {0,83 ≤ π ≤ 0,91}= 0,95
Constatamos que a proporção de propriedades que produzem milho é estimada em 0,87,

e que a proporção pode ser avaliada potencialmente como um valor entre 0,83 e 0,91, com um
nível de significância de 5%.
verdadeira média, com 95% de confiança. Supondo, no entanto, que metade das propriedades
rurais produz milho, queremos saber se a proporção estimada é significativamente maior do que
a suposta. Para isso vamos construir um teste de hipótese com essa premissa, de que a proporção
H0: π = 0,50→ a proporção de propriedades que produzem milho é de 0,50.
Ha: π = 0,50→ a proporção de propriedades que produzem milho é > que 0,50.
Pf=0,95, α=0,05 → Z=1,96
Logo:
Grandes amostras
p − π0 0,87 − 0,50
zo = = = 6,026
p (1 − p ) 0,87(0,13)
n 30
114
EaD
Conclusão:
Como zo= 6,026 > zt =1,96 rejeitamos H0, tem uma chance de ocorrer de 0,0000..% no caso
da igualdade com a suposição 0,50 ser verdadeira, garantindo que a diferença é altamente
significativa estatisticamente (P<0,01). Concluímos que há diferença altamente significativa
estatisticamente entre a proporção suposta = 0,50 e a proporção da região = 0,87 quando se
trata de produção de milho com um nível de significância de 1%. Apesar de o milho ser uma
produção que exige uma terra de boa qualidade, quase sempre uma terra de mato, é uma
cultura de grande utilidade tanto para a comercialização quanto para a demanda interna
da propriedade, por isso a maioria das propriedades (independentemente do tamanho) se
dedica a essa cultura pelo manejo exigido e retorno bastante garantido, bem como pela polí-
tica agrícola que favorece esta cultura. Podemos então afirmar que a proporção estimada de
produtores de milho é de 87% com grandes possibilidades de o intervalo de 83% a 91% conter
a real proporção da região em termos de produtores de milho, tenha uma chance de 95% de
conter a verdadeira proporção.
X : Produz aves, p: sim; (1-p): não tal que p = 0,50 (1-p) = 0,50
4
 p (1 − p )   0,50 * 0,50 
IC 95% =  p ± z∂ / 2  = Pf → IC 95% = 0,50 ± 1,96  = 0,95
 n   30 
IC 95% = {0, 41 ≤ π ≤ 0,59} = 0,95
Constatamos que a proporção de propriedades que produzem aves é estimada em 0,50,
e que a proporção pode ser avaliada potencialmente como um valor entre 0,41 e 0,59, com um
verdadeira média, com 95% de confiança. Sabendo, no entanto, que 65% das propriedades rurais
produzem aves, queremos saber se a proporção estimada é significativamente maior do que a
suposta. Para isso vamos construir um teste de hipótese com essa premissa, de que a proporção
H0: π = 0,65→ a proporção de propriedades que produzem aves é de 0,65.
Ha: π < 0,65→ a proporção de propriedades que produzem aves é < que 0,65.
115
EaD
Pf=0,95, α=0,05 → Z=1,96 Logo:
Aceita H0 se z0 ≥ -1,96
Rejeita H0 se z0 < -1,96
Grandes amostras
p − π0 0,50 − 0,65
zo = = = −1,643
p (1 − p ) 0,50 * (0,50)
n 30
Conclusão:
Como zo= -1,643 > zt =-1,96 aceitamos H0, tem uma chance de ocorrer de 0,0505% no caso
da igualdade com a suposição de 0,50 ser verdadeira, garantindo que a diferença não é sig-
nificativa estatisticamente (P>0,05). É possível concluir que não há diferença estatisticamente
significativa entre a proporção suposta = 0,65 e a proporção da região = 0,50 quando se trata
de produção de aves com um nível de significância de 5%. Apesar de ave ser uma produção
que não exige grandes extensões rurais, de fácil manuseio e consumo garantido, a maioria
das propriedades, independentemente do tamanho, não se dedica muito a essa produção. Po-
demos então afirmar que o a proporção estimada de produtores de aves é de 50% com grandes
possibilidades de que o intervalo de 41% a 59% conter a real proporção da região em termos
de produtores de aves, tenha uma chance de 95% de conter a verdadeira proporção.,
X : Produz leite, p: sim; (1-p): não tal que p = 0,70 (1-p) = 0,30
5
 p(1 − p)   0,70 * 0,30 

IC 95% =  p ± z∂ / 2  = Pf → IC 95% = 0,70 ± 1,96  = 0,95
 n   30 
IC 95% = {0,62 ≤ π ≤ 0,78} = 0,95
Constatamos que a proporção de propriedades que produzem leite é estimada em 0,70,

e que a proporção pode ser avaliada potencialmente como um valor entre 0,62 e 0,78 com um
verdadeira média, com 95% de confiança. Supondo, porém, que as propriedades rurais são pe-
quenas entende-se que se dediquem à produção de leite em torno de 90%, queremos saber se a
proporção estimada é significativamente menor do que a suposta. Para isso vamos construir um
teste de hipótese com essa premissa, de que a proporção real é igual a 0,90.
116
EaD
H0 : π = 0,90→ a proporção de propriedades que produzem leite é de 0,80.
Ha: π < 0,90→ a proporção de propriedades que produzem leite é > que 0,80.
Pf=0,95, α=0,05 → Z=1,96
Logo:
Aceita H0 se z0 ≥– 1,96
Rejeita H0 se z0 < – 1,96
Grandes amostras
p − π0 0,70 − 0,90
zo = = = −2,390
p (1 − p ) 0,70(0,30)
n 30
Conclusão:
Como zo= -2,390 < zt =-1,96 rejeitamos H0, tem uma chance de ocorrer de 0,0084% no caso
de a igualdade com a suposição ser 0,50 a verdadeira proporção, garantindo que a diferença
é altamente significativa estatisticamente (P<0,01). Concluindo que há diferença altamente
significativa estatisticamente entre a proporção suposta = 0,90 e a proporção da região =
0,70 quando se trata de produção de leite com um nível de significância de 5%. Apesar de o
leite ser um produto altamente comercializável, pois várias empresas de beneficiamento do
leite operam na região, a proporção de produtores é menor do que a esperada. Podemos então
afirmar que a proporção estimada de produtores de leite é de 70% com grandes possibilidades
de que o intervalo de 62% a 78% conter a real proporção da região em termos de produtores
de leite tenha uma chance de 95% de conter a verdadeira proporção.,
Seção 5.3
Aplicações
Organize uma pesquisa de campo em que você precise entrevistar, coletar dados de qual-
quer natureza.
117
EaD
 Estabeleça um tema, objetivos, hipóteses
 Descreva a metodologia de coleta
 Descreva a metodologia estatística
 Faça uma revisão bibliográfica da estatística
 Faça uma revisão de literatura do assunto abordado
 Calcule amostra
 Faça o delineamento amostral
 Sorteie as unidades amostrais
 Colete os dados
 Construa o banco de dados
 Aplique o máximo de estatísticas possíveis
 Faça uma discussão dos resultados embasada na revisão da literatura sobre o assunto
 Elabore conclusões
 Bibliografia
RESUMO DA UNIDADE 5
Nesta unidade aprendemos a projetar os resultados de uma amostra

para uma população. As garantias que temos de resultados confiáveis
é estabelecida a partir de estimativas calculadas por meio de intervalo
de confiança de 95%. Além das estimativas, aprendemos a testar se
os valores estimados por intermédio da amostra diferem significati-
vamente de valores antigos.
118
EaD
Unidade 6
REGRESSÃO LINEAR SIMPLES
Antonio Édson Corrente
Objetivos desta Unidade
• Examinar a relação entre duas variáveis.
• Compreender o significado da correlação entre variáveis.
• Compreender o significado da regressão linear simples.
• Identificar situações em que a técnica de regressão possa ser aplicada.
• Compreender que o modelo de regressão linear permite fazer projeções futuras e fornece ex-
plicações por meio de seus coeficientes.
• Compreender os resultados da regressão linear simples.
As seções desta Unidade
Seção 6.1 – Correlação entre as variáveis
Seção 6.2 – Diagrama de dispersão
Seção 6.3 – Coeficiente de correlação
Seção 6.4 – Coeficiente de determinação (R2)
Seção 6.5 – Análise de regressão
Seção 6.6 – Banco de dados
Esta ferramenta ajuda o administrador a interpretar variáveis não facilmente compreen-

didas, e mediante a análise do comportamento quantitativo passado das variáveis em estudo,
equaciona-os possibilitando projetar seu comportamento no futuro.
A descrição e a inferência estatística tratam de uma só variável de cada vez. Por exemplo,
quando temos uma amostra de uma empresa, como o índice de liquidez. Quando, porém, temos de
estabelecer novas metas em uma empresa, a amostra apresentará diversas variáveis que poderão
119
EaD
ser observadas em cada unidade amostrada: o índice de liquidez da empresa, o faturamento, as

vendas, o número de funcionários, os salários, outras despesas, etc. Obrigatoriamente teremos
de trabalhar com mais de uma variável.
No momento vamos considerar o caso de duas variáveis (análise bivariada). Nosso objetivo
será estabelecer o comportamento quantitativo passado das variáveis em estudo e o equacionar-
mos, proporcionando projetar o seu comportamento no futuro, pois prioritariamente a análise de
regressão é usada com o propósito de previsão.
A busca de associação entre variáveis é o propósito de toda pesquisa científica, pois a

possível existência de relação entre variáveis orienta análise, conclusões e evidencia novas des-
cobertas, ou seja, ressalta relações subjacentes a uma só variável.
Ao dispormos de uma amostra de n unidades, contamos com um par de valores das vari-
áveis X i e Yi , por exemplo, os valores dos investimentos reais em função dos anos, em bilhões
de dólares. O grupo pode ser descrito separadamente, no entanto nosso interesse será o de es-
tabelecer uma possível relação funcional (matemática) entre as duas variáveis e se a relação for
boa, usá-la para fazer previsões.
No exemplo dado nosso interesse será estabelecer uma relação matemática (linear) entre
os anos ( X i ) e os investimentos reais ( Yi ). Não podemos esquecer que o ajuste de um conjunto
de dados com a finalidade de fazer projeções futuras só é viável mediante o conhecimento a
priori das possíveis influências de causa e efeito que uma ou mais variáveis exercem sobre as
demais.
Seção 6.1
Correlação entre Variáveis
O termo correlação significa relação em dois sentidos que serve para designar a força
que mantém “unidos” dois conjuntos de dados. A correlação mede a intensidade, a direção e
estabelece o grau de associação linear entre duas variáveis quantitativas.
120
EaD
Exemplo de Aplicação:
Tabela 1: Valores dos investimentos reais, em bilhões de dólares, no período entre 1968 e 1982 nos Estados Unidos
ANO Xi Yi X iYi X i2 Yi 2
1968 1 161 161 1 25921
1969 2 172 344 4 29584
1970 3 158 474 9 24964
1971 4 173 692 16 29929
1972 5 195 975 25 38025
1973 6 217 1302 36 47089
1974 7 199 1393 49 39601
1975 8 163 1304 64 26569
1976 9 195 1755 81 38025
1977 10 231 2310 100 53361
1978 11 257 2827 121 66049
1979 12 259 3108 144 67081
1980 13 225 2925 169 50625
1981 14 241 3374 196 58081
1982 15 204 3060 225 41616
∑ 120 3 050 26004 1240 636520
Fonte: Fundação Getúlio Vargas. Disponível em: <www.ibre.fgv.br/>.

X i : Tempo em anos codificado e Yi : Invest: Investimentos reais.
Seção 6.2
Diagrama de Dispersão
O cálculo do coeficiente de correlação é bastante trabalhoso, assim é conveniente fazermos

primeiro o diagrama de dispersão, que é uma representação gráfica bidimensional.
O diagrama de dispersão é uma representação gráfica da relação entre duas variáveis

quantitativas. Esta representação é feita sob a forma de pares ordenados ( X i , Yi ), onde X i é
um valor observado de uma variável e Yi é o correspondente valor da outra variável.
Na construção do gráfico podemos começar com qualquer um dos eixos. No nosso exemplo
a variável X i representa os gastos, pois entre o valor que representa o menor investimento e o que
indica o maior investimento, que são 2 e 20, devemos criar uma escala no eixo correspondente.
Proceder no eixo Yi da mesma maneira, pois o mês de janeiro apresentou o menor valor para o
faturamento, que é 20, o mês de outubro apresentou o maior faturamento, que é de 62. Pois bem,
devemos criar uma escala considerando este intervalo e representarmos no corresponde eixo.
121
EaD
Em nosso exemplo:
O diagrama de dispersão fica:
Figura 1: Evolução dos investimentos em função dos anos
270
Investimento (bilhões de dólares)
250
230
210
190
170
150
1967 1969 1971 1973 1975 1977 1979 1981 1983
Anos
Fonte: Elaboração do autor, com dados da FGU na tabela 1.
Ao observamos o diagrama de dispersão verificamos que parece plausível a existência

de uma relação linear dos dados em relação ao tempo.
Seção 6.3
Coeficiente de Correlação
A correlação mede a intensidade, a direção e estabelece o grau de associação linear entre

duas variáveis quantitativas. As relações lineares têm importância especial porque uma linha
reta é um padrão simples e bastante comum.
122
EaD
0 ≤ R ≥ 1 −1 ≤ R ≥ 0
Correlação linear positiva Correlação linear negativa
Correlação não linear Não há correlação linear
Karl Person (1857 – 1936) foi quem desenvolveu a fórmula de R, que é dado por:
R=
(∑ X )(∑ Y ) ,
n∑ (X iYi ) − i i
-1 ≤ R ≤ 1
n∑ X − (∑ X ) n∑ Y − (∑ Y )
2 2
2 2
i i i i
O valor de R deve estar sempre entre –1 e +1, inclusive. Valores de R próximos de –1 e

+1 indicam correlação forte, e valores próximos de zero indicam correlação fraca. O sinal de R
indica se a correlação é positiva ou negativa.
Por simulação numérica e pela proximidade ou não dos pontos em torno da reta de regres-
são, temos:
R 0 Sem Correlação Linear

R 0 |---– 0,3 Correlação Linear Positiva Fraca
R 0,3 |---– 0,6 Correlação Linear Positiva Média
R 0,6 |---– 0,8 Correlação Linear Positiva Forte
R 0,8 |---– 1,0 Correlação Linear Positiva Muito Forte
R 1,0 C orre la ç ã o Line a r Pos itiva Pe rfe ita
No nosso exemplo devemos calcular e interpretar o Coeficiente de Correlação.
123
EaD
15(26004) − (120).(3050) 390060 − 366000

R= → R=
15(1240) − (120)² 15(636520) − (3050)² 4200 245300
24060 24060
R=
64,80741* 495, 2777 → R = 32097,66 → R = 0,749587
Assim, o grau de correlação observado entre os investimentos reais em função do tempo

é linear positiva forte.
Observação Importante: Correlação não é igual à causa e efeito, pois duas variáveis podem
estar relacionadas e, no entanto, não haver entre elas nenhuma relação de causa e efeito.
Como exemplo, em Triola (1999) e outros, ao relacionarmos o tamanho do pé com a renda de
um grupo de indivíduos, poderemos observar uma alta correlação, próximo de 1, no entanto
na prática não existe nenhuma relação de causa e efeito entre ambas.
Se duas variáveis estiverem relacionadas pela lei de causa e efeito, é viável o estabeleci-
mento do grau que mantém as mesmas correlacionadas. No nosso exemplo, embora não possamos
afirmar que a variável X i seja a única causa das variações sofridas em Yi , é razoável admitir que
maiores gastos em comerciais oferecem uma maior probabilidade de retornos financeiros.
Assim, dá para sabermos quanto da variação de Yi pode ser explicada pelas variações de
X i , que é dado pelo Coeficiente de Determinação.
Seção 6.4
Coeficiente de Determinação ( R ) 2
É um dos critérios mais empregados para caracterizar o ajuste, pois o Coeficiente de Deter-
minação nos permite saber quanto da variação de Yi pode ser explicado pela variação de X i .
R 2 = (R ) .100
2
Assim, o Coeficiente de Determinação (poder explicativo do modelo) é dado por:
Se R = 0,749587 , então R 2 = (0,749587)².100 → R 2 = 56,19% , significando que

aproximadamente 56,19% das variações dos investimentos reais são explicadas pelas
variações dos anos. E o restante pode ser explicado por outras variáveis que não estão
sendo consideradas no modelo.
124
EaD
Seção 6.5
Análise de Regressão
Com a regressão buscamos as leis que explicam como duas ou mais variáveis estão relacio-
nadas. Além disso, proporciona obtermos um dado desconhecido a partir de seu par conhecido,
com uma boa aproximação.
O estudo da regressão é usado para estabelecer uma equação matemática que possa des-
crever com certa precisão a relação entre duas ou mais variáveis.
Ao traçarmos o diagrama de dispersão e obtermos uma nuvem de pontos de configuração

lembrando uma reta, é possível equacionarmos a esses pontos uma reta com o objetivo de pro-
duzirmos uma informação simplificada que possa expressar a lei que as mantém unidas.
Devemos lembrar que por dois pontos passa uma e somente uma reta, mas que quando
temos uma nuvem de pontos podemos traçar inúmeras retas.
De todas as retas possíveis devemos escolher a que melhor se ajuste a todos os pontos
simultaneamente. A escolha dessa reta (equação) segue um critério chamado Método dos Mí-
nimos Quadrados.
O Método dos Mínimos Quadrados deve-se ao matemático e astrônomo francês Pierre

Simon Laplace, que segue estes critérios:
n
Yî = α + β X i + ei ⇒Þ Sejam (a, b) estimadores de (αa , βb) ⇒Þ S = ∑ ei2 = ∑ (Yi − a − bX i ),2
i =1
o que torna necessário:
∂S
=0
∂a
∂S
=0
∂b
Diferenciando S parcialmente em relação aos estimadores a e b, e simplificando as ex-

pressões, obtemos as equações normais do ajuste pelo método dos mínimos quadrados. Essas
equações normais são equações lineares e podem ser resolvidas, simultaneamente, em relação
aos coeficientes a e b, ou algebricamente temos:
125
EaD
a=
∑Y i
−b
∑X i
n n
n∑ X iYi − ∑ X i ∑ Yi
b=
n∑ X i2 − (∑ X )
2
i
No caso da regressão linear simples, a variável Yi é considerada a variável dependente

(resposta) e a variável X i é considerada a variável independente (explicativa).
Significado dos parâmetros:
α : Coeficiente Linear ou intercepto. É onde a reta corta o eixo Yi . Interpretado como a variação
média da variável dependente Yi , que não depende da variável independente X i . É dado na
mesma unidade de medida de Yi . Diz o nível de Yi quando X i é igual a zero.
β : Coeficiente Angular, inclinação. Fornece uma estimativa da variação esperada de Yi , a partir

da variação de uma unidade de X i . A variação pode ser positiva ou negativa.
ei : São os erros aleatórios, inerentes às variáveis em estudo.
Assim, a equação de regressão estimada é:
Yî = a + bX i
Observação importante:
O sinal ^ sobre o Yi é para indicar que se trata de um valor teórico, próximo da realidade,
mas não necessariamente presente nos dados observados.
Agora devemos calcular a equação da reta de regressão e comentar sobre o significado

das estimativas.
Cálculo dos coeficientes a e b.
15(26004) − (120).(3050) 24060

b= = → b = 5,7286 agora podemos determinar
15(1240) − (120)² 4200
3050 120
a= − 5,7286. → a = 203,3333 − 45,8288 → a = 203,3333 − 45,8288 → a = 157,5045
15 15
Em nosso exemplo: Yî = 157,5045 + 5,7286 X i
Significado dos coeficientes:
a = 157,5045 Investimento médio real que não depende do passar dos anos. No exemplo
este coeficiente não tem sentido prático, no entanto não podemos esquecer que ele faz parte do
modelo ajustado e que para fazermos projeções ele é essencial.
126
EaD
b = 5,7286 Acréscimo médio nos investimentos reais a cada ano. A cada ano os investi-
mentos reais tiveram um acréscimo médio de 5,7286 dólares.
Pergunta: Qual é o volume esperado de investimentos reais a serem gastos no ano de
1983?
Yî = 157,5045 + 5,7286 X i substituindo em X i o código respectivo ao ano seguinte temos:
Yî = 157,5045 + 5,7286.(16) → Yî = U $ 249,16 volume esperado para o ano de 1983.
Seção 6.6
Banco de Dados
Tabela 2: Valores dos investimentos reais e do Produto Interno Bruto, em bilhões de dólares,
as taxas médias de juros e as taxas de inflação no período entre 1968 e 1982 nos Estados Unidos
ANO INVESTIMENTO PIB JUROS INFLAÇÃO

1968 161 1058 5,16 4,40
1969 172 1088 5,87 5,15
1970 158 1086 5,95 5,37
1971 173 1122 4,88 4,99
1972 195 1186 4,50 4,16
1973 217 1254 6,44 5,75
1974 199 1246 7,83 8,82
1975 163 1232 6,25 9,31
1976 195 1298 5,50 5,21
1977 231 1370 5,46 5,83
1978 257 1439 7,46 7,40
1979 259 1479 10,28 8,64
1980 225 1474 11,77 9,31
1981 241 1503 13,42 9,44
1982 204 1475 11,02 5,99
Fonte: Disponível em: www.ibre.fgv.br/.
Com este banco de dados pretendemos que você aplique a teoria estudada na Unidade 6.
127
EaD
RESUMO DA UNIDADE 6
Nesta Unidade aprendemos a desvendar as relações que existem

entre as variáveis quantitativas estabelecendo o tipo e o grau de
correlação que existe entre elas. Além disso, buscamos compreender
o resultado estatístico dessas relações no contexto das variáveis que
envolvem o estudo.
128
EaD
Unidade 7
FERRAMENTAS DE ANÁLISE ESTATÍSTICA NO EXCEL
Iara Denise Endruweit Battisti
OBJETIVO DESTA SEÇÃO
• Habilitar o aluno a agilizar a produção de estatísticas por meio do manuseio correto das ferra-
mentas do Excel.
AS SEÇÕES DESTA UNIDADE:
Seção 7.1 – Elaborando um banco de dados no Excel
Seção 7.2 – Utilizando as técnicas estatísticas para analisar os dados no Excel
Seção 7.3 – Medidas descritivas para as variáveis quantitativas
Seção 7.4 – Tabelas simples para as variáveis qualitativas e para as variáveis quantitativas com
pouca variabilidade
Seção 7.5 – Tabelas cruzadas
Seção 7.6 – Gráficos de setores, colunas e barras
Seção 7.7 – Histograma e polígono de frequências
Seção 7.8 – Gráfico de linha
Agora que já conhecemos os conceitos teóricos, vamos aplicar estes conhecimentos na

prática, utilizando para isso uma planilha eletrônica. Neste livro vamos usar como referência o
software Microsoft Excel® nas versões 2003 e 2007.
O MS Excel é um aplicativo do tipo Planilha Eletrônica, ou seja, é um software apropriado para

a edição de documentos com características numéricas. Empregando uma planilha eletrônica podemos
manipular com facilidade a edição de tabelas, efetuar cálculos, operações estatísticas e a geração de
gráficos. De forma geral permite armazenar dados e produzir informações a partir destes.
129
EaD
Os arquivos que normalmente produzimos com o Excel são do tipo Pasta de Trabalho, e pos-
suem a extensão .xls ou .xlsx., respectivamente para MS Excel versão 2003 e versão 2007. A tela
inicial do Excel é apresentada na Figura 1a para a versão 2003 e Figura 1b para a versão 2007.
Figura 1a: Tela inicial do Excel 2003
Figura 1b: Tela inicial do Excel 2007
Uma planilha é um conjunto de linhas e colunas, como uma grade. No Excel, as colunas
são identificadas por letras em ordem alfabética, e as linhas por números em ordem crescente.
Uma célula é a menor unidade de trabalho do Excel, identificada pelo cruzamento de uma linha
e uma coluna.
130
EaD
Cada célula tem um endereço próprio, formado pela combinação da letra da coluna com o
número da linha. Por exemplo, a célula D8 localiza-se no cruzamento da coluna D com a linha
8. Para selecionar uma célula, colocando-a em foco, utiliza-se o cursor, que na planilha aparece
como um ponteiro semelhante a uma cruz. Basta clicar na célula desejada.
Um intervalo de células é a representação de uma faixa ou conjunto de células. Pode ser

selecionado clicando com o cursor sobre um dos cantos do intervalo e arrastando até o canto
oposto, formando um retângulo. Pode também ser apenas uma coluna ou linha. Para selecionar
uma coluna inteira deve-se clicar na respectiva letra, no cabeçalho da coluna.
Para selecionar uma linha inteira deve-se clicar no número identificador da linha. O in-
tervalo é identificado por suas coordenadas, sendo que o primeiro elemento das coordenadas é
o endereço da célula superior esquerda, e o segundo elemento das coordenadas é o endereço
da célula inferior direita do intervalo. Os dois elementos são separados por dois pontos ( : ). Por
exemplo, o intervalo C4:E5 compreende as células C4,C5,D4,D5,E4 e E5.
Seção 7.1
Elaborando um Banco de Dados no Excel
Para criar um banco de dados no Excel destinamos as linhas aos dados de cada elemento
da amostra e as colunas a cada uma das variáveis. A Figura 2 mostra o exemplo do banco de
dados dos clientes da empresa Costa, apresentado a seguir. Tomemos esse banco de dados como
exemplo para desenvolver toda a Unidade 7.
Exemplo:
Pesquisa de satisfação realizada, por amostragem, com clientes da empresa Costa

(empresa fictícia), em maio de 2009.
131
EaD
Banco (planilha) de dados da pesquisa de satisfação na empresa Costa
Cliente Sexo Satisfação com atendimento Satisfação com preço Nota geral Idade
1 F MS MS 10 22
2 F S +- 7 26
3 F +- +- 6 32
4 M +- S 7 35
5 F S S 8 23
6 F S MS 9 27
7 F +- +- 7 22
8 F +- S 7 37
9 M S I 5 41
10 F I I 5 40
11 M S S 8 35
12 F S +- 8 35
13 F MI +- 9 37
14 F S +- 9 22
15 F S I 7 21
16 M MS S 10 19
17 F S +- 8 40
18 F S S 8 51
19 F S S 9 55
20 M I +- 7 45
21 F +- S 7 46
22 M S S 8 33
23 M MS S 9 34
F = feminino, M = masculino, MS = Muito satisfeito, S = satisfeito,

+– = mais ou menos satisfeito, I = insatisfeito, MI = muito insatisfeito.
Figura 2: Exemplo de um banco de dados
132
EaD
Seção 7.2
Utilizando as Técnicas Estatísticas para Analisar os Dados no Excel
Primeiramente você deve ativar as ferramentas de análise estatística no Excel. O proce-

dimento é diferente no Excel versão 2003 e no Excel versão 2007. Siga os passos conforme a
versão que você possui.
No Excel 2003:
Clique no menu Ferramentas, depois em Suplementos e então marque a opção Ferra-

mentas de Análise e clique no botão ok conforme a Figura 3 (esquerda). De agora em diante,
sempre que você desejar utilizar o comando análise de dados, este estará disponível no menu
Ferramentas.
No Excel 2007:
Clique no botão do Office , depois no botão opções do Excel e no menu escolha a

opção Suplementos e então na lista de suplementos de aplicativos inativos a opção Ferramentas
de análise. Após clique no botão ir
Então aparecerá a janela da Figura 3 (direita). Nesta marque Ferramentas de análise e

clique no botão ok. De agora em diante, sempre que você desejar utilizar o comando análise de
dados, este estará disponível no menu Dados.
Figura 3: Instalação das Ferramentas de Análise no Excel 2003 (esquerda) e no Excel 2007 (direita)
133
EaD
Seção 7.3
Medidas Descritivas para as Variáveis Quantitativas
Para obter as medidas descritivas, você clica na opção Análise de dados no menu Ferra-
mentas no Excel 2003 ou clica no botão Análise de dados no menu Dados no Excel 2007. Então
aparecerá a janela da Figura 4.
Figura 4: Ferramentas de Análise
Nesta janela você clica na opção Estatística descritiva. Após, aparecerá a janela da Figura
5. Nesta, observar os seguintes passos:
• selecione os dados da coluna que você deseja analisar, por exemplo, coluna E, que se refere à
variável idade;
• marque a opção rótulos na primeira linha, pois foi selecionado junto com os valores o nome
(rótulo) da variável;
• marque nova planilha, assim o resultado do comando vai aparecer numa nova planilha da pasta
de trabalho;
• marque resumo estatístico;
• clique no botão ok.
134
EaD
Figura 5: Estatística descritiva
Uma nova planilha é criada com os resultados do comando, conforme Figura 6.
Figura 6: Resultado do comando estatística descritiva
Para calcular o coeficiente de variação deve-se incluir uma fórmula da seguinte maneira:
• clique numa célula vazia do Excel; sugestão: na célula B16;
• digite =;
• clique no valor do desvio padrão;
• digite /;
• clique no valor da média;
135
EaD
• digite*;
• digite 100;
• tecle enter.
A fórmula deste exemplo é:
Neste exemplo o valor do coeficiente de variação é 29,59%.
Interpretação dos resultados: A idade média dos indivíduos pesquisados é de 33,83 anos,
com desvio padrão de 10 anos. Dos 23 indivíduos avaliados, 50% deles têm idade até 35 anos
e os outros 50% têm idade igual ou maior a 35 anos. A menor idade desta amostra é 19 anos e
a maior é 55. Tem-se um conjunto de dados homogêneos, posto que o coeficiente de variação
assume valor menor que 30%.
Seção 7.4
Tabelas Simples para as Variáveis Qualitativas
e para as Variáveis Quantitativas com Pouca Variabilidade
Para elaborar uma tabela simples a partir de um banco de dados utilize o comando relatório de
tabela dinâmica. Atenção: este é disponibilizado diferentemente no Excel 2003 e no Excel 2007.
No Excel 2003:
Escolha a opção Relatório de tabela e gráfico dinâmico no menu Dados, sendo apresentada
a tela da Figura 7.
Figura 7: Tabela e gráficos dinâmicos no Excel 2003
136
EaD
A opção de tabela dinâmica já está marcada; caso deseje um gráfico você deve selecionar
a segunda opção, conforme Figura 7.
Após, clique no botão avançar e então a janela da Figura 8 será apresentada.
Figura 8: Seleção do banco de dados no Excel 2003
Caso o banco de dados (informações já digitadas na planilha) não esteja selecionado,

selecione com o mouse. Novamente clique no botão avançar, na janela da Figura 9, clique no
botão layout.
Figura 9: Seleção do local de saída dos resultados e layout no Excel 2003
Neste momento você escolhe o modo de apresentação da tabela (layout), mostrada na figura
10. Para escolher o local de apresentação das categorias da variável você deve arrastar o botão
apresentado à direita da tela, referente à variável de interesse, até o corpo da tabela sobre Linha.
Depois, arraste novamente o botão da variável para o centro do corpo da tabela para calcular
frequência absoluta (n), ou seja, contar as categorias. Deve aparecer no botão: Contar de nome_
da_variável. Caso isso não ocorra, clique duplo sobre o botão e escolha a opção ContNúm.
137
EaD
Figura 10: Layout da tabela no Excel 2003
Para calcular a frequência relativa percentual, você deve novamente arrastar o botão da
variável até o centro do corpo da tabela e clicar duplo sobre o botão, sendo apresentada a tela
da Figura 11, clique em Opções e no campo Mostrar dados como, selecione a opção % do total
e clique no botão ok.
Figura 11: Opções de apresentação da frequência no Excel 2003
Clique no botão OK e no botão Concluir e então aparecerá a tabela simples dinâmica da

Figura 12.
138
EaD
Figura 12: Exemplo de tabela simples dinâmica
Para formatar a tabela clique no botão Formatar Relatório na barra de ferramentas do re-
latório e escolher o Relatório 7. A tabela ficará assim:
No Excel 2007:
Clique no menu Inserir e na opção Tabela dinâmica e aparecerá a janela da Figura 13.
Se o banco de dados (área com as informações da pesquisa) não estiver selecionado você deve
selecioná-lo com o mouse e após clique no botão ok.
Figura 13: Seleção de banco de dado no Excel 2007
Após o OK, aparecerá a janela da Figura 14.
139
EaD
Figura 14: Elaboração de tabela dinâmica no Excel 2007
Marque a variável de interesse no menu à direita, neste exemplo marque a variável

sexo e então arraste (clique com o mouse e arraste com
o botão clicado) para rótulos de linha . Arraste-a também para valores
, duas vezes. Deve aparecer ContNúm em cada botão de valores, caso não estiver
aparecendo então clique com o mouse sobre o primeiro botão e escolha a opção configurações
do campo valor. Aparecerá a janela da Figura 15.
140
EaD
Figura 15: Marcando a opção ContNúm
Na janela da Figura 15: marque a opção ContNúm e no botão ok, assim aparecerá o valor
absoluto na tabela simples (segunda coluna). Clique sobre o segundo botão e escolhe a opção
configurações do campo valor.
Aparecerá a janela da Figura 16:
Figura 16: Marcando a opção mostrar valores como % do total
Marque a opção ContNúm e clique na ficha mostrar valores como e escolher a opção % do
total, conforme Figura 16; assim aparecerá o valor relativo percentual na tabela simples (terceira
coluna). A tabela para este exemplo está apresentada na Figura 17.
141
EaD
Figura 17: Exemplo de tabela simples
No cabeçalho da tabela substitui-se contar de sexo por n e contar de sexo 2 por %, assim
obtém-se a tabela 1 (Figura 18).
Figura 18: Exemplo de tabela simples formatada
Interpretação: 69,57% dos indivíduos entrevistados são do sexo feminino e 30,43% dos
indivíduos entrevistados são do sexo masculino.
Seção 7.5
Tabelas Cruzadas
O processo para a construção de tabelas cruzadas dinâmicas é semelhante à construção de

tabelas simples. A seguir apresentamos procedimento para o Excel 2003 e Excel 2007.
No Excel 2003:
Selecione mais uma variável para o corpo da tabela conforme a Figura 19, colocando-a
sobre a Coluna. Finalizando todo o processo aparecerá a tabela cruzada conforme Figura 20.
142
EaD
Figura 19: Elaboração da tabela cruzada
Figura 20: Exemplo de tabela cruzada dinâmica
No Excel 2007:
Selecione mais uma variável conforme a Figura 21 para rótulos da coluna .
143
EaD
Figura 21: Elaboração da tabela cruzada
Finalizando todo o processo aparecerá a tabela cruzada conforme Figura 22.
Figura 22: Exemplo de tabela cruzada dinâmica
Na Figura 23 está apresentada uma tabela cruzada formatada.
144
EaD
Figura 23: Exemplo de tabela cruzada formatada
Seção 7.6
Gráficos de Setores, Colunas e Barras
Você elabora um gráfico a partir de dados sistematizados (a partir de uma tabela já elaborada)
de forma diferente no Excel 2003 e no Excel 2007. Existem diferentes tipos de gráficos, adequados
para cada tipo de variável. A seguir são apresentados os tipos de gráficos mais usados.
 Gráfico de setores (pizza)
É usado para representar uma variável aleatória. Suas categorias devem totalizar 100%
e é mais indicado quando o número de categorias chega no máximo a 5. Primeiramente você
seleciona as categorias e os valores absolutos ou relativos que serão apresentados no gráfico, a
partir da tabela já elaborada, conforme Figura 24.
Figura 24: Selecionando os dados para elaborar um gráfico
No Excel 2003:
Para construir um gráfico de setores no Excel 2003 clique no ícone na barra de ferra-
mentas ou no menu Inserir e escolha a opção Figura e então Gráfico. Neste momento aparecerá
a tela referente ao Assistente Gráfico, como apresentada na Figura 25. Escolha o Tipo de gráfico
Pizza e aparecerá subtipos de gráficos. Você pode escolher um dos seis tipos e então clicar no
botão Avançar.
145
EaD
Figura 25: Gráfico de setores – etapa 1
A Figura 26 mostra a segunda etapa, quando é apresentada uma prévia do gráfico, permi-
tindo selecionar novamente os dados, se necessário.
Figura 26: Gráfico de setores – etapa 2
Na etapa 3 (Figura 27), clique no campo Título do gráfico e digite o título do gráfico.
146
EaD
Figura 27: Gráfico de setores – etapa 3, título do gráfico
Após, clique na ficha Legenda para alterar o local de posição da legenda ou para excluí-la
(Figura 28).
Figura 28: Gráfico de setores – etapa 3, legenda do gráfico
Na ficha Rótulos de dados (Figura 29) é possível mostrar o nome das categorias e a por-
centagem no gráfico. Após, clique no botão Concluir.
147
EaD
Figura 29: Gráfico de setores – etapa 3, rótulos de dados
Pode-se personalizar o gráfico, alterando a cor dos setores, trocando a cor do fundo, modi-
ficando o tamanho, tipo e cor da fonte.
Para alterar a cor dos setores você clica uma vez no gráfico, após clica mais uma vez no
setor (fatia) cuja cor deseja alterar e após clica duplo para aparecer o menu de cores. Então,
seleciona-se uma cor ou no botão Efeitos de Preenchimento para utilizar as opções gradiente ou
textura. Na Figura 30 apresenta-se um exemplo de gráfico formatado.
Figura 30: Gráfico de setores – exemplo

Gráfico 1 - Sexo dos funcionários da empresa
COSTA, maio de 2008
Masculino
30%
Feminino
70%
 Gráfico de Colunas
Utilizamos um gráfico de colunas simples ou barras simples para representar uma variável
aleatória. O procedimento é o mesmo adotado no gráfico de setores, mas na etapa 3 (Figura 31)
digitamos além do título do gráfico, o título do eixo x (horizontal) e o título do eixo y (vertical).
148
EaD
Figura 31: Gráfico de colunas – etapa 3
O gráfico de colunas finalizado é apresentado na Figura 32.
Figura 32: Gráfico de colunas – exemplo

COSTA, maio de 2008
% 80,00
70,00
60,00
50,00
40,00
30,00
20,00
10,00
0,00
Feminino Masculino
sexo
 Gráfico de Barras
De forma similar podemos construir um gráfico de barras, como o apresentado na Figura

33.
149
EaD
Figura 33: Gráfico de barras – exemplo

COSTA, maio de 2008
Masculino
sexo
Feminino
0,00 20,00 40,00 60,00 80,00
No Excel 2007:
Para construir um gráfico de setores (pizza) no Excel 2007, utilize o menu Inserir e escolha
gráfico de pizza, conforme a Figura 34.
Figura 34: Elaboração de gráfico
No menu do gráfico de pizza escolha um tipo e o gráfico será apresentado como a

Figura 35.
150
EaD
Figura 35: Exemplo de gráfico de setores
Clique com o mouse na área do gráfico (parte branca dentro do retângulo) e clique na
opção Layout 1 no menu Design, conforme Figura 36.
Figura 36: Formatando o gráfico de setores
O gráfico final ficará conforme a Figura 37.
151
EaD
Figura 37: Exemplo de gráfico de setores
Você pode clicar com o mouse sobre o Título do Gráfico para editá-lo e então digitar o título
para o seu gráfico. Ainda, pode mudar o estilo do gráfico clicando no menu Design e então em
Estilo (Figura 38).
Figura 38: Utilizando a opção design do gráfico para gráfico de setores
Para elaborar um gráfico de colunas o procedimento é semelhante: primeiro selecione os

dados na tabela (categorias e valores absolutos ou percentuais) e depois clique no menu Inserir
e escolha Colunas, aparecerá o gráfico da Figura 39.
152
EaD
Figura 39: Exemplo de gráfico de colunas
Você pode clicar na área do gráfico (parte branca dentro do retângulo) e usar a opção do
menu Design para alterar definições do gráfico: em Layout do gráfico você pode incluir o título
do gráfico e os valores. Clicando com o mouse no título é possível editar e colocar o título para
o seu gráfico, conforme Figura 40.
Figura 40: Utilizando a opção design do gráfico para gráfico de colunas
Para o desenvolvimento de um gráfico de barras, o procedimento a ser seguido é o mesmo

descrito para o gráfico de colunas, mudando apenas a escolha do tipo de gráfico no início do
procedimento.
153
EaD
Quando desejamos representar os resultados de uma tabela cruzada num gráfico podemos
optar pelo gráfico de colunas agrupadas ou barras agrupadas. Primeiramente devemos digitar a
tabela cruzada no Excel conforme a Figura 41 e selecioná-la. Tomemos como exemplo a tabela
cruzada da satisfação com atendimento em relação ao sexo dos clientes da empresa Costa. O
procedimento para a elaboração do gráfico de colunas agrupadas ou gráfico de barras agrupadas
é semelhante à elaboração do gráfico de colunas simples e barras simples, porém agora a legenda
deverá aparecer, conforme Figura 42.
Figura 41: Tabela cruzada para construir um gráfico de colunas agrupadas
Figura 42: Exemplo de um gráfico de colunas agrupadas
Gráfico 2 - Satisfação com o atendimento em

relação ao sexo do clientes da empresa COSTA,
maio de 2008
n 10
8
6 F
4 M
2
0
I MI MM MS S
Satisfaçao
Seção 7.7
Histograma e Polígono de Frequências
O histograma e o polígono de frequências são os gráficos adequados para representar

uma distribuição de frequência. Agora veremos como construir esses dois gráficos no Excel. Pri-
meiramente precisamos digitar a tabela de distribuição de frequência e selecioná-la, conforme
Figura 43. Tomemos como exemplo o rendimento médio nominal da Tabela 1.
154
EaD
Tabela 1: Rendimento médio nominal do trabalho principal, habitualmente recebido por mês, pelas pessoas de 10 anos
ou mais de idade, ocupadas na semana de referência, em Porto Alegre, Janeiro/2005 a Dezembro/2007
R$ Fi frac % xi
903 |-– 939 5 13,89 921
939 |-– 975 11 44,45 957
975 |-– 1011 5 58,34 993
1011 |-– 1047 5 72,23 1029
1047 |-– 1083 6 88,89 1065
1083 |-– 1119 4 100,00 1101
Total 36 - -
Fonte: IBGE, 2008.
Nota: Não incluídos trabalhadores não remunerados e trabalhadores que receberam so-
mente em benefícios.
Figura 43: Tabela de distribuição de frequência para construir um histograma
No Excel 2003:
Após, no menu inserir, escolhemos a opção gráfico e após o tipo de gráfico de colunas e
executamos o procedimento conforme descrito anteriormente. Quando o gráfico tiver sido con-
cluído (Figura 44) clicamos com o botão direito do mouse sobre uma das colunas do gráfico e
então aparecerá o menu da Figura 45; neste escolhemos a opção formatar série de dados. Assim,
aparecerá a tela da Figura 46, clicar na ficha opções e em largura do espaçamento digitar 0. O
histograma é apresentado na Figura 47.
Figura 44: Construindo um histograma
155
EaD
Figura 45: Formatar série de dados no histograma
Figura 46: Unir colunas do histograma
Figura 47: Exemplo de um histograma
Histograma
fi 12
10
8
6
4
2
0
903 |-- 939 939 |-- 975 975 |-- 1011 1011 |-- 1047 1047 |-- 1083 1083 |-- 1119
R$
O procedimento é semelhante para construir o polígono de frequência. Primeiramente te-

mos de digitar a tabela de distribuição de frequência conforme a Figura 48. Esta deverá ter um
intervalo inferior ao primeiro, com fi = 0, e um intervalo superior ao último, com fi = 0. Depois,
selecionamos a tabela e no menu inserir gráfico escolhemos o tipo de gráfico de linha e seguimos
os passos até a finalização, conforme a Figura 49.
156
EaD
Figura 48: Tabela de distribuição de frequência para construir um polígono de frequência
Figura 49: Exemplo de um polígono de frequência
Polígono de freqüência
n 12
10
8
6
4
2
0
03 39 75 11 04
7
08
3
11
9
15
5
-- 9 -- 9 -- 9 10 -- 1 -- 1 -- 1 -- 1
7| 3| 9| 5|
--
1| 7| 3| 9|
86 90 93 97 1 4 8 1
10 10 10 11
R$
No Excel 2007:
Após, no menu inserir, escolhemos a opção gráfico e após o tipo de gráfico de colunas 2 D
e o gráfico da Figura 50 será apresentado. Em layout do gráfico escolhemos o layout 8 (Figura
51) e o gráfico da Figura 52 será apresentado. Clicamos com o botão direito do mouse sobre uma
das colunas do gráfico e no menu escolhemos formatar série de dados e, então escolhemos a
opção cor da borda conforme Figura 53. Nesta escolhemos linha sólida e cor preta. O histograma
é apresentado na Figura 54.
157
EaD
Figura 50: Construindo o histograma
Figura 51: Layout do gráfico número 8 (figura central)
Figura 52: Histograma
158
EaD
Figura 53: Formatando bordas nas colunas do histograma
Figura 54: Histograma formatado
Seção 7.8
Gráfico de Linha
Digitamos os dados, observando que na primeira coluna consta o tempo e na segunda

os valores que queremos representar em um gráfico de linha conforme exemplo da Figura 55.
Selecionamos os dados das duas colunas.
159
EaD
Figura 55: Dados do exemplo
No Excel 2003:
Após, no menu inserir, escolhemos a opção gráfico e a seguir o tipo de gráfico de linha e
executamos o procedimento conforme descrito anteriormente. Digitamos o título do gráfico e o
título dos eixos. Podemos alterar a cor da linha clicando com o botão direito do mouse sobre a
linha. Também podemos alterar a cor do fundo clicando com o botão direito do mouse. O gráfico
de linha é apresentado na Figura 56.
Figura 56: Exemplo de um gráfico de linha
No Excel 2007:
Após, no menu inserir, escolhemos a opção gráfico e a seguir o tipo de gráfico de linha 2 D
e executamos o procedimento conforme descrito anteriormente. Em layout do gráfico escolhemos
o layout 1 (Figura 57). Digitamos o título do gráfico e o título dos eixos. Deletamos a legenda.
Podemos alterar a cor da linha clicando com o botão direito do mouse sobre a linha e escolhemos
a opção formatar série de dados. O gráfico de linha é apresentado na Figura 58.
160
EaD
Figura 57: Layout 1 do gráfico de linha (primeira figura)
Figura 58: Exemplo de um gráfico de linha
RESUMO DA UNIDADE 7
Nesta unidade utilizamos os recursos estatísticos do Excel para tratar

as informações.
A aplicação dos métodos estatísticos é favorecida pela informática, no

que diz respeito a hardware e software, uma vez que geralmente neces-
sitamos trabalhar com grande quantidade de dados (n grande).
Assim, o conhecimento a respeito da utilização de um software estatístico

ou um software que fornece técnicas estatísticas é essencial para alu-
nos ou profissionais que estão iniciando seu aprendizado em Métodos
Estatísticos.
A planilha eletrônica Excel é uma boa alternativa para alunos que estão
se iniciando nos métodos estatísticos, por ser de fácil acesso, posto que
grande parte dos usuários domésticos e organizações possuem o pacote
Microsoft Office.
161
EaD
Referências
ANDRADE MARTINS, Gilberto. Estatística geral e aplicada. São Paulo: Ed. Atlas, 2002.
BATTISTI, I. E.; KIRCHNER, R. M.; FRICKE R. M. Rotinas da planilha eletrônica Excel para
uso em estatística descritiva. Ijuí: Ed. Unijuí, 2003. (Cadernos Unijuí).
BEARZOTI, E.; OLIVEIRA M. Estatística básica. Lavras, MG: Ufla, 1997.
CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. Análise multivariada para os cursos de Admi-
nistração, Ciências Contábeis e Economia. São Paulo, Ed. Atlas, 2007.
COSTA NETO, P. L. Estatística. São Paulo: Ed. Edgard Blücher, 1977.
COSTA NETO, P. L. Probabilidades. Ed. São Paulo: Edgard Blücher, 1974.
COSTA, Sérgio Francisco. Introdução ilustrada à estatística. São Paulo: Ed. Harbra, 1988.
DOWNING, D.; CLARK, J. Estatística aplicada. São Paulo: Ed. Saraiva, 2000.
FRICKE, R. M. Padrões estatísticos para descrição de dados: medidas de tendência central e de

variabilidade. Ijuí: Ed. Unijuí, 2002. (Cadernos Unijuí – Série Estatística).
FRICKE, R. M. Teoria e aplicações de amostragem, inferência, relações entre variáveis. Ijuí:

Unijuí, 2008a. Apostila.
FRICKE, R. M. Estatística aplicada aos fenômenos sociais. Ijuí: Unijuí, 2008b. Apostila.
IBGE. Diretoria de Pesquisas, Coordenação de Trabalho e Rendimento. Pesquisa mensal de

emprego, mar.2002-abr. 2008.
KAZMIER, L. J. Estatística aplicada à Economia e Administração. São Paulo: Ed.McGraw Hill,

1982.
KMENTA, J. Elementos de econometria. Teoria econométrica básica. 2. Ed. São Paulo: Ed. Atlas,
1988. V. 1.
MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e estatística. São Paulo: Edusp.

2002.
MEDEIROS, V. Z.; CALDEIRA, A. M.; PACHECO, G. L.; MACHADO, M. A. S. Métodos quan-

titativos com Excel. São Paulo: Ed. Cengage Learning, 2008.
MONTGOMERY, Douglas C. Probabilidad y Estadística. Universidade do Estado do Arizona;

Editora: McGraw-Hill, 2004.
163
EaD
MORETTIN, P. A.; TOLOI, C. M. Série temporais. Série Métodos Quantitativos. 2. ed. São Paulo:
Ed. Atual, 1987.
MUNIZ, J. A.; ABREU, A. R. Técnicas de amostragem. Lavras, MG: Faepe, 1999.
OLIVEIRA, S. T. Ferramentas para o aprimoramento da qualidade. 2. ed. São Paulo: Ed.Pioneira,

1996.
SILVA, N. N. Amostragem probabilística. São Paulo, SP: Edusp, 1998.
SILVER, M. Estatística para Administração. São Paulo: Ed. Atlas, 2000.
STEVENSON, W. Estatística aplicada à Administração. São Paulo: Ed. Harbra, 1981.
TRIOLA, M. Introdução à estatística. 7. ed. Rio de Janeiro: Ed. LTC, 1999.
VIEIRA, Sonia. Princípios de estatística. São Paulo: Ed. Pioneira, 1999.
164

Métodos Estatísticos e A Administração PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Métodos Estatísticos e A Administração PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade regional do noroeste do estado do rio grande do sul – unijuí

vice-reitoria de graduação – vrg

Coleção Educação a Distância

Ruth Marilda Fricke

Ijuí, Rio Grande do Sul, Brasil

Unidade 1 – CONCEITOS BÁSICOS ESTATÍSTICA NA ADMINISTRAÇÃO......................11

Seção 1.1 – A Estatística e a Administração............................................................................11

1.1.1 Um Olhar na Ciência da Administração....................................................................12

1.1.2 Um Olhar na Ciência da Estatística – Métodos Estatísticos.....................................14

1.1.3 Interligando o Potencial das Duas Ciências..............................................................15

Seção 1.3 – Aplicações..............................................................................................................22

Resumo da Unidade 1..........................................................................................................24

Unidade 2 – BANCO DE DADOS, TABELAS E GRÁFICOS:

Sistematização e Apresentação de Dados ..........................................................25

Seção 2.1 – Banco de Dados ....................................................................................................26

Seção 2.2 – Tabelas Simples – Univariadas e Bivariadas – Com Variáveis Qualitativas.......29

Seção 2.3 – Tabelas em Série Numérica e Distribuição de Frequências

com Variáveis Quantitativas.................................................................................36

Seção 2.4 – Representação Gráfica e sua Leitura....................................................................45

Seção 2.5 – Aplicações..............................................................................................................49

Resumo da Unidade 2..........................................................................................................54

Seção 3.1 – Quadro-Resumo das Fórmulas.............................................................................56

Seção 3.2 – Medida de Tendência Central e de Variabilidade

3.2.1 Operacionalização de Medidas Descritivas em Série Numérica.............................62

3.2.2 Operacionalização de Medidas Descritivas em Distribuição de Frequências.........70

Seção 3.3 – Aplicações..............................................................................................................83

Resumo da Unidade 3..........................................................................................................85

Unidade 4 – INTRODUÇÃO À AMOSTRAGEM.....................................................................87

Seção 4.1 – Padrões a Seguir no Processo Amostral...............................................................89

4.1.1 Fatores Intervenientes ...............................................................................................89

4.1.2 Métodos de Cálculo da Amostra ...............................................................................90

Seção 4.2 – Delineamento Amostral: dimensionamento e seleção .......................................93

Seção 4.3 – Aplicações..............................................................................................................99

Resumo da Unidade 4........................................................................................................101

Unidade 5 – Noções de Inferência Estatística.....................................................103

Seção 5.1 – Conceitos e Definições........................................................................................104

Seção 5.2 – Estimativas e sua Projeção..................................................................................104

5.2.1 ESTIMATIVAS .........................................................................................................105

5.2.2 TESTES DE HIPÓTESES PARA GENERALIZAÇÃO

Seção 5.3 – Aplicações............................................................................................................117

Resumo da Unidade 5........................................................................................................118

Seção 6.1 – Correlação Entre Variáveis.................................................................................120

Seção 6.2 – Diagrama de Dispersão.......................................................................................121

Seção 6.3 – Coeficiente de Correlação...................................................................................122

Seção 6.4 – Coeficiente de Determinação ( R 2 ).....................................................................124

Seção 6.5 – Análise de Regressão...........................................................................................125

Seção 6.6 – Banco de Dados...................................................................................................127

Resumo da Unidade 6........................................................................................................128

Unidade 7 – FERRAMENTAS DE ANÁLISE ESTATÍSTICA NO EXCEL............................129

Seção 7.1 – Elaborando um Banco de Dados no Excel.........................................................131

Seção 7.2 – Utilizando as Técnicas Estatísticas para Analisar os Dados no Excel..............133

Seção 7.3 – Medidas Descritivas para as Variáveis Quantitativas.......................................134

Seção 7.4 – Tabelas Simples para as Variáveis Qualitativas

Seção 7.5 – Tabelas Cruzadas.................................................................................................142

Seção 7.6 – Gráficos de Setores, Colunas e Barras...............................................................145

Seção 7.7 – Histograma e Polígono de Frequências..............................................................154

Seção 7.8 – Gráfico de Linha..................................................................................................159

Resumo da Unidade 7........................................................................................................161

São três os professores contribuindo para este material didá-

A doutora Ruth Marilda Fricke nasceu em Ijuí (RS) no dia 16 de

A doutora Iara Denise Endruweit Battisti é a autora da Uni-

Antonio Édson Corrente nasceu em 16 de outubro de 1962 em

Estamos começando uma relação de conhecimento dos métodos estatísticos relacionados