Escolar Documentos
Profissional Documentos
Cultura Documentos
Métodos Estatísticos e A Administração PDF
Métodos Estatísticos e A Administração PDF
métodos estatísticos
e a administração
Catalogação na Publicação:
Biblioteca Universitária Mario Osorio Marques – Unijuí
F897m
Fricke, Ruth Marilda.
Métodos estatísticos e a administração / Ruth Marilda Fricke,
Iara Denise Endruweit Battisti, Antonio Édson Corrente. – Ijuí :
Ed. Unijuí, 2009. – 164 p. - (Coleção educação a distância. Série
livro-texto).
ISBN 978-85-7429-840-5
1. Estatística. 2. Administração. 3. Amostragem. 4. Ban-
co de dados. 5. Excel. I. Battisti, Iara Denise Endruweit.
II. Corrente, Antonio Édson. III. Título. IV. Série.
CDU : 311
311:658
Sumário
Conhecendo os Professores............................................................................................7
Apresentação............................................................................................................................9
Seção 1.2 – Ajustando a Linguagem por meio dos Conceitos Básicos da Estatística............16
1.2.1 Informantes..................................................................................................................17
1.2.2 Informações.................................................................................................................20
– conceitos e operacionalização...........................................................................58
DE ESTATÍSTICAS AMOSTRAIS............................................................................106
Referências............................................................................................................................163
EaD
Conhecendo os Professores
métodos estatísticos e a administração
7
Atua como professora de Estatística no magistério superior
desde agosto de 1998 na Unijuí e nos cursos de Especialização desta
universidade. É docente e pesquisadora do Mestrado em Modelagem
Matemática da Unijuí.
Apresentação
métodos estatísticos e a administração
Procuraremos partir sempre de uma situação de estudo, real e prática, que desencadeie
a utilização da Estatística pertinente, de forma a potencializar maior compreensão do conteú-
do. Você deve acompanhar este desenvolvimento, refazer os passos que foram desenvolvidos,
realizar as atividades previstas, buscar apoio didático para suas dúvidas ou certezas, plenificar
seu conhecimento fazendo uma resenha do mesmo para que em suas próprias palavras e na sua
compreensão os conceitos trabalhados se solidifiquem.
O objetivo deste material é introduzir o educando nos conhecimentos básicos dos métodos
estatísticos que permitem a sistematização de dados e a sua projeção em pesquisas amostrais de
modo a transformá-los em informações confiáveis contribuindo para melhorar a performance do
profissional da área de Administração.
1) noções conceituais que permitam estabelecer uma linguagem comum e conhecer a conexão
estreita entre os métodos estatísticos e a Administração;
9
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
3) medidas descritivas que buscam descrever o padrão dos dados sintetizando-os por meio de
números típicos e a análise do comportamento dos mesmos em relação a estes números típi-
cos.
Uma vez conhecendo o comportamento padrão dos dados e podendo descrevê-los e apre-
sentá-los, passamos a uma segunda fase do tratamento estatístico: o conhecimento dos padrões
populacionais a partir de um estudo por amostragem.
4) noções de amostragem que delimitam as restrições essenciais para obtermos uma amostra
com potencial representativo corretamente definido;
6) relações entre variáveis quantitativas que tratam de expor o que estudos descritivos não
visualizam, ou seja, as relações que estão por trás dos fenômenos;
7) estatística no excel por que após o conhecimento detalhado dos métodos estatísticos é im-
portante que os mesmos possam ser obtidos por meio de técnicas informacionais, de modo
que as análises sejam relatadas com uma base mais confiável de resultado. Todos os métodos
estatísticos avaliados da unidade 1 a 6 serão retomados nesta unidade com o software Excel.
10
EaD
Unidade 1
métodos estatísticos e a administração
• Seção 1.2 – Ajustando a linguagem por meio dos conceitos básicos da Estatística.
Então, a partir desta breve introdução, você consegue estabelecer a diferença entre deter-
minístico e não determinístico? Busque maiores conhecimentos para ampliar seu conhecimento
sobre este assunto.
Seção 1.1
A Estatística e a Administração
Iniciamos com observações sobre cada uma das ciências para depois entender como se
estabelecem os links entre elas.
11
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
• Administração financeira.
• Administração da produção.
• Administração pública.
• Administração de materiais.
• Marketing.
• Gestão de pessoas.
• Gestão sistêmica.
• Comércio internacional.
• Projetos: Elaboração de linhas de ação e estratégias sobre uma determinada realidade para atin-
gir determinados fins. Tem um tempo finito de execução, e pretende criar um produto, serviço
ou resultado único. Segundo a Wikipédia: pode ser uma demanda de mercado, necessidade
organizacional, solicitação de um cliente, avanço tecnológico ou requisito legal. Apresentam:
objetivos, hipóteses, cronograma, orçamento, responsabilidades.
• Laudos: Relato de técnico ou especialista designado para avaliar determinada situação que
estava dentro de seus conhecimentos.
12
EaD
métodos estatísticos e a administração
• Planejamento.
• Tomadas de decisão.
Os tipos de decisões envolvendo aspectos quantificáveis que são tomadas em uma orga-
nização:
• Identificação dos custos para poder valorar os produtos, incluindo a produção (matéria-prima,
equipamentos, ferramentaria, maquinaria), recursos humanos, distribuição, logística, armaze-
namento.
13
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Segundo Araújo (2004), entende-se como características do gestor suas funções, habilidades
e competências: planejar, organizar, liderar e controlar. O planejamento envolve a determinação no
presente do que se espera para o futuro da organização, incluindo quais as decisões que deverão
ser tomadas para que as metas e propósitos sejam alcançados. As metas organizacionais adaptam
as funções aos recursos da empresa e aos recursos humanos necessários para concretizá-los. O
gestor precisa conduzir o processo de forma a influenciar todas as pessoas a trabalharem em
torno de objetivos comuns, suscitando participação e adesão, gerenciando democraticamente o
processo. O controle integra as ações para o acompanhamento do processo em busca do sucesso
do empreendimento. Estas características dão conta de que somente a união de todos permite
atingir com sucesso os objetivos.
Vamos agora abordar a ciência Estatística, como ela se organiza no tratamento de dados.
• Estatística descritiva.
• Probabilidade.
• Amostragem.
• Inferência.
• Estatística paramétrica.
• Estatística Bayesiana.
• Bioestatística.
• Estatística aplicada: medicina, sociedade, gestão pública e privada, indústria, comércio, agri-
cultura, psicologia, saúde...
14
EaD
métodos estatísticos e a administração
• damos visibilidade a relações existentes entre distintas variáveis que compõem o problema em
estudo, não perceptíveis apenas ao primeiro olhar;
a. Estatística Descritiva: nesse âmbito, como o próprio nome diz, pretende-se descrever os fenô-
menos. Trata-se de técnicas estatísticas para sistematização, sintetização e apresentação de
fenômenos de forma compreensível, dando visibilidade ao que realmente aconteceu ou acon-
tece. Como compreender os diferentes estágios do nível de pobreza nos municípios gaúchos,
N = 496, sem uma descrição completa de sua localização, magnitude, permitindo avaliar e
traçar metas em relação aos bolsões de miserabilidade no Estado. Qual o gestor público que
não deseja ter à disposição essa descrição do fenômeno ao traçar planos e metas, definir prio-
ridades?
15
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
b. Estatística Inferencial: observamos que o termo “inferência” provém do verbo inferir, quer
dizer, que pretendemos olhar um quadro de resultados e projetá-los para um universo maior.
A inferência reúne um conjunto de métodos que permitem fazer essas projeções com garantia
e conhecimento da margem de erro máxima inerente às inferências realizadas com base em
uma amostra. Como podemos projetar o sucesso do lançamento de um novo produto no merca-
do sem antecipar seu potencial de vendas? Para tal busca é impossível represar o lançamento
esperando que se conheça qual a fatia do mercado que se interessaria pela sua aquisição,
portanto é um caso típico para inferir o resultado populacional mediante uma amostra dos
possíveis clientes.
c. Estatística Aplicada: nos dois itens anteriores passamos uma ideia sobre a existência de um
conjunto de métodos e técnicas estatísticas, construindo descrições e inferências dos dados.
Após o uso das mesmas, estando aptos a traçar um perfil descritivo do nosso conjunto de dados,
vamos aplicar algumas técnicas que revelam relações entre variáveis de forma a mostrar o que
está por trás dessas relações descritivas. Podemos descobrir, por exemplo, que as mulheres
compram preferencialmente determinados produtos; podemos conhecer o quanto a idade pode
estar relacionada à quantidade de gastos com multas de trânsito; podemos avaliar os limites
permitidos de diâmetro de uma determinada peça; podemos avaliar a resposta em termos de
volume de vendas com o passar dos meses...
Nós, seres humanos, e até mesmo os animais e as plantas, temos diferentes formas de nos
expressar. Dependendo da situação, empregamos as mesmas palavras para expressar diferentes
ideias. O mesmo se dá nas diversas Ciências. A palavra “população” na Demografia expressa
os habitantes de uma determinada região; já na Estatística sob a idéia de população agregamos
todos os indivíduos, animais, objetos, lugares, períodos ou máquinas, etc., que apresentam ca-
racterísticas comuns predefinidas que constituem o nosso universo de informantes. Na seção a
seguir vamos apresentar os principais conceitos da Estatística.
Seção 1.2
16
EaD
métodos estatísticos e a administração
1.2.1 INFORMANTES
Trata-se da proveniência dos dados, quem os fornece. Nossos informantes podem ser as
empresas, os trabalhadores, os produtos... Eles são a origem das informações. Ao analisar as
empresas posso obter delas uma série de informações que constituirão o objeto da estatística.
Os informantes podem se constituir numa população ou numa amostra.
Ainda no Dicionário Aurélio (1995, p. 1.115): “Estat. Conjunto, em geral infinito ou com
um grande número de membros, cujas propriedades se investigam por meio das características
dos subconjuntos que lhes pertencem, universo”.
Genericamente, uma população é o conjunto de pessoas ou organismos de uma mesma espécie que
habitam uma determinada área, num espaço de tempo definido. O termo população tem, consoante
a disciplina a que se refere, distintas definições. Em Biologia define-se como um grupo de indivíduos
que acasalam uns com os outros, produzindo descendência. Em Estatística chama-se população ao
conjunto de todos os valores que descrevem o fenômeno que interessa ao investigador (grifo nosso).
Em Sociologia define-se como um conjunto de pessoas adscritas a um determinado espaço, num dado
tempo (p. 1.115).
E assim por diante. Na Geografia, população são os indivíduos que fazem parte de um
mesmo grupo: habitantes de um país, de uma tribo, de uma região, de um Estado, ou ainda mais
específica, economicamente ativa, desocupados, inativos...
Entendemos que na área da Administração, sob o ponto de vista dos métodos estatísticos,
população é um conjunto de instituições, empreendimentos, clientes, negócios, produtos, traba-
lhadores, indicadores, etc. Nesse caso, basta que nosso estudo esteja centrado nessa população,
de forma que como nossos informantes, eles forneçam as informações que estão no entorno de
nossa temática.
17
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
por meio de um censo, em que nenhuma das unidades fique de fora. As características tornam
único aquele conjunto de dados, de forma que se distingue logo se uma unidade pertence ou
não àquela população.
Pe s s o a s c o m 1 0 a n o s o u m a i s q u e N = 1.875
Ωx : { x ∈ (1, 2, 3,
Tr a b a l h a d o r e s são a PEA – região Metropolitana mil pessoas
...., 1.875.000}
d e Po r t o A l e g r e – m a r ç o d e 2 0 0 8 .
Reunindo todos os resultados do Dicionário Aurélio (1995, p. 88), que se referem ao conceito
estatístico observamos que amostra é
18
EaD
métodos estatísticos e a administração
Subconjunto de uma população por meio do qual se estabelecem ou estimam as propriedades ou ca-
racterísticas dessa população (...) Amostra acidental, obtida por meio de um processo de amostragem
casual; (...) Amostra pequena que tem um número de elementos insuficientes para permitir fazer uma
estimativa não viciada1 dos parâmetros2 da população; (...) Amostra representativa que foi obtida por
A partir destas explicações podemos constatar que em quase todas as áreas do conheci-
mento a amostra apresenta finalidades que têm suas bases apoiadas no sentido estatístico, isto
é, pretende de forma sintética, rápida, menos custosa e eficiente conhecer, estimar o comporta-
mento da população. Em Estatística, pretendemos obter uma amostra que tenha um potencial
comprovado de fazer essas inferências, de modo que dependemos de um bom delineamento
amostral: dimensionamento formal (por meio de fórmula) do tamanho necessário de unidades
amostrais, seleção aleatória e representatividade das características do perfil que interessa manter,
tais como por sexo (50% de mulheres e 50% de homens se for esta a composição da população),
faixa etária, escolaridade...
Exemplificando: uma auditoria numa empresa identificou telefonemas dados a sua prin-
cipal concorrente, e como foi constatado que algumas das promoções planejadas pela empresa
vazaram antes de serem postas em prática, há necessidade de rapidamente detectar de qual(is)
linha(s) interna(s) partiu (partiram) as chamadas e verificar a demanda e o responsável por elas.
Entendeu-se que inicialmente o processo por amostragem seria o mais rápido de realizar. Na
empresa existem 240 ramais telefônicos, e foram constatadas ligações em 15% deles. Neste caso
definimos como:
• Dimensionamento da amostra: n = 20
1
Não viciada é uma expressão estatística que significa não tendenciosa, isto é, um resultado confiável, que não sofreu interferências
externas que o deturpassem.
2
Parâmetros são os números típicos, tipo média aritmética, obtidos em dados populacionais, enquanto que estatísticas são estimativas
destes parâmetros obtidos num processo amostral.
19
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Ordem Ramal Ordem Ramal Ordem Ramal Ordem Ramal Ordem Ramal
1 3 6 13 11 21 16 28 21 17
2 5 7 15 12 22 17 29 22 9
3 8 8 16 13 23 18 30 23 24
4 10 9 19 14 25 19 31
5 12 10 20 15 27 20 35
Na seção seguinte vamos conhecer o outro lado do tratamento estatístico. Se por um lado
precisamos dos informantes, por outro necessitamos saber quais as informações sobre a popu-
lação/amostra nos interessam e que são importantes para tirarmos conclusões que respondam
as nossas perguntas/hipóteses.
1.2.2 INFORMAÇÕES
Um problema bem estruturado tem suas principais variáveis conhecidas. Por variável
entendemos o conjunto de informações de interesse que estão envolvidas no problema. Essas
informações são aleatórias, isto é, podem ser definidas num conjunto possível de respostas, porém
se combinam ao acaso e não são predeterminadas. Não são informações isoladas, únicas, mas
cada unidade investigada apresenta uma resposta, que mostra diferenças entre elas, isto é, tem
variedade, e apresenta respostas esperadas num grande conjunto de repetições.
3
Sorteio realizado com o auxílio do Excel por meio da função: Aleatório ()*36, que gerou 20 nºs entre os 36 ramais da População e mais
3 para reserva em caso de problemas de acesso ao ramal sorteado.
20
EaD
métodos estatísticos e a administração
a. Variáveis aleatórias qualitativas: são informações cujas respostas são categóricas que podem
apresentar uma ordem ou não entre as diferentes categorias de respostas. Permitem que se
codifique as diferentes alternativas possíveis, são obtidas por meio de contagem de suas repeti-
ções, chamadas de frequências (fi). Entre as variáveis relacionadas anteriormente encontramos
como variável qualitativa (VA Qualitativa):
b) Variáveis aleatórias quantitativas: são variáveis que apresentam valores quantitativos como
respostas. Podem ser somente valores inteiros (VA Quantitativas discretas) ou admitem valores
fracionários (VA Quantitativas contínuas) como respostas. São finitas (N conhecido) ou infinitas
(N desconhecido). Podem ser enumeradas em ordem crescente ou decrescente, apresentam
valores mínimos (Li) e valores máximos (Ls), são obtidas por meio de técnica de mensuração.
Entre as variáveis relacionadas anteriormente encontramos como variável qualitativa (VA
Qualitativa):
21
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Va riá v e l Va l o r es C la ssi fi ca ç ã o
Com esse Quadro 4 concluímos a apresentação da base necessária para constituir um tra-
balho estatístico, isto é, seu objeto e seu objetivo, construídos na ótica de buscar os informantes
e por meio deles obter as informações necessárias para conhecer de forma ampla a temática de
nosso interesse. Com as aplicações pretendemos abrir um espaço de uso desse conteúdo de forma
que possa alargar os horizontes do conhecimento estatístico. Lembre-se de que esta adequação
inicial em termos de linguagem, conceitos, identificações, vão permitir que o seu tratamento dos
dados seja adequado e pertinente.
Seção 1.3
Aplicações
22
EaD
métodos estatísticos e a administração
Tabela 1: Rendimento médio mensal e número de profissionais por tipo de profissão segundo regiões geográficas e Brasil – 2001
(Em R$ 1,00)
Nº de
Centro–
profissio- Brasil Norte Nordeste Sudeste Sul
Oeste
nais
Professor da educação infantil 201.232 422,78 388,89 232,79 522,44 435,87 749,61
Professor de nível médio 348.831 866,23 826,28 628,08 979,16 804,32 872,20
Suboficial das Forças Armadas 517.038 868,73 817,55 723,52 986,19 747,23 910,93
Professor-pesquisador no E.
6.448 898,80 215,33 1.150,16 946,56 712,65 875,47
Superior
Agente administrativo público 316.761 911,82 661,40 679,31 1.072,50 926,14 1.103,37
Oficial das Forças Armadas 89.387 2.091,53 2.129,41 1.674,46 2.250,53 1.949,68 2.321,03
Professor de nível superior 136.977 2.565,47 1.800,30 2.252,08 3.086,95 2.122,77 2.190,10
Obs. Não estamos enfatizando o processo amostral nestas aplicações da Unidade 1, posto que
esta será tratada mais detalhadamente na Unidade 4.
23
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
RESUMO DA UNIDADE 1
Referências que consultamos especificamente para esta Unidade e sugerimos aos alunos
que consultem:
• ARAÚJO, Luis César G. Teoria geral da Administração: aplicação e resultados nas empresas
brasileiras. São Paulo: Ed. Atlas, 2004.
• RIEGEL, John. Employee interest in company success-how can it be stimulated and maintained?
Address on industrial relations. Bureau of Industrial Relations; University of Michigan; Ann
Arbor, 1955. p. 25.
24
EaD
Unidade 2
métodos estatísticos e a administração
Seção 2.3 – Tabelas em Série Numérica e Distribuição de frequências com Variáveis Quantitativas
25
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Vamos então iniciar pela utilização do banco de dados, uma espécie de planilha de dados
que apresenta não apenas os dados, mas as variáveis, informa a população, número de registros
e dados pareados1 de todas as unidades (populacionais ou amostrais) que estão sendo apresen-
tadas.
Seção 2.1
Banco de Dados
Para dar início ao tratamento estatístico necessitamos coletar dados que provêm das per-
guntas que nos fazemos em relação à nossa população dentro da temática que nos interessa.
1
Pareados significa que todos os dados apresentados numa mesma linha referem-se à mesma unidade e não podem ser isolados nem
misturados, pertencem àquela unidade. Por exemplo, se temos idade, sexo, escolaridade, data de admissão na empresa, estas são sempre
informações particulares do sujeito e não podem desconectar-se dele.
26
EaD
métodos estatísticos e a administração
X N Nº de ordem do município
X1 Mun Município
Classificação do PIB per capita – Variável aleatória qualitativa ordenável –[1) Pobre:
X4 Cls_PIB <7 mil dólares /ano; 2) Em desenvolvimento: de 7 a 24,99 mil dólares/ano; 3) Rico: >
25 mil dólares/ano ou mais]
Valor_ Valor retorno do Fundo de Participação dos Municípios– Variável aleatória quantita-
X6
FPM tiva contínua
X10 Área Área territorial do município em km²– Variável aleatória quantitativa contínua
Nossa população são todos os municípios da Microrregião de Três Passos. Isso se consti-
tui no nosso N, numeradas de 1 a N. Todas as informações que obtivermos às nossas perguntas
constituirão nossas variáveis. As informações referem-se a cada um dos municípios, portanto
constituem informações casadas, relacionadas, e não podem ser misturadas, pois cada uma está
ligada a um município em particular.
Trata-se, portanto, de uma relação de dados obtidos por meio de uma pesquisa, de um
levantamento de dados e contém todas as informações que foram levantadas e as transforma-
ções que foram realizadas para conseguir ampliar a base das mesmas. No banco de dados nº 1,
27
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
as variáveis básicas são X1, X2, X3, X5, X6, X7, X8, X10. Com estas variáveis foram feitas algumas
transformações que resultaram nas variáveis X4, X9, X11, X12, X13. Assim, o banco de dados vai se
constituindo com as variáveis originais e as que são geradas a partir das mesmas.
As informações dos municípios entrarão nas linhas e as variáveis nas colunas. O total de
municípios é o N = 20, neste caso
Fonte: IBGE/cidades.
O banco de dados é na verdade uma listagem de todas as informações obtidas, sejam elas
originais ou transformações.
Nos casos em que as variáveis forem qualitativas, utilizamos um código para representar as
diversas categorias de resposta, como fizemos com a variável – Classificação do PIB per capita,
na qual utilizamos os seguintes códigos, com as respectivas classificações e faixa de dados:
28
EaD
métodos estatísticos e a administração
Se não obtivermos informação podemos assumir um código único para todo o banco de
dados representando a Não Resposta: 99, 999 por exemplo. Essa informação será contabilizada
como um valor não válido e será descontada do total para obtermos um percentual válido sobre
as respostas válidas. É importante obtermos todas as respostas para os questionamentos feitos,
pois o excesso de “Não resposta” pode inviabilizar a análise e a retirada de conclusões, isto é,
nossa base de informações pode não estar realmente “informando”.
Na próxima seção vamos estudar os tipos de tabelas simples – univariadas (uma única
variável na tabela) e bivariadas (duas variáveis tratadas conjuntamente numa única tabela,
apresentando o comportamento interativo das duas). Esse tratamento abrange as variáveis qua-
litativas na maioria dos casos.
Seção 2.2
TABELAS SIMPLES – Univariadas e Bivariadas – Com Variáveis Qualitativas
A tabela univariada apresenta uma única variável e é também chamada de tabela simples.
É utilizada para representar variáveis qualitativas, cujas respostas são nominais, são categorias. A
estatística neste caso está limitada a descrever o que ocorreu em termos de repetições. As partes
da tabela são: título, barra de informações, dados obtidos, barra de totais e fonte das informações.
Nenhuma dessas partes pode faltar para que o trabalho estatístico tenha validade, seja feita uma
leitura das informações obtidas e possam ser compreendidas.
1) Uma tabela deve apresentar um título que apresenta a variável que está sendo apresentada,
população, local e tempo em que os dados foram coletados.
2) Na parte superior da tabela simples existe uma barra de informações, em que constam todos
os tipos de informações que serão apresentadas ou trabalhadas na tabela.
29
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Na parte inferior, uma barra com os totais, ou seja, as somatórias das colunas do Nº (fi) que
no caso representa o n, Total de dados, (∑ fi = n) e dos percentuais, cuja soma deve ser 100%.
lugar, optamos por trabalhar com duas casas após a vírgula para que os arredondamentos não
possuam efeito muito drástico, capaz de alterar a interpretação do resultado; b) utilizamos, pre-
• Fonte: informa a proveniência dos dados, potencializando que se busquem mais informações,
com 100 anos ou mais na população com 60 anos ou mais segundo o local de moradia e sexo nas
UF/BR – 2007. Esta tabela demonstra as duas possibilidades – Presença de todas as Respostas e
30
EaD
métodos estatísticos e a administração
Tabela 1: Participação de idosos com 100 anos ou mais no grupo de pessoas com 60 anos ou mais,
considerando sexo e local de moradia, nas diversas UF/BR – 2007
% MR
Participação MR % MR HR % HR MU % MU HU % HU
válido
Raros (0 a 4/10 mil idosos) 6 23,08 24,00 19 73,08 8 30,77 19 73,08
Nº Médio (5 a 14/10 mil idosos) 14 53,85 56,00 7 26,92 17 65,38 7 26,92
Grande Nº (15 ou +/10 mil idosos) 5 19,23 20,00 1 3,85
Total 25 96,15 100,00 26 100,00 26 100,00 26 100,00
NR 1 3,85
Total 26 100,00
Fonte: IBGE/cidades.
Obs.: Siglas: MR – Mulheres da área Rural; HR – Homens da área Rural;
MU – Mulheres da área Urbana; HU – Homens da área Urbana;
Categorias da participação: Raros: % < 0,05; Nº Médio: 0,05 a 0,14; Grande Nº: % > 0,14
Na Tabela 1 estamos avaliando a variável Participação de Idosos com 100 anos ou mais no
grupo de Idosos da População com 60 anos ou mais, considerando diferentes informações que
potencializam obter diferentes aspectos que podem ser comparados.
O comentário que vamos apresentar a seguir de cada tratamento específico dos dados é
uma das diversas “leituras” dos resultados estatísticos. Procuramos, especialmente, nesse tipo
de comentário:
• apresentar inicialmente uma idéia geral à qual o tratamento estatístico permitiu chegar, au-
xiliando o leitor a “enxergar” nos resultados o que estes nos revelam, isto é, encaminhando a
leitura na direção que é compatível com os objetivos para os quais os dados foram coletados;
• evitar referir todos os dados da tabela, apenas os que queremos colocar em destaque;
• procurar apresentar informações que estão subjacentes, retrabalhadas, tipo a soma de dois
dados, o complementar de algum deles.
31
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
em torno de 5 a 14 idosos com 100 anos ou mais em cada 10 mil idosos (56%), 15 ou mais
idosos com 100 anos ou mais em cada 10 mil idosos (20%). A menor presença é de homens
com mais de 100 anos, tanto no meio urbano como no rural. São raros (menos de 5 idosos com
100 anos ou mais em cada 10 mil idosos) em 73% dos Estados em ambos os casos.
Outro exemplo deste tratamento utilizando múltiplas tabelas para traçar o perfil pode ser
vista na Tabela 2. Nesse caso, diferentes variáveis são consideradas para uma mesma população,
mas ainda tratadas isoladamente. O que muda é a apresentação conjunta.
Tabela 2: Classificação dos municípios segundo potencial econômico da Microrregião de Três Passos com 20 municípios 2
N=20 Nº %
Porte dos Municípios 2
Fonte: IBGE/cidades.
* Todos os municípios apresentam densidade inferior a 100 hab./km2, logo tem baixa densidade demo-
gráfica. A classificação evidencia 5 níveis (1 a 5) sendo 1 o menor e 5 o maior dentro do grupo
2
Fonte: Atlas de Desenvolvimento Humano, 2002.
32
EaD
métodos estatísticos e a administração
Estas variáveis oferecem uma visão geral da Microrregião, não permitindo fazer desta-
ques de municípios individualmente, mas pretende dar uma visão da Microrregião em termos
econômicos.
As tabelas bivariadas, por sua vez, apresentam simultaneamente duas ou mais variáveis,
cada variável é uma dimensão. Quando trabalhamos com uma ou até duas dimensões os resul-
tados do tratamento são simples de explicar e compreender, porém se trabalharmos com três ou
mais dimensões torna-se bem mais complexo. Por isso vamos nos restringir a duas dimensões.
Ao sistematizar duas variáveis vamos construir uma tabela bivariada, também chamada
de tabela cruzada, ou tabela de dupla entrada.
Estas variáveis devem ser qualitativas ou então transformadas em qualitativas pela orga-
nização de dados quantitativos em intervalos tipo faixa etária, por exemplo. Uma variável entra
na linha (li ) e outra na coluna (cj ) da matriz. Nas margens da Tabela teremos os dados de cada
variável em separado, e no interior a frequência conjunta (fij ), em que i representa a informação
da linha e j a informação da coluna. Se estamos tratando de sexo e consumo de determinado
bem, podemos ter os seguintes pares de informações conjuntas: masculino e consome; mascu-
lino e não consome; feminino e consome; feminino e não consome. Resumidamente, temos os
seguintes pares: (M;C); (M;N); (F;C); (F;N). Vamos contar a repetição de cada par para formar
a frequência conjunta. Se tivermos seis homens que consomem este bem, então a primeira fre-
quência conjunta é 6.
33
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
• de linha (em relação a cada categoria da variável que está na linha), permitindo saber como
essa categoria se distribuiu ante as que estão na coluna;
• de coluna (em relação a cada categoria da variável que está na coluna), permitindo saber como
essa categoria se distribuiu ante as que estão na linha;
• do total (em relação ao total geral), permitindo saber como essa categoria se distribuiu ante o
grupo todo, total geral.
No exemplo:
34
EaD
métodos estatísticos e a administração
Para fazer a análise da tabela bivariada realizamos o mesmo tipo de recorte permitido nas
tabelas simples.
• não utilizar todos os percentuais referentes a uma frequência conjunta. Escolher o que melhor
expressa a intenção da pesquisa;
• procurar embasar os comentários com as estatísticas mais adequadas, isto é, escolher o que vai
sustentar melhor, convencer melhor o leitor.
Ao fazermos a leitura da tabela temos de nos conscientizar de que o fazemos para terceiros,
que não terão a visão dos dados brutos e nem das diferentes maneiras pelas quais os mesmos
podem ser sistematizados, apresentados ou interpretados. Muitas relações que estão subjacentes
aos dados podem ser ressaltadas nesses comentários pelo autor, encaminhando a compreensão
que o leitor vai ter da temática. Com isso, alertamos para a parcialidade do comentário, não há
neutralidade nele. O autor deve assumir que conduz o leitor à interpretação.
A seguir vamos apresentar outro exemplo: Condições Econômicas dos Municípios da Mi-
crorregião de Três Passos, a partir do banco de dados nº 1.
Tabela 4: Nº de Agências financeiras segundo o porte dos municípios da Microrregião de Três Passos em 2007.
Nº Agências
Po r t e d o s m u n i c í p i o s
0 1 2 ou mais To t a l p o r A g ê n c i a s
Pe q u e n o Po r t e I 7 2 2 11
% área 63,6 18,2 18,2 100,0
% agências 77,8 66,7 40,0 55,0
% total 35,0 10,0 10,0 55,0
Pe q u e n o Po r t e I I 2 1 6 9
% área 22,2 11,1 66,8 100,0
% agências 22,2 33,3 83,3 45,0
% total 10,0 5,0 30,0 45,0
To t a l p o r Po r t e 9 3 8 20
% área 45,0 15,0 40,0 100,0
% agências 100,0 100,0 100,0 100,0
% total 45,0 15,0 40,0 100,0
Fonte: IBGE/cidades.
35
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Agora que construímos tabelas simples e cruzadas para sistematizar e apresentar as variáveis
qualitativas, vamos ver como se organizam dados quantitativos. Basicamente a organização de
dados quantitativos é realizada com dois procedimentos distintos: Série Numérica (uma relação
de dados não agrupados) e Distribuição de frequências (os dados agrupados em intervalos).
Seção 2.3
Tabelas em Série Numérica e Distribuição de Frequências
com Variáveis Quantitativas
• Informações sobre o n, valor mínimo (Li – Limite Inferior), o valor máximo (Ls – Limite Supe-
rior), a amplitude total (At = Ls – Li, Faixa de variação dos dados entre o maior e o menor).
36
EaD
métodos estatísticos e a administração
xi
• Avaliação da composição do total pelo valor relativo da parte considerada. VR = n
*100
∑ xi
i =1
Empregamos, para exemplificar, os dados referentes aos municípios que estão separados
por Porte, como municípios de Pequeno Porte Nível I e II, da Microrregião de Três Passos. No
caso dos Municípios de Pequeno Porte I ou II, observa-se que:
Tabela 5: Valor do ITR (Imposto Territorial Rural) nos municípios de Pequeno Porte Nível I e II
da Microrregião de Três Passos – RS – 2007.
Fonte: IBGE/cidades.
37
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Estes dados são apresentados em forma de série numérica pois em ambos os casos, n<20:3
municípios de Pequeno Porte I, nPPI = 11; Municípios de Pequeno Porte I, nPPII = 9. Agrupá-los
e distribuí-los em intervalos é inviável porque ocorre muita perda de informação. Como são
valores quantitativos, procurou-se avaliar a contribuição total em cada grupo de municípios e a
participação de cada um deles nesse montante. Para calcular essa participação utilizamos o VR
= valor relativo, isto é, a parte da cada município dentro do total do grupo.
Tabela 6: Classificação dos municípios segundo o porte e valor de ITR arrecadado na Microrregião de Três Passos
a. que o Li seja incluído no 1º intervalo, entendendo-se neste caso que o limite inicial do 1º
intervalo não precisa necessariamente ser o Li, mas este deve estar obrigatoriamente contido
nele;
3
N PPI: número de municípios de pequeno porte I.
N PPII: número de municípios de Pequeno Porte II.
38
EaD
métodos estatísticos e a administração
b. que o Ls seja incluído no último intervalo, entendendo-se neste caso que o limite final do último
intervalo não pode ser o Ls, mas tem de estar obrigatoriamente contido nele;
c. que todos intervalos precisam ter frequência maior do que zero, isto é, fi > 0.
Observadas à risca estas exigências, iniciamos o tratamento dos dados para um conjunto de
dados cujo n > 20.
Essa tarefa de sistematização passa pelo levantamento das informações básicas, ordenação
em forma crescente do menor para o maior valor com o Ramo e Folhas, avaliação da ocorrência de
valores soltos, fora do padrão, por meio do Diagrama de Pontos, dimensionamento dos intervalos
mediante a Amplitude Parcial, construção da Distribuição de Frequências (DF):
n= Nº de valores
Li = Menor valor
Ls = Maior valor
At = Faixa de Variação
Na natureza ou na sociedade quando obtemos os dados eles seguem uma sequência ale-
atória que no mais das vezes não cumpre um ordenamento crescente. A distribuição de frequ-
ências pressupõe a construção de intervalos com padrões regulares e crescentes de forma que
nos primeiros intervalos serão alocados os valores mais baixos e nos últimos serão contados os
valores mais altos. Por isso, precisamos ordenar os dados de forma crescente. Como cada valor
representa uma observação, mesmo repetidas, cada uma deve constar para posterior contagem
da frequência.
39
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Esta ordenação pode ser feita usando o programa Excel que classifica os dados por uma
variável ou fazer uma ordenação manual. O modo manual comumente utilizado, o da ordenação
visual, é muito demorado em grandes amostras. Temos uma outra alternativa, que é da organi-
zação em ramos e folhas.
Esta técnica busca nos dados duas faixas de variação: uma para os ramos – de variação
mais demorada, construída a partir da avaliação dos limites Li e Ls computada anteriormente
para o caso. Observamos de quanto a quanto os dados variam e construímos faixas de referên-
cias de maior amplitude; outra para as folhas, que é uma faixa de variação mais rápida dentro
da maior.
Por exemplo, se escolhemos uma variação nas dezenas para os Ramos, nas Folhas a va-
riação será das unidades. Após organizar o Ramo e folhas, alocamos cada observação no Ramo
adequado e registramos a parte da observação que não aparece no ramo. A apresentação do Ramo
e Folhas fica assim, se as informações básicas fossem estas (referentes ao ITR dos municípios de
Pequeno Porte I da Microrregião de Três Passos):
Li = R$ 0.533,00
Ls = R$ 15.989,00
Observações:
534 1902 2369 4145 15989 5418 4060 7660 1725 8291
2520 1325 947 6675 5514 4554 3703 2945 5196 922
40
EaD
métodos estatísticos e a administração
Com essa técnica olhamos os dados apenas uma vez. São distribuídos inicialmente já nas
faixas certas e posteriormente ordenados em cada faixa, de forma rápida.
• Diagrama de Pontos
Outra técnica importante para verificar se a padronização dos dados está garantida, isto
é, se não há nem um valor muito fora do padrão, é o Diagrama de Pontos. Faz-se uma régua
parcial, dando conta da variação dos dados e se desenha um ponto para cada valor, respeitando
a primeira casa das Folhas apenas.
Com isso, será possível verificar se algum dos valores está muito fora do esquema e tam-
bém concluir sobre a forma provável da distribuição dos dados. Vamos enxergar as regiões de
concentração dos valores, e também, conseguimos visualizar as faixas de dispersão em que os
pontos se tornam mais raros, dispersos.
41
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
o
o o o o
o o o o o
o o o o o o o o o o
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Neste Diagrama de Pontos observamos perfeitamente que a maioria dos municípios apre-
senta ITR de 0 a 8 mil reais; este é, portanto, o padrão destes municípios, no entanto encontramos
um valor que pode ser considerado um “outlier”: o 15.989. Ele se encontra afastado dos demais e
não poderá ser agrupado, está fora do padrão. Existe um vazio entre ele e o valor imediatamente
anterior de mais de 7.500 reais. O tratamento dos dados deve colocar este valor à parte e informar
que temos um caso de valor fora do padrão, “outlier”, portanto.
Não se trata de perda de informação, mas sim de tratá-la em separado para evitar tenden-
ciosidades nas estatísticas. Os “outliers” tanto podem ser informações corretas que apresentam
uma outra tendência que não a do grupo de dados mais homogêneos, quanto pode ser valor
incorretamente observado.
n= 19
Li = R$ 534,00
Ls = R$ 8.291,00
At = R$ 7.757,00*
Após o ajuste dos dados, o passo seguinte é calcular o número e o tamanho dos intervalos
que vão dar lugar à Amplitude Parcial (hi). A distribuição em faixas, usualmente, de igual ta-
manho, deve facilitar a leitura e a compreensão das informações. Em alguns casos, como o de
faixas etárias da população, é interessante adotar as faixas comumente utilizadas pelo IBGE,
permitindo uma comparação com resultados censitários. Este também é o caso de faixa de renda,
tamanho de propriedades rurais que impõem o uso de intervalos de tamanho diferenciado em
função da extrema variação de renda e hectares, por isso é interessante utilizar as faixas como
o faz o IBGE.
42
EaD
métodos estatísticos e a administração
• O número de intervalos pode variar entre 4 e 10, tendo em vista que agrupar os dados pretende
facilitar a visão do conjunto de dados. Nesse caso o excesso de intervalos acabaria diluindo a
resultado dessa raiz for superior a 10, é possível adaptar para um resultado mais favorável.
• A amplitude parcial (hi) é o tamanho do intervalo, este resulta da aplicação de uma fórmula,
cuja resposta deve ser olhada apenas como um indicador do entorno de amplitude a ser em-
pregada. O ajuste deve sempre favorecer a visibilidade da informação, por isso nem sempre
valor encontrado.
At
hi = ,. At = Ls − Li
n
distribuir a frequência dos valores dentro das faixas construídas, mediante contagem delas no
• é usual, tendo em vista a continuidade dos dados numa DF, utilizar um intervalo do tipo [ li
|-------– ls ]. Esta forma indica que valores a partir de li estarão sendo contados no intervalo,
• decisão sobre o limite inicial do primeiro intervalo, lembrando que qualquer valor pode ser
utilizado, desde que se garanta a contagem de li nesse primeiro intervalo. A seguir, ls= li+ hi
• checagem se o último intervalo contém o último valor. É preciso verificar se ele não é igual ao
limite superior (ls) do último intervalo, pois nesse caso não será contado no mesmo;
• outra checagem fundamental é quanto às frequências (fi) em cada intervalo. Todas elas devem
43
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Como foi observada a presença de um “outlier”, a sua supressão gera modificações nas
informações básicas.
n= 19
Li = R$ 534,00
Li = R$ 8291,00
At = R$ 7.757,00
At 7.757,00 7.757, 00
hi = = = = 1779,57 ≅ 2. 000,00
n 19 4,3589
Tabela 7: Valor (R$ ) do Imposto Territorial Rural (ITR) arrecadado nos municípios da Microrregião de Três Passos – RS/2007
Fonte: IBGE/cidades.
Obs.: Exceto o município de Campo Novo com valor do ITR= R$15.989,17, representando 26,68% do
imposto arrecadado na microrregião, considerado “outlier”, isto é, valor isolado, pois se encontra fora do
padrão dos demais municípios.
44
EaD
métodos estatísticos e a administração
Comentário 7: A arrecadação de ITR constitui-se de valores baixos (de 500 a 8,5 mil reais),
caracterizando pequenas propriedades na Microrregião, excetuando-se Campo Novo, que
apresenta um valor mais elevado, acima de R$ 15.000,00. Observa-se que em 84,21% dos
municípios a arrecadação do ITR foi inferior a 6 mil reais. Na faixa de menos de R$ 2.000,00
se concentram 31,58% dos municípios.
Seção 2.4
Representação Gráfica e Sua Leitura
Nada melhor do que um gráfico para potencializar uma visão geral e rápida do comporta-
mento dos dados. Os diagramas de colunas, barras, setores (pizza), linhas, pontos, são os mais
utilizados para apresentar tabelas simples e cruzadas e o histograma, polígono de frequências e
setores (limitado a 7 intervalos na DF) para representar a distribuição de frequências. O gráfico
pode ser feito manualmente ou com auxílio de um software tipo “Excel”.
Um cuidado que devemos ter é o de fazer uma escolha, ou utilizamos a tabela ou o grá-
fico, nunca os dois ao mesmo tempo, pois apesar de permitirem visões diferenciadas (a tabela
um olhar detalhista, o gráfico uma visão mais geral), as informações são as mesmas, e faremos
uma repetição desnecessária e incômoda para o leitor. A nossa análise é que vai definir o que
pretendemos enfatizar naquele momento, permitindo a escolha.
• Título: deve identificar a variável apresentada, a população de origem, local e tempo de ocor-
rência. Quer dizer, o leitor do gráfico deve ficar perfeitamente situado em relação às informações
que lhe estão sendo apresentadas. O título pode ser colocado na parte superior ou inferior da
figura, pode ser numerado e seguir um mesmo padrão em todos eles.
• Figura: A figura deve identificar as informações que estão sendo apresentadas em cada eixo, de
preferência apresentar os valores em % para permitir comparações, uma vez que o valor absoluto
só permite comparações quando os n são iguais. Outro cuidado extremamente importante é
45
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
relativo à escala de apresentação dos dados. Deve-se ter o cuidado de apresentar como se fosse
uma régua, respeitando a base decimal. Algumas dicas na escolha dos gráficos: escolha o de
colunas, se as categorias forem palavras curtas ou siglas; opte pelo de barras se as categorias
forem palavras longas ou expressões; adote o de linhas se estiver apresentando uma variável
temporal, isto é, que evolui no tempo; escolha o de setores (pizza) se o objetivo for comparar o
desempenho das alternativas e estas forem num número máximo de 7 categorias; o histograma
de frequências se quiser representar uma Tabela de Distribuição de Frequências.
• Fonte: é imprescindível informar a fonte dos dados para agregar credibilidade e possibilidade
de voltar à informação original se for o caso.
GRÁFICO DE COLUNAS
8
8
6
6 5
Municípios 4
2 1
0
(< 10) (20 a 29) (30 a 39) (40 e mais)
Habitantes/km²
Fonte: IBGE
Fonte: IBGE.
Comentário: De forma geral podemos observar que a Microrregião de Três Passos apresenta
uma densidade demográfica igual a 20 hab./km², indicando uma boa concentração popula-
cional. O que mais ocorre são municípios com densidade entre 20 e 29 hab./km². O que menos
ocorre são municípios com pouca densidade, inferior a 10 hab./km².
46
EaD
métodos estatísticos e a administração
GRÁFICO DE BARRAS
Gráfico 2: Distribuiçção dos municípios da Microrregião de Três Passos por porte – RS/2007
Gráfico 2: Distribuição dos municípios da Microrregião de Três
Passos por porte - RS/2007.
2 - Pequeno Porte II
9
(20 a 50 mil hab.)
Porte
1 – Pequeno Porte I
11
(até 20 mil hab.)
0 2 4 6 8 10 12
Nº de muncípios
Fonte: IBGE
Fonte: IBGE.
10% 5%
35%
50%
Fonte: IBGE.
47
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Comentário: A sociedade em geral tem a percepção que um município deve incentivar inves-
timentos na instalação de indústrias visando a potencializar a criação de empregos. Observa-
mos que 50% dos municípios têm de 5 a 10,9 indústrias/10 mil habitantes, uma concentração
média. Apenas 5% das comunidades são Não Industrializadas, certamente com atividades
mais rurais.
GRÁFICO DE LINHAS
Gráfico
Gráfico 4: Nº de agências 4: Nº de agências
financeiras financeiras
no município no município
– Microrregião de- Três Passos – RS/2007
Microrregião de Três Passos - RS/2007.
50
40
30
%
20
10
0
0 1 2 3 4 5
Nº de Agências
Fonte : IBGE
Fonte: IBGE.
Comentário: Numa sociedade capitalista como a nossa, a função das agências financeiras
canaliza as movimentações, no entanto, o avanço das agências virtuais por meio da Internet
minimiza a necessidade do acesso físico no local de moradia. A agência presencial facilita
a solução de problemas por potencializar o contato pessoal. Na Microrregião, 45% das loca-
lidades não têm agência financeira e isto é explicado pelo porte dos municípios. Apenas três
municípios apresentam três ou mais agências.
80 63,6 66,8
60
40
%
0
0 1 2 ou mais
Nº de Agências
Pequeno I Pequeno II
Fonte: IBGE.
48
EaD
métodos estatísticos e a administração
Comentário: A análise dessa visão bidimensional corrobora com a opinião emitida no gráfico
anterior. Os municípios que não têm agência financeira são 63,6% dos de pequeno porte I
e os que possuem 2 ou mais agências são 66,8% dos municípios de pequeno porte II. Desta
forma podemos verificar que existe uma associação entre a presença de agências financeiras
e o porte do município na Microrregião de Três Passos.
HISTOGRAMA DE FREQUÊNCIAS
Gráfico 6: Arrecadação do ITR - Imposto Territorial Rural por
Gráfico 6: Arrecadação do ITRmunicípio
Imposto na
Territorial Rural pormunicípio
Microrregião na Microrregião
de Três Passos - RS/2007. de Três Passos – RS/2007
35 31,58 31,58
30
25 21,05
20
%
15 10,53
10
5 0
0
0 2.000 4.000 6.000 8.000 10.000
ITR (R$)
Fonte: IBGE.
Fonte: IBGE
Comentário: Entendemos que a Microrregião de Três Passos tem uma tradição de pequenas
propriedades rurais e produção de alimentos com mão de obra familiar. As duas faixas de ar-
recadação que concentram os municípios incluem aqueles que arrecadam ITR < R$ 2.000,00
(31,58%) e ITR no intervalo de 4 a 6 mil reais também com 31,58% dos municípios. No geral,
85% das localidades arrecadam menos de R$ 6.000,00.
Nesses exemplos foi possível comprovar que visualizar as informações das tabelas por
meio de gráficos torna a informação muito mais dinâmica e rápida, porém tem suas limitações
em termos de detalhes. Vejamos agora como aplicar estes conhecimentos. Seguem-se alguns
bancos de dados que precisam ser trabalhados conforme o conhecimento exemplificado até ago-
ra: tabelas simples uni e bivariadas, gráficos, comentários. Agilize-se e mostre o que aprendeu,
aproveitando para refazer os exemplos ampliando seu conhecimento.
Seção 2.5
Aplicações
49
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
1) Banco de dados número 2 apresenta algumas variáveis sociais da Mesorregião Centro Oci-
dental Rio-Grandense por município, fornecidas pelo IBGE, com classificações que foram
pesquisadas em artigos publicados na Internet para serem aqui atribuídas. Como vimos, o RS
é constituído de sete mesorregiões. A Centro-Ocidental abrange três microrregiões (Santiago,
Restinga Seca e Santa Maria) e 31 municípios. A abordagem pretendida com este tratamento
estatístico visa a construir um panorama referencial de informações que dizem do exercício
da democracia e cidadania por meio de Indicadores Sociais. Aproveite e complete os espaços
pontilhados:
4
www.pnud.org.br/hdr/hdr97/rdh7-1.htm
5
Coeficiente de Gini, Origem: Wikipédia, a enciclopédia livre.
6
portalsocial.sedsdh.pe.gov.br/.../Gloss%E1rio%20tabela%20dos%20munic%EDpios.pdf
50
EaD
métodos estatísticos e a administração
Quadro 11: Banco de dados nº 2: variáveis sociais da Mesorregião Centro Ocidental Rio-Grandense por município
Nossa pergunta relaciona-se com o Perfil da Pobreza na Mesorregião Centro Ocidental Rio-
Grandense.
51
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Quadro 12: Banco de dados número 3: variáveis sociais relacionadas com as condições de acesso
à riqueza da Microrregião de Ijuí por município
Fonte: IBGE/cidade.
52
EaD
métodos estatísticos e a administração
5) Banco de dados número 5 apresenta dados das Unidades da Federação relativos à participação
dos idosos e população com 100 anos ou mais.
53
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Quadro 15: Banco de dados número 5: participação dos idosos e população com 100 anos ou mais por UF/BR
Situação do domicílio
Urbana Rural
Sexo Homens Mulheres Homens Mulheres
100 e 100 e 100 e 100 e
100 ou 100 ou 100 ou 100 ou
Idade 60 e mais mais/ 10 60 e mais mais/ 60 e mais mais/ 60 e mais mais/ 10
mais mais mais mais
mil 10 mil 10 mil mil
SP 87 464.003 2 97 334.542 3 11 68.376 2 5 17.690 3
RO 5 21.668 2 3 15.403 2 3 16.795 2 1 3.470 3
TO 9 24805 4 11 19721 6 3 13750 2 1 3171 3
PI 23 56.578 4 34 55.083 6 13 48.145 3 6 18.706 3
SC 22 102.609 2 32 79.422 4 7 45.780 2 5 14.038 4
CE 36 100.831 4 57 84.344 7 34 95.875 4 17 37.972 4
MO 16 55.743 3 14 37.788 4 6 21.794 3 2 3.659 5
PR 49 171.130 3 56 127.382 4 14 76.137 2 14 22.173 6
MS 21 59.602 4 15 45.913 3 2 14.288 1 2 3.140 6
PA 19 54.159 4 26 42.259 6 18 55.138 3 12 18.417 7
ES 19 40.829 5 41 31.419 13 8 24.310 3 5 7.625 7
MA 41 93.405 4 72 94.528 8 26 74.394 3 27 36.347 7
RS 32 188.766 2 76 156.827 5 14 101.524 1 24 32.002 7
AL 22 53.694 4 38 55.859 7 14 28.371 5 12 14.965 8
PB 37 87.113 4 58 90.234 6 23 45.917 5 20 21.044 10
PE 49 106.659 5 86 108.769 8 22 68.573 3 34 33.805 10
MG 139 369.719 4 235 303.217 8 49 156.357 3 57 55.542 10
GO 45 89.364 5 53 68.289 8 9 31.069 3 7 6.613 11
SE 26 32.837 8 48 38.943 12 19 19.580 10 15 12.032 12
RJ 31 104.947 3 53 87.452 6 7 18.150 4 11 8.324 13
BA 133 174.018 8 253 170.736 15 113 176.287 6 126 86.580 15
AM 11 39.727 3 14 38.731 4 7 17.301 4 8 4.619 17
AP 2 7336 3 6 6832 9 1 1381 7 1 502 20
RR 2 4273 5 2 3837 5 1 2324 4 1 496 20
RN 42 70.127 6 60 64.739 9 17 30.472 6 28 12.852 22
AC 2 9130 2 1 8565 1 3 4985 6 - 1305 -
Fonte: IBGE/Estados.
RESUMO DA UNIDADE 2
Esta unidade foi dedicada a descrever um conjunto de dados obtidos por
meio de pesquisa, de levantamentos, de registros, de censos, mediante sua
sistematização e apresentação em tabelas simples – univariadas e bivaria-
das – e gráficos. Aprendemos que não se deve representar as informações
obtidas por meio de gráficos e tabelas simultaneamente, pois ambas vão
apresentar as mesmas descrições. As tabelas serão elaboradas quando for
necessário fornecer os detalhes e os gráficos quando a intenção for obter
uma visão geral e rápida do comportamento da(s) variável (eis).
54
EaD
Unidade 3
métodos estatísticos e a administração
• Descrever o conjunto de dados quantitativos de forma sintetizada por meio da média e suas
alternativas e dominar a variação em torno das mesmas com a finalidade de conhecer sua
tendenciosidade, apoiando a escolha da medida apropriada para descrever comportamentos
padrões na área da administração.
A coleta de dados e sua representação em tabelas e gráficos permite uma visão detalhada
e circunstanciada da informação aliada ao espaço e tempo que está descrevendo. Outra manei-
ra de descrever esse conjunto de informações é expressá-lo por números típicos que consigam
sintetizar esse padrão e forneçam informações comparáveis entre diversos conjuntos de dados,
independentemente do tamanho da amostra que está sendo utilizada.
As medidas típicas de uma variável quantitativa são especialmente a média aritmética, que
considera cada valor da variável com a mesma importância no conjunto de dados e verifica qual o
número que pode dar uma ideia desse comportamento. A população é, então, analisada por esse
número, avaliando-se que cada observação é entendida a partir dele, X i = média ± certo desvio.
Para facilitar o entendimento do tratamento descritivo e das relações entre as medidas vamos
trabalhar de forma relacionada a média e a variabilidade e posteriormente as alternativas para
o caso de a média não se constituir numa informação válida, isto é, para o caso de apresentar
tendenciosidade.
55
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Seção 3.1
Quadro-Resumo das Fórmulas
As medidas descritivas vão fornecer números típicos que descrevem o comportamento dos
dados. São elas as Medidas de Tendência Central e as Medidas de Variabilidade. Para facilitar
o manuseio das fórmulas necessárias para o cálculo das estatísticas desta unidade vamos iniciar
com um quadro-resumo de fórmulas.
As fórmulas para o cálculo das medidas descritivas são apresentadas somente para variáveis
quantitativas com duas opções: para série numérica (n< 20) e distribuição de frequências (n ≥
20), em dois quadros: um para as Medidas de Tendência Central: Média ( X ), Mediana (Md)
e Moda (Mo), outro para as Medidas de Variabilidade: Variância absoluta (s²), Desvio padrão
(s) e Coeficiente de Variação (CV).
n
N par → P = 2 , a M edi a na é
n
a m é d i a d o s d o i s v a lo res cen- P = → lo ca li za r no f a o i m d,
t r a i s , i . é . , d o P- é simo valor e o
2
i nter v a lo m edi a no . Selec i o na o i n-
Me dia n a (M d )
seguinte. ter valo e retira todos os dados com
exc eç ã o da fa a que é o fa a nteri o r.
n +1
N ímpar → P =
2
, a M edi a -
Md = li +
(P − faa )hi
n a é o P- é s i m o v alor.
fi
A m o d a n u m a s é rie numérica é
o v a l o r m a i s r e p etido, i.é, com f i → lo ca li za r no > f i o i m o , i nter-
c o n c e n t r a ç ã o m áxima. A série valo modal. Seleciona o inter valo e
pode ser: reti ra to do s o s da do s.
Am o d a l – s e m m oda d1
Mo = li + hi
Moda (M o) U n i m o d al – u m va lo r m o da l d + d
1 2
,
B i m o d al – d o i s va lo res m o da i s
d1 = f m − f ant d 2 = f m − f post
P l u r i m o d a l – m a is de do i s v a lo -
r e s m ai s r e p e t i d o s f m : frequência máxima
f ant : frequência anterior à máxima
f post : frequência posterior à máxima
56
EaD
métodos estatísticos e a administração
Entendemos que será fácil para o estudante visualizar e comparar as diferenças que as fór-
mulas apresentam quando são utilizadas em séries numéricas ou distribuições de frequências.
i =1 n i =1 n
se pequena amostra (n < 30) , aplica
Variância Absoluta se pequena amostra (n < 30) , aplica
Fator de Correção – n
(s² ou σ²) n
FC = Fator de Correção –
FC =
n −1 n −1
S*2 = S. FC
S*2 = S. FC
D e s v io pa d r ão
(s ou σ)
S = S2 S = S2
Coeficiente de S
C V > 6 0 % , M o da é pa drã o CV = 100
Va ria ç ã o ( C V ) X
S
CV = 100
X
C V > 6 0 % , M o da é pa drã o
IN 65% = X − S ; X + S
IN 65% = X − S ; X + S
In t e r v a lo d e N o r-
IN 95% = X − 2 * S ; X + 2 * S
ma lida de ( I N ) * IN 95% = X − 2 * S ; X + 2 * S
IN 99% = X − 3* S ; X + 3* S IN 99% = X − 3* S ; X + 3* S
57
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Alguns conceitos básicos são importantes e serão apresentados num quadro, permitindo
um debate e sua ampliação em pesquisa conceitual.
Seção 3.2
Medida de Tendência Central e de Variabilidade
– conceitos e operacionalização
Iniciamos com uma apresentação dos conceitos, propiciando que sejam discutidas as razões
que levam a sua utilização. A ideia principal, como já foi expresso anteriormente, é a de resumir
o comportamento dos dados em números que sirvam de parâmetro para sua análise.
Como a informação mais usualmente empregada, e observa-se que ela é influenciada pelos
valores extremos da variável, é importante que verifiquemos como os dados se concentram ou
se dispersam em relação à média para avaliar a adequabilidade de seu uso ou a necessidade de
buscar medidas alternativas, como a mediana ou a moda.
Cada uma das Medidas de Tendência Central vai olhar a centralidade dos dados por uma
ótica:
58
EaD
métodos estatísticos e a administração
As fórmulas para o cálculo das medidas descritivas são apresentados com duas variações:
para Série Numérica e para Distribuição de Frequências (DF). Como podemos observar no
quadro resumo das fórmulas, a principal diferença é que na série temos os valores individual-
mente e podemos somá-los diretamente, enquanto que na DF eles estão dentro de um intervalo
de valores e o que sabemos é a sua frequência, isto é, a sua repetição. Nesse caso, temos de
encontrar um valor que represente o intervalo. Este valor será denominado de Xi, ponto médio.
É na verdade o meio do intervalo que adotamos como se todos os valores do intervalo fossem
iguais a ele. Por exemplo: num intervalo de 10 |-----– 20 o ponto central é 15 pois (10+20)/2
(li + ls )
= 15, X = ; logo, se nesse intervalo forem contados 5 valores, fi = 5, então a soma dos
i
2
mesmos será 5*15=75.
Vamos trabalhar com a aplicação desses conteúdos num banco de dados que traz informa-
ções sobre o desenvolvimento das microrregiões do RS e respectivas mesorregiões.
59
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
60
EaD
métodos estatísticos e a administração
cod_ cod_
microrregião microrre- mesorre- mesorregião IDH_ médio PIB per capita DENSIDADE
gião gião
24. Restinga Seca 24 1 1.Centro Ocidental Rio-grandense 0,778 R$ 10.771,63 22,7
27. Santa Maria 27 1 1.Centro Ocidental Rio-grandense 0,824 R$ 7.107,62 31,8
29. Santiago 29 1 1.Centro Ocidental Rio-grandense 0,781 R$ 11.515,27 10,2
1. Cachoeira do Sul 1 2 2.Centro Oriental Rio-grandense 0,772 R$ 8.085,83 21,1
16. Lajeado-Estrela 16 2 2.Centro Oriental Rio-grandense 0,787 R$ 14.741,40 73,6
26. Santa Cruz do Sul 26 2 2.Centro Oriental Rio-grandense 0,782 R$ 15.779,80 57,1
2. Camaquã 2 3 3.Metropolitana de Porto Alegre 0,765 R$ 9.404,93 22,6
12. Gramado-Canela 12 3 3.Metropolitana de Porto Alegre 0,819 R$ 10.191,58 113,7
18. Montenegro 18 3 3.Metropolitana de Porto Alegre 0,819 R$ 14.885,89 94,4
20. Osório 20 3 3.Metropolitana de Porto Alegre 0,792 R$ 7.222,50 37,1
23. Porto Alegre 23 3 3.Metropolitana de Porto Alegre 0,829 R$ 11.500,41 665,2
31. São Jerônimo 31 3 3.Metropolitana de Porto Alegre 0,779 R$ 45.175,33 28,9
7. Caxias do Sul 7 4 4.Nordeste Rio-grandense 0,852 R$ 17.417,44 153
13. Guaporé 13 4 4.Nordeste Rio-grandense 0,823 R$ 17.866,55 35,8
35. Vacaria 35 4 4.Nordeste Rio-grandense 0,754 R$ 11.381,48 9,4
6. Carazinho 6 5 5.Noroeste Rio-grandense 0,768 R$ 12.005,06 32,9
8. Cerro Largo 8 5 5.Noroeste Rio-grandense 0,756 R$ 10.470,75 30,17
9. Cruz Alta 9 5 5.Noroeste Rio-grandense 0,77 R$ 14.709,39 18,9
10. Erechim 10 5 5.Noroeste Rio-grandense 0,778 R$ 12.514,84 38,2
11. Frederico Westphalen 11 5 5.Noroeste Rio-grandense 0,758 R$ 8.743,02 33,8
14. Ijuí 14 5 5.Noroeste Rio-grandense 0,784 R$ 12.875,91 35,9
19. Não-Me-Toque 19 5 5.Noroeste Rio-grandense 0,786 R$ 19.420,57 28,3
21. Passo Fundo 21 5 5.Noroeste Rio-grandense 0,797 R$ 13.922,97 45,3
25. Sananduva 25 5 5.Noroeste Rio-grandense 0,775 R$ 11.576,32 19,3
28. Santa Rosa 28 5 5.Noroeste Rio-grandense 0,813 R$ 11.606,43 47,1
30. Santo Ângelo 30 5 5.Noroeste Rio-grandense 0,783 R$ 10.076,02 18,77
33. Soledade 33 5 5.Noroeste Rio-grandense 0,75 R$ 7.294,43 20
34. Três Passos 34 5 5.Noroeste Rio-grandense 0,779 R$ 13.743,19 36,7
15. Jaguarão 15 6 6.Sudeste Rio-grandense 0,761 R$ 8.115,95 9,3
17. Litoral Lagunar 17 6 6.Sudeste Rio-grandense 0,786 R$ 16.766,70 27,9
22. Pelotas 22 6 6.Sudeste Rio-grandense 0,794 R$ 6.607,87 48,6
32. Serras de Sudeste 32 6 6.Sudeste Rio-grandense 0,744 R$ 8.152,46 7,4
3. Campanha Central 3 7 7.Sudoeste Rio-grandense 0,78 R$ 6.780,64 11,8
4. Campanha Meridional 4 7 7.Sudoeste Rio-grandense 0,777 R$ 8.631,31 12,6
5. Campanha Ocidental 5 7 7.Sudoeste Rio-grandense 0,789 R$ 10.588,69 12,8
Para compreender a aplicação das medidas descritivas em ambos os casos, SN e DF, vamos
apresentar alguns exemplos usando e analisando as medidas propostas. Retome estes exercícios-
exemplos, pois esse procedimento é muito importante. Se você o fizer vai ter imediatamente a
noção de que acertou os resultados, pois pode compará-los com os que são apresentados na
seção seguinte.
61
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Vamos trabalhar com a uma parte do banco de dados número 5. São 13 microrregiões que
fazem parte da Mesorregião Noroeste Rio-Grandense. Como n = 13, vamos trabalhar em SN –
Série Numérica, listagem de dados por microrregião, uma a uma.
n Microrregião X Y Z X² Y² Z²
1 6. Carazinho 0,768 12.005,06 32,9 0,589824 144.121.465,60 1.082,41
2 8. Cerro Largo 0,756 10.470,75 30,2 0,571536 109.636.605,56 912,04
3 9. Cruz Alta 0,770 14.709,39 18,9 0,5929 216.366.154,17 357,21
4 10. Erechim 0,778 12.514,84 38,2 0,605284 156.621.220,23 1.459,24
5 11. Frederico Westphalen 0,758 8.743,02 33,8 0,574564 76.440.398,72 1.142,44
6 14. Ijuí 0,784 12.875,91 35,9 0,614656 165.789.058,33 1.288,81
7 19. Não-Me-Toque 0,786 19.420,57 28,3 0,617796 377.158.539,12 800,89
8 21. Passo Fundo 0,797 13.922,97 45,3 0,635209 193.849.093,62 2.052,09
9 25. Sananduva 0,775 11.576,32 19,3 0,600625 134.011.184,74 372,49
10 28. Santa Rosa 0,813 11.606,43 47,1 0,660969 134.709.217,34 2.218,41
11 30. Santo Ângelo 0,783 10.076,02 18,8 0,613089 101.526.179,04 353,44
12 33. Soledade 0,750 7.294,43 20,0 0,5625 53.208.709,02 400,00
13 34. Três Passos 0,779 13.743,19 36,7 0,606841 188.875.271,38 1.346,89
Total 10,097 158.958,90 405,4 7,845793 2.052.313.096,89 13.786,36
Para desenvolver esta temática precisamos conhecer as Medidas Descritivas dessa Me-
sorregião composta por 13 microrregiões. Observando no Banco anterior temos três variáveis
quantitativas contínuas: IDH, PIB PC, Densidade, tal que X: IDH médio (varia de 0,75 a 0,813);
Y: PIB pc (R$ 7.294,00 a R$ 19.421,00); Z: Densidade (18,8 a 47,1).
62
EaD
métodos estatísticos e a administração
n
xi 10,097
X =∑ = = 0,7766923 ,
i =1 n 13
Este IDH é um índice classificado como médio pelas categorias expressas no Quadro 4, o
que não é a pior situação, uma vez que a média do Estado é de 0,785, ficando, portanto, estatis-
ticamente na mesma situação do Estado.
n
yi 158.958,90
Y =∑ = = R$12.227,61 ,
i =1 n 13
Este é um PIB per capita médio, que indica que nossa região apresenta uma receita eco-
nômica insatisfatória, isto é, a riqueza produzida não a retira da classificação de região pobre,
em torno de US$ 7.000,00 (utilizando-se uma base de 2:1), próxima ao valor do estadual, R$
12.504,29, ficando, portanto, um pouco acima da do Estado, mas no seu entorno, indicando que
é uma das mesorregiões consideradas pobres no Estado, pois fica abaixo de US$ 7.000,00.
n
zi 405, 4
Z =∑ = = 31,18hab. / km ² ,
i =1 n 13
Esta é uma baixa densidade, uma vez que a média do Estado é de 54,64 hab./km², ficando,
portanto, abaixo da do Estado, entendendo-se que é pouco povoada, permitindo ainda expansão
em termos populacionais. Outro fator motivador dessa baixa densidade são as áreas rurais, que
praticamente estão reduzidas a poucas famílias que resistem e à concentração da área rural em
propriedades maiores com expansão do latifúndio e às migrações urbanas em busca de melhores
condições de trabalho pela baixa industrialização da região.
b. Mediana e Moda
Neste caso, a primeira providência para o cálculo destas duas medidas é a ordenação dos
dados em ordem crescente. Essa providência permite que rapidamente se visualize o valor cen-
tral (Mediana) e o valor com maior repetição (Moda). Vamos agora calcular as outras medidas
de Tendência Central para cada uma das 3 variáveis: X, Y e Z.
63
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
IDH_ médio
0,750 0,756 0,758 0,768 0,770 0,775 0,778 0,779 0,783 0,784 0,786 0,797 0,813
Xi Ordenados
1 2 3 4 5 6 7 8 9 10 11 12 13
IDH_ médio
0,75 0,76 0,76 0,77 0,77 0,78 0,78 0,78 0,78 0,78 0,79 0,80 0,81
Xi aproximados
Para calcular a mediana (Md) consideramos que n = 13 é ímpar, logo a posição do valor
n + 1 13 + 1
mediano é dada por: P= = = 7º valor , a mediana é então o P-ésimo valor de IDH. O
2 2
7º valor se observarmos no Quadro 7 é 0,778. Assim, conclui-se que 50% das microrregiões não
apresenta IDH superior a 0,778, um valor considerado médio (intervalo de 0,5 a 0,799).
Para calcular a moda (Mo) verificamos quais dentre as microrregiões apresentam valores
iguais de IDH, implicando valor mais repetido. Para o caso de considerarmos três casas decimais,
não encontramos valor repetido no IDH, podendo considerar a série amodal.
Se considerarmos a aproximação para duas casas decimais, o valor mais repetido é 0,78,
que ocorre 5 vezes, conforme pode ser observado no Quadro 7, formando uma série unimodal.
Neste caso, o valor modal para IDH é 0,78, confirmando a ideia de que a Mesorregião Noroeste
Rio-Grandense apresenta um Índice de Desenvolvimento Humano médio. Como a Média é de
0,776, Mediana é 0,778 e Moda é 0,78, podemos afirmar que a Moda não difere significativa-
mente da Média e da Mediana e permitindo concluir que:
X ≅ Md ≅ Mo
Esta igualdade nos informa que estamos diante de dados com muita simetria, cuja concen-
tração central apresenta todas as 3 medidas, logo a curva dos dados tende a normal, simétrica
com concentração central.
64
EaD
métodos estatísticos e a administração
Quadro 8: Variável: PIB per capita, dados ordenados, para obtenção da Mediana e da Moda
Para calcular a Mediana (Md), novamente consideramos que n = 13 é ímpar, logo a posição
n + 1 13 + 1
do valor mediano é dada por: P = = = 7º valor , a Mediana é o P-ésimo valor que é o
2 2
sétimo valor do PIBC é 12.005,06. Observa-se, portanto, que 50% das microrregiões não apresenta
PIB per capita superior a R$ 12.005,06, um valor um pouco abaixo de US$ 7.000,00, confirmando
a classificação como região pobre. Apenas dois municípios apresentam classificação de Região
em desenvolvimento.
Para calcular a Moda (Mo), consideramos quais dentre as microrregiões apresentam valo-
res iguais de PIBpc. Não encontramos valor repetido no PIB, podendo considerar a série amodal.
Com uma aproximação para milhares, isto é, dividindo todos os valores por mil, observamos que
o valor de PIBpc = 11,6 mil reais é o único repetido. Neste caso, como a Média é de R$ 12.227,61
e a Mediana é de R$ 12.005,06, verificamos que a Moda é menor do que a Mediana e esta, por
sua vez, menor que a Média, indicando uma distribuição assimétrica:
X > Md > Mo
Esta desigualdade nos informa que estamos diante de dados com assimetria, cuja con-
centração não é central. Apresenta o ponto mais alto da distribuição, a Moda, nos valores mais
baixos, logo a curva é assimétrica positiva.
b3.Variável Z: Densidade
DENSIDADE 18,8 18,9 19,3 20,0 28,3 30,2 32,9 33,8 35,9 36,7 38,2 45,3 47,1
1 2 3 4 5 6 7 8 9 10 11 12 13
DENSIDADE 19 19 19 20 28 30 33 34 36 37 38 45 47
65
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Para calcular a Mediana (Md), novamente consideramos que n = 13 é ímpar, logo a posi-
n + 1 13 + 1
ção do valor mediano é dada por: P = = = 7º valor , a Mediana é o P-ésimo valor que
2 2
é densidade= 32,9 hab./km². Observa-se, portanto, que 50% das microrregiões não apresenta
densidade inferior a 32,9 hab./km², um valor um pouco maior que o valor médio, que é de 31,2
hab./km².
Para calcular a Moda (Mo), consideramos quais dentre as microrregiões apresentam va-
lores iguais de densidade. Não encontramos valor repetido na densidade, podendo considerar
a série amodal. Com uma aproximação para inteiros observamos que o valor de densidade =
19 hab./km² é o único repetido. Neste caso, a Moda é menor do que a Mediana e esta é maior
do que a Média, indicando uma distribuição assimétrica, no entanto não dentro do padrão, e
podemos concluir que:
X < Md > Mo
Esta desigualdade nos informa que estamos diante de dados com assimetria, cuja con-
centração não é central. Apresenta o ponto mais alto da distribuição, a Moda, nos valores mais
baixos, mas como a Mediana é maior que a Média, podemos entender como uma curva tendendo
à assimétrica negativa.
c. Medidas de Variabilidade
Para avaliarmos qual das três medidas de Tendência Central (Média, Mediana ou Moda)
consegue apresentar melhor o padrão dos dados avaliamos a variabilidade. Como a Média é
a mais utilizada e é uma medida paramétrica, esta é o melhor número típico para evidenciar
a forma do padrão de afastamento dos valores observados. Eles estabelecem uma relação, in-
formam a variação em torno da Média. Vamos analisar a homogeneidade (valores distribuídos
proximamente à Média) ou heterogeneidade (valores muito espalhados, dispersos em relação à
Média) dos dados com base nos afastamentos.
Entende-se que se a variação relativa dos afastamentos em torno da Média forem menores
do que 30%, esta é considerada baixa, aceitável, então a Média é representativa, válida como
padrão dos dados; caso a variação fique entre 30% e 60%, a variação é considerada grande,
66
EaD
métodos estatísticos e a administração
grupo heterogêneo, e a melhor medida para informar o padrão é a Mediana; em último caso, se
a variação for maior que 60%, sem limite final, o grupo é heterogêneo e a medida que pode ser
considerada um padrão para os dados é a Moda.
()
| média X | mediana (Md )| mod a (Mo )
→ CV
| .......................30%....................60%......................
Vamos utilizar a fórmula para série numérica, pois o conjunto de dados tem n = 13 < 20.
n
xi2 2 n , com fator de correção para pequenas amostras
S 2 = [∑ − (x ) ]
i =1 n n − 1
Vamos utilizar os somatórios que já foram realizados junto ao banco de dados. Vamos pre-
cisar da soma de xi², entendendo-se que cada valor da variável vai ser colocado ao quadrado e
por fim somado.
n
xi2 2 n 7,845793 13
S 2 = [∑ − (x ) ] =[ − (0,7766923)²]* = 0,000294243
i =1 n n − 1 13 12
Apesar de este valor estar expresso na mesma unidade de valor da variável, como é uma
média quadrática, isto é, de diferenças elevadas ao quadrado, o resultado não vai ser avaliado
efetivamente.
A partir deste momento os cálculos seguem em sequência, por isso o melhor é deixá-los
no visor da calculadora, sem desligá-la.
S 0,01753533
CV = 100 = *100 = 2, 26%
X 0,7766923
67
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
n
xi2 2 n , com fator de correção para pequenas amostras
S 2 = [∑ − (x ) ]
i =1 n n − 1
Vamos empregar os somatórios que já foram realizados junto ao banco de dados. Vamos
precisar da soma de xi², entendendo-se que cada valor da variável vai ser colocado ao quadrado
e por fim somado.
n
xi2 2 n 2.052.313.096,89 13
S 2 = [∑ − (x ) ] =[ − (12227,61)²]* = 9.052.107,829
i =1 n n − 1 13 12
Apesar de este valor estar expresso na mesma unidade de valor da variável, como é uma mé-
dia quadrática, isto é, de diferenças elevadas ao quadrado, não vai ser avaliado efetivamente.
A partir deste momento os cálculos seguem em sequência, por isso o melhor é deixá-los
no visor da calculadora, sem desligá-la.
S 3.008,672104
CV = 100 = *100 = 24,6%
X 12.227,61
68
EaD
métodos estatísticos e a administração
n
xi2 2 n
S = [∑ − (x ) ]
2
, com fator de correção para pequenas amostras
i =1 n
n − 1
Vamos utilizar os somatórios que já foram realizados junto ao banco de dados. Vamos pre-
cisar da soma de xi², entendendo-se que cada valor da variável vai ser colocado ao quadrado e
xi2
n
2 n 13.786,36 13
S = [∑ − (x ) ]
2
=[ − (31,18)²] * = 95, 6549 [hab./km²]²
i =1 n n −1 13 12
Apesar de este valor estar expresso na mesma unidade de valor da variável, como é uma mé-
dia quadrática, isto é, de diferenças elevadas ao quadrado, não vai ser avaliado efetivamente.
A partir deste momento os cálculos seguem em sequência, por isso o melhor é deixá-los
por isso utilizamos uma medida relativa dessa variação, que é o Coeficiente de Variação.
S 9,780332305
CV = 100 = *100 = 31, 4%
X 31,18
lação à média, podemos afirmar que se trata de um grupo heterogêneo e o padrão da densidade
demográfica não é bem informada pela Média, sendo indicado usar a Mediana Md=32,9 hab./
km², indicando que a Mesorregião Noroeste Rio-Grandense tem um padrão baixo de povoamento,
69
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Considerando a situação em que os valores observados são em n> 20 e podem ser agru-
pados em faixas de frequência, precisamos rever as fórmulas a serem aplicadas no cálculo das
necessidade de calcular o ponto médio do intervalo que representa os xi’s, e considerar que os
mesmos apresentam uma repetição expressa em termos de frequência (fi). Este valor é que vai
mesmos.
Estamos analisando agora o padrão estadual a partir do banco de dados número 6, que
contém os dados das 35 microrregiões do Estado do RS. Vamos utilizá-lo e as variáveis presentes
para responder à seguinte questão e poder comparar com o resultado da Mesorregião Noroeste
Rio-Grandense tratada a partir de uma análise descritiva realizada em série numérica, pois n=13
70
EaD
métodos estatísticos e a administração
Neste momento, ao tratar do âmbito estadual, vamos trabalhar com dados agrupados em
faixas empregando a Distribuição de Frequências. Não vamos desenvolver os cálculos para a
construção da DF, mas apresentaremos as informações básicas necessárias para você refazer
essa construção.
N 35
Li 0,744
Ls 0,852
At 0,108
Raiz n 5,916079783
Hi 0,018255332 ≅ 0,02
71
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
• Média Aritmética ( x )
Para preparar a DF para o cálculo da Média precisamos da coluna do Xi, ponto médio (soma
dos limites do intervalo dividida por 2). Após obter o ponto médio, multiplicamos cada um pela
frequência (fi*xi), que será a soma dos valores nesse intervalo. Após o cálculo do último produto
somamos e obtemos a soma geral que será utilizada na fórmula, como evidenciamos a seguir:
n
f i xi 27, 47
X =∑ = = 0,785 , IDH-médio do Estado do RS.
i =1 n 35
Apesar de ser um valor alto, ainda não se encontra na faixa dos melhores IDHs, que se inicia
em 0,8. O “Brasil entrou pela primeira vez para o grupo de países com elevado desenvolvimento
humano, com um índice medido em 0,800 no ano de 2005. Em 2006 obteve uma melhora no
índice de 0,007, com uma pontuação de 0,807. Encontra-se na 70ª colocação mundial, posição
que já mantinha no ano anterior”(Wikipédia, IDH, 14/7/2009).
• Mediana (Md)
O cálculo da Mediana numa DF deve ser feito a partir de uma fórmula que recupere o
valor que separa o grupo em duas partes, com 50% cada. Inicialmente precisamos encontrar o
ponto central, ou seja, sua posição (P), que vai nos indicar em qual intervalo se encontra o valor
mediano.
Sua localização será feita na coluna do fa, aquele que contém o p-ésimo valor. Nossa refe-
rência é que o valor que se encontra naquele intervalo é a posição do último valor que foi contado
naquele intervalo. Nesse caso, o intervalo deve conter o valor P. Explicando mais concretamente,
se os valores do fa são 1, 5, 20,... isto significa que no primeiro intervalo só entrou um dado, do
2º ao 5º entrou no segundo intervalo, do 6º ao 20º no terceiro intervalo e assim por diante. Com
isso, se n=30, P = 15º, valor que estará contido no 3º intervalo. Do intervalo mediano, que foi o
selecionado, retiraremos toda a informação necessária. A única informação que não segue este
critério é o fa a (frequência acumulada do intervalo anterior ao mediano). Quando o intervalo
mediano ocorrer no primeiro intervalo o fa a será zero.
n 35
P = = = 17,5 → l o c a l i z a o f a n o t e rc e i ro i n t e r v a l o , p o i s a s m i c ro r re g i õ e s
2 2
17 até a 28 se encontram nesse inter valo mediano, o im d . Seleciona o inter valo
e r e t i r a t o d o s o s d a d o s d o m e s m o c o m exc e ç ã o d a f a a , q u e é o f a a n t e r i o r.
Md = li +
(P − f aa )hi = 0,78 +
(17,5 − 16)0,02
= 0,7825
fi 12
72
EaD
métodos estatísticos e a administração
Com isso entende-se que 50% das microrregiões do RS não ultrapassam um IDH-médio
de 0,783, têm índices inferiores, mas no limite de 0,75, informando-nos que no RS nenhuma
microrregião é muito problemática em termos de desenvolvimento humano.
• Moda (Mo)
Para obtermos informação sobre o valor que mais ocorre no conjunto de dados, após o
agrupamento dos valores, devemos nos concentrar no intervalo que agrega o maior número de
informações (> fi). Este será denominado de intervalo modal (Imo). Esta localização independe
da localização da Mediana, pois são duas informações diferentes, no entanto algumas vezes,
principalmente em função da simetria da distribuição, as duas medidas utilizam o mesmo in-
tervalo como referência para o cálculo. É uma coincidência, não uma regra. Quando o intervalo
modal ocorrer no primeiro intervalo o fa n t será zero, e o mesmo ocorre se o> fi se encontrar no
último, nesse caso, fp o s t será zero.
X ≅ Md ≅ Mo
Esta igualdade nos informa que estamos diante de dados com muita simetria, cuja concen-
tração central apresenta todas as 3 medidas, logo a curva dos dados tende à normal, simétrica
com concentração central, concluindo-se que o grupo é bastante homogêneo.
73
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Para calcular a variância absoluta precisamos de uma coluna com o produto de cada fi
pelo quadrado do Xi, ponto médio. Ao finalizarmos todos os produtos, é a soma dos mesmos que
vai ser utilizada na fórmula. Se n > 30, não há necessidade de aplicar o Fator de Correção – [n/
(n-1)]. Neste caso n=35, então a variância será calculada sem ele.
n
f i xi2 (21,5811)
S2 = ∑ − (x ) =
2
− (0,785)² = 0,000377857
i =1 n 35
Ao calcular o desvio padrão, ou seja, a informação que nos dirá qual é, em média, o afas-
tamento dos dados em relação à média, comumente vamos lembrar que nas pesquisas eleitorais
os resultados são informados num intervalo, por exemplo: (3% para mais ou 3% para menos).
Isto nos auxilia a perceber a importância do desvio padrão.
S = s ² = 0,000377857 = 0,019438544
Para avaliar a validade da Média precisamos verificar quanto representa o desvio padrão
em relação à Média e após tirar uma conclusão com base no esquema que foi apresentado an-
teriormente.
S 0,019438544
CV = 100 = 100 = 2, 48%
X 0,785
Observa-se que a Média é válida, pois a dispersão em torno dela tende a zero, < 30%.
Trata-se de um grupo homogêneo de dados com pouquíssima variação entre as microrregiões,
uma vez que CV = 2,48%, caso típico de simetria, como vimos anteriormente.
74
EaD
métodos estatísticos e a administração
IN 65% = X − S ; X + S =
{0,785-0,0004;0,785+0,0004}={0,7846;0,7854}
IN 95% = X − 2 * S ; X + 2 * S =
{0,785-2*0,0004;0,785+2*0,0004}={0,7842;0,7858}
IN 99% = X − 3* S ; X + 3* S =
{0,785-3*0,0004;0,785+3*0,0004}={0,7838;0,7862}
Conclusão: O padrão de IDH do Estado gaúcho é 0,785 com pouquíssima diferença entre as
microrregiões, podendo-se definir este IDH como representativo do comportamento estadual.
Tendo em vista que o IDH variando de 0,5 a 0,799 é considerado um Índice de Desenvolvimen-
to Humano médio, entendemos que o RS apresenta um médio padrão de desenvolvimento.
Observando-se o intervalo de normalidade, concluímos que ainda estão faltando mais in-
vestimentos na área social para que o IDH do Estado supere esse nível, pois no IN99% o valor
máximo possível é de 0,786, não superando os limites desse intervalo.
n 34
Li R$ 6.607,87
Ls R$ 19.420,57
At 12812,7
Raiz n 5,830951895
Hi 2197,359922
75
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Tabela 2: Distribuição do PIB per capita (em milhares de reais) do RS por microrregião
• Média Aritmética ( x )
Para preparar a DF para o cálculo da Média precisamos da coluna do Xi, ponto médio (soma
dos limites do intervalo dividida por 2). Após obter o ponto médio multiplicamos cada um pela
frequência (fi*xi), que será a soma dos valores nesse intervalo. Após o cálculo do último produto,
somamos e obtemos a soma geral que será utilizada na fórmula, como evidenciamos a seguir:
n
f i xi 384
X =∑ = = 11, 294 mil reais
i =1 n 34
O PIB per capita estadual é de R$11.294,00, abaixo do valor mínimo razoável: 7 mil dóla-
res. Este desempenho indica que, no Estado, existem microrregiões que fazem decrescer o valor
médio e pelos padrões mundiais é uma região pobre.
• Mediana (Md)
O cálculo da Mediana numa DF necessita ser feito a partir de uma fórmula que recupere
o valor que separa o grupo em duas partes, com 50% cada. Inicialmente precisamos encontrar o
ponto central, ou seja, sua posição (P), que vai nos indicar em qual intervalo se encontra o valor
mediano. Sua localização será feita na coluna do fa, aquele que contém o p-ésimo valor. Deste
intervalo retiraremos toda a informação necessária. A única que não segue este critério é o valor
do fa a (frequência acumulada do intervalo anterior ao mediano). Quando o intervalo mediano
ocorrer no primeiro intervalo o valor do fa a será zero.
n 34
P= = = 17 → localiza o f a no terceiro intervalo, pois as microrregiões 17 até
2 2
a 28 se encontram nesse intervalo mediano, o imd. Seleciona o intervalo e retira todos
os dados do mesmo, com exceção da faa que é o fa anterior.
Md = li +
(P − f aa )hi =9+
(17 − 10) *3
= 10,91
fi 11
76
EaD
métodos estatísticos e a administração
Com isso, entende-se que 50% das microrregiões do RS não ultrapassam um PIB per ca-
pita de R$ 10.910,00, tem índices inferiores, mas no limite de R$ 6.607,87, informando-nos que
no RS a maioria das microrregiões pode ser considerada pobre (26 delas têm classificação de
região pobre, pois o PIB per capita é inferior a 7 mil dólares, 9 delas podem ser consideradas em
desenvolvimento, pois o PIB fica entre 7 e 25 mil dólares.
• Moda (Mo)
Para obtermos informação sobre o valor que mais ocorre no conjunto de dados, após o
agrupamento dos valores, devemos nos concentrar no intervalo que agrega o maior número
de informações (> fi). Este será denominado o intervalo modal. Esta localização independe da
localização da Mediana, pois são duas informações diferentes, no entanto algumas vezes, prin-
cipalmente em função da simetria da distribuição, as duas medidas utilizam o mesmo intervalo
como referência para o cálculo. É uma coincidência, não uma regra. Quando o intervalo modal
ocorrer no primeiro intervalo o fant será zero, e o mesmo ocorre se o> fi se encontrar no último,
nesse caso fpost será zero.
O que é mais frequente no Rio Grande do Sul são microrregiões que apresentam um PIB
per capita em torno de R$ 9.750,00, um valor muito abaixo do esperado.
X > Md > Mo
77
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Esta desigualdade nos informa que estamos diante de dados cuja distribuição é assimétrica,
concluindo-se que o grupo é heterogêneo.
Medidas de Variabilidade
O PIB per capita médio do RS é válido como padrão para analisar o Estado?
Para calcular a variância absoluta precisamos de uma coluna com o produto de cada fi pelo
quadrado do Xi, ponto médio. Ao finalizarmos todos os produtos é a soma destes que vai ser
utilizada na fórmula. Se n > 30, não há necessidade de aplicar o Fator de Correção – [n/(n-1)].
Neste caso n=34 (um dos valores foi isolado por não apresentar o mesmo padrão dos demais),
então a variância será calculada sem ele.
n
f i xi2 (4702,5)
S =∑ − (x ) =
2
2
− (11, 294)² = 10,75438753milreais ²
i =1 n 34
Ao calcular o desvio padrão, ou seja, aquela informação que nos dirá qual é, em média, o
afastamento dos dados em relação à Média, é importante lembrar que nas pesquisas eleitorais
os resultados são informados num intervalo, por exemplo: (3% para mais ou 3% para menos).
Isto nos auxilia a entender a importância do desvio padrão.
Entende-se que o desvio médio para mais e para menos em torno da média é de R$
3.279,00.
Para avaliar a validade da Média, precisamos verificar quanto representa o desvio padrão
em relação à Média e após tirar uma conclusão com base no esquema que foi apresentado an-
teriormente.
S 3, 279388286
CV = 100 = 100 = 29,04%
X 11, 294
78
EaD
métodos estatísticos e a administração
Observa-se que a Média é válida, pois a dispersão em torno dela é < 30%. Trata-se de um
grupo homogêneo de dados com variação entre as microrregiões, uma vez que CV = 29,04%,
no limite do permitido em termos de variação tendendo a 30%.
Conclusão: que o PIB per capita do Estado gaúcho é R$11.294,00 com pouca diferença entre
as microrregiões, podendo-se considerar este PIB representativo do comportamento estadual,
indicando que uma grande parte das microrregiões e o próprio Estado podem ser considerados
pobres.
N 34
Li 7,4
Ls 153
At 145,6
Raiz n 5, 830951895
Hi 24, 970194
79
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
• Média Aritmética ( x )
Para preparar a DF para o cálculo da Média precisamos da coluna do Xi, ponto médio (soma
dos limites do intervalo dividida por 2). Após obter o ponto médio, multiplicamos cada um pela
frequência (fi*xi), que será a soma dos valores nesse intervalo. Após o cálculo do último produto
somamos e obtemos a soma geral que será utilizada na fórmula, como evidenciamos a seguir.
n
f i xi 1.152,5
X =∑ = = 33,9hab. / km ²
i =1 n 34
• Mediana (Md)
O cálculo da Mediana numa DF é feito a partir de uma fórmula que recupere o valor que
separa o grupo em duas partes, com 50% cada. Inicialmente precisamos encontrar o ponto cen-
tral, ou seja, sua posição (P), que vai nos indicar em qual intervalo se encontra o valor mediano.
Sua localização será feita na coluna do fa, aquele que contém o p-ésimo valor. Deste intervalo
retiraremos toda a informação necessária. A única que não segue este critério é o fa a (frequência
acumulada do intervalo anterior ao mediano). Quando o intervalo mediano ocorrer no primeiro
intervalo o fa a será zero.
n 34
P= = = 17 → localiza o f a no terceiro intervalo pois as microrregiões 17 até
2 2
a 28 se encontram nesse intervalo mediano, o imd. Seleciona o intervalo e retira
todos os dados do mesmo com exceção da faa, que é o fa anterior.
Md = li +
(P − f aa )hi = 5 + (17 − 0) * 25 = 30.hab. / km²
fi 17
Com isso, entende-se que 50% das microrregiões do RS não ultrapassam uma densidade
de 30 hab./km², apresentando uma densidade inferior a 30, indicando que no RS a maioria das
microrregiões pode ser considerada pouco povoada.
• Moda (Mo)
Para obtermos informação sobre o valor que mais ocorre no conjunto de dados, após o
agrupamento dos valores, devemos nos concentrar no intervalo que agrega o maior número de
informações (> fi). Este será denominado de intervalo modal. Esta localização independe da
80
EaD
métodos estatísticos e a administração
localização da Mediana, são duas informações diferentes, no entanto algumas vezes, principal-
mente em função da simetria da distribuição, as duas medidas utilizam o mesmo intervalo como
referência para o cálculo. É uma coincidência, não uma regra. Quando o intervalo modal ocorrer
no primeiro intervalo o fa n t será zero, e o mesmo ocorre se o (> fi) se encontrar no último, ou
seja, fp o s t será zero.
X > Md > Mo
Esta desigualdade nos informa que estamos diante de dados cuja distribuição é assimétrica,
concluindo-se que o grupo é heterogêneo.
Medidas de Variabilidade
81
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Para calcular a variância absoluta precisamos de uma coluna com o produto de cada fi pelo
quadrado do Xi, ponto médio. Ao finalizarmos todos os produtos é a soma destes que vai ser
utilizada na fórmula. Se n > 30, não há necessidade de aplicar o Fator de Correção – [n/(n-1)].
Neste caso n=34 (um dos valores foi isolado por não apresentar o mesmo padrão dos demais),
então a variância será calculada sem ele.
n
f i xi2 (58356,3)
S2 = ∑ − (x ) =
2
− (33,9)² = 567,1517647(hab. / km ²)²
i =1 n 34
Ao calcular o desvio padrão, isto é, aquela informação que nos dirá qual é, em média,
o afastamento dos dados em relação à Média, comumente vamos lembrar que nas pesquisas
eleitorais os resultados são informados num intervalo, por exemplo: (3% para mais ou 3% para
menos). Isto nos auxilia a perceber a importância do desvio padrão.
S = s ² = 567,1517647 = 23,81494835.hab. / km ²
Entende-se que o desvio médio para mais ou para menos em torno da média é de 23,815
hab./km².
Para avaliar a validade da Média precisamos verificar quanto representa o desvio padrão
em relação à Média e após tirar uma conclusão com base no esquema que foi apresentado an-
teriormente.
S 23,815494835
CV = 100 = 100 = 70, 25%
X 33,9
Observa-se que a Média não é válida, pois a dispersão em torno dela é > 60%. Trata-se
de um grupo heterogêneo de dados com variação entre as microrregiões, uma vez que CV =
70,25%. Neste caso a medida padrão a ser utilizada é a Moda = 24,3 hab./km². Assim sendo, a
densidade populacional do Estado está num padrão de baixa ocupação, pois o que mais ocorre
são densidades em torno de 24,3 hab./km².
Conclusão: Verificamos que o Estado do RS apresenta um IDH médio de 0,785, PIB per capi-
ta de R$ 11.294,00, inferior ao padrão de 7 mil dólares, podendo ser considerado um Estado
pobre, e por fim com baixa densidade demográfica, uma vez que a mesma é de 24,3 hab./
km²<100 hab./km2. O Estado reflete uma postura cultural que dá destaque à educação e à
saúde, porém ainda está dominado por políticas públicas que privilegiam a concentração de
renda, a não realização da reforma agrária, protegendo a concentração de terra. Percebe-se
82
EaD
métodos estatísticos e a administração
também a falta de investimento para o crescimento das regiões. Para tanto, é importante que
o foco, tanto da organização e da administração pública quanto da sociedade civil, esteja
no cidadão e na cidadã com vistas a ampliar os espaços de participação popular em todos
os níveis. As estatísticas refletem uma falta de vontade política de viabilizar a Qualidade de
Vida com qualidade.
A Estatística é uma ciência presente em todos os aspectos da vida, seja ela humana ou ani-
mal, seja ela com elementos não vivos, mas que se repetem na nossa sociedade e/ou na natureza.
Muitos cálculos aparentemente, mas que no decorrer de sua aplicação vamos compreendendo
que se trata de formatações que se apoiam umas nas outras, repetindo raciocínios e cálculos, com
uma importante contribuição na descrição do comportamento de fatos já ocorridos, na projeção
de resultados, nas tomadas de decisão. Essa é nossa intenção com as aplicações: que você se
torne apto a conhecer estatisticamente e tomar as melhores decisões, com uma grande margem
de segurança.
Como sugestão para tornar esta unidade menos complexa, insistimos que você se disponha
a refazer os exemplos apresentados antes de partir para as aplicações. Além do que, é importante
retomar todos os capítulos anteriores ao realizar as aplicações.
Seção 3.3
Aplicações
Considere o seguinte banco de dados para construir suas questões e desenvolver as esta-
tísticas necessárias para obter as respostas. Este banco traz informações educacionais da:
Mesorregião 2 – Centro Oriental Rio-Grandense com 54 municípios, sendo composta por três
Microrregiões (1. Cachoeira do Sul; 16. Lajeado-Estrela; 26. Santa Cruz do Sul).
83
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
84
EaD
métodos estatísticos e a administração
RESUMO DA UNIDADE 3
85
EaD
Unidade 4
métodos estatísticos e a administração
INTRODUÇÃO À AMOSTRAGEM
A coleta de dados e sua representação em tabelas e gráficos permite uma visão detalhada
e circunstanciada dos fenômenos. Apesar do apoio de suporte computacional, no entanto, a
demanda por análise estatística na tomada de decisão e a necessidade de agilizar a informação
retiram da coleta populacional o caráter de fonte única de dados.
O processo amostral é muito útil numa sociedade como a nossa, com grandes populações,
sejam elas de pessoas, animais, coisas, negócios... Este fato, de ocorrerem grandes números
quando realizamos um levantamento de dados, agrega ao processo amostral uma característica
fundamental: a agilidade de coleta, a menor demanda de tempo, rapidez na obtenção de infor-
87
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Com um processo por amostragem, que apresenta uma série de garantias técnicas, cientifi-
camente comprovadas iremos inferir, a partir de uma quantidade menor de dados da população,
estimar os parâmetros populacionais com base nas estatísticas amostrais. Este n é provavelmente
sempre menor do que N. Isso, por si só, já vai garantir mais rapidez e menor custo, além de que
a demanda por coletores e técnicos também se reduz, contribuindo de fato para minimizar os
erros no processo de coleta e tratamento.
Uma das principais vantagens do processo amostral é que temos informação sobre a mar-
gem de erro (podemos estipular o máximo permitido) e a confiança no potencial de resposta com
os dados coletados.
É importante observar que alguns critérios de dimensionamento e seleção devem ser ri-
gorosamente seguidos para garantir bons resultados:
88
EaD
métodos estatísticos e a administração
Seção 4.1
Seguindo uma certa lógica presente neste texto, estamos disponibilizando conceitos no
processo amostral e os meios para sua utilização.
• a variabilidade dos dados – se os dados são homogêneos, isto é, com baixo coeficiente de va-
riação, vão exigir um tamanho de amostra menor para representarem bem a população em
estudo; se os dados populacionais forem heterogêneos vão exigir maior tamanho de amostra
para conterem essa heterogeneidade e, dessa maneira, conseguirem transmitir com maior
adequação as informações pretendidas;
• a margem de erro amostral máxima aceita – o erro fixado é um erro relativo e diz respeito ao
fato de que o tamanho da amostra (n) difere do tamanho da população (N), de tal modo que
n<N. Esse erro quando absolutizado representa uma porção relativa da média, nesse caso
( ε = ε r ∗ µ ;..ε = ε r ∗ X ). O erro relativo deve ter um valor baixo (0,10; 0,05; 0,01 e menores)
porque representa o montante de afastamento entre o resultado obtido e o verdadeiro parâ-
metro;
89
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
a. desvios padrão de afastamento da média dos valores limites(z) da normal padrão que têm
média 0 e variância 1 no caso de conhecermos os valores da variância populacional ou em
caso de estarmos trabalhando com estimativas calculadas a partir de uma amostra piloto de
no mínimo 30 informações;
b. no caso em que a estimativa da variância for feita com uma amostra pequena, n < 30, usa-
mos os limites da distribuição t de Student, obtidos a partir dos graus de liberdade (n-1) e
da Pf desejada.
• Outra informação que pode afetar o tamanho da amostra é a condição de N ser conhecido ou
não. Isto é, estarmos calculando o tamanho da amostra para uma população com tamanho finito
(conhecido) ou uma tendendo a infinito (N desconhecido ou muito grande).
Existem diversos métodos para o cálculo do tamanho da amostra. O mais famoso é o Método
de Cochran (1965), adotado no mundo inteiro. Este método leva em consideração:
Um fator determinante nesse processo é a quantidade de informação que temos para mu-
niciar as fórmulas que iremos utilizar. Essa quantidade, maior ou menor, tem um efeito direto
no resultado do tamanho da amostra (n):
• se as informações forem mais confiáveis, válidas, ricas, o tamanho da amostra será minimizado.
1º Método de Cochran:
Necessita definir previamente a precisão – margem de erro εr, sendo ε =εr.µ, a fidedig-
nidade – z valor da curva normal – e conhecer/estimar a variabilidade populacional – σ ou s.
Para trabalharmos de forma mais operacional e simplificada, considerando que o ε depende da
90
EaD
métodos estatísticos e a administração
Como na maioria dos casos, os valores prefixados são muito repetidos, pois quase sempre
são utilizados os mesmos. É possível determinar os valores da curva normal para esses Pf e dei-
xar num quadro para uso constante. Os valores mais usuais de Pf são: 0,99; 0,95; 0,90. Vemos
no Quadro a seguir os valores de Z da curva normal. Nos casos em que utilizamos estimativas
da variância, Pf será dado por t de Student, no entanto esse dimensionamento depende de uma
informação variável, que é o tamanho da amostra piloto utilizada para estimar a variância, mu-
dando de caso para caso, não permitindo ter um quadro prévio.
Quadro 1: Valores de Z prefixados para três valores de Pf: 0,90; 0,95; 0,99
Quadro 2: Valores de t calculados para um valor de Pf: 0,95, com n variado: 30; 20 e 10
Pf n-1 t
0,95 30 -1=29 2,262
0,95 20 -1=19 2,093
0,95 10 -1=9 2,045
Quando estamos trabalhando com base em estimativa da variância e n > 120, os valores
de t se aproximam de z e podemos utilizar a aproximação normal.
91
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Estas fórmulas para o cálculo da amostra são de Cochran (1965). Para utilizar as fórmulas
necessitamos:
• conhecer a variabilidade da população ou estimá-la por meio de uma amostra piloto. A varia-
bilidade mínima reflete diretamente no tamanho da amostra, pois sendo pequena, inferior a
30%, temos um grupo homogêneo e os dados são muito assemelhados, então a amostra pode
ser pequena, caso contrário vai exigir um tamanho maior;
• definir a margem de erro máxima que podemos admitir tendo em vista os objetivos de nossa
investigação, isto é, precisamos estabelecer um máximo de precisão. Quanto menor essa mar-
gem, maior será o tamanho da amostra para procurar garanti-la;
• estabelecer a probabilidade de confiança (Pf) na amostra que for realizada. Esta Pf deve ser
máxima, altos valores, sua interferência no tamanho da amostra é menor do que a margem de
erro.
A seguir as fórmulas:
1ª fórmula:
2 2
σ CV
n = zα / 2 ≈ zα / 2
ε ε r
* Esta fórmula é utilizada para populações infinitas ou com N desconhecido, com σ conhecido.
2ª fórmula:
2 2
sˆ CV
n = tα / 2 = tα / 2
ε ε r
3ª fórmula:
N zα2 / 2 σ 2 N zα2 / 2 cv 2
n= ≈
( N − 1)ε 2 + zα2 / 2 σ 2 ( N − 1)ε r 2 + zα2 / 2 cv 2
4ª fórmula:
N tα2 / 2 sˆ 2 N tα2 / 2 cv 2
n= ≈
( N − 1)ε 2 + tα2 / 2 sˆ 2 ( N − 1)ε r 2 + tα2 / 2 cv 2
92
EaD
métodos estatísticos e a administração
5ª fórmula:
2
1
n=
ε r
Seção 4.2
Delineamento Amostral: Dimensionamento e Seleção
Esta seção vai nos apresentar a metodologia do delineamento amostral e da seleção alea-
tória que irá garantir a cientificidade dos resultados.
Outro fato importante trata-se da seleção aleatória dos indivíduos que comparecem à
amostra. Com isso queremos garantir que cada unidade populacional tenha as mesmas chances
de vir a ser sorteada. Atualmente esse procedimento é facilmente obtido mediante a geração de
números aleatórios multiplicados pelo tamanho da população e restritos ao tamanho da amostra.
No Excel utiliza-se a seguinte função: Aleatório ()*N repetido até obtermos o n necessário com
alguns de reserva para o caso de gerarmos números repetidos.
93
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Utilizando os dados do Quadro 3 vamos dimensionar a amostra para cada grupo, conside-
rando as informações disponíveis na hora de escolher a fórmula adequada e proceder à seleção
aleatória.
• Dimensionamento da amostra
94
EaD
métodos estatísticos e a administração
O sorteio realizado é uma AAS – Amostra Aleatória Simples que considera todas as unidades
populacionais com a mesma chance de serem sorteadas para participar da amostra. As unidades
populacionais são os municípios gaúchos enumerados de 1 a 496.
Como N é conhecido, N = 2500 e S = 3,8724 a partir de uma amostra piloto de tamanho 20,
logo variância populacional desconhecida, variância estimada, vamos escolher a fórmula 4:
95
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
O estudo deve considerar uma amostra de 25 funcionários para garantir uma margem
máxima de erro de 5% e uma confiabilidade de 95%. Utilizamos a função da calculadora para
fazer o sorteio com os seguintes passos:
Como se trata de pessoas que eventualmente podem se negar a responder ou faltar, ou ain-
da não serem encontradas, sorteia-se também um grupo de nomes-reserva chamado de reserva
técnica para fazer substituições caso seja necessário.
Neste caso, as reservas também têm de ser meio a meio por sexo.
Masculino Feminino
n2 sorteado nome n2 sorteado nome
1 94 Gustavo 14 960 Anastácia
2 202 Adolfo 15 1.049 Tarsila
3 272 Maximino 16 1.467 Fabiana
4 340 Carlos 17 1.640 Raquel
5 363 Ernesto 18 1.745 Eliana
6 498 François 19 1.798 Edivania
7 907 Gabriel 20 1.825 Alice
8 944 Mateus 21 2.101 Luciana
9 1.467 Frederico 22 2.148 Guilhermina
10 1.688 Homero 23 2.217 Jamilia
11 1.725 Elvis 24 2.217 Constancia
12 1.914 Cassiano 25 2.415 Zuleica
13 2.216 Jo s i a s
reserva M reserva F
1 278 Ricardo 1 727 Inês
2 1.250 Fabrício 2 996 Janaina
3 2.107 Jonas 3 1.137 Débo ra
96
EaD
métodos estatísticos e a administração
Após a seleção amostral, proceder-se-á à coleta das assinaturas nos Termos de Consentimento
Livre e Esclarecido (TCLE) para iniciar a coleta de dados. Este procedimento garante que o pesqui-
sado conhece os objetivos da pesquisa e sua participação, bem como os procedimentos metodoló-
gicos. Também lhe é garantido sigilo de sua participação e em nenhum momento as informações
prestadas serão relacionadas a sua pessoa e lhe causarão prejuízo na empresa ou em qualquer
lugar. Garante ainda que a qualquer momento estará livre para retirar seu consentimento.
2 2
CV 0,375
n = zα / 2 = 2,58* = 93,6 ≅ 94.lote.de. peças
εr 0,10
Não é possível aplicar os métodos de sorteio neste caso, pois se trata de uma produção
contínua e as peças não são numeradas nem identificadas, apenas fazem parte de lotes que
identificam o período, turno e dia em que foram produzidas, o responsável pela máquina, a pró-
pria máquina e o conferente. Cada lote é constituído de dez peças, o que favorece, por exemplo,
o cálculo da proporção de peças defeituosas por lote, etc. A forma que pode ser adotada é a de
fazer uma amostra aleatória sistemática, em que uma razão é estabelecida para o momento da
coleta. Considerando a experiência na produção estabeleceu-se o momento da coleta de 6 em 6
horas, com sorteio da primeira coleta do dia e a partir daí de 6 em 6 horas coleta-se uma amostra,
sendo que a unidade amostral é o lote daquele período. O sistema é repetido até ser composto
o número de lotes definido pelo dimensionamento da amostra.
Sabe-se que a empresa funciona ininterruptamente, 24 horas por dia. O turno de trabalho
para o sorteio inicial é da meia noite às 6 da manhã. É nesse intervalo de tempo que será sorteado
o horário da primeira amostra e a partir daí inicia-se a coleta do lote de 6 em 6 horas. O intervalo
é contabilizado em meia hora e hora completa, formando assim 12 intervalos de tempo:
Nº 1 2 3 4 5 6 7 8 9 10 11 12
Horário 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6
97
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
• Sorteio da hora de início da coleta dos lotes, um em cada período previsto. Serão sorteados números
de 1 a 12, correspondente ao número de períodos de meia hora da meia-noite às 6 da manhã.
A hora inicial é considerada a semente geradora dos horários para o processo amostral, a
qual será então somada com (+ 6) gerando os demais horários do dia. Para completar o último
dia de coleta, o 24º, aproximamos para n = 96.
98
EaD
métodos estatísticos e a administração
Para fixarmos os conteúdos, o que acham de resolver algumas questões? Vamos adiante,
pessoal, para finalizar mais esta unidade do nosso livro.
Seção 4.3
Aplicações
a população
a unidade amostral
o delineamento
o cálculo da amostra
a seleção aleatória
Caso 1) Se ele pretende entrevistar a clientela utilizando a variável “gasto na última aqui-
sição” para delinear a amostra, vai precisar de uma amostra piloto. Com base em 26 notas de
clientes da empresa monte o processo amostral, definindo margem de erro, probabilidade de
confiança e coeficiente de variação a partir dos valores das notas:
1 R$ 136,40 14 R$ 64,00
2 R$ 119,87 15 R$ 117,00
3 R$ 124,33 16 R$ 145,00
4 R$ 112,60 17 R$ 186,90
5 R$ 102,53 18 R$ 166,99
6 R$ 87,90 19 R$ 268,00
7 R$ 99,12 20 R$ 54,80
8 R$ 127,45 21 R$ 145,00
9 R$ 132,90 22 R$ 219,00
10 R$ 123,10 23 R$ 104,00
11 R$ 107,34 24 R$ 131,60
12 R$ 264,00 25 R$ 59,23
13 R$ 148,00 26 R$ 84,50
99
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Caso 2) Se ele pretende utilizar a informação sobre o número de pares de calçados que
vendeu nas últimas exportações para os vizinhos da América Latina, onde tem 180 clientes,
enviando uma mala investigativa via Internet por processo amostral.
Caso 3) Se ele deseja saber como seria a aceitação de um novo produto entre seus clientes
usuais. Não sabe quantos clientes costumam vir a sua loja e comprar um tipo de calçado como
esse novo produto.
100
EaD
métodos estatísticos e a administração
Caso 5) Sabendo que tem 228 sapateiras, toma uma amostra de 35 delas tomando a infor-
mação sobre o tempo de trabalho na indústria calçadista, deseja conhecer o grau de satisfação
dos trabalhadores da empresa.
n TS n TS n TS
1 0 13 6 25 4
2 13 14 23 26 23
3 3 15 16 27 26
4 12 16 14 28 10
5 24 17 11 29 7
6 4 18 20 30 14
7 12 19 13 31 29
8 1 20 20 32 25
9 24 21 12 33 2
10 27 22 29 34 27
11 18 23 9 35 0
12 12 24 11
RESUMO DA UNIDADE 4
101
EaD
Unidade 5
métodos estatísticos e a administração
• Mostrar como, por meio do processo amostral, fizemos a extensão dos resultados amostrais
para descrever o comportamento da população, dominando algumas técnicas de generalização,
como a estimação e teste de hipóteses.
Com isso ganhamos tempo, precisão, agilidade, avaliando também as relações e tendências
futuras. Desse modo, as estatísticas amostrais servirão para conhecer o comportamento de uma
população, que só poderia ser estudada censitariamente, o que nem sempre é possível.
103
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Seção 5.1
Conceitos e Definições
Estimadores:
Intervalo de Confiança:
Teste de Hipótese:
Após o cálculo da estimativa precisamos conferir se o valor encontrado está garantido como
uma projeção do valor populacional. Para tal, estabelecemos um nível de significância (uma es-
pécie de margem de erro) para nossa estimativa e conseguimos estabelecer uma garantia para
a informação obtida, possibilitando que as decisões sejam tomadas tendo por base a informação
amostral.
Na seção 5.2 vamos apresentar a metodologia estatística que permite inferir os parâmetros
populacionais a partir de uma amostra, ou seja, generalizar a partir dela. No processo amostral
não interessam por si mesmas as estatísticas da amostra, mas sim as estimativas construídas a
partir dela e que inferem o comportamento populacional.
Seção 5.2
Estimativas e sua Projeção
104
EaD
métodos estatísticos e a administração
5.2.1 ESTIMATIVAS
• Por ponto: quando se projeta o valor calculado na amostra como se fosse o próprio parâmetro,
o valor populacional. Este procedimento desconsidera a margem de erro presente no processo
amostral e não oferece garantia à estimativa.
• Por intervalo: ao estabelecer a estatística amostral como estimativa, constrói-se em torno dela
um intervalo baseado no potencial de erro de estimativa do processo. Como se diz popularmen-
te, o valor verdadeiro é projetado como a estatística calculada na amostra mais ou menos um
determinado valor que é a margem de erro agregada da confiança. Por isso, é denominado de
Intervalo de Confiança. Usualmente este intervalo é calculado para garantir 95% de confiança
de conter o verdadeiro parâmetro.
Mesmo assim a estimativa por ponto é arriscada, pois fazemos o cálculo amostral a partir
de uma amostra entre todas as possíveis, então é importante que na projeção trabalhemos com
uma estimativa por intervalo, considerando a confiança dentro da margem de erro. Vários são
os parâmetros que podem ser estimados, mas vamos trabalhar somente com os estimadores da
média – µ, e proporção, π.
σ
IC 95% = X ± z∂ / 2 = Pf
n
sˆ
IC 95% = X ± t( n −1);∂ / 2 = Pf
n
105
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
( p ) * (1 − p )
IC 95% = p ± z∂ / 2 = Pf
n
Outro tratamento importante que deve ser realizado antes de projetarmos as estimativas
é o teste de hipóteses. O teste de hipóteses deve ser aplicado aos valores amostrais para verifi-
carmos se os mesmos podem ser projetados para a população. Este item merece um estudo mais
aprofundado, no entanto nos restringiremos aos testes da média e da proporção, que são os mais
utilizados nas pesquisas por amostragem.
106
EaD
métodos estatísticos e a administração
EXEMPLO:
Sabe-se que o módulo da propriedade rural na nossa região é de 25 ha. Devido ao modelo
agrícola e sistema de organização social em função de lucro e de acumulação, a população urbana
vem crescendo e a rural diminuindo em função do êxodo rural. Os agricultores e suas famílias
saem do meio rural por causa do endividamento, busca de instituições de saúde e de educação,
do custo elevado de produção agrícola, da dificuldade de acesso às novas tecnologias, etc.
total.de.ha 51.508.ha
Razão = = = 25,13.ha / propriedade
n º de propriedades rurais 2.049 propriedades rurais
Segundo essa razão (25,13 ha/propriedade), observamos que na prática ela corresponde
ao módulo rural.
Estabelecemos então uma proporcionalidade com a finalidade de ter uma informação bá-
sica para o cálculo da amostra:
CV= √q/p=√0,01/0,99)=0,10050378
N zα2 / 2 σ 2 =
n=
( N − 1)ε 2 + zα2 / 2 σ 2
N zα2 / 2 CV 2 2049 * (1,96)² * (0,10050378)²
= = =
( N − 1)ε r + zα / 2 CV
2 2 2
(2049 − 1) * (0,03)² + (1,96)² * (0,10050378)²
= 42,25 ≈ 43 propriedades na amostra.
107
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Como percebemos, em princípio não temos muita informação sobre as propriedades para fazer
um cálculo da amostra; buscamos então um apoio numa proporção que na realidade é uma razão.
A estatística que mais agregaria informação seria a Média, pois ela é uma medida que faz
um aporte de dados individual, isto é, teríamos uma informação conhecida para o cálculo da
Média de cada uma das propriedades.
Uma vez que o n calculado foi de 43 para um εr=0,03 e uma Pf=0,95 e o n realizado foi
de 30, devemos atualizar o erro e/ou a confiança.
Vamos assumir que a Probabilidade de Confiança não se modificou e apenas vamos mexer
na margem de erro, portanto:
Continua Pf=0,95→zα/2=1,96
Retomemos a fórmula com todos os seus valores substituídos, com exceção do erro.
N zα2 / 2 CV 2 N zα2 / 2 CV 2
n0 = → ( N − 1) ε r
2
= − zα2 / 2 CV 2
( N − 1)ε r 2 + zα2 / 2 CV 2 n0
1/ 2
N z 2 CV 2 1 N zα2 / 2 CV 2 1
→ εr = α /2
2
− zα2 / 2 CV 2 → ε r = − zα2 / 2 CV 2
n0 ( N − 1) n0 ( N − 1)
1/ 2
(2049)(1,96) (0,10050378)
2 2
1
ε r = − (1,96) 2 (0,10050378) 2 = 0,036
30 (2049 − 1)
108
EaD
métodos estatísticos e a administração
Então, diminuindo o tamanho da amostra para 30, considerando que PF = 0,95, estaremos
trabalhando com um erro máximo de εr=0,036
Quadro 2: Relação das variáveis coletadas por meio do instrumento de coleta e sua classificação
Quadro 3: Banco de dados nº 6 com as variáveis coletadas por meio do instrumento de coleta
X1 X2 X3 X4 X5 X6 X1² X6²
Nº Tam soja milho aves leite moradores tam² moradores
1 28 1 1 1 1 5 784 25
2 12 1 0 1 1 7 144 49
3 15 1 1 0 1 7 225 49
4 5 0 1 1 1 9 25 81
5 8 0 1 1 1 8 64 64
6 55 1 1 0 1 2 3025 4
7 80 1 1 0 0 3 6400 9
8 36 1 1 1 1 4 1296 16
9 27 1 1 1 1 5 729 25
10 10 0 1 1 1 8 100 64
11 47 1 1 0 0 2 2209 4
12 62 1 1 0 0 3 3844 9
13 87 1 1 0 0 3 7569 9
14 13 0 1 1 1 6 169 36
15 25 1 1 0 1 5 625 25
16 42 1 0 0 0 2 1764 4
17 53 1 1 1 1 3 2809 9
18 84 1 1 0 0 2 7056 4
19 27 0 1 0 1 4 729 16
20 18 1 1 1 1 5 324 25
21 15 1 1 1 1 6 225 36
22 61 1 0 0 0 2 3721 4
23 76 1 1 0 1 4 5776 16
24 34 0 1 1 1 3 1156 9
25 29 1 0 1 1 5 841 25
26 50 1 1 0 1 3 2500 9
27 42 1 0 0 0 2 1764 4
28 24 1 1 1 1 2 576 4
29 16 0 1 1 1 8 256 64
30 49 1 1 0 0 4 2401 16
∑ 1130 132 59106 714
p 0,77 0,87 0,50 0,70
Fonte: Elaboração da autora, com base em técnicas de simulação.
109
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
1.130
Média
n
xi X1 = = 37,67.ha
X =∑ 30 132
Aritmética: i =1 n X6 = = 4, 4 moradores
30
59.106 2 30 714 2 30
n
x2 S2 = − (37,67 ) S2 = − (4, 4)
S = ∑ i − (x )
Variância
30 − 1
2
2
30 30 − 1 30
i =1 n
= 570,177 ha ² = 22,59310345 moradores ²
S = (570,177 2 =
Desvio
S = S2 = 23,87837934.ha S = (22,59310345) 2 =
Padrão
= 4,753220324
Coeficiente de
S 23,87837934 4,753220324
Variação CV = 100 CV = 100 = CV = 100 =
X 37,67 4, 4
= 63, 4% = 108%
Intervalo de confiança de 95% para a Média; utiliza-se o intervalo de confiança com base
na distribuição normal devido ao tamanho da amostra piloto, n = 30.
110
EaD
métodos estatísticos e a administração
σ 23,87837934
IC 95% = X ± z∂ / 2 = Pf → IC 95% = 37,67 ± 1,96 = 0,95
n 30
IC 95% = {29,12 ≤ µ ≤ 46, 21} = 0,95
Constatamos que o tamanho médio das propriedades rurais nessa região está estimado em
37,67 ha, o qual pode ser avaliado potencialmente como um valor entre 29,12 e 46,21 há, com
um nível de significância de 5%.
O intervalo de confiança calculado evidencia que o zero não é um valor possível para a
verdadeira média, com 95% de confiança. A verdadeira intenção do estudo, no entanto, é saber
se o módulo rural nessa região continua sendo 25 ha. Para isso vamos construir um teste de hi-
pótese com essa premissa, de que o módulo não se alterou e tem 25 ha.
Logo:
Aceita H0 se z0 ≤ 1,96
Estatística de teste:
Grandes amostras
X − µ0 37,67 − 25
zo = = = 2,906
σ n 23,87837934 30
Conclusão:
Como zo= 2,906 > zt =1,96, tem uma chance de 1,79% de ocorrer no caso da igualdade com
o módulo rural antigo ser verdadeira, garantindo que a diferença é estatisticamente signifi-
cativa (P<0,05). Rejeitamos H0 concluindo que houve mudança no padrão de propriedades,
ocorrendo uma concentração de terras nessa região, constatando-se que o padrão médio não
é mais 25 ha, cresceu e com um nível de significância estatístico de 5%, podemos estimar o
tamanho médio das propriedades em 37,67, com um potencial de variar entre 29 e 46 ha.
111
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
σ 4,753220324
IC 95% = X ± z∂ / 2 = Pf → IC 95% = 4, 4 ± 1,96 = 0,95
n 30
IC 95% = {2,67 ≤ µ ≤ 6,10} = 0,95
Constatamos que o número médio de moradores das propriedades rurais nessa região está
estimado em 4,4 moradores, e que o tamanho médio pode ser avaliado potencialmente como um
valor entre 2,67 e 6,10 moradores, com um nível de significância de 5%.
O intervalo de confiança calculado evidencia que o zero não é um valor possível para a
verdadeira média, com 95% de confiança, no entanto há informações de que o número médio
de membros nas famílias gaúchas é de 3,25 pessoas. Queremos saber se o número médio dessa
região é maior do que o do Estado. Para isso vamos construir um teste de hipótese com essa
premissa, de que o número médio é igual ao do Estado.
Estatística de teste:
Grandes amostras
X − µ0 4, 4 − 3, 25
zo = = = 1,325
σ n 4,753220324 30
Conclusão:
Como zo= 1,325 < zt =1,96 aceitamos H0, há uma chance de ocorrer de 9,18% no caso de a
igualdade com o número de moradores ser verdadeiramente 3,25, garantindo que a diferença
não é estatisticamente significativa (P>0,05). Aceitamos H0 concluindo que não há diferença
estatisticamente significativa entre a média estadual = 3,25, e a média da região = 4,4. As
famílias, atualmente, como decorrência da vida moderna, do planejamento familiar, acesso
aos meios de contracepção, tendem a ter menos filhos, restringindo-se a 1 ou 2 no máximo.
112
EaD
métodos estatísticos e a administração
X2: Produz soja, p: sim; (1-p): não tal que p = 0,77 (1-p) = 0,23
p(1 − p) 0,77 * 0, 23
IC 95% = p ± z∂ / 2 = Pf → IC 95% = 0,77 ± 1,96 = 0,95
n 30
IC 95% = {0,71 ≤ π ≤ 0,83}= 0,95
Constatamos que a proporção de propriedades que produz soja é estimada em 0,77, e que
a proporção pode ser avaliada potencialmente como um valor entre 0,71 e 0,83, com um nível
de significância de 5%.
O intervalo de confiança calculado evidencia que o zero não é um valor possível para a
verdadeira média, com 95% de confiança. Supondo, no entanto, que metade das propriedades
rurais produz soja, queremos saber se a proporção estimada é significativamente maior do que a
suposta. Para isso vamos construir um teste de hipótese com essa premissa, de que a proporção
real é igual a 0,50.
Ha: π = 0,50→ a proporção de propriedades que produzem soja é > que 0,50.
Logo:
Aceita H0 se z0 ≤ 1,96
Estatística de teste:
Grandes amostras
p − π0 0,77 − 0,50
zo = = = 3,514
p (1 − p ) 0,77(0, 23)
n 30
Conclusão:
Como zo= 3,514 > zt =1,96 tem uma chance de 0,02% de ocorrer no caso da igualdade
com a hipótese de que 50% das propriedades produzem soja seja verdadeira, é altamente
improvável, garantindo que a diferença é altamente significativa estatisticamente (P<0,01).
Rejeitamos H0, concluindo que há diferença altamente significativa estatisticamente entre a
proporção suposta = 0,50 e a proporção da região = 0,77 quando se trata de produção de soja
113
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
com um nível de significância de 1%. Apesar de a soja ser uma produção que exige grandes
extensões rurais e cultivo com maquinário agrícola, a maioria das propriedades (indepen-
dentemente do tamanho) dedica-se a essa cultura pelo manejo exigido e retorno bastante
garantido, bem como pela política agrícola que favorece esta cultura. Podemos então afirmar
que a proporção estimada de produtores de soja é de 77% com grandes possibilidades de o
intervalo de 71% a 83% conter a real proporção da região em termos de produtores de soja,
tenha uma chance de 95% de conter a verdadeira proporção.
X : Produz milho, p: sim; (1-p): não tal que p = 0,87 (1-p) = 0,13
3
p (1 − p ) 0,87 * 0, 23
IC 95% = p ± z∂ / 2 = Pf → IC 95% = 0,87 ± 1,96 = 0,95
n 30
IC 95% = {0,83 ≤ π ≤ 0,91}= 0,95
O intervalo de confiança calculado evidencia que o zero não é um valor possível para a
verdadeira média, com 95% de confiança. Supondo, no entanto, que metade das propriedades
rurais produz milho, queremos saber se a proporção estimada é significativamente maior do que
a suposta. Para isso vamos construir um teste de hipótese com essa premissa, de que a proporção
real é igual a 0,50.
Ha: π = 0,50→ a proporção de propriedades que produzem milho é > que 0,50.
Logo:
Aceita H0 se z0 ≤ 1,96
Estatística de teste:
Grandes amostras
p − π0 0,87 − 0,50
zo = = = 6,026
p (1 − p ) 0,87(0,13)
n 30
114
EaD
métodos estatísticos e a administração
Conclusão:
Como zo= 6,026 > zt =1,96 rejeitamos H0, tem uma chance de ocorrer de 0,0000..% no caso
da igualdade com a suposição 0,50 ser verdadeira, garantindo que a diferença é altamente
significativa estatisticamente (P<0,01). Concluímos que há diferença altamente significativa
estatisticamente entre a proporção suposta = 0,50 e a proporção da região = 0,87 quando se
trata de produção de milho com um nível de significância de 1%. Apesar de o milho ser uma
produção que exige uma terra de boa qualidade, quase sempre uma terra de mato, é uma
cultura de grande utilidade tanto para a comercialização quanto para a demanda interna
da propriedade, por isso a maioria das propriedades (independentemente do tamanho) se
dedica a essa cultura pelo manejo exigido e retorno bastante garantido, bem como pela polí-
tica agrícola que favorece esta cultura. Podemos então afirmar que a proporção estimada de
produtores de milho é de 87% com grandes possibilidades de o intervalo de 83% a 91% conter
a real proporção da região em termos de produtores de milho, tenha uma chance de 95% de
conter a verdadeira proporção.
X : Produz aves, p: sim; (1-p): não tal que p = 0,50 (1-p) = 0,50
4
p (1 − p ) 0,50 * 0,50
IC 95% = p ± z∂ / 2 = Pf → IC 95% = 0,50 ± 1,96 = 0,95
n 30
IC 95% = {0, 41 ≤ π ≤ 0,59} = 0,95
e que a proporção pode ser avaliada potencialmente como um valor entre 0,41 e 0,59, com um
O intervalo de confiança calculado evidencia que o zero não é um valor possível para a
verdadeira média, com 95% de confiança. Sabendo, no entanto, que 65% das propriedades rurais
suposta. Para isso vamos construir um teste de hipótese com essa premissa, de que a proporção
Ha: π < 0,65→ a proporção de propriedades que produzem aves é < que 0,65.
115
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Aceita H0 se z0 ≥ -1,96
Estatística de teste:
Grandes amostras
p − π0 0,50 − 0,65
zo = = = −1,643
p (1 − p ) 0,50 * (0,50)
n 30
Conclusão:
Como zo= -1,643 > zt =-1,96 aceitamos H0, tem uma chance de ocorrer de 0,0505% no caso
da igualdade com a suposição de 0,50 ser verdadeira, garantindo que a diferença não é sig-
nificativa estatisticamente (P>0,05). É possível concluir que não há diferença estatisticamente
significativa entre a proporção suposta = 0,65 e a proporção da região = 0,50 quando se trata
de produção de aves com um nível de significância de 5%. Apesar de ave ser uma produção
que não exige grandes extensões rurais, de fácil manuseio e consumo garantido, a maioria
das propriedades, independentemente do tamanho, não se dedica muito a essa produção. Po-
demos então afirmar que o a proporção estimada de produtores de aves é de 50% com grandes
possibilidades de que o intervalo de 41% a 59% conter a real proporção da região em termos
de produtores de aves, tenha uma chance de 95% de conter a verdadeira proporção.,
X : Produz leite, p: sim; (1-p): não tal que p = 0,70 (1-p) = 0,30
5
O intervalo de confiança calculado evidencia que o zero não é um valor possível para a
verdadeira média, com 95% de confiança. Supondo, porém, que as propriedades rurais são pe-
quenas entende-se que se dediquem à produção de leite em torno de 90%, queremos saber se a
proporção estimada é significativamente menor do que a suposta. Para isso vamos construir um
teste de hipótese com essa premissa, de que a proporção real é igual a 0,90.
116
EaD
métodos estatísticos e a administração
Ha: π < 0,90→ a proporção de propriedades que produzem leite é > que 0,80.
Logo:
Aceita H0 se z0 ≥– 1,96
Estatística de teste:
Grandes amostras
p − π0 0,70 − 0,90
zo = = = −2,390
p (1 − p ) 0,70(0,30)
n 30
Conclusão:
Como zo= -2,390 < zt =-1,96 rejeitamos H0, tem uma chance de ocorrer de 0,0084% no caso
de a igualdade com a suposição ser 0,50 a verdadeira proporção, garantindo que a diferença
é altamente significativa estatisticamente (P<0,01). Concluindo que há diferença altamente
significativa estatisticamente entre a proporção suposta = 0,90 e a proporção da região =
0,70 quando se trata de produção de leite com um nível de significância de 5%. Apesar de o
leite ser um produto altamente comercializável, pois várias empresas de beneficiamento do
leite operam na região, a proporção de produtores é menor do que a esperada. Podemos então
afirmar que a proporção estimada de produtores de leite é de 70% com grandes possibilidades
de que o intervalo de 62% a 78% conter a real proporção da região em termos de produtores
de leite tenha uma chance de 95% de conter a verdadeira proporção.,
Seção 5.3
Aplicações
Organize uma pesquisa de campo em que você precise entrevistar, coletar dados de qual-
quer natureza.
117
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Calcule amostra
Colete os dados
Faça uma discussão dos resultados embasada na revisão da literatura sobre o assunto
Elabore conclusões
Bibliografia
RESUMO DA UNIDADE 5
118
EaD
Unidade 6
métodos estatísticos e a administração
• Compreender que o modelo de regressão linear permite fazer projeções futuras e fornece ex-
plicações por meio de seus coeficientes.
A descrição e a inferência estatística tratam de uma só variável de cada vez. Por exemplo,
quando temos uma amostra de uma empresa, como o índice de liquidez. Quando, porém, temos de
estabelecer novas metas em uma empresa, a amostra apresentará diversas variáveis que poderão
119
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
No momento vamos considerar o caso de duas variáveis (análise bivariada). Nosso objetivo
será estabelecer o comportamento quantitativo passado das variáveis em estudo e o equacionar-
mos, proporcionando projetar o seu comportamento no futuro, pois prioritariamente a análise de
regressão é usada com o propósito de previsão.
Ao dispormos de uma amostra de n unidades, contamos com um par de valores das vari-
áveis X i e Yi , por exemplo, os valores dos investimentos reais em função dos anos, em bilhões
de dólares. O grupo pode ser descrito separadamente, no entanto nosso interesse será o de es-
tabelecer uma possível relação funcional (matemática) entre as duas variáveis e se a relação for
boa, usá-la para fazer previsões.
No exemplo dado nosso interesse será estabelecer uma relação matemática (linear) entre
os anos ( X i ) e os investimentos reais ( Yi ). Não podemos esquecer que o ajuste de um conjunto
de dados com a finalidade de fazer projeções futuras só é viável mediante o conhecimento a
priori das possíveis influências de causa e efeito que uma ou mais variáveis exercem sobre as
demais.
Seção 6.1
Correlação entre Variáveis
O termo correlação significa relação em dois sentidos que serve para designar a força
que mantém “unidos” dois conjuntos de dados. A correlação mede a intensidade, a direção e
estabelece o grau de associação linear entre duas variáveis quantitativas.
120
EaD
métodos estatísticos e a administração
Exemplo de Aplicação:
Tabela 1: Valores dos investimentos reais, em bilhões de dólares, no período entre 1968 e 1982 nos Estados Unidos
ANO Xi Yi X iYi X i2 Yi 2
1968 1 161 161 1 25921
1969 2 172 344 4 29584
1970 3 158 474 9 24964
1971 4 173 692 16 29929
1972 5 195 975 25 38025
1973 6 217 1302 36 47089
1974 7 199 1393 49 39601
1975 8 163 1304 64 26569
1976 9 195 1755 81 38025
1977 10 231 2310 100 53361
1978 11 257 2827 121 66049
1979 12 259 3108 144 67081
1980 13 225 2925 169 50625
1981 14 241 3374 196 58081
1982 15 204 3060 225 41616
Seção 6.2
Diagrama de Dispersão
Na construção do gráfico podemos começar com qualquer um dos eixos. No nosso exemplo
a variável X i representa os gastos, pois entre o valor que representa o menor investimento e o que
indica o maior investimento, que são 2 e 20, devemos criar uma escala no eixo correspondente.
Proceder no eixo Yi da mesma maneira, pois o mês de janeiro apresentou o menor valor para o
faturamento, que é 20, o mês de outubro apresentou o maior faturamento, que é de 62. Pois bem,
devemos criar uma escala considerando este intervalo e representarmos no corresponde eixo.
121
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Em nosso exemplo:
270
Investimento (bilhões de dólares)
250
230
210
190
170
150
1967 1969 1971 1973 1975 1977 1979 1981 1983
Anos
Seção 6.3
Coeficiente de Correlação
122
EaD
métodos estatísticos e a administração
0 ≤ R ≥ 1 −1 ≤ R ≥ 0
Correlação linear positiva Correlação linear negativa
Karl Person (1857 – 1936) foi quem desenvolveu a fórmula de R, que é dado por:
R=
(∑ X )(∑ Y ) ,
n∑ (X iYi ) − i i
-1 ≤ R ≤ 1
n∑ X − (∑ X ) n∑ Y − (∑ Y )
2 2
2 2
i i i i
Por simulação numérica e pela proximidade ou não dos pontos em torno da reta de regres-
são, temos:
123
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
24060 24060
R=
64,80741* 495, 2777 → R = 32097,66 → R = 0,749587
Observação Importante: Correlação não é igual à causa e efeito, pois duas variáveis podem
estar relacionadas e, no entanto, não haver entre elas nenhuma relação de causa e efeito.
Como exemplo, em Triola (1999) e outros, ao relacionarmos o tamanho do pé com a renda de
um grupo de indivíduos, poderemos observar uma alta correlação, próximo de 1, no entanto
na prática não existe nenhuma relação de causa e efeito entre ambas.
Se duas variáveis estiverem relacionadas pela lei de causa e efeito, é viável o estabeleci-
mento do grau que mantém as mesmas correlacionadas. No nosso exemplo, embora não possamos
afirmar que a variável X i seja a única causa das variações sofridas em Yi , é razoável admitir que
maiores gastos em comerciais oferecem uma maior probabilidade de retornos financeiros.
Assim, dá para sabermos quanto da variação de Yi pode ser explicada pelas variações de
X i , que é dado pelo Coeficiente de Determinação.
Seção 6.4
Coeficiente de Determinação ( R ) 2
É um dos critérios mais empregados para caracterizar o ajuste, pois o Coeficiente de Deter-
minação nos permite saber quanto da variação de Yi pode ser explicado pela variação de X i .
R 2 = (R ) .100
2
124
EaD
métodos estatísticos e a administração
Seção 6.5
Análise de Regressão
Com a regressão buscamos as leis que explicam como duas ou mais variáveis estão relacio-
nadas. Além disso, proporciona obtermos um dado desconhecido a partir de seu par conhecido,
com uma boa aproximação.
O estudo da regressão é usado para estabelecer uma equação matemática que possa des-
crever com certa precisão a relação entre duas ou mais variáveis.
Devemos lembrar que por dois pontos passa uma e somente uma reta, mas que quando
temos uma nuvem de pontos podemos traçar inúmeras retas.
De todas as retas possíveis devemos escolher a que melhor se ajuste a todos os pontos
simultaneamente. A escolha dessa reta (equação) segue um critério chamado Método dos Mí-
nimos Quadrados.
n
Yˆi = α + β X i + ei ⇒Þ Sejam (a, b) estimadores de (αa , βb) ⇒Þ S = ∑ ei2 = ∑ (Yi − a − bX i ),2
i =1
o que torna necessário:
∂S
=0
∂a
∂S
=0
∂b
125
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
a=
∑Y i
−b
∑X i
n n
n∑ X iYi − ∑ X i ∑ Yi
b=
n∑ X i2 − (∑ X )
2
i
α : Coeficiente Linear ou intercepto. É onde a reta corta o eixo Yi . Interpretado como a variação
média da variável dependente Yi , que não depende da variável independente X i . É dado na
mesma unidade de medida de Yi . Diz o nível de Yi quando X i é igual a zero.
Yˆi = a + bX i
Observação importante:
O sinal ^ sobre o Yi é para indicar que se trata de um valor teórico, próximo da realidade,
mas não necessariamente presente nos dados observados.
a = 157,5045 Investimento médio real que não depende do passar dos anos. No exemplo
este coeficiente não tem sentido prático, no entanto não podemos esquecer que ele faz parte do
modelo ajustado e que para fazermos projeções ele é essencial.
126
EaD
métodos estatísticos e a administração
b = 5,7286 Acréscimo médio nos investimentos reais a cada ano. A cada ano os investi-
mentos reais tiveram um acréscimo médio de 5,7286 dólares.
1983?
Yˆi = 157,5045 + 5,7286.(16) → Yˆi = U $ 249,16 volume esperado para o ano de 1983.
Seção 6.6
Banco de Dados
Tabela 2: Valores dos investimentos reais e do Produto Interno Bruto, em bilhões de dólares,
as taxas médias de juros e as taxas de inflação no período entre 1968 e 1982 nos Estados Unidos
Com este banco de dados pretendemos que você aplique a teoria estudada na Unidade 6.
127
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
RESUMO DA UNIDADE 6
128
EaD
Unidade 7
métodos estatísticos e a administração
• Habilitar o aluno a agilizar a produção de estatísticas por meio do manuseio correto das ferra-
mentas do Excel.
Seção 7.4 – Tabelas simples para as variáveis qualitativas e para as variáveis quantitativas com
pouca variabilidade
129
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Os arquivos que normalmente produzimos com o Excel são do tipo Pasta de Trabalho, e pos-
suem a extensão .xls ou .xlsx., respectivamente para MS Excel versão 2003 e versão 2007. A tela
inicial do Excel é apresentada na Figura 1a para a versão 2003 e Figura 1b para a versão 2007.
Uma planilha é um conjunto de linhas e colunas, como uma grade. No Excel, as colunas
são identificadas por letras em ordem alfabética, e as linhas por números em ordem crescente.
Uma célula é a menor unidade de trabalho do Excel, identificada pelo cruzamento de uma linha
e uma coluna.
130
EaD
métodos estatísticos e a administração
Cada célula tem um endereço próprio, formado pela combinação da letra da coluna com o
número da linha. Por exemplo, a célula D8 localiza-se no cruzamento da coluna D com a linha
8. Para selecionar uma célula, colocando-a em foco, utiliza-se o cursor, que na planilha aparece
como um ponteiro semelhante a uma cruz. Basta clicar na célula desejada.
Para selecionar uma linha inteira deve-se clicar no número identificador da linha. O in-
tervalo é identificado por suas coordenadas, sendo que o primeiro elemento das coordenadas é
o endereço da célula superior esquerda, e o segundo elemento das coordenadas é o endereço
da célula inferior direita do intervalo. Os dois elementos são separados por dois pontos ( : ). Por
exemplo, o intervalo C4:E5 compreende as células C4,C5,D4,D5,E4 e E5.
Seção 7.1
Elaborando um Banco de Dados no Excel
Para criar um banco de dados no Excel destinamos as linhas aos dados de cada elemento
da amostra e as colunas a cada uma das variáveis. A Figura 2 mostra o exemplo do banco de
dados dos clientes da empresa Costa, apresentado a seguir. Tomemos esse banco de dados como
exemplo para desenvolver toda a Unidade 7.
Exemplo:
131
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Cliente Sexo Satisfação com atendimento Satisfação com preço Nota geral Idade
1 F MS MS 10 22
2 F S +- 7 26
3 F +- +- 6 32
4 M +- S 7 35
5 F S S 8 23
6 F S MS 9 27
7 F +- +- 7 22
8 F +- S 7 37
9 M S I 5 41
10 F I I 5 40
11 M S S 8 35
12 F S +- 8 35
13 F MI +- 9 37
14 F S +- 9 22
15 F S I 7 21
16 M MS S 10 19
17 F S +- 8 40
18 F S S 8 51
19 F S S 9 55
20 M I +- 7 45
21 F +- S 7 46
22 M S S 8 33
23 M MS S 9 34
132
EaD
métodos estatísticos e a administração
Seção 7.2
Utilizando as Técnicas Estatísticas para Analisar os Dados no Excel
No Excel 2003:
No Excel 2007:
Figura 3: Instalação das Ferramentas de Análise no Excel 2003 (esquerda) e no Excel 2007 (direita)
133
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Seção 7.3
Medidas Descritivas para as Variáveis Quantitativas
Para obter as medidas descritivas, você clica na opção Análise de dados no menu Ferra-
mentas no Excel 2003 ou clica no botão Análise de dados no menu Dados no Excel 2007. Então
aparecerá a janela da Figura 4.
Nesta janela você clica na opção Estatística descritiva. Após, aparecerá a janela da Figura
5. Nesta, observar os seguintes passos:
• selecione os dados da coluna que você deseja analisar, por exemplo, coluna E, que se refere à
variável idade;
• marque a opção rótulos na primeira linha, pois foi selecionado junto com os valores o nome
(rótulo) da variável;
• marque nova planilha, assim o resultado do comando vai aparecer numa nova planilha da pasta
de trabalho;
134
EaD
métodos estatísticos e a administração
Para calcular o coeficiente de variação deve-se incluir uma fórmula da seguinte maneira:
• digite =;
• digite /;
135
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
• digite*;
• digite 100;
• tecle enter.
Interpretação dos resultados: A idade média dos indivíduos pesquisados é de 33,83 anos,
com desvio padrão de 10 anos. Dos 23 indivíduos avaliados, 50% deles têm idade até 35 anos
e os outros 50% têm idade igual ou maior a 35 anos. A menor idade desta amostra é 19 anos e
a maior é 55. Tem-se um conjunto de dados homogêneos, posto que o coeficiente de variação
assume valor menor que 30%.
Seção 7.4
Tabelas Simples para as Variáveis Qualitativas
e para as Variáveis Quantitativas com Pouca Variabilidade
Para elaborar uma tabela simples a partir de um banco de dados utilize o comando relatório de
tabela dinâmica. Atenção: este é disponibilizado diferentemente no Excel 2003 e no Excel 2007.
No Excel 2003:
Escolha a opção Relatório de tabela e gráfico dinâmico no menu Dados, sendo apresentada
a tela da Figura 7.
136
EaD
métodos estatísticos e a administração
A opção de tabela dinâmica já está marcada; caso deseje um gráfico você deve selecionar
a segunda opção, conforme Figura 7.
Neste momento você escolhe o modo de apresentação da tabela (layout), mostrada na figura
10. Para escolher o local de apresentação das categorias da variável você deve arrastar o botão
apresentado à direita da tela, referente à variável de interesse, até o corpo da tabela sobre Linha.
Depois, arraste novamente o botão da variável para o centro do corpo da tabela para calcular
frequência absoluta (n), ou seja, contar as categorias. Deve aparecer no botão: Contar de nome_
da_variável. Caso isso não ocorra, clique duplo sobre o botão e escolha a opção ContNúm.
137
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Para calcular a frequência relativa percentual, você deve novamente arrastar o botão da
variável até o centro do corpo da tabela e clicar duplo sobre o botão, sendo apresentada a tela
da Figura 11, clique em Opções e no campo Mostrar dados como, selecione a opção % do total
e clique no botão ok.
138
EaD
métodos estatísticos e a administração
Para formatar a tabela clique no botão Formatar Relatório na barra de ferramentas do re-
latório e escolher o Relatório 7. A tabela ficará assim:
No Excel 2007:
Clique no menu Inserir e na opção Tabela dinâmica e aparecerá a janela da Figura 13.
Se o banco de dados (área com as informações da pesquisa) não estiver selecionado você deve
selecioná-lo com o mouse e após clique no botão ok.
139
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
, duas vezes. Deve aparecer ContNúm em cada botão de valores, caso não estiver
aparecendo então clique com o mouse sobre o primeiro botão e escolha a opção configurações
do campo valor. Aparecerá a janela da Figura 15.
140
EaD
métodos estatísticos e a administração
Na janela da Figura 15: marque a opção ContNúm e no botão ok, assim aparecerá o valor
absoluto na tabela simples (segunda coluna). Clique sobre o segundo botão e escolhe a opção
configurações do campo valor.
Marque a opção ContNúm e clique na ficha mostrar valores como e escolher a opção % do
total, conforme Figura 16; assim aparecerá o valor relativo percentual na tabela simples (terceira
coluna). A tabela para este exemplo está apresentada na Figura 17.
141
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
No cabeçalho da tabela substitui-se contar de sexo por n e contar de sexo 2 por %, assim
obtém-se a tabela 1 (Figura 18).
Interpretação: 69,57% dos indivíduos entrevistados são do sexo feminino e 30,43% dos
indivíduos entrevistados são do sexo masculino.
Seção 7.5
Tabelas Cruzadas
No Excel 2003:
Selecione mais uma variável para o corpo da tabela conforme a Figura 19, colocando-a
sobre a Coluna. Finalizando todo o processo aparecerá a tabela cruzada conforme Figura 20.
142
EaD
métodos estatísticos e a administração
No Excel 2007:
143
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
144
EaD
métodos estatísticos e a administração
Seção 7.6
Gráficos de Setores, Colunas e Barras
Você elabora um gráfico a partir de dados sistematizados (a partir de uma tabela já elaborada)
de forma diferente no Excel 2003 e no Excel 2007. Existem diferentes tipos de gráficos, adequados
para cada tipo de variável. A seguir são apresentados os tipos de gráficos mais usados.
É usado para representar uma variável aleatória. Suas categorias devem totalizar 100%
e é mais indicado quando o número de categorias chega no máximo a 5. Primeiramente você
seleciona as categorias e os valores absolutos ou relativos que serão apresentados no gráfico, a
partir da tabela já elaborada, conforme Figura 24.
No Excel 2003:
Para construir um gráfico de setores no Excel 2003 clique no ícone na barra de ferra-
mentas ou no menu Inserir e escolha a opção Figura e então Gráfico. Neste momento aparecerá
a tela referente ao Assistente Gráfico, como apresentada na Figura 25. Escolha o Tipo de gráfico
Pizza e aparecerá subtipos de gráficos. Você pode escolher um dos seis tipos e então clicar no
botão Avançar.
145
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
A Figura 26 mostra a segunda etapa, quando é apresentada uma prévia do gráfico, permi-
tindo selecionar novamente os dados, se necessário.
Na etapa 3 (Figura 27), clique no campo Título do gráfico e digite o título do gráfico.
146
EaD
métodos estatísticos e a administração
Após, clique na ficha Legenda para alterar o local de posição da legenda ou para excluí-la
(Figura 28).
Na ficha Rótulos de dados (Figura 29) é possível mostrar o nome das categorias e a por-
centagem no gráfico. Após, clique no botão Concluir.
147
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Pode-se personalizar o gráfico, alterando a cor dos setores, trocando a cor do fundo, modi-
ficando o tamanho, tipo e cor da fonte.
Para alterar a cor dos setores você clica uma vez no gráfico, após clica mais uma vez no
setor (fatia) cuja cor deseja alterar e após clica duplo para aparecer o menu de cores. Então,
seleciona-se uma cor ou no botão Efeitos de Preenchimento para utilizar as opções gradiente ou
textura. Na Figura 30 apresenta-se um exemplo de gráfico formatado.
Masculino
30%
Feminino
70%
Gráfico de Colunas
Utilizamos um gráfico de colunas simples ou barras simples para representar uma variável
aleatória. O procedimento é o mesmo adotado no gráfico de setores, mas na etapa 3 (Figura 31)
digitamos além do título do gráfico, o título do eixo x (horizontal) e o título do eixo y (vertical).
148
EaD
métodos estatísticos e a administração
% 80,00
70,00
60,00
50,00
40,00
30,00
20,00
10,00
0,00
Feminino Masculino
sexo
Gráfico de Barras
149
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Masculino
sexo
Feminino
No Excel 2007:
Para construir um gráfico de setores (pizza) no Excel 2007, utilize o menu Inserir e escolha
gráfico de pizza, conforme a Figura 34.
150
EaD
métodos estatísticos e a administração
Clique com o mouse na área do gráfico (parte branca dentro do retângulo) e clique na
opção Layout 1 no menu Design, conforme Figura 36.
151
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Você pode clicar com o mouse sobre o Título do Gráfico para editá-lo e então digitar o título
para o seu gráfico. Ainda, pode mudar o estilo do gráfico clicando no menu Design e então em
Estilo (Figura 38).
152
EaD
métodos estatísticos e a administração
Você pode clicar na área do gráfico (parte branca dentro do retângulo) e usar a opção do
menu Design para alterar definições do gráfico: em Layout do gráfico você pode incluir o título
do gráfico e os valores. Clicando com o mouse no título é possível editar e colocar o título para
o seu gráfico, conforme Figura 40.
153
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Quando desejamos representar os resultados de uma tabela cruzada num gráfico podemos
optar pelo gráfico de colunas agrupadas ou barras agrupadas. Primeiramente devemos digitar a
tabela cruzada no Excel conforme a Figura 41 e selecioná-la. Tomemos como exemplo a tabela
cruzada da satisfação com atendimento em relação ao sexo dos clientes da empresa Costa. O
procedimento para a elaboração do gráfico de colunas agrupadas ou gráfico de barras agrupadas
é semelhante à elaboração do gráfico de colunas simples e barras simples, porém agora a legenda
deverá aparecer, conforme Figura 42.
n 10
8
6 F
4 M
2
0
I MI MM MS S
Satisfaçao
Seção 7.7
Histograma e Polígono de Frequências
154
EaD
métodos estatísticos e a administração
Tabela 1: Rendimento médio nominal do trabalho principal, habitualmente recebido por mês, pelas pessoas de 10 anos
ou mais de idade, ocupadas na semana de referência, em Porto Alegre, Janeiro/2005 a Dezembro/2007
R$ Fi frac % xi
903 |-– 939 5 13,89 921
939 |-– 975 11 44,45 957
975 |-– 1011 5 58,34 993
1011 |-– 1047 5 72,23 1029
1047 |-– 1083 6 88,89 1065
1083 |-– 1119 4 100,00 1101
Total 36 - -
Nota: Não incluídos trabalhadores não remunerados e trabalhadores que receberam so-
mente em benefícios.
No Excel 2003:
Após, no menu inserir, escolhemos a opção gráfico e após o tipo de gráfico de colunas e
executamos o procedimento conforme descrito anteriormente. Quando o gráfico tiver sido con-
cluído (Figura 44) clicamos com o botão direito do mouse sobre uma das colunas do gráfico e
então aparecerá o menu da Figura 45; neste escolhemos a opção formatar série de dados. Assim,
aparecerá a tela da Figura 46, clicar na ficha opções e em largura do espaçamento digitar 0. O
histograma é apresentado na Figura 47.
155
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
Histograma
fi 12
10
8
6
4
2
0
903 |-- 939 939 |-- 975 975 |-- 1011 1011 |-- 1047 1047 |-- 1083 1083 |-- 1119
R$
156
EaD
métodos estatísticos e a administração
Polígono de freqüência
n 12
10
8
6
4
2
0
03 39 75 11 04
7
08
3
11
9
15
5
-- 9 -- 9 -- 9 10 -- 1 -- 1 -- 1 -- 1
7| 3| 9| 5|
--
1| 7| 3| 9|
86 90 93 97 1 4 8 1
10 10 10 11
R$
No Excel 2007:
Após, no menu inserir, escolhemos a opção gráfico e após o tipo de gráfico de colunas 2 D
e o gráfico da Figura 50 será apresentado. Em layout do gráfico escolhemos o layout 8 (Figura
51) e o gráfico da Figura 52 será apresentado. Clicamos com o botão direito do mouse sobre uma
das colunas do gráfico e no menu escolhemos formatar série de dados e, então escolhemos a
opção cor da borda conforme Figura 53. Nesta escolhemos linha sólida e cor preta. O histograma
é apresentado na Figura 54.
157
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
158
EaD
métodos estatísticos e a administração
Seção 7.8
Gráfico de Linha
159
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
No Excel 2003:
Após, no menu inserir, escolhemos a opção gráfico e a seguir o tipo de gráfico de linha e
executamos o procedimento conforme descrito anteriormente. Digitamos o título do gráfico e o
título dos eixos. Podemos alterar a cor da linha clicando com o botão direito do mouse sobre a
linha. Também podemos alterar a cor do fundo clicando com o botão direito do mouse. O gráfico
de linha é apresentado na Figura 56.
No Excel 2007:
Após, no menu inserir, escolhemos a opção gráfico e a seguir o tipo de gráfico de linha 2 D
e executamos o procedimento conforme descrito anteriormente. Em layout do gráfico escolhemos
o layout 1 (Figura 57). Digitamos o título do gráfico e o título dos eixos. Deletamos a legenda.
Podemos alterar a cor da linha clicando com o botão direito do mouse sobre a linha e escolhemos
a opção formatar série de dados. O gráfico de linha é apresentado na Figura 58.
160
EaD
métodos estatísticos e a administração
RESUMO DA UNIDADE 7
A planilha eletrônica Excel é uma boa alternativa para alunos que estão
se iniciando nos métodos estatísticos, por ser de fácil acesso, posto que
grande parte dos usuários domésticos e organizações possuem o pacote
Microsoft Office.
161
EaD
Referências
métodos estatísticos e a administração
ANDRADE MARTINS, Gilberto. Estatística geral e aplicada. São Paulo: Ed. Atlas, 2002.
BATTISTI, I. E.; KIRCHNER, R. M.; FRICKE R. M. Rotinas da planilha eletrônica Excel para
uso em estatística descritiva. Ijuí: Ed. Unijuí, 2003. (Cadernos Unijuí).
CORRAR, L. J.; PAULO, E.; DIAS FILHO, J. M. Análise multivariada para os cursos de Admi-
nistração, Ciências Contábeis e Economia. São Paulo, Ed. Atlas, 2007.
COSTA, Sérgio Francisco. Introdução ilustrada à estatística. São Paulo: Ed. Harbra, 1988.
DOWNING, D.; CLARK, J. Estatística aplicada. São Paulo: Ed. Saraiva, 2000.
FRICKE, R. M. Estatística aplicada aos fenômenos sociais. Ijuí: Unijuí, 2008b. Apostila.
KMENTA, J. Elementos de econometria. Teoria econométrica básica. 2. Ed. São Paulo: Ed. Atlas,
1988. V. 1.
163
EaD
Ruth Marilda Fricke – Iara Denise Endruweit Battisti – Antonio Édson Corrente
MORETTIN, P. A.; TOLOI, C. M. Série temporais. Série Métodos Quantitativos. 2. ed. São Paulo:
Ed. Atual, 1987.
164