Escolar Documentos
Profissional Documentos
Cultura Documentos
Métodos estatísticosPauloBarros764 PDF
Métodos estatísticosPauloBarros764 PDF
Srie Livro-Texto
MTODOS
ESTATSTICOS
Catalogao na Publicao:
Biblioteca Universitria Mario Osorio Marques Uniju
B336m
Sumrio
APRESENTAO ............................................................................................................................5
REFERNCIAS ..............................................................................................................................79
Apresentao
Gerson Battisti
battisti@unijui.edu.br
Conhecendo os Professores
Gerson Battisti nasceu em 23 de novembro de 1972 no municpio de Rodeio Bonito (Rio Grande do Sul). Cursou Informtica
na Universidade Regional do Noroe ste do Estado do Rio Grande
do sul (Uniju) de 1990 a 1993. Fez Mestrado em Cincia da Computao na Universidade Federal do Rio Grande do Sul entre 1997
e 1999 e Doutorado entre 2002 e 2007.
Atua como professor de Informtica e Cincia da Computao na Uniju desde agosto de 1994.
Unidade 1
Conceitos Bsicos
Objetivos Desta Unidade
Compreende r o que Estatstica e seus conceitos bsicos.
Seo 1.1
Conceitos Bsicos
Voc j ouviu a palavra Estatstica? O que voc lembra quando escuta esta palavra?
O que voc lembra quando ouve a palavra probabilidade? Se voc respondeu nmeros, grficos, tabelas, contas, ento acertou em parte, pois a Estatstica muito mais que isso. Alm
de fornecer mtodos para gerar tabelas e grfi cos e produzir resultados por meio de contas,
a Estatstica tambm dispe de mtodos para coletar dados e auxiliar na anlise destes.
Lembra das pesquisas eleitorais que freqentemente so feitas antes das eleies para
prefeito, vereadores, presidente e deputados? Nestas so aplicados os mtodos estatsticos,
isto , primeiramente a pesquisa planejada: quantos indivduos sero entrevistados, como
9
E stat s ti ca
um conjunto de tcn icas
para a coleta, organizao ,
anlise e interpretao
de dados.
Ento, a Estatstica fornece mtodos para a coleta, organizao, anlise e interpretao de dados. Apresentaremos neste
componente curricular uma introduo aos mtodos estatsticos
necessrios para apoiar as tomadas de deciso na gesto pblica.
O estudo de todos os elementos de uma populao chamado de censo. Realizar um censo necessita de tempo e tem custo elevado, assim, freqenteme nte, utilizamos uma amostra da
populao.
10
Classificamos as variveis aleatrias em qualitativas e quantitativas. As variveis qualitativas tm seus valores (respostas para cada questo do questionrio) no numricos,
como sexo, estado civil, nvel de escolaridade, bairro, profisso, nvel de satisfao. As variveis quantitativas tm seus valores numricos, tais como: idade, peso, salrio, tempo de
servio, nmero de filhos.
As variveis qualitativas so subdivididas em nominais e ordinais. Quando as diferentes categorias (respostas) no tm relao entre si, ou seja, so independentes, classificamos a varivel como qualitativa nominal, por exemplo, sexo, est ado civil, curso de graduao e bairro. Por outro lado, quando as categorias tm uma re lao entre si, geralmente
atribuindo nveis, como o n vel de escolaridade e o grau de satisfao do cliente, so denominadas qualitativas ordinais.
As variveis quantitativas so subdivididas em discretas e contnuas. As primeiras assumem somente valores numricos inteiros como: nmero de filhos, nmero de alunos, nmero de computadores. J as variveis quantitativas contnuas podem assumir qualquer
valor numrico, resultado de uma medida, como: peso, idade e salrio. Nesta ltima classificao os valores geralmente so registrados at a preciso da medida utilizada, por exemplo, a idade de uma pessoa pode ser registrada em anos (25 anos), meses (310 meses) ou
ainda em anos e meses (25 anos e 10 meses).
11
A classificao das variveis muito importante, pois diferentes tipos de variveis exigem tratamentos estatsticos especficos, por exemplo: qual a idade mdia das mulheres
que exercem atividade remunerada? Qual a proporo (percentual) de mulheres que trabalham fora o dia todo?
Estatstica descritiva e inferncia estatstica: a estatstica descritiva o conjunto de
mtodos para descrever e sistematizar os dados de uma amostra ou uma populao, por
meio de tabelas, grficos e medidas descritivas, sendo que estes mtodos sero descritos nas
prximas sees. A infernci a estatstica o conjunto de mtodos para projetar os resultados de uma amostra para uma populao. Veja que a figura 2 representa a estatstica descritiva e a inferncia estatstica.
12
Dados primrios e dados secundrios: os dados primrios esto disponveis na sociedade (idade, sexo, estado civil...) e os secundrios esto organizados de alguma forma, geralmente nos meios de comunicao e publicaes cientficas (tabelas, grficos...).
Regra do arredondamento: na apre sentao dos resultados dos clculos usamos a
regra do arredondamento para quebrar o nmero na quantidade de casas decimais desejadas ou padronizadas, da seguinte forma:
se o algarismo a ser excludo for 0, 1, 2, 3, 4 o algarismo que permanece no alterado;
se o algarismo a ser excludo for 5, 6, 7, 8, 9 o algarismo que permanece aumenta de uma
unidade.
Por exemplo:
o nmero 23,578 fica 23,6 considerando uma casa decimal
o nmero 23,538 fica 23,5 considerando uma casa decimal
o nmero 23,98 fica 24,0 considerando uma casa decimal
Seo 1.2
Aplicao dos Mtodos Estatsticos
A Estatstica aplicada em diversas reas do conhecimento. Aqueles que se valerem
dos mtodos estatsticos estaro mais preparados para organizar e analisar os dados em sua
atuao profissional, como tambm nas informaes que so divulgadas dia-a-dia nos meios
de comunicao.
Na rea das Cincias Humanas e Sociais podemos fazer uma pesquisa de opinio para
conhecer a satisfao dos clientes de uma empresa em relao aos servios prestados ou a
opinio dos habitantes de um municpio sobre as prioridades de investimento pblico ou
ainda para acompanhar o valor da cesta bsica.
13
No mbito das Cincias Agrrias podemos fazer pesquisa para determinar a quantidade adequada de adubo em uma plantao. Na Engenharia podemos realizar uma pesquisa
para saber a resistncia de uma coluna de concreto. Esses so alguns exemplos da grande
aplicao que a Estatstica tem em todas as reas do conhecimento.
Nosso interesse pode ser analisar dados secundrios, como os dados que o IBGE (Instituto Brasileiro de Geografia e Estatstica <www.ibge.gov.br>) ou os dados que o Datasus
(<www.datasus.gov.br>) disponibilizam.
Muitas vezes utilizamos o conh ecimento dos mtodos estatsticos para compreender
melhor os dados que so di sponibilizados nos meios de comunicao, como a TMI (Taxa de
Mortalidade Infantil), INPC (ndice Nacional de Preos ao Consumidor) e tantos outros.
SNTESE DA UNIDADE 1
14
Unidade 2
Tabelas
Objetivos Desta Unidade
Verificar como apresentamos os dados em uma tabela.
Interpretar os resultados de uma tabela.
Seo 2.1
Representao de Dados em Tabelas Simples
Na tabela podemos apresentar vrios dados de forma organizada, facilitando o entendimento. Geralmente apresentamos um texto logo aps a tabela com a anlise dos dados. Para
sintetizar os dados numa tabela seguimos algumas normas, como apresentamos a seguir.
15
Tab el a si m p le s
Utiliza- se uma tab ela simples
para repr esentar as respostas
de u ma var ivel aleatria.
Ttulo
Corpo
Fonte
Quando elaboramos um ttulo de uma tabela tentamos responder a trs perguntas: O qu? Onde? Quando?
Na fonte apresentamos a orige m dos dados; se estes forem
originrios de fonte secundria obrigatrio apresentar. O tamanho de letra da fonte menor do que a do corpo da tabela. Na
linha abaixo da fonte pode ser apresentada uma nota de esclarecimento sobre a tabela. As late rais no possuem borda (trao),
somente uma borda horizontal superior e uma horizontal inferior
para delimitar o corpo da tabela, e mais uma borda para separar
o cabealho do resto da tabela. Se a tabela possui uma linha do
total ento devemos colocar uma borda acima e abaixo desta linha. Se existir mais de uma tabela estas so numeradas em ordem seqencial.
Na tabela simples so apresentados os valores referentes
s categorias (respostas) de uma varivel aleatria, possui geralmente tr s colunas, como representado a seguir:
Ttulo
Nome da varivel
Categoria 1
Categoria 2
Categoria 3
Total
Fonte
16
A primeira linha do corpo da tabela o seu cabealho, e usada para identificar o que
cada coluna contm. Em uma tabela simples, na primeira coluna apresentamos as categorias da varivel aleatria, na segunda aprese ntamos a quantidade de vezes (freqncia absoluta) que cada categoria aparece e na terceira coluna apresentamos o percentual (freqncia relativa) para cada categoria.
Utilizamos a freqncia absoluta para orde nar as categorias de uma varivel qualitativa nominal na tabela (Tabela 1). Nas variveis qualitativas ordinais e quantitativas, ordenamos as categorias por ordem crescente (ou decrescente) das prprias categorias (Tabela
2). A se guir alguns exemplos de tabe las simples:
Tabela 1: Distribuio por sexo, Rio Grande do Sul, 2007
n1
Feminino
3.150.909
50,44
Masculino
3.095.615
49,56
Total
6.246.524
100,00
Sexo
Nvel de satisfao
Muito satisfeito
57
24,8
Satisfeito
73
44,5
Mais ou menos
10
6,1
Insatisfeito
21
12,8
Muito insatisfeito
1,8
Total
164
100,00
17
Observamos na Tabela 2 que a maioria (24,8% + 44,5%) dos clientes est muito satisfeito ou satisfeita. As freqncias so apre sentadas na ordem decrescente das cate gorias
(iniciando em muito satisfei to e finalizando e m muito insatisfeito) por estarmos analisando
uma varivel qualitativa ordinal.
Muito satisfeito =
57
100 = 24,8%
164
Ms
Janeiro
Fevereiro
Maro
Abril
Maio
Junho
Julho
Agosto
Setembro
Outubro
Novembro
Dezembro
Valor
1008,7
1040,6
1057,3
1055,7
1057,2
1068,0
1080,1
1074,6
1095,8
1090,0
1108,8
1114,4
18
Ta be la s cr u z ad a s
Seo 2.2
O formato de uma tabela cruzada, com duas variveis aleatrias, apresentado a seguir:
Ttulo
Nome da varivel 2
Nome da varivel 1
Categoria 1 da
Categoria 2 da
Total
varivel 2
varivel 2
Categoria 1 da varivel 1
n (%)
n (%)
n (%)
Categoria 2 da varivel 1
n (%)
n (%)
n (%)
Categoria 3 da varivel 1
n (%)
n (%)
n (%)
Total
n (%)
n (%)
n (%)
Fonte
Temos trs for mas de apresentar o percentual (%) numa tabela cruzada: por linha, por coluna e por total. Isto , quando
quere mos comparar as categorias da varivel 1, utilizamos o
percentual por linha. Quando o intuito comparar as categorias
da varivel 2, utilizamos o percentual por coluna. O percentual
total considera todos os elementos pesquisados. Vamos utilizar o
exemplo a seguir para facilitar a compreenso:
19
Nvel de satisfao
Sexo
Total
Feminino
Masculino
Muito satisfeito
43 (44,3%)
14 (20,9%)
57 (24,8%)
Satisfeito
44 (45,4%)
29 (43,3%)
73 (44,5%)
Mais ou menos
4 (4,1%)
6 (9,0%)
10 (6,1%)
Insatisfeito
5 (5,2%)
16 (23,8%)
21 (12,8%)
Muito insatisfeito
1 (1,0%)
2 (3,0%)
3 (1,8%)
Total
97 (100,0%) 67 (100,0%)
164 (100,0)
Na Tabela 4 estamos comparando o nvel de satisfao entre os sexos, assim calculamos o percentual (%) na coluna, por exemplo:
43
100 = 44,3%
97
14
100 = 20,9%
67
Observamos que 89,7% (44,3% + 45,4%) das m ulhe re s esto muito sati sfei tas ou
satisfei tas, enquanto 65,2% (20,9% + 43,3%) dos homens esto sat isfeitos ou muito satisfeitos.
Seo 2.3
Representao de Dados em Tabela de Distribuio de Freqncias
Uma tabela de distribuio de freqncia utilizada para representar respostas de
uma varivel aleatria quantitativa quando o tamanho do conjunto de dados maior ou
igual a 20 (n 20).
20
Ms
Janeiro
Fevereiro
Maro
Abril
Maio
Junho
Julho
Agosto
Setembro
Outubro
Novembro
Dezembro
2005
903,2
940,3
915,0
913,7
922,9
930,0
940,8
950,8
956,2
967,2
941,4
957,2
2006
953,0
971,3
981,2
969,6
988,7
972,1
996,1
1004,9
1016,2
1019,5
1035,6
1023,4
2007
1008,7
1040,6
1057,3
1055,7
1057,2
1068,0
1080,1
1074,6
1095,8
1090,0
1108,8
1114,4
Para visualizar os dados brutos da Tabela 5 acesse o site do IBGE no seguinte link:
<ht tp://www.ibge .gov.br/h ome/e statistica/indicadores/trabalhoere ndi mento/pme _nova/
default.shtm>.
As primeiras informaes que podemos obter desta tabela o nmero de dados, o valor
mnimo, o valor mximo e a amplitude total, como segue:
n = nmero de dados, para este exemplo n = 36 (valores do rendimento nominal em 36 meses)
Li = limite inferior ou valor mnimo, para este exemplo Li = 903,2
Ls = limite superior ou valor mximo, para este exemplo Ls = 1114,4
At = Ls Li = amplitude total (variao entr e o maior e o menor valor), para este ex emplo
At = 1114,4 903,2 = 211,2
21
Assim, podemos concluir que nos 36 meses analisados, o rendimento m dio mnimo
das pessoas residentes em Porto Alegre foi de R$ 903,20 e o rendimento mdio mximo foi de
R$ 1.114,40, nos meses de janeiro/2005 e dezembro/2007 respectivamente. Da mesma forma, pode-se afirmar que a variao entre o menor e maior valor foi de R$ 211,20, isto , a
variao entre o rendimento mdio mnimo e o rendimento mdio mximo.
O nmero de intervalos que sero utilizados para construir a tabela pode ser definido
de forma aleatria, porm em determinados casos o uso de poucos ou muitos intervalos
pode esconder informaes relevantes sobre os dados. Para evitar estes problemas existe
uma pequena frmula para calcular a amplitude dos intervalos de acordo com a quantidade
de dados existentes e ampli tude total dos dados. A frmula a seguinte:
hi =
At
n
Em que:
hi : tamanho do intervalo
n
: nmero de intervalos
At : amplitude total
Rele mbrando, o n representa o nmero de dados que estamos analisando. Neste exemplo, so os valores que representam o rendimento mdio do trabalhador nos anos de 2005,
2006 e 2007, de acordo com a Tabela 5. A amplitude total a diferena do maior valor pelo
menor valor presente nos dados (211,2).
hi =
22
211, 2
= 35,2
36
Quando o valor de hi gerado um valor com casas decimais, podemos aproxim-lo para um valor prximo inteiro, de
acordo com a preciso desejada. Neste caso aproximamos para
cima, logo, hi = 36.
Uma vez de finido o hi, podemos iniciar a construo da ta-
|
O sinal | representa
intervalo, on de o valor que
est esquerda pertence ao
intervalo, mas o valor da direita
no per ten ce ao intervalo.
O valor da direita ser considerado no prximo intervalo.
Intervalos
Contagem
Freqncia (n)
/////
///////////
11
/////
/////
//////
////
No intervalo 903 | 939 temos 5 valores, no intervalo 939 | 975 temos 11 valores e
assim por diante.
R$
fi
fa
fr
fr%
frac %
xi
0,1389
13,89
13,89
921
11
16
0,3056
30,56
44,45
957
21
0,1389
13,89
58,34
993
26
0,1389
13,89
72,23
1029
32
0,1666
16,66
88,89
1065
36
0,1111
11,11
100,00
1101
Total
36
1,0000 100,00
24
O u t l i er
um valor muito diferenciado
dos demais, um valor
extr emo, muito alto ou muito
baixo. Tambm pode existir
mais que um valor outlier.
Todo investigador j deparou
co m um con ju nto de dados em
que algumas observaes se
afastam demasiado d as
restantes, par ecendo que
foram geradas por u m
mecanismo diferente. As
observaes que apresentam
um grande afastamento d as
restantes ou so inconsistentes
co m elas so habitualmen te
designad as por outliers. Veja
no gr fico ilustrativo , o ponto
impresso em preto-e-branco
isolado, distante dos demais
um exemplo do que chamamos
de outlie rs, u m dado que
fog e do padro dos demais.
fr% = f reqncia relativa percentual. a fr do intervalo multiplicado por 100. Para o primeiro intervalo 0,1389 x 100 = 13,89.
frac%= freqncia relativa acumulada percentual. Representa
o valor, em percentual, at o limite superior do intervalo considerado. A frac% do segundo intervalo, por exemplo, igual a
fr% do primeiro intervalo mais a fr% do segundo intervalo (13,89
+ 30,56 = 44,45).
<http://
mathworld.wolfram.com/
images/eps- gif/
OutlierScatterplot_100 0.gif>
outlier .
25
B an co ( p la ni l h a) d e d ad o s
Banco de Dado s ou planilha de
dados: num banco de dados
apresentamos as respostas de
cada varivel (questo do
qu estionr io) numa co lu na e
cada indivduo nu ma linha. a
forma de ap resentarmos e
org anizarmos os dados br utos
da pesquisa para depois
elaborarmos tabelas e g rficos.
Agora, para finalizar esta unidade, vamos exercitar o contedo analisando os resultados de uma pesquisa de satisfao
realizada, por amostragem, com clientes da empresa Costa (empresa fictcia), em maio de 2008 para construir uma tabela simples da varivel sexo, uma tabela cruzada das variveis sexo e
satisfao com o atendimento.
Banco (planilha) de dados da pesquisa de satisfao na empresa Costa
Cliente
Sexo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
F
F
F
M
F
F
F
F
M
F
M
F
F
F
F
M
F
F
F
M
F
M
M
Satisfao com
atendimento
MS
S
++S
S
++S
I
S
S
MI
S
S
MS
S
S
S
I
+S
MS
Satisfao com
preo
MS
++S
S
MS
+S
I
I
S
+++I
S
+S
S
+S
S
S
Nota
geral
10
7
6
7
8
9
7
7
5
5
8
8
9
9
7
10
8
8
9
7
7
8
9
Idade
22
26
32
35
23
27
22
37
41
40
35
35
37
22
21
19
40
51
55
45
46
33
34
Para construir uma tabela simples para a varivel sexo precisamos contabilizar quantos F e quantos M ocorreram na
pesquisa. Observamos que existem 16 F correspondendo ao sexo
feminino e 7 M correspondendo ao sexo masculino. Aps, apresentamos esses valores na tabela simples segui ndo as normas na
seo 2.1, como segue:
26
Sexo
Feminino
16
69,57
Masculino
30,43
Total
23
100,00
Para calcular o pe rcentual do sexo feminino: 16/23 x 100 = 69,57%, e para o sexo
masculino: 7/23 x 100 = 30,43%, lembrando que o total do percentual sempre deve ser =
100%.
Para construir uma tabela cr uzada da satisfao com atendimento em relao ao sexo
precisamos contabilizar quantos F, e quantos M temos como muito satisfeito (MS) e da
mesma forma precisamos contabilizar quantos F e quantos M temos como satisfeito
(S), e assim sucessivamente.
Observando a planilha de dados percebemos que temos dois F com MS, temos
cinco M com S, e assim por diante. Aps apresentamos esses valores na tabela cruzada
seguindo as normas da seo 2.2, como segue:
Sexo
Satisfao
Total
MS
12
+-
MI
Total
16
23
SNTESE DA UNIDADE 2
Nesta unidade vimos como organizar os dados numa tabela simples, a qual usada para apresentar os valores de uma varivel
aleatria.Tambm aprendemos como apresentar os valores de duas
variveis aleatrias numa tabela cruzada.E, ainda, quando temos uma
varivel quantitativa com n 20 utilizamos uma tabela de distribuio de freqncia.
28
Unidade 3
Grficos
Objetivos Desta Unidade
Verificar como apresentamos os dados em um grfico.
Os grficos so figuras que empregamos para apresentar os dados. Eles tm a vantagem de serem mais atrativos que as tabelas e muitas vezes facilitam a visualizao do comportamento dos dados. Existem difer entes tipos de grficos adequados para diferentes situaes, como apresentamos em cinco sees.
Para melhor visualizao dos grficos apresentados nesta unidade, consulte a apostila
em meio virtual, disponibilizada na biblioteca do Conecta.
Seo 3.1
Grficos para Representar Variveis
Qualitativas e Quantitativas Discretas
As variveis qualitativas nominais ou ordinais, as variveis quantitativas discretas
com pouca freqncia de diferentes respostas e as variveis quantitativas contnuas com
menos de 20 dados podem ser representadas nos tipos de grficos apresentados nesta seo.
Centro - Oeste
7%
Sul
13%
Norte
13%
Sudeste
31%
Nordeste
36%
30
Interpretao do grfico: constata-se que as regies Sudeste e Sul receberam o menor valor por habitante no ms de junho de 2008.
31
32
Interpretao do grfico: observamos que mais de 80% dos domiclios possuem fogo,
geladeira, rdio e televiso, e que aumentou o n de domiclios com geladeira e televiso
entre 2005 e 2006.
Seo 3.2
Grfico para Representar uma Srie Temporal Grfico de Linha
O grfico de linha empregado para representar uma srie temporal, ou seja, uma
escala de tempo em que o evento ser mostrado, sendo que no eixo horizontal sempre
apresentado o tempo, com escala proporcional, e no eixo verti cal os valores referentes a
cada tempo.
33
Grfico 6: Taxa de mortalidade infantil (por mil nascidos vivos), 2000 a 2007, Brasil
Fonte: IBGE, Diretoria de Pesquisas, Coord enao de Populao e Indicadores Sociais.
Seo 3.3
Grfico para Representar duas Variveis Quantitativas Grfico de Disperso
Utiliza-se o grfico de disperso quando temos duas variveis quantitativas. Representamos uma varivel em cada eixo, como no Grfico 7. Os valores da varivel altura so
representados no eixo horizontal e os valore s da varivel peso so representados no eixo
vertical. Com este grfico possvel visualizar a existncia de uma relao entre as duas
variveis.
kg
75
70
65
60
55
50
45
40
145
150
155
160
165
170
175
180
cm
Grfico 7: Distribuio do peso em relao a altura dos alunos da turma X, maro/2005, Uniju
Fonte: Construo dos autores.
34
Interpretao do grfico: Observamos uma relao linear direta entre a altura e o peso,
isto , quanto maior a altura, em mdia, tambm o peso.
Seo 3.4
Grfico para Representar uma Distribuio de Freqncia
Na seo 2.3 vimos como organizar os dados numa tabela de distribuio de freqncia. Se desejamos organizar os mesmos dados em um grfico precisamos utilizar os grficos
adequados, o quais so apresentados nesta seo: histograma e polgono de freqncia.
Da mesma forma, muitas vezes os dados secundrios so apresentados em histogramas e
polgonos de freqncias. Assim precisamos saber interpret-los, como veremos na seqncia.
3.4.1 HISTOGRAMA
O histograma o grfico adequado para apresentar uma distribuio de freqncia,
consta de colunas verticais agrupadas apresentando no eixo horizontal os valores (limites
dos intervalos) da varivel quantitativa e no eixo vertical a fi ou fr ou fr%, conforme o exemplo a seguir (retome seo 2.3 caso no lembre o que fi, fr, fr%).
35
36
Seo 3.5
Outros Tipos de Grficos
Existem outros tipos de grficos para situaes mais especficas, como a pirmide etria
e o cartograma. Os grficos com figuras so muito utilizados nos meios de comunicao,
como publicidade para chamar a ateno do leitor ou consumidor.
37
3.5.2 CARTOGRAMA
Os cartogramas so utilizados quando se tem uma srie geogrfica (dados coletados
em diferentes locais), adotando-se mapas para atrair a ateno ou facilitar a visualizao.
Na figura a seguir so representados os Estados do Brasil com sua respectiva populao. Os
Estados com cor mais escura so os mais populosos (acima de 10 milhes de habitantes,
conforme legenda do grfico) e os Estados com cor mais clara os menos populosos (abaixo
de 2 milhes). Os demais situam-se entre 2 milhes e 8 milhes de habitantes, representados
pelos tons intermedirios.
SNTESE DA UNIDADE 3
Vimos que existem vrios tipos de grficos para representar
as variveis aleatrias. Alguns so mais indicados para variveis
qualitativas e outros so mais apropriados para variveis quantitativas. Na Unidade 5, veremos como construir esses grficos em
uma planilha eletrnica.
38
Unidade 4
Medidas Descritivas
Objetivos Desta Unidade
Compreender o clculo de medidas descritivas.
Verificar como escolhemos a medida descritiva mais adequada.
Interpretar os resultados das medidas descritivas.
At agora vimos como resumir as informaes em tabelas e grficos para facilitar sua
visualizao e compreenso. Muitas vezes, porm, quando desejamos estudar variveis quantitativas, utilizamos tamb m outros mtodos estatsticos medidas descritivas para complementar a anlise dos dados, as quais abordaremos nesta unidade.
Municpio A:
R$ 780
R$ 1.200
R$ 550
R$ 600
R$ 1.500
R$ 750
R$ 980
Obtemos o valor R$ 908,57 para representar o salrio mdio desses habitantes pela
mdia aritmtica (veremos a seguir como calcular a mdia aritmtica). Observe que alguns
habitante s tm salrios menores que a mdia e outros tem salrios maiores que a mdia.
Ainda precisamos de outra medida para representar como os dados esto dispostos em torno
do valor mdio, isto , se os valores esto mais distantes ou mais prximos da mdia. Este
valor R$ 342,85, que representa o desvio-padro (veremos a seguir como calcular o desviopadro), revelando uma grande disperso entre os valores, pois temos habitantes recebendo
desde R$ 550,00 at R$ 1.500,00, este ltimo quase trs vezes maior que o primeiro.
Municpio B:
R$ 908,57 R$ 908,57 R$ 908,57 R$ 908,57 R$ 908,57 R$ 908,57 R$ 908,57
Obtemos o valor R$ 908,57 como o salrio mdio desses habitantes e o valor R$ 0,00
como desvio-padro. Obser vamos que o salrio mdio dos municpios A e B so iguais,
porm os valores associados a cada habitante diferem bastante entre os dois municpios: no
municpio A, o salrio entre os habitantes diverge muito, representado pelo alto valor do
desvio-padro. J no municpio B os salrios entre os habitante s no diferem, representado
pelo valor nulo do desvio-padro.
40
Municpio C:
R$ 780
R$ 800
R$ 950
R$ 1.100
R$ 930
R$ 950
R$ 850
Municpio D:
R$ 1.780
R$ 1.800
R$ 1.950
R$ 2.100
R$ 1.930
R$ 1.950
R$ 1.850
O salrio mdio dos habitantes do municpio D R$ 1.908,57, muito mais alto que nos
demais municpios. O desvio-padro dos salrios do municpio D R$ 109,76, igual ao
desvio-padro do municpio C, porm proporcionalmente a disperso dos valores dos salrios
em torno da mdia no municpio D menor. Neste caso, interessante utilizar outra medida
de disperso coeficiente de variao para comparar a disperso dos dados entre os municpios C e D, como veremos adiante.
Com esse exemplo percebemos que importante apresentar uma medida de posio
para representar o centro de um conjunto de dados e uma medida de disperso para representar a disposio dos valores em torno do valor central. Desta forma, existem dois grupos
de medidas descritivas para tratar dados de variveis quantitativas: medidas de posio e
medidas de disperso, como apresentaremos nesta unidade.
41
Inicialme nte precisamos entender a notao (forma de representao) para representar as variveis: X, Y, Z (letras maisculas) e para representar os valores das variveis: xi , y i , zi
(respectivas letras minsculas). O operador somatrio
x1 + x 2 + x3 + x 4 + x5 + x6 + x 7 = xi
i =1
No lado esquerdo da igualdade temos o somatrio por extenso que pode ser representado pela notao do lado direito. Supomos que a varivel que estamos analisando o
salrio dos habitantes do municpio A, utilizando a letra X para representar a varivel salrio e x1 para representar o salrio do primeiro habitante, x2 para representar o salrio do
segundo habitante e, assim por diante, at o x 7 que representa o salrio do stimo habitante. Utilizamos a notao de somatrio para re presentar de form a resumida a soma dos salrios dos 7 habitantes, isto , ini ciando em i = 1 at i = 7 .
Seo 4.1
Medidas de Posio
As medidas de posio, tambm chamadas de medidas de tendncia central, fornecem
um valor que representa a posio central do conjunto de dados, com os demais dados
dispostos em torno deste. As medidas de posio so: mdia aritmtica, mediana e moda.
42
x=
i =1
Em que:
xi = valores da varivel X
= nmero de dados
Exemplo: vamos calcular a mdia aritmtica para o salrio dos habitantes do municpio A:
5
x=
i =1
xp =
x p
i =1
n
p
i =1
Em que:
xi = valores da varivel X
= nmero de dados
43
O peso atribudo pelo pesquisador, de acordo com a contribuio que desejamos que
cada valor tenha na mdia final. A diferena entre a mdia aritmtica e a mdia ponderada
que na primeira todos os valores contribuem da mesma forma para a mdia final e na
mdia ponderada atribumos pesos diferentes que contribuem para a mdia final.
xp =
x p
i
i =1
3
(9 2) + (6 3) + (3 5)
= 5,1
2 +3+5
i =1
xp =
x p
i =1
3
p
i =1
(3 2) + (6 3) + (9 5)
= 6,9
2 + 3+ 5
Neste caso, observamos que a m dia ponderada maior, pois o aluno obteve a nota
mais alta na avaliao que contribui com mais peso para a nota mdia final.
4.1.3 MEDIANA
A mediana o valor central em relao a um valor mnimo e um valor mxim o, precedido e seguido de um mesmo nmero de dados, isto , 50% dos dados assum em valores
iguais ou menores que o valor da mediana e os outros 50% dos dados assume m valores
iguais ou maiores que o valor da mediana, representada por Md.
44
50%
50%
Li
Md
Ls
Em que:
P( Md ) =
n +1
2
3. Encontrar o valor localizado nesta posio, que corresponder mediana, considerando que:
se o n par a mediana a mdia dos dois valores centrais do conjunto de dados ordenados.
Exemplo: calcule a mediana para o salrio dos habitantes do municpio A: R$ 780,00, R$ 1.200,00,
R$ 550,00, R$ 600,00, R$ 1.500,00, R$ 750,00, R$ 980,00 (nmero de dados mpar).
n +1 7 +1 8
=
= = 4 , isto , a quarta posio
2
2
2
n +1 8 +1 9
=
= = 4,5 , isto , a mediana o valor que est entre a quarta
2
2
2
posio e a quinta posio, neste exemplo entre 780 e 950. Desta forma a mediana ser
2. Calcular: P( Md ) =
780 + 950
= 865 .
2
A mediana tem a vantagem de no ser afetada por valores outliers. Por exemplo: supomos que os habitantes do municpio E recebem os mesmos salrios que os habitantes do
municpio A, com diferena em apenas um salrio: no municpio A = R$ 1.500,00 e no
municpio E = R$ 4.500,00. As medidas para os dois munic pios so:
Municpio
Mdia
Mediana
908,57
780
1.337,14
780
Observamos que a diferena ocorre somente na mdia, pois esta foi afetada pelo alto
valor (outlier) de um salrio no municpio E, mas a mediana no diferiu entre os dois municpios, pois para calcul-la somente consideramos a posio dos valores e no a magnitude
dos valores. Assim, optamos pela mediana quando temos valor outlier, pois esta ir representar melhor o centro do conjunto de dados do que a mdia, como podemos observar nas
figuras a seguir:
46
Municpio A
500
1000
1500
2000
2500
3000
3500
4000
4500
Mdia = 908,57
Mediana= 780
Municpio E
500
1000
1500
2000
2500
3000
3500
4000
4500
Mdia = 1337,14
Mediana= 780
4.1.4 MODA
o valor que mais aparece no conjunto de dados, isto , utilizamos para representar o
valor t pi co d e um conjunt o d e d ad os . r e pre s entad a p or Mo. U ti li zam os mai s
freqentemente em variveis quantitativas discretas.
Exemplos:
1) Calcular a moda para os salrios dos habitantes do municpio A: R$ 780,00, R$ 1.200,00,
R$ 550,00, R$ 600,00, R$ 1.500,00, R$ 750,00, R$ 980,00.
Moda = no existe, pois nenhum valor se repete.
2) Calcular a moda para os salrios dos habitantes do municpio F: R$ 780,00, R$ 1.200,00,
R$ 550,00, R$ 780,00, R$ 1.500,00, R$ 750,00, R$ 980,00.
Moda = 780, pois o valor que mais se repete.
3) Calcular a moda para os salrios dos habit antes do municpio G: R$ 780,00, R$ 1.200,00,
R$ 550,00, R$ 780,00, R$ 1.200,00, R$ 750,00, R$ 980,00.
Moda = 780,00 e 1.200,00, pois so os valores que mais se repetem.
47
4) Calcular a moda para os salrios dos habit antes do municpio G: R$ 780,00, R$ 1.200,00,
R$ 550,00, R$ 780,00, R$ 1.200,00, R$ 750,00, R$ 780,00.
Moda = 780, pois o valor que mais se repete.
Seo 4.2
Medidas de Disperso
As medidas de disperso, tambm chamadas de variabilidade, fornecem um valor que
quantifica a distncia dos valores em torno do valor central, ou seja, so utilizadas para
verificar se existe grande ou pequena variabilidade de valores no conjunto de dados. As
medidas de disperso so: varincia, desvio-padro e coeficiente de variao.
4.2.1 VARINCIA
a mdia dos desvios quadrticos de cada valor em relao mdia. A varincia
amostral dada por:
n
S2 =
(x
i =1
x )2
n 1
ou
S2 =
x
i =1
2
i
( xi )
i =1
n 1
Em que:
x i = valores de varivel x
n = nmero de dados
x = mdia aritmtica
n-1 no denominador quando n< 30 e n no denominador quando n 30.
48
(x
S2 =
i =1
x) 2
=
7 1
(780 908,57) 2 + (1200 908,57) 2 + ( 550 908,57 ) 2 + ( 600 908,57) 2 + (1500 908,57) 2 +
(750 908,57) 2 + (980 908,57) 2
6
16530,24 + 84931, 44 + 128572,44 + 95215, 44 + 349789,44 + 25144,44 + 5102,24
=
=
6
705285,68
=
=
6
= 117547,61
4.2.2 DESVIO-PADRO
a raiz quadrada da varincia.
S = S2
Para o exemplo: S = 117547,61 = 342,85 .
Interpretamos que a mdia do conjunto de dados R$ 908,57 com um desvio-padro
para baixo e para cima de R$ 342,85, isto , aproximadamente 68% dos dados esto entre a
mdia e um desvio padro para baixo (mdia 1 desvio padro) e a mdia e um desviopadro para cima (mdia + 1 desvio padro).
CV =
S
100
x
CV =
342,85
100 = 37,7%
908,57
Agora, vamos comparar a disperso dos valores dos salrios entre os municpios C e D:
Municpio
Mdia
Desvio-
Coeficiente
padro
de variao
R$ 908,57
R$ 109,76
12,08%
R$ 1.908,57
R$ 109,76
5,75%
Salienta-se a importncia de apresentar a unidade de medida nos resultados das medidas estatsticas, isto , se estamos analisando o salrio dos habitantes de um municpio,
colocamos sempre a unidade de medida do salrio, que no exemplo exposto foi R$. Se estamos
trabalhando com a idade dos habitantes de um municpio, colocamos sempre a unidade de
medida da idade, por exemplo, anos ou meses.
Para concluir esta unidade vamos exercitar o clculo das medidas descritivas utilizando
a nota geral da pesquisa de satisfao na empresa Costa apresentada no final da Unidade 2.
Banco (planilha) de dados da pesquisa de satisfao na empresa Costa
Cliente
Sexo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
F
F
F
M
F
F
F
F
M
F
M
F
F
F
F
M
F
F
F
M
F
M
M
Satisfao com
atendimento
MS
S
++S
S
++S
I
S
S
MI
S
S
MS
S
S
S
I
+S
MS
Satisfao com
preo
MS
++S
S
MS
+S
I
I
S
+++I
S
+S
S
+S
S
S
Nota
geral
10
7
6
7
8
9
7
7
5
5
8
8
9
9
7
10
8
8
9
7
7
8
9
Idade
22
26
32
35
23
27
22
37
41
40
35
35
37
22
21
19
40
51
55
45
46
33
34
Mdia aritmtica:
x=
10 + 7 + 6 + 7 + 8 + 9 + 7 + 7 + 5 + 5 + 8 + 8 + 9 + 9 + 7 + 10 + 8 + 8 + 9 + 7 + 7 + 8 + 9
23
178
= 7,74
23
51
Mediana:
1. Ordenar: 5, 5, 6, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 10, 10
2. Calcular a posio da mediana: P( Md ) =
n + 1 23 + 1 24
=
=
= 12 , isto , a me diana est na
2
2
2
1,3557
100 = 17,52%
7,74
Interpretao dos resultados: a nota geral mdia dada pelos clientes da empresa Costa
7,74 pontos com desvio-padro de 1,3557 pontos para mais e para menos da mdia. O
conjunto de dados homogneo em torno da mdia, uma vez que o CV menor que 30%.
Metade (50%) dos clientes forneceu uma nota no mximo igual a 8 pontos, dado que a
mediana 8. A nota que mais se repetiu entre os clientes foi 7 pontos, j que a moda 7.
SNTESE DA UNIDADE 4
Nesta unidade vimos como calcular medidas descritivas para variveis quantitativas.
As medidas descritivas so muito importantes para descrever os dados, fornecendo informaes que podem auxiliar no acompanhamento de
indicadores socioeconmicos ao longo dos anos num municpio ou numa
organizao, auxiliando na administrao e na tomada de deciso.
Na prxima unidade veremos como obter essas medidas no Excel.
52
Unidade 5
O MS Excel um aplicativo do tipo Planilha Eletrnica, ou seja, um software apropriado para a edio de documentos com caractersticas numricas. Usando uma planilha
eletrnica podemos manipular com facilidade a edio de tabelas, efetuar clculos, operaes estatsticas e a gerao de grficos. De forma geral permite armazenar dados e produzir
informaes a partir destes.
Cada clula tem um endereo prprio, formado pela combinao da letra da coluna
com o nmero da linha. Por exemplo, a clula D8 localiza-se no cruzamento da coluna D
com a linha 8. Para selecionar uma clula, colocando-a em foco, utiliza-se o cursor, que na
planilha aparece como um ponteiro semelhante a uma cruz. Basta clicar na clula desejada.
Um inter valo de clulas a representao de uma faixa ou conjunto de clulas. Pode
ser selecionado clicando com o cursor sobre um dos cantos do i ntervalo e arrastando at o
canto oposto, formando um retngulo. Pode tambm ser apenas uma coluna ou linha. Para
selecionar uma coluna inteira deve-se clicar na respectiva let ra, no cabealho da coluna.
Para seleci onar um a linha inte ira deve -se cli car no nme ro identif icador da linha.
O inter valo ide ntificado por suas coorde nadas, sendo que o pri meiro e lem ento das
coordenadas o endereo da clula superior e squerda, e o se gundo e le ment o das coor54
denadas o ende reo da clula infer ior direi ta do intervalo. Os dois e le me ntos so separados por doi s pont os ( : ). Por exemplo, o i ntervalo C4:E5 compre ende as clulas C4, C5,
D4, D5, E4 e E5.
Seo 5.1
Elaborando um Banco de Dados no Excel
Para criar um banco de dados no Excel, de stinamos as linhas aos dados de cada elemento da amostra e as colunas a cada uma das variveis. A Figura 2 apresenta um exemplo
de um banco de dados na planilha.
55
Seo 5.2
Utilizando as Tcnicas Estatsticas para Analisar os Dados no Excel
Primeiramente voc deve ativar as ferramentas de anlise estatstica no Exce l. O procedimento diferente no Ex cel verso 2003 e no Excel verso 2007. Siga os passos conforme a verso do Excel de que voc dispe.
No Excel 2003:
Clique no menu Ferramentas, de pois em Suplementos e ento marque a opo Ferramentas de Anlise e clique no boto ok conforme a Figura 3 (esquerda). De agora em diante, sempre que voc desejar utilizar o comando anlise de dados, este estar disponvel no
menu Ferramentas.
No Excel 2007:
Clique no boto do Office
a opo Suplementos e ento, na lista de suplementos de aplicativos inativos, a opo Ferramentas de Anlise. Aps clique no boto ir
.
Ento aparecer a janela da Figura 1 (dire ita). Nesta marque Ferramentas de Anlise
e clique no boto ok. De agora em diante, sempre que voc desejar utilizar o comando
anlise de dados, este estar disponvel no me nu Dados.
Figura 3: Instalao das Ferramentas de Anlise no Excel 2003 (esquerda) e no Excel 2007 (direita)
56
Seo 5.3
Medidas Descritivas para as Variveis Quantitativas
Para obter as medidas descritivas, voc clica na opo anlise de dados no menu Ferramentas no Excel 2003 ou clica no boto anlise de dados no menu Dados no Excel 2007
e ento apare cer a janela da Figura 4.
Nesta janela voc clica na opo Estatstica descritiva. Aps, aparecer a janela da
Figura 5. Voc deve ento seguir os passos:
selecione os dados da coluna que voc deseja analisar, por exemplo, coluna E, que se
refere varivel idade;
marque a opo rtulos na primeira linha, pois foi selecionado junto com os valores o
nome (rtulo) da varivel;
marque nova planilha, assim o resultado do comando ir aparecer numa nova planilha da
pasta de trabalho;
Para calcular o coeficiente de variao deve-se incluir uma frmula da seguinte maneira:
digite =;
58
Seo 5.4
Tabelas Simples Para as Variveis Qualitativas
e Para as Variveis Quantitativas com Pouca Variabilidade
Para elaborar uma tabela simples a partir de um banco de dados utilize o comando
relatrio de tabela dinmica, sendo este disponibilizado difere ntemente no Excel 2003 e no
Excel 2007.
No Excel 2003:
Escolha a opo Relatrio de tabela e grfico dinmico no menu Dados, sendo apresentada a tela da Figura 7.
59
A opo de tabela dinmica j est marcada. Caso deseje um grfico, voc deve selecionar a segunda opo, conforme Figura 7.
60
Para calcular a freqncia relativa percentual, voc deve novamente arrastar o boto
da varivel at o centro do corpo da tabela e clicar duplo sobre o boto, sendo apresentada
a tela da Figura 11. Clique em Opes e no campo Mostrar dados como, selecione a opo
% do total e clique no boto ok.
61
Para formatar a tabela clique no boto For matar Relatrio na barra de ferramentas do
relatrio e escolher o Relatrio 7.
No cabealh o da tabela substitumos contar-de-sexo1 por n e contar-de -sexo2 por
%, assim obte mos a tabela 1 (Figura 18).
No Excel 2007:
Clique no menu Inserir e na opo Tabela dinmica e aparecer a janela da Figura 13.
Se o banco de dados (informaes j digitadas na planilha) no estiver selecionado voc
deve selecion-lo com o mouse e aps clicar no boto ok.
62
63
Marque a varivel de interesse no menu direita, neste exemplo marque a varivel sexo
estiver aparece ndo clique com o mouse sobre o primeiro boto e escolha a opo configuraes do campo valor. Aparecer a janela da Figura 15.
Na janela da 15, marque a opo ContNm e clique no boto ok, assim aparecer o
valor absoluto na tabela simples (segunda coluna). Clique sobre o segundo boto e escolha
a opo configuraes do cam po valor.
64
Marque a opo ContNm e clique na ficha mostrar valores como e escolha a opo %
do total, conforme 16. Assim aparecer o valor relativo percentual na tabela simples (terceira coluna). A tabela para este exemplo est apresentada na Figura 17.
65
Seo 5.5
Tabelas Cruzadas
O processo para a construo de tabelas cruzadas dinmicas semelhante construo
de tabelas simples. A seguir apresenta-se o procedimento para o Excel 2003 e Excel 2007.
No Excel 2003:
Selecione mais uma varivel para o corpo da tabela conforme a Figura 19, colocandoa sobre a COLUNA. Finalizando todo o processo aparecer a tabela cruzada conforme Figura 20.
66
No Excel 2007:
67
Seo 5.6
Grficos de Setores, Colunas e Barras
Voc elabora um grfico a partir de dados sistematizados (a partir de uma tabela j
elaborada) de forma diferente no Excel 2003 e no Excel 2007. Existem variados tipos de
grficos, adequados para cada tipo de varivel e representam uma ou duas var iveis. A
seguir so apresentados os tipos de grficos mais usados.
usado para representar uma varivel aleatria. Suas categorias devem totalizar 100%
e mais indicado quando o nmero de categorias so no mximo 5. Primeiramente, voc
seleciona as categorias e os valores absolutos ou relativos que sero apresentados no grfico, a partir da tabela j elaborada, conforme Figura 24.
68
No Excel 2003:
na bar ra de
ferramentas ou no menu Inserir e escolha a opo Figura e ento Grfico. Neste momento
aparecer a tela referente ao Assistente de Grfico, como apresentada na Figura 25. Escolha
o Tipo de grfico Pizza e aparecer subtipos de grficos. Voc pode escolher um dos 6 tipos
e ento clicar no boto Avanar.
69
Na etapa 3 (Figura 27), clique no campo Ttulo do grfico e digite o ttulo do grfico.
70
Aps, clique na ficha Legenda para alterar o local de posio da legenda ou para
excluir legenda (Figura 28).
Na ficha Rtulos de dados (Figura 29) possvel mostrar o nome das categorias e a
percentagem no grfico. Aps, clique no boto Concluir.
Podemos personalizar o grfico, alterando a cor dos setores, alterando a cor do fundo,
alterando o tamanho, tipo e cor da fonte.
71
Para alterar a cor dos setores, voc clica uma vez no grfico, aps clica mais uma vez
no setor (fatia) cuja cor deseja alterar e aps clica duplo par a aparecer o menu de cores.
Ento, selecione uma cor ou no boto Efeitos de Preenchimento para utilizar as opes
gradiente ou textura. Na Figura 30 est apresentado um exemplo de grfico formatado.
Utilizamos um grfico de colunas simples ou barras simples para representar uma varivel aleatria. O procedi mento o mesmo utilizado no grfi co de setores, sendo que na
etapa 3 (Figura 31) digitamos, alm do ttulo do grfico, o ttulo do eixo x (horizontal) e o
ttulo do eixo y (vertical).
72
De forma similar podemos construir um grfico de barras, como o apresentado na Figura 33.
No Excel 2007:
Para construir um grfico de setores (pizza) no Excel 2007 utilize o menu Inserir e
escolha grfico de pizza, conforme a Figura 34.
73
Clique com o mouse na rea do grfico (parte branca dentro do retngulo) e clique na
opo Layout 1 no menu De sign, conforme Figura 36.
74
Voc pode clicar com o mouse sobre o Ttulo do Grfico para edit-lo e ento digitar o
ttulo para o seu grfico. Tambm pode mudar o estilo do grfico clicando no menu Design
e ento em Estilo (Figura 38).
75
Voc pode clicar na rea do grfico (parte branca dentro do retngulo) e usar as opo
do menu Design para alterar definies do grfico: em Layout do grfico voc pode incluir o
ttulo do grfico e os valores. Clicando com o mouse no ttulo possvel editar e colocar o
ttulo para o seu grfi co, conforme Fi gura 40.
76
SNTESE DA UNIDADE 5
Nesta unidade utilizamos os recursos estatsticos do Excel para
tratar as informaes.
A planilha eletrnica Excel uma boa alternativa para alunos que esto iniciando
seus estudos de Mtodos Estatsticos, por ser de fcil acesso, uma vez que grande parte dos
usurios domsticos e organizaes possuem o pacote Microsoft Office.
77
Referncias
79