Você está na página 1de 202

ESTATSTICA

BSICA

autor
FERNANDO DE FIGUEIREDO BALIEIRO

1 edio
SESES
rio de janeiro 2015
Conselho editorial sergio augusto cabral; roberto paes; gladis linhares

Autora do original valria aparecida ferreira

Projeto editorial roberto paes

Coordenao de produo gladis linhares

Projeto grfico paulo vitor bastos

Diagramao bfs media

Reviso lingustica amanda duarte aguiar

Reviso de contedo paula tavares da cunha melo

Imagem de capa pavalache stelian | dreamstime.com

Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida
por quaisquer meios (eletrnico ou mecnico, incluindo fotocpia e gravao) ou arquivada em
qualquer sistema ou banco de dados sem permisso escrita da Editora. Copyright seses, 2015.

Dados Internacionais de Catalogao na Publicao (cip)

F383e Ferreira, Valria


Estatstica bsica / Valria Ferreira
Rio de Janeiro: SESES, 2015.
184 p.: il.

isbn: 978-85-5548-129-1

1. Probabilidade. 2. Funes de variveis. 3. Regresso Linear.


I. SESES. II. Estcio.
cdd 519.2

Diretoria de Ensino Fbrica de Conhecimento


Rua do Bispo, 83, bloco F, Campus Joo Ucha
Rio Comprido Rio de Janeiro rj cep 20261-063
Sumrio

1. Conceitos Iniciais e Apresentao dos Dados por


meio de Distribuies de Frequncias e Grficos 7
Objetivos 8
1.1 Definio de Estatstica 9
1.2 Conceitos bsicos da Estatstica 10
1.3 Coleta de dados 16
1.3.1 Tcnicas de amostragem 17
1.3.1.1 Tcnicas de amostragem probabilstica (ou aleatria) 18
1.3.1.1.1 Amostragem aleatria simples 18
1.3.1.1.2 Amostragem estratificada 19
1.3.1.1.3 Amostragem sistemtica 20
1.3.1.1.4 Amostragem por conglomerado 21
1.3.1.2 Tcnicas de amostragem no probabilstica (ou no aleatria) 22
1.3.1.2.1 Amostragem por convenincia 22
1.3.1.2.2 Amostragem por quota 23
1.4 Distribuio de frequncias 25
1.5Grficos 32
1.5.1 Tipos de grficos 33
1.5.1.1 Grfico de linhas 33
1.5.1.2 Grfico de barras 35
1.5.1.3 Grfico de setores 37
1.5.1.4Histograma 38
1.5.1.5 Polgono de frequncias 39
1.5.1.6 Diagrama de Pareto 39
1.5.1.7 Diagrama de disperso 41
1.6 Utilizao do Microsoft Excel na Construo de Grficos 43
Reflexo 46
Referncias bibliogrficas 47
2. Medidas Resumo 49

Objetivos 50
2.1 Medidas de tendncia central 51
2.1.1 Mdia aritmtica 51
2.1.1.1 Propriedades da mdia 54
2.1.2Moda 54
2.1.3Mediana 55
2.1.4 Clculos das medidas de tendncia central para dados
agrupados em intervalos de classes 59
2.2 Medidas de disperso 63
2.2.1 Mnimo, mximo e amplitude 64
2.2.2 Desvio mdio, varincia e desvio padro amostrais 65
2.2.2.1 Uma regra prtica para interpretar o desvio-padro 67
2.2.2.2 Propriedades do desvio padro 68
2.2.3 Coeficiente de variao 72
2.2.4 Clculos da varincia e do desvio padro para dados
agrupados em intervalos de classes 73
2.3 Medidas separatrizes ou de ordenamento 75
2.3.1Quartis 75
2.3.2 Decis e Percentis 77
2.3.3 Clculo das medidas separatrizes para dados
agrupados em intervalos de classes 78
2.4 Medidas de assimetria e curtose 86
2.5 Utilizao do Microsoft Excel na Anlise de Dados 92
Reflexo 95
Referncias bibliogrficas 95

3. Distribuio de Probabilidade Normal 97

Objetivos 98
3.1 Varivel aleatria 99
3.2 Distribuio Normal 99
3.3 Utilizao do Microsoft Excel no clculo de probabilidades normais 118
Reflexo 124
Referncias bibliogrficas 125
4. Teste de Hipteses 127

Objetivos 128
4.1 Fundamentos do teste de hipteses 129
4.2 Teste de hipteses para a mdia populacional 131
4.2.1 Tipos de erros, nvel de significncia e estatstica de teste 131
4.2.2 Deciso e interpretao 135
4.3 Teste de hipteses para duas amostras 139
4.3.1 Testes para diferenas entre mdias 140
4.3.1.1 Amostras independentes com desvios
padres desconhecidos e diferentes 141
4.3.1.2 Amostras independentes com desvios
padres desconhecidos e iguais 144
4.3.1.3 Amostras independentes com desvios padres conhecidos 148
4.3.1.4 Amostras dependentes 150
4.4 Utilizao do Microsoft Excel para testes de duas amostras 154
4.4.1 Comparao de duas mdias com desvios padres
desconhecidos e diferentes 154
4.4.2 Comparao de duas mdias (amostras dependentes) 157
Reflexo 162
Referncias bibliogrficas 163

5. Correlao e Regresso Linear Simples 165

Objetivos 166
5.1 Diagrama de disperso 167
5.2 Coeficiente de correlao linear 168
5.3 Teste de hipteses para correlao 173
5.4 Regresso linear simples 175
5.5 Coeficiente de determinao 181
5.6 Utilizao do Microsoft Excel na anlise de regresso e correlao 185
Reflexo 195
Referncias bibliogrficas 196
1
Conceitos Iniciais e
Apresentao dos
Dados por meio
de Distribuies
de Frequncias e
Grficos
Nesse primeiro captulo, estudaremos conceitos bsicos da Estatstica e
como organizamos e apresentamos um conjunto de dados por meio de distri-
buies de frequncias e grficos apropriados.
Os conceitos abordados neste captulo so muito importantes, pois qualquer
estudo ou pesquisa deve ser conduzido a partir dos conhecimentos adquiri-
dos neste primeiro momento, para que os resultados obtidos na anlise se-
jam um instrumento confivel para tomadas de decises.

OBJETIVOS
Aps o estudo dos conceitos e tcnicas que sero apresentados, esperamos que voc consiga:

Descrever a populao e a amostra em um estudo;


Identificar e classificar os diferentes tipos de variveis presentes em um estudo;
Compreender a que se destina cada uma das reas da Estatstica;
Entender as caractersticas dos vrios tipos de amostragens probabilsticas utilizados para
coleta de dados;
Construir distribuies de frequncias e grficos apropriados.

8 captulo 1
1.1 Definio de Estatstica
muito comum nos meios de comunicao, como jornais, revistas, televiso e
internet, nos depararmos com informaes estatsticas. Por exemplo:

Os institutos de pesquisas divulgam com frequncia resultados obtidos


em pesquisas que tm por objetivo avaliar o governo do presidente em exerccio.
As taxas de cesrias, no Brasil, no sistema privado e no SUS.
O percentual de aumento, ou reduo, no preo da cesta bsica.
Incidncia estimada de cncer de mama nos estados do Brasil.

Para que estas informaes sejam obtidas, precisamos coletar dados para
transform-los em informaes. Portanto, podemos definir a Estatstica da se-
guinte maneira:
Estatstica um conjunto de tcnicas utilizadas para a coleta, organizao,
resumo, anlise e interpretao de dados.
Quando o foco est nas cincias biolgicas e da sade, usamos o termo
bioestatstica.
A Estatstica tem um papel fundamental em diversas reas do conhecimen-
to, pois o uso de tcnicas estatsticas apropriadas fornece informaes que au-
xiliam no processo de tomada de decises. Por exemplo, a eficcia de um novo
medicamento para reduzir o LDL colesterol feito por meio de um teste clnico
com pacientes. A anlise dos dados obtidos informar se a reduo estatisti-
camente significante.
Mtodos estatsticos so essenciais no estudo de situaes em que as variveis
de interesse esto sujeitas, inerentemente, a flutuaes aleatrias. Isto acontece
muito na rea da sade. Por exemplo, mesmo que o estudo seja feito com pacien-
tes homogneos, observamos uma grande variabilidade, por exemplo, na resposta
a algum tipo de tratamento. Ento, para estudar problemas clnicos, precisamos
de uma metodologia capaz de tratar a variabilidade de forma adequada.
O avano da informtica e a popularizao dos computadores contriburam
para o uso de mtodos estatsticos. Antigamente, era muito demorado fazer anli-
ses de muitas informaes, e agora, com o auxlio do computador, as anlises so
feitas rapidamente. Alm disto, com o avano da informtica, novas tcnicas de
anlise de dados foram introduzidas, principalmente mtodos grficos. Muitos
pacotes estatsticos foram desenvolvidos e so usados tanto no meio acadmico

captulo 1 9
como em indstrias, como, por exemplo, Minitab, SPSS e SAS. Utilizamos tambm
o Microsoft Office Excel, que possui opes para certas tcnicas estatsticas. Apesar
do grande auxlio fornecido pelos pacotes estatsticos e pelo Excel, precisamos ter
um conhecimento terico slido para saber qual tcnica estatstica utilizar para
resolver um problema, alm de saber analisar e interpretar os resultados obtidos.
A Estatstica pode ser dividida em duas grandes reas: a estatstica descriti-
va e a inferncia estatstica.
Na estatstica descritiva, utilizamos tcnicas destinadas a organizar, des-
crever e resumir os dados. Os dados so tabulados e apresentados por meio de
grficos e resumidos atravs de medidas numricas. Desta maneira, as infor-
maes estatsticas so apresentadas de maneira clara e de fcil entendimento.
Na inferncia estatstica (ou inferncia indutiva), utilizamos dados amos-
trais para fazer estimativas, testar hipteses e fazer previses sobre caracters-
ticas de uma populao. Veremos, a seguir, alguns conceitos que facilitaro o
entendimento da importncia da inferncia estatstica.

1.2 Conceitos bsicos da Estatstica

CONCEITOS

Conjunto formado por todos os elementos (pessoas, objetos, me-


POPULAO didas, respostas e outros) que tm a caracterstica que se deseja
estudar.

AMOSTRA Subconjunto representativo da populao de interesse.

Medida numrica que descreve alguma caracterstica de uma po-


PARMETRO pulao.

Medida numrica que descreve alguma caracterstica de uma


ESTATSTICA amostra.

10 captulo 1
CONCEITOS

VARIVEL Caracterstica de interesse no estudo.

DADOS Respostas coletadas da varivel em estudo.

Conjunto de dados obtidos atravs de todos os elementos da po-


CENSO pulao.

Vale ressaltar que o termo populao refere-se no somente a um conjunto


de pessoas. Podemos citar alguns exemplos de populaes: todos os habitan-
tes da cidade de So Paulo; todos os carros produzidos, em determinado ano,
por uma montadora; todos os acidentes ocorridos em determinada extenso
de uma rodovia durante um feriado prolongado; todo o sangue no corpo de
uma pessoa ou todos os pacientes traumatizados atendidos na Unidade de
Emergncia do Hospital das Clnicas de Ribeiro Preto da Universidade de So
Paulo, no ano de 2014.
Em muitos estudos, muito difcil podermos trabalhar com todos os ele-
mentos da populao. Quando isto ocorre, retiramos um conjunto menor de
elementos da populao, que denominado amostra.
A amostra um subconjunto representativo da populao de interesse e
por meio dela que o estudo estatstico feito, de maneira a obtermos informa-
es importantes sobre a populao da qual a amostra foi extrada.
De acordo com Vieira (2008, p. 4).

As razes que levam os pesquisadores a trabalhar com amostras e no com toda a


populao so poucas, mas absolutamente relevantes.

Custo e demora dos censos.


Populaes muito grandes.
Impossibilidade fsica de examinar toda a populao.
Comprovado valor cientfico das informaes coletadas por meio de amostras.

captulo 1 11
Podemos justificar a primeira razo, custo e demora dos censos, analisando
as pesquisas eleitorais. As prvias eleitorais so feitas regularmente e publica-
das. Analisar todos os milhes de eleitores do Brasil em um curto espao de
tempo torna-se impossvel para o pesquisador. Vamos lembrar que nosso pas
possui uma vasta extenso territorial, fazendo com que a pesquisa leve muito
tempo e gere um custo muito alto.
No caso de populaes muito grandes, impossvel estud-las por inteiro.
Por exemplo, se temos interesse de estudar determinada planta em uma mata.
O nmero de plantas matematicamente finito, mas to grande, que pode ser
considerado infinito para qualquer estudo prtico.
Em algumas situaes, impossvel examinar toda a populao. Por exem-
plo, na anlise de sangue de uma pessoa, no podemos observar toda a popu-
lao de interesse.
E, por fim, a coleta de dados por meio de uma amostra tem maior valor
cientfico do que se estivssemos estudando brevemente toda a populao.
Por exemplo, um pesquisador social tem interesse em estudar hbitos e com-
portamentos relacionados sade da criana e do adolescente de uma grande
cidade brasileira. melhor fazer uma avaliao criteriosa e cuidadosa de da-
dos amostrais do que uma avaliao rpida e resumida de toda a populao de
crianas e adolescentes da cidade.
A Figura 1.1 ilustra os conceitos de populao e amostra e as reas da esta-
tstica descritiva e inferencial, com seus respectivos objetivos.

Figura 1.1 Populao e amostra. Fonte: MAGALHES e LIMA (2004, p. 3).

12 captulo 1
Quando temos acesso a todos os elementos que desejamos estudar, ou seja, a popula-
o, no necessrio o uso de tcnicas da inferncia estatstica.

Um levantamento de dados obtidos por meio de toda a populao chama-


do censo. Esta palavra familiar, pois no nosso pas, a cada 10 anos, o Instituto
Brasileiro de Geografia e Estatstica (IBGE) faz o Censo Demogrfico do Brasil.
Com as informaes obtidas pelos censos, podemos conhecer a distribuio
territorial e as principais caractersticas das pessoas e dos domiclios. Estas
informaes so imprescindveis para a definio de polticas pblicas e a to-
mada de decises de investimentos.

CONEXO
Em pocas de recenseamento, uma declarao muito comum : o recenseador no passou
em minha residncia. Para entender a metodologia adotada pelo IBGE, leia as informa-
es disponveis em: <http://saladeimprensa.ibge.gov.br/noticias?view=noticia&id=1&bus-
ca=1&idnoticia=1866> Acesso em: 30 de Abr. 2015.

Os dados obtidos por meio de uma populao ou amostra, so provenientes


da(s) varivel(eis) em estudo. Varivel uma caracterstica de interesse no estu-
do. Por exemplo, podemos ter interesse nas variveis idade, gnero, renda e esco-
laridade dos clientes de determinada Unidade Bsica de Sade. As respostas ob-
tidas em cada uma destas variveis formaro o conjunto de dados a ser estudado.
Para uma melhor compreenso dos conceitos expostos acima, vamos anali-
sar o exemplo a seguir.

EXEMPLO
1.1: Um hospital e maternidade possui 3 200 funcionrios. O departamento de recursos
humanos fez uma pesquisa de clima organizacional com 620 funcionrios selecionados nos
diversos setores do hospital e um dos tpicos abordados foi o grau de satisfao com os
benefcios oferecidos pela empresa. A anlise dos dados mostrou que 55% dos funcionrios
esto satisfeitos com os benefcios oferecidos. De acordo com as informaes contidas no
enunciado, vamos identificar:

captulo 1 13
a) A populao em estudo.
b) A varivel em estudo.
c) O tamanho da amostra.
d) A informao numrica 55% um parmetro ou uma estatstica?

Resoluo
a) Populao em estudo: 3 200 funcionrios do hospital e maternidade.
b) Varivel em estudo: nvel de satisfao com os benefcios oferecidos.
c) Tamanho da amostra: 620 funcionrios.
d) A informao numrica 55% uma estatstica, pois esta informao foi obtida atravs
de dados amostrais.

Quando coletamos dados referentes varivel ou s variveis em estudo,


podemos obter respostas numricas ou no numricas. intuitivo pensar que
quando as respostas so numricas, estamos trabalhando com dados quantita-
tivos e, quando as respostas no so numricas, os dados so qualitativos.
No caso do Exemplo 1.1, os dados coletados so qualitativos, pois duas das
possveis respostas dos funcionrios so: insatisfeito ou satisfeito.
Como os dados so provenientes das variveis em estudo, podemos clas-
sificar as variveis da mesma forma: variveis qualitativas (ou categricas) ou
quantitativas.
As variveis qualitativas podem ser classificadas como qualitativas nomi-
nais ou ordinais. Se existir uma ordenao natural, elas so classificadas como
qualitativas ordinais. Caso contrrio, elas so classificadas como variveis qua-
litativas nominais. Por exemplo, variveis como gnero (masculino e feminino)
e estado civil (solteiro, casado, vivo, etc.) so classificadas como qualitativas
nominais. Agora, variveis como desempenho de um profissional (pssimo,
regular ou bom) e grau de instruo (ensino fundamental, ensino mdio, supe-
rior) so classificadas como qualitativas ordinais.
No caso das variveis quantitativas, elas podem ser classificadas como
quantitativas discretas ou contnuas. As variveis quantitativas discretas so
resultantes de uma operao de contagem, assumindo respostas cujos n-
meros so inteiros. J as variveis quantitativas contnuas so resultantes de
mensuraes, assumindo valores que pertencem a um intervalo de nmeros
reais, ou seja, nmeros decimais. Por exemplo, nmero de faltas ao trabalho

14 captulo 1
por motivo de sade (0, 1, 2,...) e nmero de peas defeituosas em um lote (0,
1, 2, 3,...) so classificadas como quantitativas discretas, enquanto que peso,
altura, renda familiar (salrios mnimos) so classificadas como quantitativas
contnuas.
Podemos atribuir cdigos numricos s categorias de respostas de algumas
variveis qualitativas. Por exemplo, para a varivel gner, podemos associar o c-
digo 1 para o sexo feminino e 2 para o sexo masculino. Mas isto no a torna uma
varivel quantitativa, ou seja, no podemos, por exemplo, calcular uma mdia
destas respostas, pois no conseguiramos interpretar o resultado obtido.

Figura 1.2 Classficao das variveis.

EXEMPLO
1.2: Vamos classificar as seguintes variveis:
a) Nmero de peas defeituosas produzidas em uma linha de montagem.
b) Peso de pacientes.
c) Fumante.
d) Tipo sanguneo.
e) Grau de satisfao do consumidor com determinado produto.

Resoluo
a) Varivel quantitativa discreta, pois as possveis respostas so 0, 1, 2, 3, etc. (as respos-
tas assumem somente valores inteiros).
b) Varivel quantitativa contnua, pois as possveis respostas so 58,7; 89,8; etc. (as res-
postas podem assumir valores decimais).

captulo 1 15
c) Varivel qualitativa nominal, pois as possveis respostas so sim ou no. (as possveis
respostas so categricas).
d) Varivel qualitativa nominal, pois as possveis respostas so A, AB, B ou O (as possveis
respostas so categricas).
e) Varivel qualitativa ordinal, pois as possveis respostas so nada satisfeito, pouco sa-
tisfeito, satisfeito, muito satisfeito (as possveis respostas so categricas e possuem uma
ordenao natural, do menor grau de satisfao para o maior).

Outra maneira comum de classificar os dados atravs do uso dos nveis de mensura-
o intervalar e de razo. No nvel intervalar, as diferenas so significativas, mas no
existe ponto inicial zero natural e as razes no tm sentido e, no nvel de mensurao
de razo, h um ponto inicial zero natural e as razes so significativas.

1.3 Coleta de dados


J sabemos que para, fazer qualquer estudo estatstico, precisamos coletar dados.
Esta coleta pode ser feita atravs de estudos observacionais ou experimentos.
Em estudos observacionais, no h qualquer tentativa de controlar ou mo-
dificar os elementos que faro parte do estudo. Por exemplo, uma pesquisa
feita por institutos de pesquisa um estudo observacional, pois os dados so
geralmente coletados atravs de uma entrevista ou preenchimento de um ques-
tionrio. Neste estudo, as respostas das pessoas so simplesmente coletadas e
registradas, sem qualquer tipo de controle ou modificao.
Em um experimento, aplicamos algum tratamento e observamos o seu efei-
to sobre os elementos que esto participando do estudo. Por exemplo, uma in-
dstria farmacutica est interessada em testar uma nova medicao no trata-
mento de pessoas com colesterol alto. Um grupo de pacientes com altos nveis
colesterol recebe o tratamento e passa a ser observado.
Sabemos, tambm, que um estudo estatstico pode ser feito com todos
os elementos da populao ou com uma parte desta populao (amostra).
Quando o estudo for feito com dados amostrais, deveremos ter muito cuidado

16 captulo 1
na maneira de coletar estes dados. De acordo com TRIOLA (2008, p. 17), se os
dados amostrais no forem coletados de maneira apropriada, eles podem ser
de tal modo inteis que nenhuma manipulao estatstica poder salv-los.
Para que possamos usar os resultados obtidos na amostra para fazer in-
ferncias sobre a populao de interesse, precisamos garantir que a amostra
seja representativa desta populao. Por exemplo, no Exemplo 1.1, se os 620
funcionrios forem selecionados somente em um dos setores da empresa, no
podemos garantir que esta amostra seja representativa de todos os funcion-
rios, pois parece pouco provvel que os outros funcionrios dos diversos seto-
res tenham a mesma avaliao sobre o grau de satisfao com os benefcios
oferecidos.
Veremos agora quais tcnicas de amostragem podemos utilizar para garan-
tir a representatividade da populao.

1.3.1 Tcnicas de amostragem

Temos dois tipos de amostragem, a que chamamos de probabilstica (ou alea-


tria) e a no probabilstica (ou no aleatria).
A amostragem ser probabilstica se todos os elementos da populao tive-
rem probabilidade conhecida, e diferente de zero, de pertencer amostra. Caso
contrrio, a amostragem ser no probabilstica.
Quando selecionamos os elementos que faro parte da amostra, podemos
permitir que eles sejam selecionadas mais de uma vez. Neste caso, estamos tra-
balhando com amostragem com reposio. Na amostragem sem reposio, o
elemento sorteado removido da populao. Se pensarmos na quantidade de
informao que a amostra conter, a amostragem sem reposio mais ade-
quada. Mas, amostragem com repetio implica independncia entre os ele-
mentos selecionados. Isto facilita o desenvolvimento de propriedades de esti-
madores que so estudos em tcnicas da inferncia estatstica.
Na prtica podemos considerar a seleo dos elementos como independen-
tes quando pequenas amostras so retiradas de grandes populaes, pois raro
selecionar o mesmo elemento duas vezes.
Segundo TRIOLA (2008, p. 132), Eis uma diretriz comum: se o tamanho da
amostra no maior que 5% do tamanho da populao, tratamos a seleo das
unidades experimentais como sendo independentes (mesmo que as selees
sejam feitas sem reposio, pois tecnicamente elas so dependentes).

captulo 1 17
Estudaremos agora algumas tcnicas muito utilizadas de amostragem
probabilstica.

1.3.1.1 Tcnicas de amostragem probabilstica (ou aleatria)

A grande vantagem das amostras probabilsticas medir a preciso da amos-


tra obtida, baseando-se no resultado contido na prpria amostra (BUSSAB;
MORETTIN, 2002, p. 261).
Nas tcnicas descritas a seguir, usaremos N para denotar o tamanho da po-
pulao e n para indicar o tamanho da amostra.
Utilizaremos um mesmo exemplo para explicar as diferentes tcnicas de
amostragem, com o objetivo de evidenciar as caractersticas de cada uma delas.

1.3.1.1.1 Amostragem aleatria simples


Neste tipo de amostragem, a seleo dos elementos que faro parte da amostra
feita de maneira bem simples: quando estamos trabalhando com uma po-
pulao finita, temos como obter uma listagem de todos os N elementos que
compem a populao. Para fazer a seleo, escrevemos cada elemento da
populao em um carto, colocamos em uma urna e sorteamos a quantidade
de cartes de acordo com o tamanho da amostra. Neste procedimento, todo
elemento da populao tem a mesma probabilidade de pertencer amostra.
Quando a populao for muito grande, o procedimento descrito torna-se invi-
vel. Nestes casos, contamos com o auxlio do Excel, que gera nmeros aleat-
rios atravs da funo ALEATORIOENTRE. Para utilizarmos este tipo de amos-
tragem, desejvel que a populao seja homognea, ou seja, que os elementos
sejam similares sob o ponto de vista da varivel em estudo. Caso a populao
seja heterognea, h o risco de se obter uma amostra pouco representativa
da populao em estudo. Por exemplo, a populao de funcionrios de uma
empresa difere quanto ao gnero, faixa de idade, grau de escolaridade e faixa
salarial, e quando selecionarmos uma amostra aleatria de funcionrios pode
acontecer de no serem sorteados elementos com algumas destas caractersti-
cas. E, os funcionrios que se enquadram em cada uma destas caractersticas
podem ter avaliaes diferentes quanto varivel em estudo.

18 captulo 1
EXEMPLO
1.3: Uma universidade est elaborando uma pesquisa com objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando aperfeioamento
e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. Qual deve ser o procedimento para a obteno
de uma amostra aleatria simples?

Resoluo
Para obtermos uma amostra aleatria simples de 8% dos 4 500 estudantes, precisamos
sortear 360. Como poderemos fazer este sorteio? Temos como obter o nome ou registro
acadmico de cada um dos alunos facilmente. Estas informaes esto disponveis na se-
cretaria acadmica da universidade. Os nomes ou registros acadmicos so escritos em pe-
daos de papel. Aps colocar, separadamente, as informaes em 4 500 papis, eles so
colocados em uma urna. Misturamos bem e sorteamos um papel. Repetimos o procedimen-
to at que 360 papis sejam sorteados. Os nomes (ou registros acadmicos) selecionados
correspondem aos alunos que comporo a amostra. A descrio do sorteio foi feita desta
maneira para facilitar o entendimento deste tipo de amostragem. Nos dias atuais, colocamos
todos os nomes em uma planilha do Excel e utilizamos a funo ALEATRIOENTRE.

1.3.1.1.2 Amostragem estratificada


Utilizamos esta tcnica quando identificamos que a populao heterognea
para a varivel de interesse no estudo. Neste caso, dividimos a populao em
grupos mais homogneos (subgrupos), que so os estratos. Aps a identifica-
o dos estratos, selecionamos os elementos que faro parte da amostra atra-
vs de uma amostragem aleatria simples de cada estrato ou atravs de uma
seleo proporcional ao nmero de elementos existentes em cada estrato. Vol-
tando ao exemplo da seleo de uma amostra de funcionrios de um hospital
e maternidade, podemos dividir a populao de funcionrios nos seguintes es-
tratos: gnero, faixa de idade, grau de escolaridade e faixa salarial. Dentro de
cada estrato, os elementos so similares.

captulo 1 19
EXEMPLO
1.4: Uma universidade est elaborando uma pesquisa com objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando aperfeioamento
e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. H uma suspeita de que mulheres so mais crite-
riosas na avaliao institucional. De acordo com informaes acadmicas, aproximadamente
60% dos estudantes so do sexo feminino. Qual deve ser o procedimento para a obteno
de uma amostra estratificada?

Resoluo
De acordo com as informaes, vamos separar os estudantes em dois estratos: estudan-
tes do sexo masculino e estudantes do sexo feminino. Depois, obtemos uma amostra alea-
tria simples de cada estrato (gnero) e reunimos os dados selecionados dos dois estratos
em uma s amostra estratificada.

Como sabemos que 60% dos estudantes so do sexo feminino e,consequentemente,


40% do sexo masculino, podemos fazer uma seleo proporcional ao nmero de estu-
dantes em cada estrato. Neste caso, selecionaramos aleatoriamente 216 estudantes
no estrato do sexo feminino (360 x 0,6) e 144 estudantes no estrato do sexo mascu-
lino (360 x 0,4).

1.3.1.1.3 Amostragem sistemtica


A seleo dos elementos, quando utilizamos a amostragem sistemtica, feita
segundo um sistema preestabelecido (sistematicamente). Para estabelecermos
o sistema de seleo, ordenamos os elementos da populao (formando uma
lista) de forma a identific-los pela posio e, aps o nmero inicial ser sele-
cionado aleatoriamente, os elementos que faro parte da amostra sero sele-
cionados segundo intervalos regulares que ocorrem a partir do nmero inicial.
Precisamos tomar cuidado ao estabelecer o sistema de seleo dos elementos,
pois tendncias podem surgir se houver algum tipo de sequncia peridica ou
cclica nos elementos da populao que foram ordenados.

20 captulo 1
EXEMPLO
1.5: Uma universidade est elaborando uma pesquisa com o objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando ao aperfeioamen-
to e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. Qual deve ser o procedimento para a obteno
de uma amostra sistemtica?

Resoluo
Na amostragem sistemtica, precisamos de uma lista dos elementos que compem a
populao. Aps conseguir uma listagem com todos os estudantes, precisamos encontramos
N 4 500
a frao amostral k= . No nosso exemplo, k= =12,5 . Como k no um nmero
n 360
inteiro, devemos arredondar para o inteiro mais prximo, ou seja, vamos considerar k = 13.

O prximo passo escolher aleatoriamente um nmero entre 1 e 13 (por


meio de um sorteio). Por exemplo, vamos supor que o nmero sorteado seja 4.
Ento, o primeiro estudante selecionado ser o que est na quarta posio da
listagem. Depois, a partir do nmero 4, contamos 13 e selecionamos o prximo
estudante, e assim por diante, at completar a amostra de 360 estudantes.

1.3.1.1.4 Amostragem por conglomerado


Neste tipo de amostragem, dividimos a populao em subgrupos (conglomera-
dos) de elementos heterogneos, em seguida selecionamos aleatoriamente al-
guns conglomerados e escolhemos todos os elementos desses conglomerados
selecionados para compor a amostra.
A diferena entre a amostragem estratificada e por conglomerado que na
amostragem estratificada os elementos dentro de cada subgrupo so homog-
neos e, no caso dos conglomerados, os elementos dentro de cada subgrupo so
heterogneos. A amostragem estratificada usa uma amostra de elementos de
todos os estratos, enquanto que a amostragem por conglomerado usa todos os
elementos dos conglomerados selecionados.

captulo 1 21
EXEMPLO
1.6: Uma universidade est elaborando uma pesquisa com objetivo de avaliar seu espao
fsico, biblioteca, laboratrios, secretaria acadmica, entre outros, visando aperfeioamento
e fortalecimento das atividades de ensino. Para isto, deseja obter uma amostra de 8% dos
seus 4 500 estudantes, para entrevist-los. Qual deve ser o procedimento para a obteno
de uma amostra por conglomerados?

Resoluo
Nesta situao, podemos formar conglomerados com os alunos matriculados em cada
um dos cursos da universidade. Por exemplo, conglomerado formado com todos os estu-
dantes matriculados no curso de Administrao, ou conglomerado formado com todos os
estudantes matriculados no curso de Enfermagem e assim por diante. Aps a identificao
dos conglomerados, sorteamos alguns deles e entrevistamos todos os estudantes dentro de
cada conglomerado sorteado.

Os estudantes dentro de cada conglomerado so heterogneos, ou seja, h diversida-


des de informaes quanto a idade, estado civil, renda, gnero, etc.

1.3.1.2 Tcnicas de amostragem no probabilstica (ou no aleatria)

De acordo com BRUNI (2010, p. 173)

A amostragem no probabilstica consiste em uma amostragem subjetiva, em que a va-


riabilidade dos resultados da amostra no pode ser obtida com preciso, ao contrrio da
amostragem probabilstica. Impede a mensurao do erro da inferncia que indesejado
-, porm, resulta em custos ainda mais baixos em uma coleta de dados ainda mais rpida.

1.3.1.2.1 Amostragem por convenincia


Na amostragem por convenincia, os elementos amostrais so escolhidos por
serem mais acessveis, gerando informaes de forma rpida e barata. Por
exemplo, no nosso exemplo da avaliao da universidade, um professor de

22 captulo 1
Clculo pode escolher todos os alunos que cursam sua disciplina, nos diversos
cursos em que leciona, para compor a amostra que ser utilizada na pesquisa.
Neste tipo de seleo, o professor restringe a escolha dos alunos que faro par-
te da amostra, pois estudantes que no tm aula com ele estaro excludos de
participar da amostra.

1.3.1.2.2 Amostragem por quota


Neste tipo de amostragem, os elementos que fazem parte da amostra so retirados
da populao segundo quotas estabelecidas de acordo com a distribuio desses
elementos na populao. A descrio deste tipo de amostragem nos faz lembrar da
amostragem estratificada. A diferena que, aqui, os elementos so selecionados
por julgamento, e no de maneira aleatria, e depois confirmamos as caractersti-
cas dos elementos amostrados. Por ser relativamente barato, este tipo de amostra-
gem muito utilizado em levantamentos de opinio e pesquisa de mercado.

CONEXO
Uma leitura interessante sobre a amostragem no probabilstica encontrada no seguinte
trabalho: Amostragem no Probabilstica: Adequao de Situaes para uso e Limitaes de
amostras por Convenincia, Julgamento e Quotas. Disponvel em: < http://www.fecap.br/
adm_online/art23/tania2.htm>. Acesso em: 30 de Abr. 2015.

Aps a definio de qual tipo de amostragem ser utilizada em uma pesqui-


sa, a pergunta que naturalmente surge : Qual o tamanho da amostra que deve-
mos utilizar? H frmulas estatsticas bem conhecidas para determinao do
tamanho amostral, mas a aplicao dessas frmulas exige conhecimentos que
no abordaremos neste livro.
De acordo com VIEIRA (2008, p. 13)

Mais importante saber que no basta ter em mos uma frmula, ou um programa de
computador para estimar o tamanho da amostra. preciso algum conhecimento prvio
(estimativas preliminares de um ou mais parmetros, obtidas de amostras pilotos ou da
literatura) e uma boa dose de bom senso.

captulo 1 23
CONEXO
Para uma leitura introdutria sobre clculo do tamanho de amostras, o artigo: Anlise a res-
peito do tamanho de amostras aleatrias simples: uma aplicao na rea de Cincia da In-
formao aborda diferentes procedimentos estatsticos para a determinao do tamanho
de uma amostra aleatria simples. Disponvel em: <http://dgz.org.br/ago05/Art_01.htm>.
Acesso em: 30 de Abr. 2015.

Mesmo planejando e executando bem o processo de coleta da amostra,


provavelmente haver algum erro nos resultados. Por exemplo, voltando ao
Exemplo 1.1, se selecionarmos uma amostra com outros 620 funcionrios
provavelmente encontraremos uma estimativa diferente para a proporo de
funcionrios satisfeitos com os benefcios oferecidos. Ou, ainda, poderamos
tirar uma amostra que fornea um resultado muito diferente daquele que seria
obtido se trabalhssemos com a toda a populao. Ento, de acordo com o ra-
ciocnio exposto, podemos definir dois tipos de erros:

a diferena entre o resultado amostral e o verdadeiro resul-


ERRO tado da populao; tais erros resultam das flutuaes amos-
AMOSTRAL trais devidas ao acaso.

Ocorre quando os dados amostrais so coletados, registrados


ERRO NO ou analisados incorretamente (tal como a seleo de uma
AMOSTRAL amostra tendenciosa, o registro incorreto dos dados ou o uso
de um instrumento de medida defeituoso).

Se os dados amostrais so coletados por meio de um processo probabilstico,


esperamos que eles sejam representativos da populao e, assim, podemos anali-
sar o erro amostral, mas devemos ter o cuidado de minimizar o erro no amostral.
Agora que j sabemos que os dados so obtidos por meio de elementos pro-
venientes de uma populao ou de uma amostra e que, caso sejam dados amos-
trais, devemos tomar o cuidado de selecionar elementos que sejam os mais pa-
recidos possveis com a populao do qual foram extrados, vamos aprender a
organizar os dados.

24 captulo 1
Aps a obteno dos dados, por exemplo, atravs de experimentos, cadas-
tros, entrevistas ou preenchimento de questionrios, obtemos o conjunto de
dados brutos, ou seja, dados que ainda no foram organizados. Neste momen-
to comeamos com a apurao, isto , organizao dos dados brutos. Isto
feito por meio da construo da distribuio de frequncias, que estudaremos
a seguir.

1.4 Distribuio de frequncias


Em um estudo estatstico, temos como maior interesse conhecer o comporta-
mento da(s) varivel(eis) presentes no estudo. Isto se torna fcil quando organi-
zamos as respostas da varivel em uma distribuio de frequncias. Mas, o que
uma distribuio de frequncias?

Distribuio de frequncias uma tabela em que se resumem grandes


quantidades de dados, determinando o nmero de vezes, que cada dado ocorre
(frequncia) e a porcentagem com que aparece (frequncia relativa).
O processo de contagem do nmero de vezes, que cada dado ocorre fica
facilitado se ordenarmos os dados. A uma sequncia ordenada (crescente ou
decrescente) de dados brutos damos o nome de Rol.
Vamos formalizar os conceitos das frequncias que utilizaremos na
construo da distribuio de frequncias:

Frequncia absoluta ou simplesmente frequncia (f): o n de vezes, que


cada dado aparece na pesquisa.

Frequncia relativa ou percentual (fr): o quociente da frequncia absoluta


pelo nmero total de dados. Esta frequncia pode ser expressa em porcenta-
gem. O valor de (fr x100) definido como fr (%).
Veremos mais adiante que, em algumas anlises, precisaremos das infor-
maes das frequncias acumuladas:

Frequncia acumulada (fa): a soma de cada frequncia com as que lhe so


anteriores na distribuio.

captulo 1 25
Frequncia relativa acumulada (fra): o quociente da frequncia acumula-
da pelo nmero total de dados. Esta frequncia tambm pode ser expressa em
porcentagem. O valor de (fra x100) definido como fra (%).
A seguir apresentamos a estrutura de uma distribuio de frequncias.

NOME DA VARIVEL FREQUNCIA FREQUNCIA RELATIVA (%)

Respostas da varivel

nmero total de elementos em


Total 100,00
estudo

Segundo VIEIRA (2003, p. 47)

1. As tabelas devem ser delimitadas, no alto e embaixo, por traos horizontais. Esses
traos podem ser mais fortes do que os traos feitos no interior da tabela; as tabelas
no devem ser delimitadas, direita e esquerda, por traos verticais;
2. O cabealho deve ser delimitado por traos horizontais;
3. Podem ser feitos traos verticais no interior da tabela, separando as colunas;
4. As tabelas devem ter significado prprio, isto , devem ser entendidas mesmo
quando no se l o texto em que esto apresentadas;
5. As tabelas devem ser numeradas com algarismos arbicos. Pode ser adotada a
numerao progressiva por sees.
6. Quando dois ou mais tipos de informao tiverem sido agrupados em um s con-
junto, esse conjunto entra na tabela sob a denominao outros.

EXEMPLO
1.7: Um questionrio foi aplicado aos dez candidatos a uma vaga no departamento finan-
ceiro de uma loja de departamentos e alguns dos resultados obtidos esto apresentados no
quadro a seguir. Vamos organizar os dados das variveis grau de escolaridade e idade em
distribuio de frequncias.

26 captulo 1
TEMPO DE EXPERINCIA
CANDIDATO DA VAGA GRAU DE ESCOLARIDADE IDADE
NA REA
1 Ensino Mdio 30 7
2 Ensino Superior 35 12
3 Ensino Superior 26 4
4 Ensino Mdio 22 1
5 Ensino Mdio 28 8
6 Ps Graduao 30 10
7 Ensino Mdio 26 3
8 Ensino Superior 33 8
9 Ps Graduao 35 6
10 Ensino Mdio 23 2

As variveis, ou seja, as caractersticas de interesse nos candidatos so: grau de esco-


laridade, idade e tempo de experincia na rea da vaga. Candidato no varivel! Esta
coluna simplesmente informa que so 10 candidatos, com suas respectivas caracters-
ticas. Os nmeros poderiam ser substitudos pelos nomes dos candidatos.

Resoluo
A distribuio de frequncias contm 3 colunas: a varivel em estudo, a frequncia e a
frequncia relativa (%). Toda tabela deve conter um ttulo que explique o contedo da tabela.

Tambm podemos utilizar como cabealho para a segunda coluna a palavra Frequncia.

GRAU DE ESCOLARIDADE NMERO DE CANDIDATOS FREQUNCIA RELATIVA (%)


Ensino Mdio 5 50
Ensino Superior 3 30
Ps Graduao 2 20
Total 10 100

Tabela 1.1 Distribuio dos candidatos, segundo grau de escolaridade

O nmero de candidatos 5 para o grau de escolaridade Ensino Mdio, pois, analisando o


Quadro 1 verificamos que 5 candidatos possuem esta escolaridade (candidatos 1, 4, 5, 7 e 10).
5
A frequncia relativa (%) para este grau de escolaridade obtida fazendo 100 = 50% .
10

captulo 1 27
O mesmo procedimento feito para encontrar os valores referentes ao grau de escolaridade
Ensino Superior e Ps Graduao.
Analisando as informaes, observamos que, dos 10 candidatos vaga, 50% deles pos-
suem Ensino Mdio, seguidos por 30% com Ensino Superior e 20% com Ps-Graduao.

IDADE NMERO DE CANDIDATOS FREQUNCIA RELATIVA (%)


22 1 10
23 1 10
26 2 20
28 1 10
30 2 20
33 1 10
35 2 20
Total 10 100

Tabela 1.2 Distribuio dos candidatos, segundo a idade.

Pelo Quadro 1, verificamos que h repetio das idades 26 (candidatos 3 e 7), 30 (can-
didatos 1 e 6) e 35 (candidatos 2 e 9).
Por meio das informaes contidas na Tabela 1.2, observamos que a idade mnima dos
candidatos 22 anos e a mxima 35 anos. Podemos concluir, tambm, que 70% dos
candidatos tm no mximo 30 anos (30 anos de idade ou menos).
Podemos observar que a estrutura da distribuio de frequncias a mesma tanto para
variveis qualitativas quanto para variveis quantitativas. No caso de variveis quantitativas,
colocamos os valores numricos em ordem crescente.
Como dissemos anteriormente, em algumas anlises precisamos da frequncia acumula-
da, como na construo de um grfico denominado Ogiva e no clculo de medidas separatri-
zes para dados organizados em intervalos de classes. Construiremos, agora, uma distribuio
de frequncias com a frequncia acumulada absoluta e a frequncia acumulada relativa (%).

FREQUNCIA ACU-
NMERO DE CANDI- FREQUNCIA FREQUNCIA
IDADE MULADA RELATIVA
DATOS RELATIVA (%) ACUMULADA
(%)
22 1 10 1 10
23 1 10 2 20
26 2 20 4 40
28 1 10 5 50
30 2 20 7 70

28 captulo 1
FREQUNCIA ACU-
NMERO DE CANDI- FREQUNCIA FREQUNCIA
IDADE MULADA RELATIVA
DATOS RELATIVA (%) ACUMULADA
(%)
33 1 10 8 90
35 2 20 10 100
Total 10 100

A coluna da frequncia acumulada obtida somando cada frequncia com as que lhe
so anteriores e a frequncia acumulada relativa (%) obtida dividindo a frequncia acumu-
lada pelo nmero total de dados (X 100).
Por exemplo, a frequncia acumulada associada idade 30 obtida somando a frequn
cia desta resposta com as frequncias anteriores (1 + 1 + 2 + 1 + 2 = 7) e a frequncia
7
acumulada relativa (%) obtida fazendo 100 = 70% .
10
Quando estamos analisando uma varivel quantitativa contnua, comum os valores no
se repetirem. Se construirmos uma distribuio de frequncias como na Tabela 1.2, ela ficar
muito extensa e no atingiremos o objetivo de resumir o conjunto de dados. Nestes casos,
conveniente agrupar os dados em intervalos de classes. O mesmo procedimento pode ser
feito quando a varivel for quantitativa discreta e apresentar um nmero grande de dados,
mas com valores com pouca repetio.
Identificamos os seguintes valores em um intervalo de classe:

LIMITE INFERIOR o menor valor que a varivel pode assumir em uma


(LI) classe de frequncia;

serve de limite para estabelecer qual o maior valor que


LIMITE SUPERIOR a varivel pode assumir em uma classe de frequncia,
(LS) mas, geralmente, os valores iguais ao limite superior no
so computados naquela classe e sim na seguinte;

a mdia aritmtica entre o Li e o Ls da mesma classe,


PONTO MDIO (PM) ou seja Pm =
Li + Ls
2

a diferena entre o Ls e o Li da classe, ou seja,


AMPLITUDE (H) h = Ls Li;

captulo 1 29
Na construo de uma distribuio de frequncias com intervalos de classes devemos
ter respostas para estes dois questionamentos:
Qual o nmero de classes que a tabela deve ter?
Qual o tamanho (ou a amplitude) das classes?

Podemos usar o bom senso e escolher arbitrariamente quantas classes e qual a ampli-
tude que estas classes devem ter.
Quando no tivermos nenhuma referncia sobre qual deve ser o nmero de classes a
se trabalhar, podemos utilizar o critrio que sugerido por vrios autores. Chama-se regra
da raiz:

k n

onde k indica o nmero de classes que vamos construir e n o nmero de observaes


do conjunto de dados. muito comum o valor obtido para k no ser inteiro, ento, vamos
aproximar para o inteiro prximo de k.
Para encontrar a amplitude e o nmero de observaes em cada classe, vamos seguir
os seguintes passos:

Achar o mnimo e o mximo dos dados.


R
Para determinar a amplitude de cada classe calcularemos
, ondeh
k
R=valor mximo valor mnimo . O valor de h ser a amplitude da classe. Normalmente
o valor encontrado para h no inteiro. Nestes casos, podemos aproximar para o inteiro
prximo para facilitar a construo das classes.
Contar o nmero de observaes que pertencem a cada intervalo de classe. Esses nme-
ros so as frequncias absolutas das classes.
Calcular as frequncias relativas de cada classe.

De modo geral, a quantidade de classes no deve ser inferior a 5 e nem superior a 20.
Se o nmero de classes for muito pequeno, perderemos informao, e com um nmero gran-
de de classes, o objetivo de resumir os dados fica prejudicado.
Construiremos intervalos de classe fechados esquerda. A representao deste tipo
de intervalo :
Li | Ls
Por exemplo:
5 | 10

30 captulo 1
Pertencem a este intervalo valores iguais ou superiores ao limite inferior do intervalo
(neste exemplo, 5) e inferiores ao limite superior (neste exemplo, 10). Se houver o nmero
10 no conjunto de dados, ele entra no prximo intervalo de classe.

1.8: Os dados abaixo referem-se frao de colesterol de muito baixa densidade, em mili-
gramas por decilitro (mg/dl), em indivduos do sexo feminino. Vamos organizar este conjunto
de dados numa distribuio de frequncias.

22 22 24 24 25 26 26 26
26 26 26 26 27 27 27 28
28 28 28 28 28 28 28 28
28 29 29 29 29 29 29 30
30 30 30 30 30 30 30 30
30 30 32 34 34 34 34 34
35 35 35 35 35 35 35 36
36 37 39 39 40 40 45 48

Resoluo:
Apesar da varivel em estudo (frao de colesterol de muito baixa densidade) estar apre-
sentada na forma discreta, h uma variao grande de nmeros. Se construirmos uma distri-
buio de frequncias colocando os nmeros do menor para o maior, a tabela ficar extensa.
Ento, nesta situao, conveniente agrupar os dados em intervalos de classes.
Primeiro, precisamos saber quantas classes vamos construir. Para isto, utilizaremos a
frmula:

64 = 8

Ento, construiremos 8 classes. Agora, vamos encontrar o tamanho (amplitude) de cada


uma das classes:

valor mximo valor mnimo 48 22


h 3, 3
8 8

Portanto, vamos construir classes de amplitude 4 cada uma (arredondamos o valor de h


para facilitar a construo das classes). Quando consideramos 4 como amplitude, o nmero
de classes passa a ser 7 (esta alterao no gera problema algum!).

captulo 1 31
FRAO DE COLESTEROL DE BAIXA
FREQUNCIA FREQUNCIA RELATIVA (%)
DENSIDADE
22 | 26 5 7,81
26 | 30 26 40,63
30 | 34 12 18,75
34 | 38 15 23,44
38 | 42 4 6,25
42 | 46 1 1,56
46 | 50 1 1,56
Total 64 100,00

Tabela 1.4 Distribuio de frequncias do nmero de horas extras dos funcionrios.

Neste exemplo construmos classes de mesma amplitude, mas isto no obrigatrio.


Quando construmos classes de amplitudes diferentes, devemos tomar cuidado na constru-
o de um grfico denominado histograma, que veremos mais adiante.
Agora que j aprendemos como apresentar os dados coletados em distribuies de fre-
quncias, vamos estudar como estes mesmos dados so utilizados na construo de grficos.

1.5 Grficos
Os grficos estatsticos so utilizados frequentemente nos meios de comunica-
o. Em geral, as pessoas tem mais facilidade de compreender as informaes
que esto contidas numa tabela por meio de grficos. H uma quantidade mui-
to grande de grficos disponveis em softwares estatsticos e no Excel, mas de-
vemos ter em mente que a construo de grficos deve ser feita cuidadosamen-
te! Por exemplo, a construo de um grfico desproporcional em suas medidas
pode nos levar a concluses equivocadas.

CONEXO
Um texto interessante que chama reflexo sobre a necessidade de abordagens pedaggi-
cas mais efetivas para o ensino e a aprendizagem de grficos est disponvel em: <http://
www.ufrrj.br/emanped/paginas/conteudo_producoes/docs_22/carlos.pdf>. Acesso em:
30 de Abr. 2015.

32 captulo 1
1.5.1 Tipos de grficos

Os grficos mais utilizados so: grfico de linhas, diagramas de rea (como por
exemplo: grfico de barras e grfico de setores) e grficos para representar as
distribuies de frequncias construdas com intervalos de classes (como por
exemplo: polgono de frequncias e histograma).
De acordo com VIEIRA (2013, p. 17):

Cada tipo de grfico tem indicao especfica, mas, de acordo com as normas brasileiras:

Todo grfico deve apresentar ttulo e escala;


O ttulo deve ser colocado abaixo da ilustrao.
As escalas devem crescer da esquerda para a direita e de baixo para cima.
As legendas explicativas devem ser colocadas, de preferncia, direita da figura.
Os grficos devem ser numerados, na ordem em que so citados no texto.
Os dois eixos devem apresentar legenda.

Nos itens a seguir abordaremos os grficos de linhas, barras, setores, histo-


grama, polgono de frequncias, Pareto e disperso. Sempre que possvel uti-
lizaremos as distribuies de frequncias que construmos nos exemplos an-
teriores, para mostrar que as informaes contidas em ambos so as mesmas.

1.5.1.1 Grfico de linhas

O grfico de linhas (grfico de sries temporais) utilizado quando os dados


estiverem distribudos segundo uma varivel no tempo (meses, anos, etc.). Esse
tipo de grfico retrata as mudanas nas quantidades com respeito ao tempo
atravs de uma srie de segmentos de reta. muito eficiente para mostrar pos-
sveis tendncias no conjunto de dados.

EXEMPLO
1.9: A Tabela 1.5 fornece o nmero de casos de dengue no Brasil, no perodo 2000 2013.

captulo 1 33
ANO NMERO DE CASOS
2000 135.228
2001 385.783
2002 696.472
2003 274.975
2004 70.174
2005 147.039
2006 258.680
2007 496.923
2008 632.680
2009 406.269
2010 1.011.548
2011 764.032
2012 589.591
2013 1.452.489

Tabela 1.5 Nmero de casos de dengue - Brasil. Fonte: Disponvel em : < http://portal-
saude.saude.gov.br/images/pdf/2014/julho/31/Dengue-classica-at---2013.pdf >. Acesso
em: 17 jun. 2015.

O grfico que melhor representa este conjunto de dados o grfico em linhas, j que os
dados se reportam a uma srie no tempo (srie temporal). O grfico est ilustrado na Figura 1.3.

Figura 1.3 Grfico de linha para o nmero de casos de dengue no Brasil.

34 captulo 1
Analisando a Figura 1.3 observamos uma oscilao no nmero de casos de dengue, no
Brasil, no perodo em estudo. O nmero de casos em 2013, comparado 2012, aumentou,
aproximadamente 146%!

1.5.1.2 Grfico de barras

O grfico de barras bastante utilizado quando a varivel em estudo for qua-


litativa (dados categricos). No eixo horizontal especificamos os nomes das
categorias e no eixo vertical construmos uma escala com a frequncia ou a
frequncia relativa. As barras tero bases de mesma largura e alturas iguais
frequncia ou frequncia relativa.

As barras podem estar na posio horizontal ou vertical. O Excel denomina um grfico


de barras na posio vertical como grfico de colunas.

EXEMPLO
1.10: A Tabela 1.6 apresenta a distribuio, por tipo sanguneo, de 120 recm- nascidos em
uma maternidade. Vamos apresentar as informaes por meio de um grfico de barras (na
posio horizontal e vertical).

TIPO SANGUNEO FREQUNCIA FREQUNCIA RELATIVA (%)

A 33 27,50

AB 5 4,17

B 21 17,50

O 61 50,83

Total 120 100,00

Tabela 1.6: Distribuio, por tipo sanguneo, de recm-nascidos em uma maternidade.

captulo 1 35
Figura 1.4 Grfico de barras para a varivel tipo sanguneo dos recm-nascidos.

A Figura 1.5 apresenta as barras na posio horizontal, e elas so construdas com base na
frequncia relativa (%). Nesta situao, as categorias so apresentadas no eixo vertical e no
eixo horizontal construmos a escala, utilizando a frequncia absoluta ou a frequncia relativa
(geralmente em porcentagem). H a opo de colocarmos tais frequncias acima das barras.

Figura 1.5 Grfico de barras para a varivel tipo sanguneo dos recm-nascidos.

Vale a pena ressaltar que as informaes contidas nestes dois grficos so as mesmas
que esto apresentadas na Tabela 1.6.

36 captulo 1
1.5.1.3 Grfico de setores

O grfico de setores, tambm conhecido como grfico de pizza, um dos grfi-


cos mais utilizados para representar variveis qualitativas nominais (desde que
o nmero de categorias seja pequeno) e bastante apropriado quando se dese-
ja visualizar a proporo que cada categoria representa do total.

EXEMPLO
1.11: Em uma universidade h 4 500 estudantes, dos quais 60% so do sexo feminino e
40% do sexo masculino. Os dados esto apresentados na Tabela 1.7.

GNERO FREQUNCIA FREQUNCIA RELATIVA (%)


Feminino 2 700 60,00
Masculino 1 800 40,00
Total 4 500 100,00

Tabela 1.7 Distribuio dos alunos, segundo o gnero.

Vamos apresentar as informaes em um grfico de setores.

Figura 1.6 Grfico de setores para a varivel gnero dos estudantes.

Os grficos que sero apresentados a seguir so grficos construdos segundo uma


distribuio de frequncias com intervalos de classes. So eles: o histograma e o polgono
de frequncias.

captulo 1 37
1.5.1.4 Histograma

Um histograma semelhante ao diagrama de barras, porm refere-se a uma


distribuio de frequncias construda com intervalos de classes. Por isso,
apresenta uma diferena: no h espaos entre as barras. Os intervalos de clas-
ses so colocados no eixo horizontal enquanto as frequncias so colocadas no
eixo vertical. As frequncias podem ser absolutas ou relativas.

EXEMPLO
1.12: Vamos construir um histograma para os dados da Tabela 1.4.

Figura 1.7 Histograma para a frao de colesterol de baixa densidade.

O histograma muito utilizado para visualizarmos a natureza da distribuio dos dados.


Estudaremos as formas de distribuies (simtricas ou assimtricas) no prximo captulo.

Utilizamos a frequncia ou a frequncia relativa para construir o histograma, desde que


os intervalos de classes tenham mesma amplitude. Caso contrrio, temos que encon-
trar a densidade de frequncia, que obtida pelo quociente da frequncia absoluta pela
amplitude do intervalo de classe.

38 captulo 1
1.5.1.5 Polgono de frequncias

Podemos dizer que o polgono de frequncias um grfico de linha de uma


distribuio de frequncias. No eixo horizontal so colocados os pontos m-
dios de cada intervalo de classe e, no eixo vertical, so colocadas as frequncias
absolutas ou relativas (como no histograma). Para se obter as interseces do
polgono com o eixo das abscissas, devemos encontrar o ponto mdio da classe
anterior primeira e o ponto mdio da classe posterior ultima.
O histograma e o polgono de frequncias so grficos alternativos e con-
tm a mesma informao. Fica a critrio de quem est conduzindo o estudo a
escolha de qual deles utilizar.
Considerando os dados da Tabela 1.4, temos o polgono de frequncias re-
presentado pela Figura 1.8.

Figura 1.8 Polgono de frequncias para a frao de colesterol de baixa densidade.

1.5.1.6 Diagrama de Pareto

O Diagrama de Pareto um grfico de barras que utilizado para representar


as ocorrncias das categorias de uma varivel qualitativa. Neste tipo de grfico,
as barras so arranjadas em ordem decrescente de altura, a partir da esquerda
para a direita, com a categoria que ocorre com maior frequncia aparecendo
em primeiro lugar.

captulo 1 39
A grande utilidade deste diagrama a de permitir uma fcil visualizao e
identificao das causas ou problemas mais importantes, possibilitando a con-
centrao de esforos sobre os mesmos. O diagrama de Pareto uma das sete
ferramentas da qualidade.

EXEMPLO
1.13: A distribuio de frequncias a seguir apresenta as reclamaes fundamentadas de
2013, por rea, na Fundao Procon SP.

REA FREQUNCIA FREQUNCIA RELATIVA (%)


Produtos 9 683 31,15
Assuntos Financeiros 8 464 27,23
Servios Essenciais 5 298 17,04
Servios Privados 4 838 15,56
Sade 1 408 4,53
Habitao 1 327 4,27
Alimentos 67 0,22
Total 31 085 100,00

Tabela 1.8 Reclamaes no Procon SP por rea, em 2013. Fonte: Disponvel em: < http://
www.procon.sp.gov.br/pdf/ranking_2013_coment.pdf >. Acesso em: 03 de Maio. 2015.

Vamos representar as informaes contidas na Tabela 1.8 em um diagrama de Pareto.

Figura 1.9 Reclamaes no Procon SP, por rea.

40 captulo 1
Analisando o grfico, observamos que, em 2013, o maior nmero de reclamaes fundamen-
tadas foi na rea de produtos, seguido por assuntos financeiros.

1.5.1.7 Diagrama de disperso

O diagrama de disperso um grfico muito utilizado quando temos interesse


em visualizar a relao entre duas variveis quantitativas, denominadas X e Y.
Para constru-lo, cada para ordenado colocado em suas determinadas coor-
denadas (x,y).

EXEMPLO
1.14: Uma construtora quer verificar a eficcia de seus anncios em determinado programa
de televiso. O objetivo verificar se h relao entre a quantidade de anncios e o nmero
de apartamentos vendidos. A tabela abaixo mostra o nmero de anncios que foram ao ar,
durante seis meses, e o correspondente nmero de apartamentos vendidos de um edifcio
em lanamento.

NMERO DE ANNCIOS (X) NMERO DE APARTAMENTOS VENDIDOS (Y)

10 4

15 7

18 6

22 12

25 15

30 19

Tabela 1.9 Nmero de anncios publicados e nmero de apartamentos vendidos.

Para verificarmos, visualmente, se h relao entre o nmero de anncios que foram ao


ar e o nmero de apartamentos vendidos, construmos o diagrama de disperso.

captulo 1 41
Figura 1.10 Diagrama de disperso do nmero de anncios e nmero de apartamentos
vendidos.

Pela anlise grfica observamos que medida que o nmero de anncios que foram ao
ar aumenta, ocorre um aumento no nmero de apartamentos vendidos. Como identificamos
uma relao entre as duas variveis, podemos medir a intensidade da relao e fazer pre-
vises do nmero de apartamentos vendidos a partir de um valor especfico de anncios.
Estudaremos estes conceitos no Captulo 5.
Vimos que os grficos nos transmitem informaes contidas no conjunto de dados, de
maneira simples e de fcil compreenso. Apesar de ser uma ferramenta eficaz, precisamos
tomar cuidado na construo dos grficos para no obtermos concluses enganosas. Os
principais erros na elaborao de um grfico so:

neste tipo de grfico, h um uso excessivo de figuras que


GRFICO SUCATA podem ocultar a informao que se deseja transmitir.

quando utilizamos informaes de mais de um conjunto de


AUSNCIA DE dados de tamanhos diferentes em um mesmo grfico, com
BASE RELATIVA o objetivo de fazer comparaes, devemos utilizar a frequn
cia relativa em vez da frequncia absoluta.

42 captulo 1
as escalas empregadas devem ser coerentes com o tama-
EIXO VERTICAL nho da figura exibida. Se o eixo vertical estiver comprimi-
COMPRIMIDO do, as diferenas reais entre as categorias de respostas da
varivel podem ficar distorcidas.

a ausncia do ponto zero no eixo vertical tende a produzir


AUSNCIA DO uma impresso enganosa do comportamento dos dados,
PONTO ZERO exagerando eventuais variaes.

1.6 Utilizao do Microsoft Excel na Construo


de Grficos

Os grficos apresentados no item 1.5 foram construdos utilizando o Microsoft


Excel. Estudaremos, agora, quais os procedimentos que devemos seguir para
elaborar o grfico de barras. Os procedimentos para construo de outros grfi-
cos so semelhantes ao que vamos apresentar. Utilizaremos a verso 2010.

1o passo: Digitar em uma planilha as respostas da varivel (numrica ou ca-


tegrica) e suas respectivas frequncias ou frequncias relativas. Para exempli-
ficar, utilizaremos os dados do Exemplo 1.7.

Figura 1.11 Entrada dos dados

captulo 1 43
2 passo: Neste passo, selecionamos os dados. Podemos escolher a frequ-
ncia absoluta ou relativa. Neste caso, o grfico ser construdo com a frequn-
cia absoluta (colunas selecionadas: A e B, sem os ttulos!). Aps a seleo, esco-
lher a aba Inserir e depois selecionar o tipo de grfico a ser elaborado. Vamos
escolher a primeira opo para o grfico de Coluna (lembre-se, que j vimos
que o Excel denomina o grfico de barras verticais como coluna). Clicar em OK.

Figura 1.12 Escolha do tipo de grfico.

3 passo: O grfico elaborado est na Figura 1.13. Observando as informa-


es, percebemos que temos que format-lo, pois no h necessidade de le-
genda e os eixos esto sem ttulo. Como opo, tambm podemos remover as
linhas horizontais que aparecem no corpo do grfico (linhas de grade).

Figura 1.13 Grfico de barras verticais elaborado.

44 captulo 1
4 passo: Para iniciar a formatao, clicamos sobre o grfico e aparecer
Ferramentas de Grfico com algumas opes de escolha. Clicar em Layout e
logo em seguida Ttulos dos Eixos. Utilizamos as duas opes: uma para co-
locar ttulo no eixo horizontal e a outra para colocar o ttulo no eixo vertical. A
Figura 1.14 ilustra a escolha para o Ttulo do Eixo Horizontal Principal, com a
opo Ttulo Abaixo do Eixo. Aps a insero do ttulo horizontal, seguimos o
mesmo procedimento para o eixo vertical.

Figura 1.14 Procedimento para inserir ttulos nos eixos.

5 passo: A Figura 1.15 apresenta o grfico com ttulos nos eixos horizontal
e vertical. Para finalizar, vamos excluir a legenda e as linhas de grade.

Figura 1.15 Grfico com ttulo nos eixos.

6 passo: As excluses da legenda e das linhas de grade tambm podem ser


feitas por meio de Ferramentas de Grfico. Clicar em Layout e logo em seguida
em Legenda. Escolher a opo Nenhuma (Desativar legenda). Depois, clicar

captulo 1 45
em Linhas de grade, escolher a opo Linhas de Grade Horizontais Principais e
clicar em Nenhuma. A Figura 1.16 apresenta o grfico finalizado.

Figura 1.16 Grfico de barras horizontais para a varivel Grau de escolaridade dos candidatos.

Agora, basta copiar e colar, por exemplo, em um arquivo formato DOC e in-
terpretar as informaes obtidas por meio da anlise grfica.
Para montar os outros grficos com o auxlio do Excel, basta seguirmos os
mesmos passos descritos acima. H pequenas diferenas entre a montagem de
um tipo de grfico e outro, mas fcil verificar quais procedimentos devem ser
seguidos.

REFLEXO
Estamos encerrando nosso primeiro captulo. Vimos, aqui, alguns conceitos que so funda-
mentais na compreenso do restante do contedo apresentado neste livro.
Com os conceitos adquiridos, voc ser capaz de coletar dados de maneira apropriada,
saber identific-los como qualitativos ou quantitativos e apresent-los por meio de tabelas
e grficos.
Estamos apenas no comeo. Muitas tcnicas (muito interessantes!) ainda sero aborda-
das. E lembre-se que o conhecimento e o domnio da Estatstica certamente ajudaro voc a
tomar s decises mais acertadas.

46 captulo 1
LEITURA
No endereo http://m3.ime.unicamp.br/recursos/1338 voc encontrar dois udios interes-
santes, primeiro mdulo e segundo mdulo, que introduz o conceito de Estatstica e anlise
e dados por meio de informaes sobre gravidez na adolescncia.

REFERNCIAS BIBLIOGRFICAS
BRUNI, Adriano L. Estatstica Aplicada Gesto Empresarial. 2. ed. So Paulo: Atlas, 2010.
BUSSAB, Wilton de O. ; MORETTIN, Pedro A. Estatstica Bsica. 5. ed. So Paulo: Saraiva, 2002.
MAGALHES, Marcos N.; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008. Disponvel
em:<http://saladeimprensa.ibge.gov.br/noticias?view=noticia&id=1&busca=1&idnoticia=1866>
Acesso em: 30 abr. 2015.
OLIVEIRA, Tania M. Veludo. Disponvel em: < http://www.fecap.br/adm_online/art23/tania2.htm>.
Acesso em: 30 abr. 2015.
OLIVEIRA, Ely F. Tannuri; GRCIO, Maria C. Cabrini. Disponvel em: <http://dgz.org.br/ago05/Art_01.
htm>. Acesso em: 30 abr. 2015.
MONTEIRO, Carlos E. Ferreira. Disponvel em: < http://www.ufrrj.br/emanped/paginas/conteudo_
producoes/docs_22/carlos.pdf > Acesso em: 30 abr. 2015.
Disponvel em: < http://www.procon.sp.gov.br/pdf/ranking_2013_coment.pdf >. Acesso em: 03 maio
2015.
Disponvel em : < http://portalsaude.saude.gov.br/images/pdf/2014/julho/31/Dengue-classica-
at---2013.pdf >. Acesso em: 17 jun. 2015.
FUSHIGIRA, Vanessa; OLIVEIRA, Samuel R.; SARTI, Luis R. Disponvel em: < http://m3.ime.unicamp.
br/recursos/1338 >. Acesso em: 03 maio 2015.

captulo 1 47
48 captulo 1
2
Medidas Resumo
No primeiro captulo vimos que, aps a coleta dos dados brutos, fundamen-
tal a organizao e apresentao dos dados em distribuies de frequncias e
grficos apropriados. Atravs deles, conseguimos ter uma viso geral do com-
portamento da varivel em estudo. Alm das distribuies de frequncias, po-
demos resumir ainda mais um conjunto de dados quantitativos encontrando
valores que sejam representativos de todo o conjunto.
Temos interesse em encontrar valores que descrevam duas caractersticas
do conjunto de dados:

A tendncia central dos dados, ou seja, o centro em torno do qual os dados


se distribuem.
A variabilidade do conjunto de dados, ou seja, a maneira como os dados
esto dispersos.

Estudaremos, primeiramente, as medidas de posio ou tendncia central


e, em seguida, as medidas de disperso e separatrizes.

OBJETIVOS
Este captulo aborda como podemos resumir um conjunto de dados quantitativos por meio de
medidas resumo. Esperamos que, atravs dos conhecimentos aprendidos, voc seja capaz de:

Calcular e interpretar as medidas de tendncia central e as medidas de disperso;


Compreender a importncia das medidas separatrizes e utiliz-las para identificar a forma
da distribuio dos dados.

50 captulo 2
2.1 Medidas de tendncia central
2.1.1 Mdia aritmtica

A mdia aritmtica, ou simplesmente mdia, a medida de tendncia central


mais conhecida.
Em muitas situaes nos deparamos com informaes referentes mdia:
o tempo mdio de espera em um consultrio mdico de 20 minutos, a mdia
aritmtica final de um estudante na disciplina de Matemtica 7,2, a taxa m-
dia de juros das operaes de crdito para financiamento imobilirio est em
9,23%, etc.
Como fazemos para encontrar estas estatsticas que resumem todo o con-
junto de dados em um nico valor?
Para calcularmos a mdia precisamos somar os valores que aparecem no
conjunto de dados e dividir pelo total de valores contidos neste conjunto.
Vamos formalizar esta definio apresentando uma frmula matemtica:

i =1x i
n

x=
n

em que:
X mdia (lemos como x barra).
n
xi
i =1 : somatrio de n observaes (X1, X2, X3, ..., Xn); X1 representa o primei-
ro valor observado, X2 representa o segundo valor observado e assim por diante,
Xn representa o n-simo valor observado.
n: nmero de observaes no conjunto de dados.

A frmula apresentada para o clculo da mdia utilizada para dados amostrais. Quan-
do estivermos trabalhando com dados de toda a populao, usamos uma notao di-
ferente. O nmero de observaes i denotado por N e utilizamos a letra grega (Mi)
para indicar a mdia, ou seja, = xi .
i=1

captulo 2 51
EXEMPLO
2.1: Um questionrio foi aplicado aos dez candidatos a uma vaga no setor financeiro de uma
clnica de cirurgia plstica e uma das variveis em estudo era a idade dos candidatos. Os
dados obtidos foram:

30 35 26 22 28 30 26 33 35 23

Vamos encontrar a idade mdia dos candidatos vaga.

Resoluo
Sabemos que para encontrar a mdia, somamos todos os valores e dividimos pela quan-
tidade de valores no conjunto de dados. Para nos familiarizarmos, vamos utilizar a frmula:

i=1x i = x1 + x2 + x3 + + x10 = 30 + 35 + 26 + + 23 = 288 = 28,8 anos


n

x=
n 10 10 10

Portanto, a idade mdia dos candidatos 28,8 anos.


Quando os dados estiverem organizados em uma distribuio de frequncias, podemos
utilizar a seguinte frmula:

x i fi
k

x = i =1
n

Para utilizarmos esta frmula, acrescentamos uma coluna na distribuio de frequncias:

FREQUNCIA RELATIVA FREQUNCIA RELATIVA


FREQUNCIA x1 fi
(%) (%)
x1 f1 x1 f1
x2 f2 x2 f2
... ... ...
xn fn xn fn
nmero total de obser- k
Total vaes no conjunto de 100,00 xi fi
dados i =1

Tabela 2.1 Estrutura da distribuio de frequncias para o clculo da mdia por meio dos
dados tabelados.

52 captulo 2
S faz sentido acrescentarmos a coluna (x1 f1) se quisermos encontrar a mdia, ou seja,
ela uma coluna auxiliar do clculo.

2.2: Construindo uma distribuio de frequncias para os dados do Exemplo 2.1, obtemos:

IDADE NMERO DE CANDIDATOS FREQUNCIA RELATIVA (%)


22 1 10
23 1 10
26 2 20
28 1 10
30 2 20
33 1 10
35 2 20
Total 10 100

Tabela 2.2 Distribuio dos candidatos, segundo a idade.

Vamos encontrar a idade mdia dos candidatos vaga por meio da distribuio de fre-
quncias.

Resoluo
Como os dados j esto organizados em uma distribuio de frequncias, basta acres-
centarmos uma coluna na tabela:

NMERO DE CANDIDATOS FREQUNCIA RELATIVA


IDADE (x1) (x1 fi)
(fi) (%)
22 1 10 22
23 1 10 23
26 2 20 52
28 1 10 28
30 2 20 60
33 1 10 33
35 2 20 70
Total 10 100 288

Tabela 2.3 Clculo da coluna auxiliar para encontrar a mdia.

Ento:

i =1x i fi
k
288
x = = = 28, 8 anos
n 10

captulo 2 53
A mdia aritmtica possui algumas propriedades importantes, que estudaremos no pr-
ximo item.

2.1.1.1 Propriedades da mdia

1. A soma dos desvios zero, ou seja:


n
(
x x)=0
i 

i =1
di

Em palavras: os desvios so encontrados fazendo a diferena entre cada va-


lor do conjunto de dados e a mdia aritmtica do conjunto. A soma dos desvios
encontrados zero, para qualquer conjunto de dados.
2. Quando somamos (ou subtramos) uma constante de todos os valores de
um conjunto de dados, a mdia fica somada (ou subtrada) por esta constante.
3. Quando multiplicamos (ou dividimos) uma constante de todos os valo-
res de um conjunto de dados, a mdia fica multiplicada (ou dividida) por esta
constante.

Outro tipo de mdia muito utilizada, por exemplo, no clculo da mdia final de um es-
tudante em uma disciplina ou na nota final do candidato em um concurso, a mdia
ponderada. Na mdia ponderada so atribudos aos valores importncias diferentes.
Por exemplo, um estudante pode fazer 4 provas durante o semestre e para cada pro-
va atribudo um peso. O clculo da mdia ponderada feito por meio do somatrio
das multiplicaes entre valores e pesos, divididos pelo somatrio dos pesos, ou seja,
xp =
x i pi , em que Pi so o pesos atribudos.
pi

2.1.2 Moda

A moda de um conjunto de dados a resposta (ou respostas) que aparece(m)


com maior frequncia. A moda, diferentemente das outras medidas de posi-
o, tambm pode ser encontrada quando a varivel em estudo for qualitativa.

54 captulo 2
Portanto, a resposta para a moda pode ser o valor ou a categoria que aparece
com a maior frequncia. Existem conjuntos de dados em que nenhuma respos-
ta aparece mais vezes que outras. Neste caso, dizemos que o conjunto de dados
no apresenta moda.
Em outros casos, podem aparecer duas ou mais respostas de maior frequ-
ncia no conjunto de dados. Nestes casos, dizemos que o conjunto de dados
bimodal e multimodal, respectivamente.
No conjunto de dados apresentados no Exemplo 2.1, temos que as respostas
que aparecem com maior frequncia (frequncia 2) so: 26, 30 e 35. Portanto:

Mo = 26, 30 e 35 anos

Neste caso, a distribuio multimodal.

2.1.3 Mediana

A mediana uma medida que divide o conjunto de dados ordenados ao meio, dei-
xando a mesma quantidade de valores abaixo dela e acima. Por isto, ela tambm
uma medida separatriz, pois separa o conjunto de dados em dois grupos: pelo
menos 50% dos valores ordenados so maiores ou iguais ao valor da mediana e pelo
menos 50% dos valores ordenados so menores ou iguais ao valor da mediana.
O clculo para se encontrar a mediana difere no caso do nmero de elemen-
tos (n) do conjunto de dados ser par ou mpar.
Se o nmero de elementos do conjunto de dados for mpar, ento a mediana
ser exatamente o valor do meio, ou seja:

Md = x n +1
2

Se o nmero de elementos do conjunto de dados for par, ento a mediana


ser exatamente a mdia dos dois valores do meio, isto :

xn + xn
+1
2 2
Md =
2

em que x n , x n +1 e x n +1 indicam as observaes que ocupam as posies


2 2 2
do meio do conjunto de dados.

captulo 2 55
EXEMPLO
2.3: Os dados abaixo se referem aos batimentos cardacos para 15 pacientes que chegaram
ao hospital em estado de parada respiratria e inconscientes. Vamos encontrar a mediana.

167 150 125 120 150 150 140 136 120 150 125 140 148 120 125

Resoluo
Para encontrarmos a mediana, os dados precisam estar ordenados:

120 120 120 125 125 125 136 140 140 148 150 150 150 150 167

Temos n = 15 observaes, ento:

Md = x n+1
2
Md = x15+1 = x8
2

ou seja, a mediana o valor que ocupa a oitava posio do conjunto de dados ordenados,

Md = 140

Repare que a observao 140 divide o conjunto de dados ao meio, com 7 observaes
abaixo dela e 7 observaes acima dela.
Ento, conclumos que pelo menos 50% dos valores so maiores ou iguais a 140 batidas
por minuto.
Tambm podemos encontrar a mediana quando os dados esto apresentados em uma
distribuio de frequncias. Para isto, seguimos o seguinte procedimento:

1 Passo: identificaremos a frequncia acumulada imediatamente superior metade do


somatrio do nmero de observaes do conjunto de dados:

n
2

2 Passo: a mediana ser o valor da varivel associada frequncia acumulada imedia-


tamente superior ao valor encontrado no 1 Passo.

56 captulo 2
n
Quando for ser exatamente igual a uma das frequncias acumuladas fa, o clculo da
2
mediana ser a mdia aritmtica entre dois valores da varivel: xi e xi+1. O valor da varivel xi
n
ser aquele associado = fa e o valor da varivel xi+1 ser aquele que est imediatamente
2
aps xi na distribuio de frequncias.
Para facilitar a compreenso, vamos aplicar no prximo exemplo o passo a passo des-
crito acima.

2.4: O nmero de faltas ao trabalho, no ltimo semestre, dos 30 funcionrios de uma clnica,
so:

NMERO DE FALTAS 0 1 2 3

FREQUNCIA DE FUNCIONRIOS 9 10 5 6

Resoluo
Vamos organizar uma distribuio de frequncias incluindo a frequncia acumulada.

NMERO DE FREQUNCIA
Valor da varivel FREQUNCIA fa Frequncia acu-
FALTAS RELATIVA (%)
associado fre- 0 9 30,00 9 mulada imedia-
quncia acumula- 1 10 33,33 19 tamente superior
2 5 16,67 24
da igual a 19 a 15
3 6 20,00 30
Total 30 100,00

Seguindo o roteiro:

1 Passo:

n 30
= = 1
2 2

A frequncia acumulada imediatamente superior a 15 fa = 19.

2 Passo: a mediana ser o valor da varivel associado frequncia acumulada imedia-


tamente superior ao valor encontrado no 1 Passo. Portanto:

Md=1 falta

captulo 2 57
Lembre que o valor da varivel est na primeira coluna da tabela!
Em algumas situaes, a mediana pode ser a medida de tendncia central mais repre-
sentativa para o conjunto de dados em estudo. Vamos entender quando isto ocorre anali-
sando o prximo exemplo.

2.5: Trinta residncias de um bairro foram selecionadas para participar de uma pesquisa e
uma das variveis em estudo era a renda familiar (salrios mnimos). Os dados obtidos foram:

4,3 5,1 5,7 6,4 6,8 7,1 7,4 7,6 8,2 8,7
8,9 9,2 9,5 9,7 10,0 10,4 10,6 11,2 11,4 11,6
11,7 11,9 12,1 12,3 12,4 12,4 12,7 13,2 13,5 91,3

Vamos calcular a mdia e a mediana para este conjunto de dados.

Resoluo
Para encontrar a mdia, somamos todos os valores e dividimos por 30, ou seja:

4, 3 + 5,1+ 5, 7 +  + 913
, 373, 3
x = = = 12, 44 s.m.
30 30

Ou seja, conclumos que a renda familiar mdia dos moradores das 30 residncias sele-
cionadas 12,44 salrios mnimos.
Analisando o conjunto de dados, observamos que o valor encontrado para a mdia est
acima dos valores de 26 observaes do conjunto! Por que isto ocorreu? Temos uma obser-
vao discrepante, ou seja, muito maior que as outras, que 91,3. Esta observao puxa
a mdia para cima, fazendo com que tenhamos uma interpretao enganosa sobre o centro
em torno do qual os dados se distribuem.

A mdia aritmtica muito sensvel a valores extremos, ento, dizemos que a mdia no
uma medida de tendncia central resistente.

Agora, vamos analisar o que acontece no clculo da mediana.


Temos n = 30 observaes, ento:

x 30 + x 30
+1
2 2
Md =
2
x15 + x16
Md =
2

58 captulo 2
ou seja, a mediana a mdia entre os valores que ocupam a dcima quinta e dcima
sexta posio do conjunto de dados ordenados.

10 + 10, 4
Md = = 10, 2 s.m.
2

Com o resultado obtido para a mediana, observamos que ela no afetada pela obser-
vao discrepante, sendo, portanto, a medida de tendncia central mais representativa para
este conjunto de dados.
Agora que j sabemos calcular e interpretar a mdia, moda e mediana, podemos utiliz
-las para detectar assimetria em um conjunto de dados:

Se a distribuio dos dados for exatamente simtrica, a mdia, a moda e a mediana so


exatamente iguais. Para distribuies aproximadamente simtricas, as trs medidas so
prximas.
Se a distribuio dos dados apresentar assimetria esquerda, em geral, a mdia menor
que a mediana; e se apresentar assimetria direita, em geral, a mediana menor que a
mdia.

A distribuio dos dados assimtrica quando se estende mais para um lado do que
para o outro e simtrica se a metade esquerda do seu histograma se comporta de
maneira praticamente igual da sua metade direita. No Captulo 1 vimos que o histo-
grama um grfico muito utilizado para identificar a forma da distribuio dos dados.

2.1.4 Clculos das medidas de tendncia central para dados


agrupados em intervalos de classes

Aprendemos, at agora, a calcular as medidas de posio central pelo conjunto


de dados brutos ou pela distribuio de frequncias sem intervalos de classes.
E quando os dados estiverem apresentados em intervalos de classes, como va-
mos calcular tais medidas? Quando agrupamos as observaes em classes, per-
demos a informao dos valores que esto dentro de cada classe. Neste caso,
vamos supor que todos os valores dentro de uma classe tenham seus valores
iguais ao ponto mdio desta classe.

captulo 2 59
Por exemplo, vamos supor que o intervalo de 10| 15 tenha frequncia 5. No sabe-
mos quais so os valores destas 5 observaes, s podemos afirmar que so maiores
ou iguais a 10 e menores que 15. Ento, assumiremos que as 5 observaes so iguais
a 12,5, que o ponto mdio deste intervalo.

Vamos aprender a calcular as medidas de tendncia central para dados


agrupados atravs do exemplo a seguir.

EXEMPLO
2.6: Uma professora de Cincias, interessada em fazer uma aula prtica com seus alunos,
fez um levantamento dos pesos, em quilogramas, de cada um deles. Os dados esto apre-
sentados na Tabela 2.4.

PESO (KG) FREQUNCIA FREQUNCIA RELATIVA (%)


40 | 45 8 5,59
45 | 50 25 17,48
50 | 55 50 34,97
55 | 60 40 27,97
60 | 65 20 13,99
Total 143 100,00

Tabela 2.5 Distribuio de frequncias dos pesos dos alunos.

Resoluo
Mdia
Para encontrarmos a mdia, precisamos acrescentar duas colunas na distribuio de
frequncias: x i (ponto mdio da classe ) e x i fi .
Para o clculo da mediana, precisaremos da frequncia acumulada. Ento, vamos acres-
centar mais uma coluna contendo tais frequncias.

FREQUNCIA FREQUNCIA
PESO (KG) FREQUNCIA xi xi fi
RELATIVA(%) ACUMULADA
40 | 45 8 5,59 42,5 340 8
45 | 50 25 17,48 47,5 1.187,5 33
50 | 55 50 34,97 52,5 2.625 83
55 | 60 40 27,97 57,5 2.300 123

60 captulo 2
FREQUNCIA FREQUNCIA
PESO (KG) FREQUNCIA xi xi fi
RELATIVA(%) ACUMULADA
60 | 65 20 13,99 62,5 1.250 143
Total 143 100,00 7.702,50

Tabela 2.6 Clculos das colunas auxiliares para encontrar a mdia e a mediana.

Li + Ls
Para encontrar o ponto mdio, basta fazer Pm = . Ento, para o primeiro inter-
40 + 45 2
valo, Pm = = 42, 5 .
2

Substituindo os valores encontrados na frmula, temos:

i =1x i fi
k
7.702, 50
x = = = 53, 86kg
n 143

Moda
Existem vrias definies para localizar a posio da moda em uma classe modal, mas a
mais simples definir a moda como o ponto mdio da classe modal.
Portanto, neste exemplo, a classe modal 50 | 55 (pois, apresenta a maior frequncia
= 50) e, vamos considerar a moda o ponto mdio desta classe, ou seja:

Mo = 52, 5kg

Mediana
Para o clculo da mediana utilizaremos uma frmula que, a princpio, pode parecer um
pouco complexa ou trabalhosa, mas veremos que as quantidades que precisamos para subs-
tituir na frmula so fceis de serem obtidas. Utilizaremos a seguinte frmula para o clculo
da mediana para dados agrupados em intervalos de classes:

hmd n
Md = linf + F
md fmd 2 aant

em que:
linf : : limite inferior do intervalo que contm a mediana;
md

hmd : : amplitude do intervalo de classe que contm a mediana;


fmd : : nmero de observaes do intervalo que contm a mediana;

captulo 2 61
n: nmero total de observaes da distribuio de frequncias;
Fa : : frequncia acumulada do intervalo anterior quele que contm a mediana.
ant

A primeira informao que precisamos saber qual intervalo contm a mediana. Este
intervalo est associado frequncia acumulada imediatamente superior n .
2
n 143
Pela Tabela 2.5, como= = 715
, , o intervalo que contm a mediana 50 | 55
2 2
(pois fa = 83).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:
linf : : 50
md

hmd : : 55 50 = 5
fmd : : 50
n: 143
Fa : : 33 pa do intervalo
ant

anterior quele
FREQUNCIA
PESO (KG) FREQUNCIA que contm a
ACUMULADA
Intervalo que 40 | 45 8 8 mediana
contm a 45 | 50 25 33
50 | 55 50 83
mediana Nmero de ob-
55 | 60 40 123
60 | 65 20 143 servaes do in-
Total 143 tervalo que con-
n tm a mediana
Tabela 2.7 Identificao dos valores que sero utilizados no clculo da mediana.

Substituindo os valores encontrados na frmula, temos:

hmd n
Md = linf + F
md fmd 2 aant
5 143
Md = 50 + 33
50 2
Md = 50
0 + 3, 85 = 53, 85kg

Pelo menos 50% das observaes so maiores ou iguais a 53,85 kg.

62 captulo 2
As medidas resumo calculadas quando os dados estiverem agrupados em intervalos de
classes so apenas aproximaes dos verdadeiros valores, pois substitumos os valores
das observaes pelo ponto do mdio do intervalo de classe.

As medidas de posio que estudamos no bastam para descrever um con-


junto de dados. Tais medidas tm como objetivo indicar o centro em torno do
qual os dados esto dispersos, mas no informam o quanto os dados se disper-
sam. Por exemplo, uma pergunta natural que surge aps o clculo da mdia
: ser que as observaes do conjunto de dados esto prximas ou distantes
(dispersas) do valor mdio encontrado?
Veremos, no prximo item, algumas medidas que nos auxiliam na resposta
a este questionamento.

2.2 Medidas de disperso


Antes de aprendermos a calcular algumas medidas de disperso, vamos en-
tender o conceito de variabilidade com o exemplo a seguir.

EXEMPLO
2.7: Os dados abaixo se referem aos salrios de 10 funcionrios que possuem o cargo de
enfermeiro chefe nas cidades e regio metropolitana de So Paulo e Belo Horizonte.

S.P 3 250 4 125 5 270 6 029 9 840 5 127 6 350 4 250 7 125 3 850

B.H. 5 250 5 025 5 270 5 550 5 870 5 625 5 120 5 840 5 720 5 946

i =1x i
n
3250 + 4125 +  + 7125 + 3850
x SP = = = 552160
, reais
n 10
e

i =1x i
n
5250 + 5025 +  + 5720 + 5946
x BH = = = 552160
, reais
n 10

Embora as mdias sejam iguais, observamos claramente que a variabilidade dos salrios
na cidade de So Paulo e regio metropolitana maior que em Belo Horizonte. Portanto, a
mdia descreve bem a situao em Belo Horizonte, mas no em So Paulo.

captulo 2 63
Agora que ficou claro o conceito de disperso ou variabilidade, vamos aprender a calcular
as medidas de disperso.

2.2.1 Mnimo, mximo e amplitude

O mnimo e o mximo de um conjunto de dados so, respectivamente, o menor


e o maior valor do conjunto.
A amplitude de um conjunto de dados a diferena entre o valor mximo e
o valor mnimo dos dados, ou seja:
Amplitude = x ( mximo ) x ( mnimo )

EXEMPLO
2.8: Considerando os dados do Exemplo 2.7, vamos encontrar o mnimo, o mximo e a ampli-
tude do conjunto de dados na cidade de So Paulo e regio metropolitana.

Resoluo

MNIMO MXIMO AMPLITUDE

3 250 9 840 6 590

Tabela 2.8 Valores mnimo, mximo e amplitude dos salrios em So Paulo e regio me-
tropolitana.

Pela amplitude, observamos que a diferena entre o salrio mais alto e o


mais baixo de R$ 6 590,00. Apesar de ser uma medida fcil de calcular e in-
terpretar, a amplitude no muito utilizada, pois leva em conta somente dois
valores de todo o conjunto de dados. Este clculo permite que dois conjuntos
de dados com variabilidades muito diferentes tenham mesma amplitude e,
permite, tambm, que valores extremos aumentem muito a amplitude.
O conveniente utilizarmos uma medida que utilize todas as observaes
do conjunto de dados. Estudaremos nos prximos itens medidas que tm
como princpio bsico analisar a disperso de cada observao em relao
mdia dessas observaes.

64 captulo 2
2.2.2 Desvio mdio, varincia e desvio padro amostrais

Antes de apresentarmos as frmulas para o clculo do desvio mdio e da vari-


ncia, vamos entender qual o conceito de desvio em estatstica. Desvio nada
mais do que a distncia entre qualquer observao do conjunto de dados em
relao mdia aritmtica deste mesmo conjunto:

desvio = observao mdia


desvio = x x

intuitivo pensar que se os desvios em relao mdia so pequenos, as


observaes esto concentradas em torno da mdia e, portanto, a variabilidade
dos dados pequena. Agora, se os desvios so grandes, porque as observaes
esto dispersas e, portanto, a variabilidade dos dados grande.
J vimos, na propriedade 1 da mdia que,n para qualquer conjunto de dados,
a soma dos desvios igual a zero. Ento, ( x i x ) no uma boa medida de
i =1
disperso, pois ela no seria nada informativa sobre a disperso das observa-
es. Para contornar o resultado desta propriedade,
n
podemos considerar o to-
tal dos desvios em valor absoluto, ou seja, i ( x x ) . Mas, somente o uso deste
i =1
total pode causar dificuldades de interpretao quando estivermos comparan-
do conjunto de dados com nmeros diferentes de observaes. Ento, o conve-
niente definir a medida como mdia, obtendo o desvio mdio:

xi x
n

dm = i =1
n

O desvio mdio uma mdia dos valores absolutos dos desvios em relao
mdia. Esta medida utiliza o mdulo que, por suas caractersticas matem-
ticas, torna difcil o estudo de suas propriedades. Ento, vamos definir uma
medida que utiliza o quadrado dos desvios em relao mdia.
A varincia amostral uma medida de disperso que pode ser interpretada
como uma mdia dos quadrados dos desvios, ou seja:

i =1( x i x ) = ( x1 x )2 + ( x2 x )2 +  + ( xn x )2
n 2

s2 =
n 1 n 1

captulo 2 65
O denominador, n 1, so os graus de liberdade associados varincia. Uma explicao
detalhada da utilizao de n 1 no denominador encontrada em TRIOLA (2008, p. 83).

Uma frmula alternativa para o clculo da varincia :

( i =1x i )2
n


n
x2
i =1 i

s2 = n
n 1

em que:
xi2 : soma de cada valor observado ao quadrado;
( xi ) : quadrado da soma de todos os valores observados;
2

n : nmero total de observaes no conjunto de dados.

Apesar, de primeira vista, a frmula alternativa parecer mais complicada,


os clculos exigidos so feitos com menor nmero de operaes aritmticas.
Quando os dados estiverem organizados em uma distribuio de frequn-
cias, podemos utilizar a seguinte frmula:

i =1( x i x ) fi = ( x1 x ) f1 + ( x 2 x ) f2 + + ( x k x ) fk
k 2 2 2 2

s2 =
n 1 n 1

Ou, pela frmula alternativa:

( i =1x i fi )2
n

i =1x i2 fi
n

s2 = n
n 1

Como a varincia envolve os quadrados dos desvios, a unidade de medida da


varincia igual ao quadrado da medida das observaes (por exemplo, mim2,
kg2, m2 etc). As unidades elevadas ao quadrado associadas varincia tornam
difcil a interpretao do valor numrico.
Para obtermos uma medida de variabilidade cuja unidade de medida seja
a mesma do conjunto de dados, extramos a raiz quadrada da varincia. Esta
medida denominada desvio padro amostral:

s = s2

66 captulo 2
em que:
s: desvio padro;
s2: varincia.

Da maneira que o desvio padro definido, podemos concluir que:

O desvio padro uma medida de variao de todos os valores a partir da


mdia.
O valor do desvio padro maior ou igual a zero. Ser zero apenas quando
todos os valores do conjunto de dados forem iguais.
Valores muito prximos resultaro em desvios padres pequenos, en-
quanto que valores mais espalhados resultaro em desvios padres maiores.
O valor do desvio padro pode aumentar drasticamente com a incluso de
um ou mais valores discrepantes.
A unidade de medida do desvio padro a mesma do conjunto de dados.
O desvio padro utilizado para comparar a variabilidade de dois conjun-
tos de dados diferentes quando as mdias forem aproximadamente iguais e
quando as unidades de medidas para os dois conjuntos forem as mesmas.

As frmulas apresentadas para o clculo da varincia e do desvio padro so aplicadas


quando estamos trabalhando com dados amostrais. No caso do conjunto de dados ser
a prpria populao, o denominador da varincia N e substitumos s2 por (: letra
(x x ) e o
n 2
grega sigma). Ento, a frmula da varincia populacional 2 = i =1 i
N
desvio padro populacional = 2

2.2.2.1 Uma regra prtica para interpretar o desvio-padro

Depois que calculamos o desvio-padro, surge uma pergunta: como


interpret-lo?
Para conjuntos de dados que tenham distribuio com forma aproximada-
mente de sino, valem as seguintes consideraes:

Cerca de 68% das observaes do conjunto de dados ficam a 1 desvio pa-


dro da mdia, ou seja, ( x s ) e ( x + s ) .

captulo 2 67
Cerca de 95% das observaes do conjunto de dados ficam a 2 desvios pa-
dres da mdia, ou seja, ( x 2s ) e ( x + 2s ) .
Cerca de 99,7% das observaes do conjunto de dados ficam a 3 desvios
padres da mdia, ou seja, ( x 3s ) e ( x + 3s ) .

Figura 2.1: Regra prtica para interpretao do desvio-padro. Fonte: TRIOLA (2008, p. 81).

Em uma distribuio em forma de sino, as frequncias comeam baixas, crescem at


uma frequncia mxima e depois decrescem para uma frequncia baixa. Alm disto, a
distribuio deve ser aproximadamente simtrica, com frequncias igualmente distribu-
das em ambos os lados da frequncia mxima.

Como a mdia aritmtica, o desvio padro tambm possui algumas proprie-


dades importantes, que apresentaremos a seguir.

2.2.2.2 Propriedades do desvio padro

1. Quando somamos (ou subtramos) uma constante de todos os valores


de um conjunto de dados, o desvio padro no se altera.
2. Quando multiplicamos (ou dividimos) uma constante de todos os va-
lores de um conjunto de dados, o desvio padro fica multiplicado (ou dividido)
por esta constante.

68 captulo 2
EXEMPLO
2.9: Os dados abaixo referem-se s notas finais de dois alunos, um deles est na turma da
manh e o outro na turma da noite, na disciplina Bioestatstica.

MANH 9,5 7,5 3,5 6,0 6,5 2,0 7,0 1,0

NOITE 5,0 5,5 5,0 6,5 6,0 4,5 5,5 5,0

Vamos calcular as medidas de disperso. De acordo com as informaes, qual aluno


apresenta maior variabilidade nas notas?

Resoluo
Analisando as notas dos alunos, conseguimos identificar que as notas do aluno da ma-
nh esto variando mais, enquanto que as notas do aluno da noite esto mais prximas umas
das outras. Os dois alunos apresentam o mesmo desempenho mdio na disciplina, pois:

i =1x i
n
9, 5 + 7, 5 + 3, 5 + + 1
x manh = = = 5, 375
n 8
e

i =1x i
n
5 + 5, 5 + 5 + + 5
x noite = = = 5, 375
n 8

Para exercitar as frmulas, vamos resolver este exerccio de duas maneiras: da maneira
como os dados esto apresentados no enunciado e depois organizando-os em uma distri-
buio de frequncias.
Primeira maneira aluno manh

O valor mnimo 1 e o mximo 9,5. Portanto, a amplitude 8,5 pontos, ou seja a dife-
rena entre a menor nota e a maior 8,5 pontos.
Para encontrarmos a varincia, vamos utilizar a frmula alternativa:

( i=1xi )2
n

i=1xi2
n

2 = N
N

Neste exemplo, utilizaremos a frmula da varincia populacional, pois estamos traba-


lhando com todas as notas dos alunos na disciplina Bioestatstica.

captulo 2 69
Precisamos encontrar a soma de cada valor observado ao quadrado:

( 9, 5) + ( 7, 5) + ( 3, 5) + (6, 0)2 + ( 6, 5) + ( 2, 0 ) + (7, 0)2 + (10


2 2 2 2 2
, )2 = 291

Agora, precisamos encontrar o quadrado da soma de todos os valores observados:

( 9, 5 + 7, 5 + 3, 5 + 6, 0 + 6, 5 + 2, 0 + 7, 0 + 10
, ) = ( 43) = 1849
2 2

Temos todos os valores necessrios para substituir na frmula:

( i =1x i )2
n
(43)2

n
x2 291
i =1 i N 8 291 231125
, 59, 875
2 = = = = = 7, 48 pontos2
N 8 8 8

O desvio padro :

= 7, 48 = 2, 74 pontos

Vamos seguir o mesmo procedimento para encontrar as medidas de disperso para as


notas do aluno da noite.
O valor mnimo 4,5 e o mximo 6,5. Ento, a amplitude 2,0 pontos, ou seja, a dife-
rena entre a menor nota e a maior 2,0 pontos.
Para o clculo da varincia precisamos das seguintes quantidades:

( 5, 0 ) + ( 5, 5) + ( 5, 0 ) + (6, 5)2 + ( 6, 0 ) + ( 4, 5) + (5, 5)2 + (5, 0)2 = 234


2 2 2 2 2

e
(5, 0 + 5, 5 + 5, 0 + 6, 5 + 6, 0 + 4, 5 + 5, 5 + 5, 0 )2 = (43)2 = 1849

Substituindo os valores encontrados na frmula da varincia, temos:

( i =1x i )2
n
1849
i =1x i2
n
234
2 = N = 8 = 234 231125
,
=
2, 875
= 0, 36 ponto2
N 8 8 8

O desvio padro :

= 0, 36 = 0, 60 ponto

70 captulo 2
Vamos colocar as informaes em um quadro para facilitar a interpretao dos resulta-
dos obtidos.

MEDIDAS DE
MNIMO MXIMO AMPLITUDE VARINCIA DESVIO PADRO
DISPERSO

ALUNO - MANH 1,0 9,5 8,5 7,48 2,74

ALUNO -NOITE 4,5 6,5 2,0 0,36 0,60

Tabela 2.9 Medidas de disperso para as notas dos dois alunos.

Apesar de j estar claro analisando as notas dos dois alunos, confirmamos atravs das
medidas de disperso que as notas do aluno da manh apresentam maior variabilidade. Ape-
sar das mdias das notas dois alunos serem iguais, todas as medidas de disperso indicam
maior variabilidade nas notas do aluno da manh. Vale ressaltar que a varincia tem a unida-
de de medida elevada ao quadrado, portanto, utilizamos o desvio padro para interpretar o
resultado obtido.
Segunda maneira aluno noite

Agora, vamos calcular as medidas por meio dos dados apresentados em uma distribuio
de frequncias. Na distribuio de frequncias, acrescentamos duas colunas (xi fi e xi2 fi)
cujos somatrios so exigidos na frmula da varincia. Utilizaremos as notas do aluno da
noite para aprender a fazer os clculos por meio dos dados tabulados. Aps o aprendizado,
faa o mesmo procedimento com o aluno da manh e compare com os resultados obtidos
atravs da primeira maneira. Voc encontrar os mesmos resultados!

FREQUNCIA
NOTAS (xi) FREQUNCIA (fi) xi fi xi2 fi
RELATIVA (%)
4,5 1 12,50 4,5 20,25
5 3 37,50 15 75
5,5 2 25,00 11 60,5
6 1 12,50 6 36
6,5 1 12,50 6,5 42,25
Total 8 100,00 43 234

Tabela 2.10 Clculos das colunas auxiliares para encontrar a varincia aluno noite.

Pela distribuio de frequncias tambm identificamos o mnimo (primeira nota) como


4,5, o mximo (ltima nota) como 6,5 e amplitude 2.

captulo 2 71
Utilizamos os somatrios das duas ltimas colunas da Tabela 2.6 para encontrar a vari-
ncia:

( i=1xi fi )2
n
(43)2
i=1xi2 fi
n
234
N 8 234 231125
, 2, 875
2 = = = = = 0, 36 ponto2
N 8 8 8

O desvio padro :

= 0, 36 = 0, 60 ponto

No Exemplo 2.9 utilizamos o desvio padro para comparar as notas dos dois
alunos, pois as mdias so iguais e as variveis em estudo so as mesmas (as
notas). Agora, quando queremos comparar as variabilidades de dois conjuntos
que apresentam mdias bem diferentes e cujas variveis em estudo so diferen-
tes tambm, utilizamos uma medida de variabilidade denominada coeficiente
de variao. Veremos, no prximo item, como calcular esta medida.

2.2.3 Coeficiente de variao

O coeficiente de variao (cv) definido como o quociente entre o desvio-pa-


dro e a mdia, e frequentemente expresso em porcentagem. Ele mede o grau
de variabilidade do conjunto de dados. Quando calculamos o desvio-padro,
obtemos um valor que pode ser grande ou pequeno, dependendo da varivel
em estudo. O fato de ele ser um valor considerado alto relativo, pois depen-
dendo da varivel que est sendo estudada e da mdia, esta variao dos dados
pode ser relativamente pequena. Ento, o coeficiente de variao serve para cal-
cular o grau de variao dos dados em relao mdia aritmtica. Alm disto,
serve tambm para comparar a variabilidade de conjuntos de dados cujas vari-
veis em estudo so diferentes, pois ele adimensional. Obtemos esta medida
por meio do seguinte clculo:

s
cv = 100
x

onde s o desvio-padro e x a mdia aritmtica.

72 captulo 2
Alguns autores consideram a seguinte regra emprica para a interpretao
do coeficiente de variao:

Baixa disperso: C. V. 15%


Mdia: C. V. 15% - 30%
Alta: C. V. 30%

2.2.4 Clculos da varincia e do desvio padro para dados


agrupados em intervalos de classes

O clculo da varincia e do desvio padro para dados apresentados em tabelas


com intervalos de classes feito de maneira semelhante ao clculo da mdia.
Utilizamos o ponto mdio do intervalo de classe para representar os valores den-
tro de cada classe. Ento, acrescentamos trs colunas na tabela x i , x i fi e x 2i fi ,
que so necessrios para o clculo da varincia.

EXEMPLO
2.10: A Tabela 2.7 apresenta as frequncias de nveis sricos de colesterol para homens, de
determinada cidade, entre 25 e 35 anos.

NVEL DE COLESTEROL (MG/100 ML) FREQUNCIA FREQUNCIA RELATIVA (%)


80 | 120 13 1,21
120 | 160 150 14,02
160 | 200 442 41,31
200 | 240 299 27,94
240 | 280 115 10,75
280 | 320 34 3,18
320 | 360 11 1,03
360 | 400 6 0,56
Total 1.070 100,00

Tabela 2.11 Distribuio de frequncias de nveis sricos de colesterol para homens, entre
25 e 35 anos.

Vamos encontrar a varincia e o desvio padro para os dados apresentados na Tabela 2.7.

Resoluo
Acrescentando as trs colunas adicionais para os clculos, temos:

captulo 2 73
NVEL DE
FREQUNCIA
COLESTEROL FREQUNCIA xi xi fi xi2 fi
RELATIVA (%)
(MG/100 ML)
80 | 120 13 1,21 100 1.300 130.000
120 | 160 150 14,02 140 21.000 2.940.000
160 | 200 442 41,31 180 79.560 14.320.800
200 | 240 299 27,94 220 65.780 14.471.600
240 | 280 115 10,75 260 29.900 7.774.000
280 | 320 34 3,18 300 10.200 3.060.000
320 | 360 11 1,03 340 3.740 1.271.600
360 | 400 6 0,56 380 2.280 866.400
Total 1.070 100,00 213.760 44.834.400
Tabela 2.12 Clculos das colunas auxiliares para encontrar a varincia e o desvio padro.

Substituindo os valores na frmula da varincia, temos:

( i =1x i fi )2
n
( 213.760 )2

n 2
x f
i =1 i i
44.834.400
s2 = n = 1.070
n 1 1.070 1
2
44.834.400 42.704.053,83 2.130.346,17 mg
= = = 1.992,84
1.069 1.069 100ml

O desvio padro :

mg
=s =
1.992,84 44,64
100ml

Agora que j aprendemos os conceitos das medidas de tendncia central e


de disperso, bem como efetuar os clculos para encontr-las, sabemos que a
mdia e o desvio-padro so influenciados pela presena de valores extremos
no conjunto de dados, portanto, podem no ser adequados para representar o
conjunto. Para contornamos situaes em que isto ocorre, podemos calcular
outras medidas descritivas, que veremos a seguir. Estudaremos conceitos re-
ferentes s medidas separatrizes ou de ordenamento e forma da distribuio
dos dados.

74 captulo 2
2.3 Medidas separatrizes ou de ordenamento
As medidas separatrizes ou de ordenamento so: quartis, decis e percentis.
Os quartis (Q1, Q2 e Q3), como o prprio nome sugere, divide a distribuio
dos dados ordenados em quatro partes, sendo, Q1 o quartil que separa os 25%
valores inferiores dos 75% superiores, Q2 o que divide o conjunto ao meio ( a
mediana) e Q3 o que separa os 75% valores inferiores dos 25% superiores.
Os decis, por sua vez, dividem a distribuio dos dados em 10 par-
tes ( Di , i = 1, 2,, 9 ) e os percentis dividem a distribuio em 100 partes
( Pi = 1,2,,99 ) .
No h um consenso universal sobre um procedimento nico para o clculo
das medidas separatrizes, e diferentes calculadoras e softwares estatsticos po-
dem produzem resultados ligeiramente diferentes.

2.3.1 Quartis

Como os quartis so medidas separatrizes precisamos, primeiramente, orde-


nar o conjunto de dados.
n
O primeiro quartil (Q1) ser a observao que ocupar a posio . O segun-
2n 4
do quartil (Q2) ser a observao que ocupar a posio e o terceiro quartil
3n 4
(Q3) ser a observao que ocupar a posio . Quando fazemos estas divi-
4
ses para encontrar as posies dos quartis, pode acontecer do resultado ser
um nmero inteiro ou um nmero fracionrio. Ento, adotaremos a seguinte
conveno:

Se a diviso resultar num nmero fracionrio, arredonde-o para cima e o


valor do quartil ser a observao encontrada nesta posio.
Se a diviso for um nmero inteiro, o quartil ser a mdia aritmtica da
observao que ocupar a posio encontrada com a observao que ocupar a
posio imediatamente seguinte.

EXEMPLO
2.11 Abaixo esto listadas as medidas de entrada calrica diria, registradas em quilocalorias
por quilograma, para uma amostra de adolescentes que sofrem de bulimia:

captulo 2 75
15,9 18,9 25,1 16,0 19,6 25,2 16,5 21,5 25,6 17,0

21,6 28,0 17,6 22,9 28,7 18,1 23,6 29,2 18,4 24,1

30,9 18,9 24,5 30,6

Vamos encontrar primeiro, segundo e terceiro quartil.

Resoluo
Para encontrarmos os quartis, precisamos ordenar o conjunto de dados. Ento:

15,9 16,0 16,5 17,0 17,6 18,1 18,4 18,9 18,9 19,6

21,5 21,6 22,9 23,6 24,1 24,5 25,1 25,2 25,6 28,0

28,7 29,2 30,6 30,9

24 24
( )
Posio do primeiro quartil Q1 :
4
=
4
=6.
Como a diviso resultou em um valor inteiro, o primeiro quartil ser o resultado da mdia
aritmtica entre o valor que est na sexta posio e o valor que est stima posio.

18,1 + 18, 4
Q1 = = 18, 25
2

Ento, pelo menos 25% das observaes so menores ou iguais a 18,25 quilocalorias
por quilograma e, pelo menos, 75% das observaes so maiores ou iguais a 18,25 quiloca-
lorias por quilograma.

2 2 24
( )
Posio do segundo quartil Q2 :
4
=
4
= 12
Como a diviso resultou em um valor inteiro, o segundo quartil ser o resultado da mdia
aritmtica entre o valor que est na dcima segunda posio e o valor que est na dcima
terceira posio.

21,6 + 22, 9
Q2 = = 22, 25
2

Temos que pelo menos 50% das observaes so menores ou iguais a 22,25 quiloca-
lorias por quilograma e pelo menos 50% das observaes so maiores ou iguais a 22,25
quilocalorias por quilograma.

3 n 3 24
( )
Posio do terceiro quartil Q3 =
4
=
4
= 18

76 captulo 2
Como a diviso resultou em um valor inteiro, o terceiro quartil ser o resultado da mdia
aritmtica entre o valor que est na dcima oitava posio e o valor que est na dcima nona
posio.

25, 2 + 25,6
Q3 = = 25, 4
2

Neste conjunto de dados, pelo menos 25% das observaes so maiores ou iguais
a 25,4 quilocalorias por quilograma e pelo menos 75% das observaes so menores ou
iguais a 25,4 quilocalorias por quilograma.

Assim como a mdia, o desvio padro no uma medida de disperso resistente. Para
conjunto de dados com valores discrepantes, uma medida de disperso alternativa ao
desvio padro uma medida denominada amplitude interquartil, ou distncia interquar-
til, definida como a diferena entre o terceiro e o primeiro quartil, ou seja, Dq = Q3 Q1.
No Exemplo 2.11, temos que a distncia interquartil Dq = Q3 Q1 =25,4 18,25=7,15.
Note que a amplitude interquartil contm, aproximadamente, 50% das observaes
centrais.

2.3.2 Decis e Percentis

Para o clculo dos decis e dos percentis seguiremos o mesmo procedimento que foi
adotado para o clculo dos quartis. O decil Dk ser a observao que ocupar a po-
sio Pk; e o percentil ( k n ) , k = 1, 2, 9 ser a observao que ocupar a posio
(k n) . 10
, k = 1, 2, 99
10

EXEMPLO
2.12: Uma pesquisa feita com 40 brasileiros com 16 anos e mais, durante 15 dias, teve como
objetivo saber quantas horas por dia eles usavam a internet, de segunda a sexta-feira. Os
dados obtidos foram:

captulo 2 77
2,4 2,7 2,9 3,1 3,3 3,5 3,5 3,8 3,9 4,0

4,0 4,1 4,2 4,3 4,4 4,4 4,6 4,8 4,9 5,0

5,0 5,0 5,2 5,3 5,4 5,5 5,7 5,9 6,0 6,1

6,2 6,3 6,5 6,6 6,7 6,8 6,8 7,0 7,1 7,1

Resoluo
(6x40 )
O decil D6 ser a observao que ocupar a posio = 24 no conjunto de dados
10
ordenados.
Como a diviso resultou em um valor inteiro, o sexto decil ser o resultado da mdia
aritmtica entre o valor que est na vigsima quarta posio e o valor que est na vigsima
quinta posio.

5, 3 + 5, 4
D6 = = 5, 35
2

Temos que pelo menos 60% das observaes so menores ou iguais a 5,35 horas.
( 87 40 )
O percentil P87 ser a observao que ocupar a posio = 34, 8 no conjunto
100
de dados ordenados.
Como a diviso resultou em um valor fracionrio, vamos arredondar para 35. Portanto, o
percentil P87 o valor que est na trigsima quinta posio.

P87 = 6, 7

Neste conjunto de dados, pelo menos 13% das observaes so maiores ou iguais a
6,7 horas.
As medidas de ordenamento tambm podem ser calculadas para dados agrupados em
intervalos de classes. Os clculos so parecidos com aquele que utilizamos para calcular a
mediana. Vamos estud-los no prximo item.

2.3.3 Clculo das medidas separatrizes para dados agrupados em


intervalos de classes

Para calcularmos os quartis, decis e percentis para dados agrupados em inter-


valos de classes utilizamos uma nica frmula, que segue a ideia que foi descri-
ta para o clculo da mediana:

78 captulo 2
hk k n
Pk = linf + Faant
k fk 100

em que:
n: nmero total de observaes da distribuio de frequncias;
k: 1, 2 , ..., 99;
linf : limite inferior da classe encontrada;
k

hk: amplitude do intervalo;


Faant : frequncia acumulada anterior da classe Pk;
fk: frequncia absoluta da classe encontrada Pk.

Podemos utilizar esta frmula geral, pois Q1 = P25 ,Q2 = P50 e Q3 = P75 e
D1 = P10 ,D2 = P20 ,..., D9 = P90 .

EXEMPLO
2.13: Vamos utilizar os dados do Exemplo 2.6 para encontrar o Q1, D3 e P85

PESO (KG) FREQUNCIA FREQUNCIA ACUMULADA


40 | 45 8 8
45 | 50 25 33
50 | 55 50 83
55 | 60 40 123
60 | 65 20 143
Total 143

Primeiro Quartil (Q1)


A primeira informao que precisamos saber qual intervalo contm o primeiro quar-
til. Este intervalo est associado frequncia acumulada imediatamente superior
k n 25 143
= = 35, 75 . O valor de K igual a 25, pois Q1 = P25, ou seja, estamos calculan-
100 100
do o vigsimo quinto percentil. Pelo Quadro 2.4, temos que o intervalo que contm o primeiro
quartil de 50 | 55 (pois fa = 83).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:

captulo 2 79
linf : 50
k

hk: 55 50 = 5
fk: 50
n: 143
Faant : 33
k: 25 (o primeiro quartil o vigsimo quinto percentil)

hk k n
Pk = linf + Faant
k fk 100
5 25 143
P25 = 50 + 33
50 100
5
P25 = 50 + ( 35, 75 33)
50
5
P25 = 50 + ( 2, 75) = 50, 275
50

Ento, pelo menos 25% das observaes so menores ou iguais a 50,275 kg.

Terceiro Decil (D3)


O intervalo que contm o terceiro decil est associado frequncia acumulada imedia-
k n 30 143
tamente superior = = 42, 9 . Pelo Quadro 2.4, temos que o intervalo que
100 100
contm o terceiro decil de 50 | 55 (pois fa = 83). Ento:
linf : 50
k

hk: 55 50 = 5
fk: 50
n: 143
Faant : 33
k: 30 (o primeiro quartil o vigsimo quinto percentil)

hk k n
Pk = linf + Faant
k fk 100
5 30 143
P30 = 50 + 33
50 100
5
P30 = 50 + ( 9, 9 ) = 50, 99
50

Pelo menos 30% das observaes so menores ou iguais a 50,99 kg.

80 captulo 2
Octogsimo quinto percentil (P85)
k n 85 143
Como = = 12155
, , temos que o intervalo que contm o octogsimo quinto
100 100
percentil de 55 | 60 (pois fa = 123). Ento:
linf : 55
k

hk: 60 55 = 5
fk: 40
n: 143
Faant : 83
k: 85

hk k n
Pk = linf + Faant
k fk 100
5 85 143
P85 = 55 + 83
40 100
5
P85 = 55 + ( 38, 55) = 59, 82
40

Por meio do P85, observamos que pelo menos 15% das observaes so maiores ou
iguais a 59,82 kg.

Perceba que o 2 quartil, o 5 decil e o 50 percentil representam a prpria mediana,


ou seja, todas estas medidas separatrizes (Q2B, D5B, e P50), dividem a distribuio dos
dados ao meio, deixando o mesmo nmero de dados em cada uma das partes.

Agora que j sabemos calcular e interpretar as medidas de disperso e se-


paratrizes, podemos utilizar estas informaes para construir um grfico de-
nominado boxplot (diagrama de caixa). Este grfico construdo utilizando
os valores mnimo, mximo e os quartis. Estes valores so conhecidos como
resumo dos cinco nmeros. O boxplot informa, entre outras coisas, a posio,
variabilidade e simetria dos dados. A posio central dada pela mediana (Q2)
e a disperso pela amplitude interquartil (dq). Com as posies relativas de Q2
Q1, Q2 e Q3, temos ideia da assimetria da distribuio. A Figura 2.3 ilustra um
boxplot.

captulo 2 81
Figura 2.2 Boxplot.Fonte: BUSSAB e MORETTIN (2002, p. 48).

De acordo com Bussab e Morettin (2002, p. 48)

Para construir este diagrama, consideremos um retngulo onde esto representados


a mediana e os quartis. A partir do retngulo, para cima, segue uma linha at o ponto
mais remoto que no exceda LS = q3 + (1,5) dq, chamado limite superior. De modo
similar, da parte inferior do retngulo, para baixo, segue uma linha at o ponto mais
remoto que no seja menor do que LI = q1 + (1,5) dq, chamado limite inferior. Os
valores compreendidos entre esses dois limites so chamados valores adjacentes. As
observaes que estiverem acima do limite superior ou abaixo do limite inferior estabe-
lecidos sero chamadas pontos exteriores e representadas por asteriscos. Essas so
observaes destoantes das demais e podem ou no ser o que chamamos de outliers
ou valores atpicos.

Os boxplots so particularmente teis quando temos interesse em compa-


rar dois ou mais conjuntos de dados, especialmente quando so construdos na
mesma escala. Vamos verificar sua importncia atravs do exemplo a seguir.

82 captulo 2
EXEMPLO
2.14: Vamos utilizar os dados do Exemplo 2.9 para construir os boxplots associados a cada
um dos alunos.

Figura 2.3 Boxplot das notas dos dois alunos.

Pela anlise grfica, observamos que as duas distribuies so assimtricas (a distncia


da mediana para os quartis no a mesma), o mesmo podendo ser observado a respeito da
distncia dos pontos mnimo e mximo em relao mediana. Observamos, tambm, que as
notas do aluno da manh apresentam maior variabilidade (observando os valores utilizados
na escala).
Sabemos que podemos identificar distribuies simtricas e assimtricas utilizando as
medidas de posio e por meio da interpretao grfica, analisando o histograma e o boxplot.
Alm disto, podemos calcular o grau de assimetria e o grau de achatamento ou alongamento
de uma distribuio. Vamos aprender a fazer estes clculos.

2.15: Em um estudo que investiga as causas de morte entre pessoas com asma severa, os
dados foram registrados para dez pacientes que chegaram ao hospital em estado de parada
respiratria e inconscientes. A Tabela 2.9 lista os batimentos cardacos para os dez pacientes
na internao do hospital. Vamos construir o boxplot para este conjunto de dados.

captulo 2 83
PACIENTE BATIMENTO CARDACO
1 167
2 150
3 125
4 120
5 150
6 150
7 40
8 136
9 120
10 150

Tabela 2.13 Batimentos cardacos para dez pacientes asmticos em estado de parada
respiratria. Fonte: PAGANO; GAUVREAU (2004, p. 49).

Para a construo do boxplot, vamos seguir a descrio que est logo aps a Figura 2.2.
Precisaremos dos quartis, ento vamos ordenar os dados:

40 120 120 125 136 150 150 150 150 167

Como n = 10 pacientes, e utilizando os conceitos adquiridos neste captulo, temos:

Q1 = 120
136 + 150
Q2 = = 143
2
Q3 = 150

A distncia interquartil obtida por:

dq = Q3 Q1
dq = 150 120 = 30

Agora, temos as informaes necessrias para encontrar o limite superior (LS) e limite
inferior (LI):

84 captulo 2
L S = Q3 + (15
, ) dq
LS = 150 + (15
, ) 30 = 195
e
LI = Q1 (15
, ) dq
LI = 120 (1, 5) 30 = 75

Ento, com estas informaes, obtemos o boxplot apresentado na Figura 2.4.

Figura 2.4 Boxplot para os dados da Tabela 2.9.

Vamos interpretar os valores contidos na Figura 2.4:

=
O retngulo construdo utilizando os quartis, ou seja, =
Q1 120, Q2 143 e Q3 = 150, .
A partir do retngulo, para cima, segue uma linha at o ponto mais remoto que no exceda
L S = Q3 + (15
, ) dq , ou seja, que no exceda 195. O valor mais remoto que no excede
195 167.
A partir do retngulo, para baixo, segue uma linha at o ponto mais remoto que no seja
menor do que L S = Q1 (15
, ) dq ou seja, que no seja menor que 75. O valor mais remoto
que no menor que 75 120.
As observaes que estiverem acima do limite superior ou abaixo do limite inferior estabe-
lecidos so chamados pontos exteriores e representados por asteriscos. Essas so obser-
vaes destoantes das demais e podem ou no ser o que chamamos de outliers ou valores
atpicos. Neste conjunto de dados temos uma observao destoante das demais, que a
resposta 40, representada no boxplot pelo asterisco.

captulo 2 85
2.4 Medidas de assimetria e curtose
Uma distribuio de frequncia ser simtrica se a metade esquerda de seu his-
tograma praticamente uma imagem espelhada de sua metade direita. Uma
distribuio de frequncia ser assimtrica se a cauda do grfico se prolongar
mais de um lado do que do outro. Uma distribuio ser assimtrica esquer-
da (negativamente assimtrica) se a sua cauda se prolongar para a esquerda.
Uma distribuio ser assimtrica direita (positivamente assimtrica) se a sua
cauda se prolongar para a direita.

Figura 2.5 Curvas simtricas e assimtricas. Fonte: BRUNI (2010, p. 85).

Uma das maneiras de se calcular o grau de assimetria de uma distribuio


por meio do segundo coeficiente de Pearson:
Q1 + Q3 2 Q2
AS =
Q3 Q1

em que:
Q1: primeiro quartil
Q2: segundo quartil
Q3: terceiro quartil

Se:
1. AS = 0: distribuio simtrica (a mdia, a moda e a mediana so iguais)

86 captulo 2
2. AS > 0: distribuio assimtrica positiva ou assimtrica direita (em ge-
ral, a mdia maior que a mediana, que maior que a moda).
3. AS < 0: distribuio assimtrica negativa ou assimtrica esquerda (em
geral, a mdia menor que a mediana, que menor que a moda).

Alm do estudo da simetria da distribuio, podemos ter interesse em es-


tudar o grau de achatamento ou alongamento da distribuio. De acordo com
a anlise das formas das distribuies, podemos classific-las das seguintes
maneiras:

Platicrtica
Mesocrtica
Leptocrtica

O grau de curtose pode ser medido por meio da seguinte frmula:


Q3 Q1
k=
2 (P90 P10 )

em que:
Q1: primeiro quartil
Q3: terceiro quartil
P10: dcimo percentil
P90: nonagsimo percentil

Dependendo do valor encontrado para o coeficiente de curtorse, a distribui-


o ser classificada da seguinte maneira:

1. k = 0,263: distribuio mesocrtica, ou seja, nem chata nem delgada.


2. k > 0,263: distribuio leptocrtica, ou seja, delgada.
3. k < 0,263: distribuio platicrtica, ou seja, achatada.

EXEMPLO
2.16 Os dados abaixo representam as vendas ( 1 000 reais) de uma amostra de vendedo-
res de produtos hospitalares de uma determinada empresa.

captulo 2 87
Figura 2.6 Histograma para a varivel vendas mensais de uma amostra de vendedores de
produtos hospitalares de uma empresa.

Vamos calcular os coeficientes de assimetria e de curtose.

Resoluo
Pela anlise do histograma visualizamos uma distribuio aproximadamente simtrica,
pois a metade esquerda do histograma se comporta de maneira praticamente igual a meta-
de direita. Para calcular os coeficientes de assimetria e curtose, precisamos obter algumas
medidas separatrizes. Vamos colocar as informaes contidas no histograma em um quadro,
para facilitar os clculos, e aproveitamos para exercitar o clculo das medidas separatrizes
para dados agrupados em classes.
VENDAS MENSAIS NMERO DE FREQUNCIA
( 1 000) VENDEDORES ACUMULADA
0 | 300 5 5
300 | 600 24 29
600 | 900 48 77
900 | 200 22 99
1 200 | 1 500 4 103
Total 103
Tabela 2.14 Vendas mensais de vendedores do gnero alimentcio.

88 captulo 2
Primeiro Quartil
A primeira informao que precisamos saber qual intervalo contm o primeiro quar-
til. Este intervalo est associado frequncia acumulada imediatamente superior
k n 25 103
= = 25, 75 . O valor de k igual a 25, pois Q1 = P26, ou seja, estamos calculan-
100 100
do o vigsimo quinto percentil. Pelo Quadro 2.5, temos que o intervalo que contm o primeiro
quartil de 300 | 600 (pois fa = 29).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:
linf : 300
k

hk: 600 - 300 = 300


fk: 24
n: 103
Faant : 5
k: 25

hk k n
Pk = linf + Faant
k fk 100
300 25 103
P25 = 300 + 5
24 100
300
P25 = 300 + ( 25, 75 6 )
24
300
P25 = 300 + (19, 75) = 546, 875
24

Segundo Quartil
k n 50 103
Como = = 515
, , temos que o intervalo que contm o segundo quartil de
100 100
600 | 900 (pois fa = 77). Ento:
linf : 600
k

hk: 900 - 600 = 300


fk: 48
n: 103
Faant : 29
k: 50

captulo 2 89
hk k n
Pk = linf + Faant
k fk 100
300 50 103
P50 = 600 + 29
48 100
300
P50 = 600 + ( 22, 5) = 740, 625
48

Terceiro Quartil
Seguindo o mesmo procedimento utilizado para encontrar o intervalo que contm o pri-
meiro quartil, temos que o intervalo que contm o terceiro quartil est associado frequncia
k n 75 103
acumulada imediatamente superior = = 77, 25 . O valor de k igual a 75, pois
100 100
Q3 = P75. Pelo Quadro 2.5, temos que o intervalo que contm o terceiro quartil de 900 |
1 200 (pois fa = 99).
Aps a identificao do intervalo, conseguimos identificar todos os valores exigidos na
frmula:
linf : 900
k

hk: 1200 - 900 = 300


fk: 22
n: 103
Faant : 77
k: 75

hk k n
Pk = linf + Faant
k fk 100
300 75 103
P75 = 900 + 77
22 100
300
P75 = 900 + ( 77, 25 77)
22
300
P75 = 900 + ( 0, 25) = 900 + 3,4
409 = 903, 409
22

Dcimo percentil (P10)


k n 10 103
Como = = 10, 3 , temos que o intervalo que contm o dcimo percentil de
100 100
300 | 600 (pois fa = 29). Ento:
linf : 600
k

hk: 600 - 300 = 300


fk: 24
n: 110

90 captulo 2
Faant : 5
k: 10

hk k n
Pk = linf + Faant
k fk 100
300 10 103
P10 = 300 + 5
24 100
300
P10 = 300 + ( 5, 3) = 366, 25
24

Nonagsimo percentil (P90)


k n 90 103
Como = = 92, 7 , temos que o intervalo que contm o nonagsimo percen-
100 100
til de 900 | 1 200 (pois fa = 99). Ento:
linf : 900
k

hk: 1200 - 900 = 300


fk: 22
n: 103
Faant : 77
k: 90

hk k n
Pk = linf + Faant
k fk 100
300 90 103
P90 = 900 + 77
22 100
300
P90 = 900 + (15, 7) = 1114, 09
22

Agora, substitumos os valores encontrados na frmula do segundo coeficiente de Pe-


arson:

Q1 + Q3 2 Q2
AS =
Q3 Q1
546, 875 + 903, 409 2 ( 740, 625)
AS =
903, 409 546, 875
30, 966
AS = = 0, 0869
356, 534

captulo 2 91
Apesar do AS > 0, o valor encontrado est bem prximo do zero, ento, podemos consi-
derar a distribuio aproximadamente simtrica, comprovando o que havamos interpretado
por meio do histograma.
Calculando o coeficiente de curtose:

Q3 Q1
k=
2 (P90 P10 )
903, 409 546, 875
k=
2 (1114, 09 366, 25)
356, 534 290, 42
k= = = 0,194
2 ( 747, 84 ) 1495, 68

Como K = 0,263, temos que a distribuio denominada platicrtica (achatada).

2.5 Utilizao do Microsoft Excel na Anlise


de Dados

A maioria das medidas apresentadas neste captulo podem ser obtidas utili-
zando o Excel. Para isto, o suplemento Ferramenta de Anlise deve estar ativo.
Caso ele esteja ativo, deve aparecer o cone Anlise de Dados aps clicar na aba
Dados.
muito comum este suplemento no aparecer ativo. Caso isto acontea,
devemos seguir o seguinte procedimento:

Clicar no Boto Office e em seguida Opo do Excel. Escolher Suplementos


e clicar;
Escolher na lista Suplementos de Aplicativos Inativos a opo Ferramenta
de Anlise e clicar em Ir...
Selecionar o seguinte suplemento disponvel: Ferramenta de anlise e cli-
car em OK.

Com o suplemento ativo, podemos fazer vrias anlises estatsticas!

92 captulo 2
Vamos utilizar os dados do Exemplo 2.7 para exemplificar como os clculos
so obtidos utilizando o Excel. Utilizaremos a verso Excel 2010.
1o passo: Digitar em uma planilha as respostas da(s) varivel(eis).

Figura 2.7 Entrada dos dados.

2 passo: Neste passo, clicar em Dados e, em seguida, Anlise de Dados.


Aparecer uma caixa de dilogo com uma lista de Ferramentas de anlise.
Clicar em Estatstica descritiva e OK.

Figura 2.8 Escolha da ferramenta de anlise.

captulo 2 93
3 passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo
Intervalo de entrada, selecionar os dados arrastando com o mouse desde A1 at B11.
Marcar Rtulos na primeira linha (desde que os nomes das colunas tenham sido se-
lecionados). Em Opes de sada, escolher Nova planilha (as estatsticas calculadas
sairo em uma planilha diferente daquela que utilizamos para digitar a entrada dos
dados, basta identific-la no rodap) e, por fim, escolher Resumo Estatstico e Ok.

Figura 2.9 Entrada das informaes em Estatstica descritiva.

4 passo: As informaes obtidas estaro em uma nova planilha (rodap da


planilha). Todas as medidas que esto destacadas foram abordadas ao longo
do captulo, exceto Erro padro.

Figura 2.10 Resumo estatstico dos salrios de enfermeiros padro nas cidades de So
Paulo e Belo Horizonte.

94 captulo 2
Devemos observar que a palavra Amplitude substituda por Intervalo e
que Moda escrita como Modo. Quando um conjunto de dados no apresenta
moda, o resultado que aparece #N/D. Vale ressaltar que o resumo estatstico
do Excel no apresenta todas as respostas para a moda, caso o conjunto seja
bimodal ou multimodal. No Exemplo 2.7 no calculamos as medidas de posi-
o, a varincia, o desvio padro e os coeficientes de assimetria e curtose. Mas,
sabemos como calcul-las. Encontre as medidas e compare com os resultados
apresentados na Figura 2.9. Lembre-se, que h vrias maneiras de se calcular
as medidas separatrizes, ento, os valores encontrados podem divergir daque-
les encontrados pelo Excel!

REFLEXO
Neste captulo aprendemos diversas medidas que so utilizadas para gerar informaes es-
tatsticas de conjuntos de dados quantitativos. Alm de saber calcul-las, o mais importante
conseguir interpretar os resultados obtidos e identificar em quais situaes uma medida
pode ser mais representativa que outra. E, no podemos esquecer que o clculo de uma
medida resumo isoladamente pode no ser til na comparao de dois ou mais conjuntos de
dados, pois eles podem ter, por exemplo, mesma mdia, mas variabilidades completamente
diferentes. Em situaes como esta, uma anlise mais completa necessita do clculo do
desvio padro e do coeficiente de variao.

LEITURA
No endereo http://m3.ime.unicamp.br/recursos/1315 voc ter a oportunidade de ouvir
dois mdulos que exploram um problema envolvendo mdias ponderadas e que ressalta o
cuidado que devemos ter quando utilizamos a mdia como nica informao.

REFERNCIAS BIBLIOGRFICAS
ARANGO, Hctor G. Bioestatstica Terica e Computacional. Rio de Janeiro: Editora Guanabara
Koogan S.A., 2001.
BRUNI, Adriano L. Estatstica Aplicada Gesto Empresarial. 2. ed. So Paulo: Atlas, 2010.
BUSSAB, Wilton de O. ; MORETTIN, Pedro A. Estatstica Bsica. 5. ed. So Paulo: Saraiva, 2002.

captulo 2 95
PAGANO, Marcello.; GAUVREAU, Kimberlee. Princpios de Bioestatstica. So Paulo: Pioneira
Thomson Learning, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
OLIVEIRA, Samuel R.; TEIXEIRA, Thiago; SANTOS, Joa P. de Oliveira.
Disponvel em: < http://m3.ime.unicamp.br/recursos/1315 >. Acesso em: 20 jun. 2015.

96 captulo 2
3
Distribuio de
Probabilidade
Normal
Nos captulos anteriores, tivemos como objetivo mostrar como organizamos e
resumimos um conjunto de dados. Estudamos como construir distribuies
de frequncias e grficos e como calcular e interpretar medidas de tendncia
central e variabilidade. Neste captulo, estudaremos a distribuio mais im-
portante na Estatstica, que a distribuio normal. Esta distribuio ocorre
frequentemente em situaes reais e desempenham papel importante nos
mtodos de inferncia estatstica, pois, muitos deles, exigem que os dados
amostrais sejam provenientes de uma populao que tenha distribuio que
no se afaste drasticamente de uma distribuio normal.

OBJETIVOS
Esperamos que, atravs dos conhecimentos aprendidos neste captulo, voc seja capaz de:

Compreender o conceito de varivel aleatria contnua;


Compreender as caractersticas da curva normal, fazer a transformao de uma varivel
aleatria que tem distribuio normal em uma varivel aleatria Z e encontrar probabilidades
por meio da tabela da distribuio normal padro.

98 captulo 3
3.1 Varivel aleatria
Antes de comearmos a estudar a distribuio normal, precisamos esclarecer o
conceito de varivel aleatria.

Uma varivel aleatria X representa um valor numrico associado a cada um dos resul-
tados de um experimento aleatrio.

H dois tipos de variveis aleatrias: as discretas e as contnuas.


As variveis aleatrias discretas assumem valores em um conjunto enume-
rvel e as variveis aleatrias contnuas assumem valores em qualquer interva-
lo dos nmeros reais.
Estas definies so similares quelas apresentadas no Captulo 1, com a
diferena que agora aparece a palavra aleatria, para indicar que a cada poss-
vel valor da varivel atribumos uma probabilidade de ocorrncia. Estudamos,
tambm, que podemos representar graficamente dados contnuos, agrupados
em intervalos de classes, por meio de histogramas. A anlise deste grfico nos
auxilia na identificao da forma da distribuio dos dados, por exemplo, con-
seguimos identificar se a distribuio simtrica e se apresenta forma de sino.
Como dissemos anteriormente, neste captulo estudaremos a distribuio
normal. Nesta distribuio, a varivel em estudo contnua, ou seja, pode assu-
mir qualquer valor em um intervalo dos nmeros reais e seu grfico simtrico
e em forma de sino.

3.2 Distribuio Normal


A distribuio normal uma distribuio contnua de probabilidade de uma
varivel aleatria X. Seu grfico chamado de curva normal.
Segundo LARSON (2004, p. 160)

A distribuio normal tem as seguintes propriedades:


1. A mdia, a mediana e a moda so iguais.
2. A curva normal tem formato de sino e simtrica em torno da mdia.

captulo 3 99
3. A rea total sob a curva normal igual a 1.
4. A curva normal aproxima-se mais do eixo x medida que se afasta da mdia em
ambos os lados, mas nunca toca o eixo.

Dois parmetros, e , determinam completamente o aspecto de uma cur-


va normal. A mdia () informa a localizao do eixo de simetria e o desvio pa-
dro () descreve quanto os dados se espalham em torno da mdia.

A curva normal tem dois parmetros, e . Eles determinam a posio e a forma da


distribuio.

Figura 3.1 Distribuies Normais N (, )2, .Fonte: http://www.cultura.ufpa.br/dicas/bio-


me/bionor.htm

As curvas normais a, b e c apresentam mdias iguais (por isto esto locali-


zadas na mesma posio no eixo x), mas apresentam desvios padro diferentes
(por isto a curva c, que apresenta maior desvio padro, mais achatada e a curva
a, que apresenta menor desvio padro, mais fechada em torno da mdia).
A curva d apresenta mdia diferente das outras curvas, por isto est localiza-
da numa posio diferente no eixo x.

100 captulo 3
A Figura 3.1 nos mostra que temos uma famlia de distribuies normais,
diferenciadas por suas mdias e desvios padres.

Para obtermos a curva da distribuio normal, utilizamos a seguinte funo densidade


de probabilidade:
2
1 x

1
f (x ) = e 2
2

em que < x < . Valores especficos para e geram diferentes curvas, como as
apresentadas na Figura 3.1. A maneira de fazer o grfico a mesma que utilizamos
para qualquer funo que relaciona x e y ou x e f (x).

Como a rea total sob a curva de densidade igual a 1, existe uma corres-
pondncia entre rea e probabilidade (TRIOLA, 2008, p. 196).
Quando utilizamos a funo densidade de probabilidade da distribuio
normal para fazer clculos, percebemos que valores mais fceis para e so
= 0 e = 1. Considerando estes valores para os parmetros, matemticos
calcularam diferentes reas sob a curva, que so apresentadas em uma tabela.
Como existe uma correspondncia entre rea e probabilidade, utilizamos a ta-
bela para encontrar probabilidades.
A distribuio normal cuja mdia zero e varincia 1 chamada distribuio
normal reduzida ou distribuio normal padronizada e indicada pela letra Z.
De acordo com VIEIRA (2008, p. 213).

A distribuio normal reduzida tem grande importncia:


1. As probabilidades associadas distribuio normal reduzida so dadas em ta-
belas, o que torna fcil saber as probabilidades associadas a essa distribuio. Basta
procurar na tabela.
2. Podemos transformar qualquer varivel aleatria X com distribuio normal de
mdia e desvio padro conhecidos numa distribuio normal reduzida.
3. Dos itens 1 e 2 segue-se que qualquer probabilidade associada a X pode ser
obtida transformando X (distribuio normal) em Z (distribuio normal reduzida).

captulo 3 101
A Figura 3.2 apresenta a curva de uma distribuio normal reduzida.

Figura 3.2 Distribuio normal reduzida Z ~ N (0,1).

Podemos transformar qualquer varivel aleatria X com distribuio normal


em Z (distribuio normal reduzida). Mas, como fazemos esta transformao?
Se X ~ N (
, 2 ) ento a varivel aleatria definida por:

X
Z=

ter mdia zero e varincia 1, ou seja, Z ~ N (0,1).

A tabela fornecida no final do livro, utilizada nos clculos das probabilida-


des, nos fornece P(0 Z zc) = P, isto ,

Figura 3.3 rea correspondente P(0 Z zc) = P fornecida pela tabela

102 captulo 3
A caracterstica de simetria da distribuio normal implica em: P (Z 0) = 0,5 = P (Z 0).

Vamos aprender a fazer a transformao e utilizar a tabela com o exemplo


a seguir.

EXEMPLO
3.1: Seja X ~N (50,25). Calcular:
f) P (50 x 56)
g) P (39 x 57)
h) P (62 x 64)
i) P (X 58)

Resoluo
Primeiro, precisamos saber interpretar X ~N (50,25). Lemos da seguinte maneira: a
varivel aleatria X tem distribuio normal com mdia 50 e varincia 25. Como, precisamos
do desvio padro para utilizar na transformao, = 2 = 25 = 5 .

a) P (50 x 56)
Agora, hachuramos a rea do intervalo que queremos encontrar (50 x 56) na curva
normal.

50 50
Z1 = =0
5
56 50 6
Z2 = = = 12
,
5 5

captulo 3 103
Apresentaremos, a seguir, uma parte da tabela que est no final do livro.

Vamos aprender a encontrar a rea (probabilidade) por meio da tabela. Na primeira co-
luna da esquerda (z) identificamos o nmero que obtemos na transformao com uma casa
decimal e, a segunda casa decimal do nmero, est nas colunas (0 a 9). O nmero 1,2 igual
a 1,20, ou seja, a segunda casa decimal 0. Vamos linha 1,2 e na coluna 0. O nmero
encontrado 0,3849. Ento:

P ( 50 X 56 ) = P ( 0 Z 12
, ) = 0, 3849

104 captulo 3
b) P (39 x 57)

Transformando para encontrar o novo intervalo correspondente varivel aleatria Z:

39 50
Z1 = = 2, 2
5
57 50
Z2 = = 14
,
5

Observao: Devido simetria, P ( 2, 2 Z 0 ) = P ( 0 Z 2, 2 )


Precisamos encontrar as reas (probabilidades) hachuradas na tabela e som-las.

Ento:

P ( 39 X 57) = P ( 2, 2 Z 0 ) + P ( 0 Z 14
, ) = 0, 4861+ 0, 4192
= 0, 9053

captulo 3 105
c) P (62 x 64)

Transformando:

62 50
Z1 = = 2, 4
5
64 50
Z2 = = 2, 8
5

O objetivo deste item alertar para o fato que a tabela fornece a rea do zero ao valor
tabelado. A rea hachurada neste item no corresponde rea fornecida diretamente na
tabela. Ento, como encontramos a rea procurada? Se encontrarmos a rea 0 Z 2,8
e a rea 0 Z 2,4 (que so obtidas na tabela) e subtrairmos as duas reas, encontramos
justamente a rea hachurada!

106 captulo 3
Portanto:

P ( 62 X 64 ) = P ( 2, 4 Z 2, 8 ) = P ( 0 Z 2, 8 ) P ( 0 Z 2, 4 )
P ( 62 X 66 ) = 0,4
4974 0, 4918 = 0, 0056

d) P (X 58)

Transformando:

58 50
Z= = 16
,
5

captulo 3 107
Neste item, tambm temos que encontrar uma rea que no fornecida diretamen-
te pela tabela. Como a rea total sob a curva 1 e a distribuio simtrica, temos que
P (Z 0) = P (Z 0). Ento:

P ( X 58 ) = P ( Z 16
, ) = P ( Z 0 ) P ( 0 Z 16
, ) = 0, 5 0, 4452 = 0, 0548

As probabilidades podem ser expressas das seguintes maneiras: fraes, decimais ou


percentuais. Neste livro, apresentaremos os resultados na forma decimal. Para expres-
sarmos na forma percentual, basta multiplicar o valor decimal por 100.

3.2: A taxa de glicose no sangue humano uma varivel aleatria com distribuio normal de
mdia = 100 mg por 100 ml de sangue e desvio padro = 6 mg por 100 ml de sangue.
Calcule a probabilidade de um indivduo apresentar taxa:
a) Superior a 110 mg por 100 ml de sangue;
b) Entre 90 e 100 mg por 100 ml de sangue.
Fonte: VIEIRA (2008, p. 225).

Resoluo
X: taxa de glicose no sangue humano
X ~ N (100, (62))

108 captulo 3
a) P (X > 100)

Para encontrar esta probabilidade, devemos transformar a varivel X na varivel normal


reduzida Z:

X 110 100 10
Z= = = = 167
,
6 6

P ( 90 X 100 ) = P ( 167
, Z 0 ) = 0, 4525

captulo 3 109
Observao: Se quisermos apresentar o resultado obtido em forma de porcentagem,
basta multiplicarmos o resultado obtido por 100, ou seja:

P ( X > 110 ) = 0, 0475 100 = 4, 75%

b) P (90 x 100)

Transformando:

X 90 100 10
Z= = = = 167
,
6 6

P ( 90 X 100 ) = P ( 167
, Z 0 ) = 0, 4525

3.3: Uma fbrica de chocolate comercializa barras que pesam em mdia 200g. Os pesos so
normalmente distribudos. Sabe-se que o desvio-padro igual a 40g. Calcule a probabilida-
de de uma barra de chocolate escolhida ao acaso:

110 captulo 3
a) pesar entre 200 e 250 g.
b) pesar entre 170 e 200 g.
c) pesar mais que 230 g.
d) pesar menos que 150 g.

Resoluo:
X: peso das barras de chocolate
X ~ N (200,(402)

a) P (200 x 250)

Para encontrar esta probabilidade, devemos transformar a varivel X na varivel normal


reduzida Z:

X1 200 200
Z1 = = =0
40
X 250 200 50
Z2 = 2 = = = 125
,
40 40

P (170 X 200 ) = P ( 0, 75 Z 0 ) = P ( 0 Z 0, 75 ) = 0, 2734

captulo 3 111
b) P (170 x 200)

Transformando:

X1 170 200 30
Z1 = = = = 0, 75
40 40
X 200 200 0
Z2 = 2 = = =0
40 40

P (170 X 200 ) = P ( 0, 75 Z 0 ) = P ( 0 Z 0, 75 ) = 0, 2734

c) P (X 200)

112 captulo 3
X1 230 200 30
Z1 = = = = 0, 75
40 40

P ( X 230 ) = P ( Z 0, 75) = 0, 5 P ( 0 Z 0, 75) = 0, 5 0, 2734 = 0, 2266

d) P (X 150)

Transformando:

X1 150 200 50
Z1 = = = = 125
,
40 40

P ( X 150 ) = P ( Z 125
, ) = 0, 5 P ( 125
, Z 0 ) = 0, 5 0, 3944 = 0,1056

captulo 3 113
3.4: Uma clnica de emagrecimento recebe pacientes adultos com peso seguindo uma distribuio
Normal com mdia 130 kg e desvio padro 20 kg. Para efeito de determinar o tratamento mais ade-
quado, os 25% pacientes de menor peso so classificado de magros, enquanto os 25% de maior
peso de obesos. Determine os valores que delimitam cada uma dessas classificaes.
Fonte: MAGALHES;LIMA (2004, p. 203).

Resoluo
Este exerccio, diferentemente dos anteriores, fornece a rea (probabilidade) e precisa-
mos encontrar os valores crticos.
Do enunciado:
X: peso de paciente adultos
X ~ N (130,(202))

Construmos a curva normal desta maneira, pois o enunciado informa: os 25% pacientes
de menor peso so classificado de magros, enquanto os 25% de maior peso, de obesos.
Encontrar os valores que delimitam cada uma destas classificaes significa ter que
encontrar X1 e X2.
De acordo com a distribuio normal reduzida:

Sabemos que P (Z 0) = P (Z 0) = O,5, ento, P(zc Z 0) = 0,25 e P(0 Z zc) = 0,25


Portanto, temos que responder as seguintes perguntas:
Qual o valor crtico ( zc), tal que P(zc Z 0) = 0,25?
Qual o valor crtico (zc), tal que P(0 Z zc) = 0,25?

114 captulo 3
Para encontrarmos estes valores, precisamos encontrar a rea = 0,25 dentro da tabela e
verificar qual o valor crtico associado a esta rea.

No corpo da tabela no h a rea = 0,25, exatamente, ento, selecionamos os dois valo-


res mais prximos (0,2486 e 0,2517). O valor crtico associado a estas duas reas 0,678.
Utilizando a transformao da varivel X na varivel Z:

X1
Z1 =

X 130
0, 678 = 1
20
X1 130 = 13, 56
X1 = 13, 56 + 130
X1 = 116,4
44 kg

em que: zc = Z1

X 2
Z2 =

X 130
0, 678 = 2
20
X 2 130 = 13, 56
X 2 = 13, 56 + 130
X 2 = 143, 56 kg

em que: zc = Z2

Os pacientes so classificados como magros se pesam at 116,44 kg e so classifica-


dos como obesos se pesam pelo menos 143,56 kg.

captulo 3 115
3.5: Nos dias atuais, dor crnica nas costas tornou-se frequente em crianas que carregam
mochilas muito cheias e pesadas. As crianas tm o hbito de carregar livros escolares, no-
tebooks, estojos, calculadoras, entre outros, tudo amontoado dentro da mochila, fazendo com
que a chance de ocorrer algum espasmo muscular nos ombros e no pescoo e dor na coluna
aumente. Uma pesquisa mostrou que o peso total carregado diretamente proporcional ao
volume da mochila. O volume de uma mochila vendida comercialmente segue uma distribui-
o normal com mdia 10 litros e desvio padro 1,8 litros. Encontre um intervalo simtrico
em torno da mdia, tal que 80% de todos os volumes de mochilas fiquem neste intervalo.

Resoluo
Do enunciado:
X: volume das mochilas
X ~N (10,(1,82))

Encontrar um intervalo simtrico em torno da mdia tal que 80% de todos os volumes
fiquem neste intervalo, significa encontrar X1 e X tal que:

De acordo com a distribuio normal reduzida:

Portanto, temos que responder as seguintes perguntas:


Qual o valor crtico ( zc), tal que P(zc Z 0) = 0,40?
Qual o valor crtico (zc), tal que P(0 Z zc) = 0,40?

116 captulo 3
Para encontrarmos estes valores, precisamos encontrar a rea = 0,40 dentro da tabela
e verificar qual o valor crtico associado a esta rea.

No corpo da tabela no h a rea = 0,40, exatamente, ento, selecionamos os dois valo-


res mais prximos (0,3997 e 0,4015). O valor crtico associado a estas duas reas 1,285.
Utilizando a transformao da varivel X na varivel Z:

X1
Z1 =

X 10
1285
, = 1
18
,
X1 10 = 2, 313
X1 = 2, 313 + 10
X1 = 7, 687 litros

em que: zc = Z1

X 2
Z2 =

X 10
1285
, = 2
18
,
X 2 10 = 2, 313
X 2 = 2, 313 + 10
X 2 = 12, 313 litros

captulo 3 117
em que: zc = Z2
Portanto, 80% das mochilas tm volume entre 7,687 e 12,313 litros.

3.3 Utilizao do Microsoft Excel no clculo


de probabilidades normais

Para realizar os clculos, seguimos estes procedimentos:

1 Passo: Clicar na aba Frmulas e, em seguida, em Mais Funes. Selecionar


Estatstica e depois DIST.NORM.N.

Figura 3.4 Seleo da funo Distribuio Normal.

2 Passo: Aps clicar em DIST.NORM.N aparecer uma janela onde tere-


mos que colocar os argumentos da funo. Vamos calcular as probabilidades
no Excel utilizando os dados do Exemplo 3.3.
X ~ N (200,(402))

118 captulo 3
d) P (200 x 250)

Figura 3.5 Preenchimento dos argumentos da funo.

Da mesma maneira que fizemos no clculo da distribuio binomial, vamos


entender como devemos preencher cada uma das informaes exigidas:

X: o valor cuja distribuio desejamos obter. No item a) queremos en-


contrar P (200 x 250), portanto um dos valores X = 250.
Mdia: a mdia aritmtica da funo. Neste exemplo, = 200.
Desv_padro: o desvio padro da distribuio. No exemplo, = 40.
Cumulativo: um valor lgico: para a funo de distribuio cumulativa,
use VERDADEIRO. Para a funo de densidade de probabilidade, use FALSO.
Quando cumulativo = VERDADEIRO, a rea calculada comea na cauda esquer-
da da curva normal at o x da frmula indicada, ou seja, P (X x) . Sempre utili-
zaremos VERDADEIRO.

Aps o preenchimento, clicar em OK e aparecer na planilha o resultado da


probabilidade:

captulo 3 119
Figura 3.6 Valor da probabilidade P (X 250).

Vamos interpretar o valor encontrado para a probabilidade: pela definio


do argumento Cumulativo, a probabilidade encontrada rea correspondente
com incio na cauda esquerda da curva normal at 250. Ou seja:

P ( X 250 ) = 0, 89435

Podemos reescrever esta probabilidade da seguinte maneira:

P ( X 250 ) = P ( X 200 ) + P ( 200 X 250 )

Queremos encontrar P (200 X 250) . Ento:

P ( 200 X 250 ) = P ( X 250 ) P ( X 200 )

120 captulo 3
P ( 200 X 250 ) = 0, 89435 0, 5 = 0, 39435

Obs.: Como a rea total sob a curva 1 e a distribuio simtrica, temos


que P ( X 200 ) = P ( X 200 ) = 0, 5

e) P (170 x 200)

Para usar a probabilidade calculada pelo argumento Cumulativo, vamos re-


escrever a probabilidade pedida como:

P (170 X 200 ) = P ( X 200 ) P ( X 170 )

J sabemos que P (x 200) = 0,5 ento, vamos calcular por meio do Excel
P (x 170).

Figura 3.7 Preenchimento dos argumentos da funo.

captulo 3 121
Agora, vamos clicar em OK para encontrar o valor de P (x 170).

Figura 3.8 Valor da probabilidade P (x 170).

Ento:

P (170 X 200 ) = P ( X 200 ) P ( X 170 )


P (170 X 200 ) = 0, 5 0, 226627 = 0,2
273373

f) P (x 230)

Novamente, o argumento Cumulativo no fornece diretamente a probabili-


dade pedida. Ento, reescrevendo:

122 captulo 3
Figura 3.9 Preenchimento dos argumentos da funo.

Figura 3.10 Valor de P (x 230)

captulo 3 123
Ento:

P ( X 230 ) = ` rea total P ( X 230 )


P ( X 230 ) = 1 0, 773373 = 0, 226627

Obs.: O valor da probabilidade igual a 1 aparece, pois a rea total sob a curva
normal 1.

g) P (x 150)
Esta probabilidade fornecida diretamente pelo argumento Cumulativo.

Figura 3.12 Valor de P (x 150).

Portanto:

P ( X 150 ) = 0,10565

REFLEXO
Durante todo este captulo nos dedicamos a estudar a distribuio normal. Aprendemos que,
para encontrar a probabilidade de uma varivel aleatria que segue o modelo normal assumir
determinados valores, precisamos utilizar a distribuio normal padro (para encontrar proba-
bilidades diretamente da tabela). Alm de encontrar probabilidades, no podemos esquecer

124 captulo 3
quais as caractersticas da curva normal, pois esta distribuio exigida em muitas tcnicas
da inferncia estatstica e, com isso, precisaremos saber identificar se os dados amostrais
so provenientes de uma populao normal.

LEITURA
No endereo http://m3.ime.unicamp.br/recursos/1332 voc encontrar comentrios em
dois udios, primeiro mdulo e segundo mdulo, sobre a curva gaussiana (curva em forma de
sino) e uma discusso envolvendo conceitos de mdia e mediana.

REFERNCIAS BIBLIOGRFICAS
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MAGALHES, Marcos N.; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
Disponvel em: < http://www.cultura.ufpa.br/dicas/biome/bionor.htm >. Acesso em: 01 jun. 2015.
NOIMAN, Caroline; OLIVEIRA, Samuel R.; SARTI, Luis R. Disponvel em:
< http://m3.ime.unicamp.br/recursos/1332 >. Acesso em: 01 jun. 2015.

captulo 3 125
126 captulo 3
4
Teste de
Hipteses
Estudamos, no Captulo 1, que a Estatstica pode ser dividida em duas grandes
reas: a estatstica descritiva e a inferncia estatstica. Na inferncia estats-
tica (ou inferncia indutiva), utilizamos dados amostrais para fazer estimati-
vas, testar hipteses e fazer previses sobre caractersticas de uma populao.
Muitos pesquisadores sociais e da rea da sade trabalham com amostras,
com o objetivo de generalizar os resultados obtidos para as populaes de
onde estas amostras foram retiradas. Por exemplo, pesquisadores da rea
mdica utilizam testes de hipteses para a tomada de decises sobre novos
medicamentos.
Ao longo deste captulo, concentraremos nossos estudos em uma das tcni-
cas da inferncia estatstica mais utilizada, que o teste de hipteses.

OBJETIVOS
Com a tcnica estudada neste captulo, esperamos que voc seja capaz de:

Compreender os fundamentos do teste de hipteses;


Distinguir os erros do tipo I e do tipo II;
Realizar um teste de hipteses para verificar a diferena entre duas mdias populacionais,
no caso de amostras dependentes;
Realizar um teste de hipteses para verificar a diferena entre duas mdias populacionais,
no caso de amostras independentes.

128 captulo 4
4.1 Fundamentos do teste de hipteses
Um teste de hipteses um procedimento padro para se testar uma afirmativa
sobre uma propriedade da populao (TRIOLA, 2008, p. 306).
Por exemplo, com base em estudos anteriores, sabe-se que o efeito imuno-
lgico de determinada vacina se prolonga por mais de um ano em apenas 20%
das pessoas que a tomam. Uma nova vacina foi desenvolvida para a mesma
finalidade. necessrio testar se a nova vacina melhor que a atual, ou seja, se
a proporo de pessoas imunizadas aps um ano maior que 20%. Como a efi-
ccia da vacina varia de pessoa para pessoa, precisamos utilizar algum mtodo
estatstico para chegarmos a uma concluso sobre a eficcia desta nova vacina.
Por meio de um teste de hipteses, tomamos decises em presena da variabi-
lidade, ou seja, verificamos se estamos diante de uma diferena real ou de uma
diferena devida simplesmente flutuao aleatria ao processo.
A afirmativa sobre a propriedade da populao (normalmente um parme-
tro populacional) chamada de hiptese estatstica. Para testarmos uma hi-
ptese estatstica, devemos estabelecer um par de hipteses, tal que uma delas
representa uma afirmativa e a outra, o seu complemento. A hiptese que con-
tm a afirmativa de igualdade a hiptese nula (representada por H0) e o com-
plemento da hiptese nula a hiptese alternativa (representada por H1 ou H0).
Representamos a hiptese alternativa usando um destes smbolos: < .> ou .
Por exemplo, se uma afirmativa para a mdia populacional que ela assume
o valor k, alguns pares possveis de hiptese nula e alternativa so:

H 0 :
=k H 0 :
=k H : =k
0
H
1 > k
:
H
1 <k
:
H
1 k
:

Segundo TRIOLA (2008, p. 309), se voc est fazendo um estudo e deseja


usar um teste de hipteses para apoiar sua afirmativa, esta deve ser escrita de
modo a se tornar a hiptese alternativa (e deve ser expressa usando apenas os
smbolos < .> ou ). Ou seja, voc no deve apoiar uma afirmativa de que um
parmetro seja igual a algum valor especfico.

captulo 4 129
EXEMPLO
4.1: Identifique as hipteses que esto sendo testadas em cada caso.
a) Um fabricante afirma que sua vacina previne 85% dos casos de certa doena. Um gru-
po de mdicos desconfia que a vacina no seja to eficiente assim.
b) Um fabricante de bateria para automveis alega que a vida mdia de um determinado
modelo de 40 meses. Um proprietrio de automvel deseja testar essa afirmao.
c) Uma empresa instalou um equipamento antipoluio sonora com o objetivo de manter
o rudo mdio abaixo de 65 decibis. O sindicato decide testar se o equipamento est ou
no cumprindo sua funo.

Resoluo
a) H0 : p = 0, 85

H1 : p < 0, 85
Indicamos a proporo populacional por p. O fabricante faz uma afirmao sobre o pa-
rmetro populacional, ou seja, que a proporo de casos prevenidos pela vacina de 85%.
Como o grupo de mdicos desconfia que a vacina no to eficiente assim (ou seja, que a
proporo menor que 85%), definimos a hiptese alternativa como p > 0,85.

b) H0 : = 40

H1 : 40
A mdia populacional representada por . Neste item, o proprietrio deseja testar a
afirmao do fabricante (que a vida mdia da bateria de 40 meses), portanto, utilizamos o
smbolo na hiptese alternativa.

c) H0 : = 65

H1 : < 65
A empresa afirma que o equipamento instalado mantm o rudo mdio abaixo de 65
decibis. O sindicato deseja testar se o rudo mdio est abaixo de 65 decibis aps a insta-
lao do equipamento, portanto, utilizamos na hiptese alternativa o smbolo <.
Podemos realizar testes de hipteses para a mdia, desvio padro e proporo popula-
cionais, mas, neste captulo, focaremos nosso estudo em teste de hipteses para a mdia.
Podemos realizar testes de hipteses para a mdia, desvio padro e proporo popula-
cionais, mas, neste captulo, focaremos nosso estudo em teste de hipteses para a mdia.

130 captulo 4
4.2 Teste de hipteses para a mdia
populacional

Para a realizao de um teste de hipteses, alm de estabelecermos as hip-


teses nula e alternativa, precisamos seguir algumas etapas e, para isto, a com-
preenso dos seguintes conceitos so imprescindveis: erros do tipo I e II, nvel
de significncia, estatstica de teste, regio crtica, valor crtico e concluso do
teste baseado no mtodo tradicional ou do valor P.

4.2.1 Tipos de erros, nvel de significncia e estatstica de teste

No podemos esquecer que, quando realizamos um teste de hipteses, es-


tamos utilizando dados amostrais e, por isto, devemos aceitar o fato de que a
deciso de rejeitar ou no H0 pode estar incorreta. A nica maneira de se ter
certeza de que H0 verdadeira ou falsa testar toda a populao e sabemos que
isto , muitas vezes, impossvel. Ento, quando realizamos um teste de hipte-
ses, dois erros podem ser cometidos:

1. Rejeitar a hiptese H0, quando tal hiptese verdadeira, e


2. No rejeitar a hiptese H0, quando ela deveria ser rejeitada.

Ao erro cometido em 1., denominamos erro do tipo I, enquanto que ao erro


cometido em 2., denominamos erro do tipo II.
A Figura 4.1 resume os resultados possveis na realizao de um teste de
hipteses.

SITUAO
H0 verdadeira H0 falsa
Deciso
Rejeitar H0 Erro do tipo I Deciso correta

No rejeitar H0 Deciso correta Erro do tipo II

Figura 4.1 Resultados possveis na realizao de um teste de hipteses.

A probabilidade de cometermos o erro do tipo I denotada por e a pro-


babilidade de cometermos o erro do tipo II denotada por . Desejamos que
as probabilidades e sejam prximas de zero, mas a teoria nos mostra que,

captulo 4 131
medida que diminumos o erro do tipo I, a probabilidade de erro do tipo II
tende a aumentar. Ento, ao definir as hipteses, o erro mais importante a ser
evitado o erro do tipo I. A probabilidade mxima permitida de ocorrer um erro
do tipo I denominada nvel de significncia. As escolhas comuns para so
0,05; 0,01 e 0,10.
Aps a identificao das hipteses nula e alternativa e da especificao do
nvel de significncia, utilizamos dados de uma amostra aleatria para calcular
o valor da estatstica de teste.
Segundo TRIOLA (2008, p. 310)

A estatstica de teste um valor usado para se tomar a deciso sobre a hiptese nula
e encontrada pela converso da estatstica amostral (como a proporo amostral
p ou a mdia amostral x ou o desvio padro s) em um escore (como z, t e x2) com a
suposio de que a hiptese nula seja verdadeira.

Utilizamos as seguintes estatsticas de teste para a mdia:


x x
z= ou t=
s
n n

Podemos observar que esta estatstica de teste pode se basear na distribui-


o normal ou na distribuio t de Student. A utilizao de uma estatstica ou
de outra depende de algumas condies que devem ser satisfeitas, que estuda-
remos a seguir.

A forma da distribuio t de Student parecida com a da distribuio normal: tem mdia


t = 0, como a distribuio normal padronizada, com mdia ; simtrica, mas apresenta
caudas mais alongadas, ou seja, maior variabilidade do que a normal. Quando aumenta-
mos o tamanho da amostra, a distribuio t de Student tende para a distribuio normal.

A escolha da estatstica de teste para a realizao de um teste de hipteses


para a mdia populacional depende do conhecimento, ou no, do valor do des-
vio padro populacional.

132 captulo 4
ESTATSTICA DE TESTE CONDIES
- A amostra uma amostra aleatria simples.
x
z= - O valor do desvio padro populacional conhecido.

Pelo menos uma das condies seguintes verdadeira: a populao
n normalmente distribuda ou n > 30.
x
t= - A amostra uma amostra aleatria simples.
s
- O valor do desvio padro populacional no conhecido.
n Pelo menos uma das condies seguintes verdadeira: a populao
O nmero de graus de normalmente distribuda ou n > 30.'
liberdade (g.l.) n 1
Nota: Critrios para decidir se a populao ou no normalmente distribuda: A populao no
precisa ser exatamente normal, mas deve parecer simtrica de alguma forma e sem outliers. O teste
t robusto contra um afastamento da normalidade, ou seja, o teste funciona razoavelmente bem se o
afastamento no for extremo.

Tabela 4.1 Escolha da estatstica de teste.

Depois que encontramos o valor da estatstica de teste, passamos etapa de


decidir pela rejeio ou no da hiptese nula. Esta deciso feita utilizando o
mtodo do valor p ou o mtodo tradicional.
De acordo com VIEIRA (2008, p. 250), o valor p diz quo provvel seria obter
uma amostra tal qual a que foi obtida, quando a hiptese nula verdadeira.
O valor p o menor nvel no qual H0 pode ser rejeitado, ou seja, quando
utilizamos o mtodo do valor p a hiptese nula rejeitada se p . Quando
utilizamos softwares estatsticos e o Excel para realizar um teste de hipteses,
os resultados obtidos informam o valor p.
Alm do mtodo do valor p podemos utilizar o mtodo tradicional para deci-
dir por rejeitar ou no a hiptese nula. Para utiliz-lo, precisamos das seguintes
informaes:

REGIO CRTICA (OU conjunto de todos os valores da estatstica de teste


REGIO DE REJEIO) que nos fazem rejeitar a hiptese nula.

qualquer valor que separa a regio crtica dos valores da


estatstica de teste que no levam rejeio da hiptese
VALOR CRTICO nula. Para encontrarmos este valor, precisamos analisar
a natureza da hiptese nula, a distribuio amostral (nor-
mal ou t de Student) e o nvel de significncia.

captulo 4 133
O que significa o valor crtico depender da natureza da hiptese nula?
Um teste de hipteses pode ser bicaudal (ou bilateral), unilateral esquerda
(monocaudal esquerdo) ou unilateral direita (monocaudal direito). A identifi-
cao de cada um destes tipos feita por meio da hiptese alternativa.
Temos que:

Se a hiptese alternativa H1 contiver o smbolo <, o teste de hipteses ser


um teste unilateral esquerda, ou seja, a regio crtica (e o valor crtico) esto
na cauda esquerda sob a curva.
Se a hiptese alternativa H1 contiver o smbolo >, o teste de hipteses ser
um teste unilateral direita, ou seja, a regio crtica (e o valor crtico) esto na
cauda direita sob a curva.
Se a hiptese alternativa H1 contiver o smbolo , o teste de hipteses ser
um teste bilateral, ou seja, a regio crtica (e os valores crticos) esto nas duas
caudas sob a curva.

Estas informaes so mais fceis de serem visualizadas atravs da Figura 4.2.

Figura 4.2 Testes bilateral, unilateral esquerda e unilateral direita.Fonte: TRIOLA (2008,
p. 313).

134 captulo 4
Quando estamos realizando testes bilaterais, devemos dividir igualmente o nvel de sig-
nificncia entre as duas caudas que constituem a regio crtica. Por exemplo, em um
teste bilateral com nvel de significncia = 0,05, h uma rea de 0,025 em cada uma
das caudas. Para testes que so unilaterais esquerda ou direita, a rea da regio
crtica na cauda respectiva .

4.2.2 Deciso e interpretao

Para concluir um teste de hipteses, precisamos tomar uma das seguintes


decises:
Rejeitar a hiptese nula.
Deixar de rejeitar a hiptese nula.

A deciso feita usando um dos seguintes mtodos estudados: mtodo do


valor P ou mtodo tradicional. O mtodo do valor p muito utilizado quando a
anlise estatstica est sendo feito atravs de algum software estatstico ou pelo
Excel.

MTODOS
Tradicional Valor P
Rejeitar H0 se a estatstica de teste ficar dentro
Rejeitar H0 se o valor P .
da regio crtica.
Deixar de rejeitar H0 se a estatstica de teste no
Deixar de rejeitar H0 se o valor P > .
ficar dentro da regio crtica.

Agora que j sabemos quais as etapas que devemos seguir para a realizao
de um teste de hipteses, vamos apresentar, a seguir, um sumrio.

1. Estabelecer as hipteses nula e alternativa.


2. Especificar o nvel de significncia.
3. Calcular a estatstica de teste, utilizando os dados amostrais.
4. Definir a forma da regio crtica, com base na hiptese alternativa.
5. Concluir o teste com base no mtodo tradicional ou no valor p.

captulo 4 135
EXEMPLO
4.2: Um laboratrio farmacutico lanou no mercado um novo medicamento contra dor de
cabea, retirando de circulao o antigo, com a justificativa que este novo medicamento tem
ao mais rpida. O antigo medicamento tinha um tempo mdio de 30 minutos para o incio
do efeito. Em uma amostra aleatria de 35 pessoas que tomaram o novo medicamento, ob-
teve-se um tempo mdio de 27 minutos, com desvio padro de 4 minutos. Testar a eficcia
do novo medicamento, ao nvel de 5%.

Resoluo
Neste estudo, temos uma amostra aleatria de 35 pessoas. No conhecemos o desvio
padro populacional e o tamanho amostral n > 30. Portanto, os requisitos necessrios
para a realizao do teste de hipteses para a mdia populacional com desconhecido
esto satisfeitos.
Agora, seguiremos os passos necessrios para a realizao do teste:

1. Hipteses:

H0 : = 30 ( o novo medicamento n o mais eficaz que o antigo )



H1 : < 30 ( o novo medicamento mais eficaz que o antigo )

2. O nvel de significncia = 50
3. A estatstica de teste :

x 27 30 3
t= = = = 4, 4371
s 4 0, 676123
n 35

4. O nmero de grau de liberdade n 1 = 35 1 = 34


5. O valor crtico :

P(|t DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


G. L. 0.50 0.20 0.10 0.05 0.04 0.02 0.01 0.005 0.001

31 0.682 1.309 1.696 2.040 2.144 2.453 2.744 3.022 3.633


32 0.682 1.309 1.694 2.037 2.141 2.449 2.738 3.015 3.622
33 0.682 1.308 1.692 2.035 2.138 2.445 2.733 3.008 3.611
34 0.682 1.307 1.691 2.032 2.136 2.441 2.728 3.002 3.601

136 captulo 4
P(|t DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS
35 0.682 1.306 1.690 2.030 2.133 2.438 2.724 2.996 3.591
36 0.681 1.306 1.688 2.028 2.131 2.434 2.719 2.990 3.582
120 0.677 1.289 1.658 1.980 2.076 2.358 2.617 2.860 3.373

0.674 1.282 1.645 1.960 2.054 2.326 2.576 2.807 3.290


0,25 0,10 0,05 0,025 0,02 0,01 0,005 0,0025 0,0005

O valor crtico tc = 1,691.

6. Concluso:

Como o teste unilateral esquerda (pois, H1 contm o sinal <), o valor crtico encon-
trado levando em conta o nvel de significncia que est na ltima linha da tabela. Por isto
escolhemos a terceira coluna ( = 0,05).
Rejeitamos H0 se t = tc. Como 4,4371 < 1,691, a estatstica de teste est na rea de
rejeio. Portanto, rejeitamos H0, ou seja, os dados amostrais fornecem evidncias suficien-
tes para se concluir que o tempo mdio de ao do novo medicamento inferior ao tempo
mdio de ao do antigo medicamento.

4.3: Um experimento foi conduzido para estudar o nvel mdio de colesterol no sangue. Em
uma amostra aleatria de 50 pacientes, a mdia amostral encontrada foi 268 mg/100 ml.
Estudos anteriores nos informam que o desvio padro populacional = 60 mg/100ml.
Teste a hiptese de que = 260, contra a alternativa de que > 260. Utilize um nvel de 5%.

Resoluo
Neste estudo, temos uma amostra aleatria de 50 pacientes. Conhecemos o desvio pa-
dro populacional e o tamanho amostral n > 30. Portanto, os requisitos necessrios para
a realizao do teste de hipteses para a mdia populacional com conhecido esto satis-
feitos.

captulo 4 137
Agora, seguiremos os passos necessrios para a realizao do teste:

1. Hipteses:

H0 : = 260

H
1 :
> 260

2. O nvel de significncia = 0,05.


3. A estatstica de teste :

x 268 260 8 8
z= = = = = 0, 9428
60 60 8, 485243
n 50 7, 0711

4. O valor crtico :

O valor crtico zc = 1,645.

5. Concluso:

138 captulo 4
Como o teste unilateral direita (pois, H1 contm o sinal >) e a rea de z = 0 at o final
da cauda direita 0,5, temos que 0,5 0,05 = 0,45. Devemos encontrar o valor 0,45 (ou
valores prximos a este) no corpo da tabela. Portanto, o valor crtico z = 1,645.
Rejeitamos H0 se z > zc. Como 0,9428 > 1,645, a estatstica de teste no est na rea de
rejeio. Portanto, no rejeitamos H0, ou seja, os dados amostrais no fornecem evidncias
suficientes para se concluir que o nvel mdio de colesterol maior que 260 mg/100 ml.

Neste primeiro momento, apresentamos os procedimentos necessrios


para a realizao de um teste de hipteses para um parmetro populacional (no
caso, a mdia populacional). A seguir, utilizaremos o teste de hipteses para
comparar parmetros de duas populaes. Boa parte da teoria necessria ao de-
senvolvimento das tcnicas que sero apresentadas j foi discutida no item 4.2.

4.3 Teste de hipteses para duas amostras


A realizao de um teste de hipteses para duas amostras tem por objetivo tes-
tar uma afirmao comparando parmetros de duas populaes.
Nas mais diversas reas de atuao profissional e de pesquisa, h uma bus-
ca contnua pelo desenvolvimento de novos mtodos ou procedimentos que
superem, ou melhorem, os j existentes. Por exemplo, a eficcia de um novo
medicamento testada por meio de dados amostrais, em que uma amostra uti-
liza o medicamento padro e outra utiliza o novo medicamento. Por meio de
um teste de hipteses, verificamos a eficcia, ou no, do novo medicamento.
Mas, por que a necessidade de dois conjuntos amostrais e da realizao do tes-
te de hipteses? Se todos os pacientes se comportassem de maneira idntica
em relao ao tratamento utilizado, poderamos examinar poucos deles com
o novo medicamento e o medicamento padro e a deciso seria obtida de ma-
neira rpida e fcil, sem a necessidade de anlise estatstica. Porm, a reao
de um tratamento varia de indivduo para indivduo e, na maioria dos casos,
no h um tratamento timo para todos os pacientes. Ento, para identificar
o tratamento mais eficiente, o estudo feito por meio de uma seleo de duas
amostras e, por meio do teste de hipteses, feita a comparao dos resultados
obtidos. J estudamos, no item 4.1, que, por meio de um teste de hipteses,
tomamos decises em presena da variabilidade.

captulo 4 139
Para a realizao de um teste de hipteses para duas amostras, extramos
uma amostra aleatria de cada uma das populaes, usamos uma estatstica
de teste e estabelecemos uma concluso (mesmo procedimento que utilizamos
no caso de uma nica amostra).
Realizaremos testes para comparao de duas mdias. Sendo 1 e 2 os par-
metros populacionais, temos as possveis hipteses nula e alternativa:

H0 : 1 = 2 H0 : 1 2 H0 : 1 2
, ,
H1 : 1 2 H1 : 1 > 2 H1 : 1 < 2

Tambm podemos escrever as hipteses nula e alternativa da seguinte maneira:

H0 : 1 2 = 0 H0 : 1 2 0 H0 : 1 2 0
, ,
H1 : 1 2 0 H1 : 1 2 > 0 H1 : 1 2 < 0

4.3.1 Testes para diferenas entre mdias

Quando utilizamos duas amostras, podemos nos deparar com as seguintes


situaes:

Duas amostras independentes, com desvios padres populacionais des-


conhecidos e diferentes;
Duas amostras independentes, com desvios padres populacionais des-
conhecidos e iguais;
Duas amostras independentes, com desvios padres populacionais
conhecidos;
Duas amostras dependentes.

As situaes descritas acima nos informam que 2 amostras podem ser de-
pendentes ou independentes. Qual a diferena entre estas classificaes?
Duas amostras so independentes se os valores amostrais selecionados de
uma populao no esto relacionados com os valores amostrais selecionados
da outra populao. E, duas amostras so dependentes (ou emparelhadas) se os
membros de uma amostra podem ser usados para se determinarem os membros
da outra amostra.

140 captulo 4
Podemos identificar o uso de amostras independentes quando um grupo
de pacientes tratado com determinada droga para reduo de colesterol, en-
quanto que outro grupo de pacientes tratado com placebo. A independncia
ocorre, pois os pacientes tratados com a droga no esto de forma alguma rela-
cionados com os pacientes tratados com placebo.
No caso de amostras dependentes, por exemplo, o peso de um grupo de pes-
soas medido antes e aps uma dieta. Cada par de medidas antes/depois se
refere mesma pessoa.

4.3.1.1 Amostras independentes com desvios padres desconhecidos e diferentes

Como j verificamos na resoluo de exemplos anteriores, antes da realizao


de qualquer teste de hipteses, precisamos verificar se algumas condies refe-
rentes aos dados esto satisfeitas.
Segundo TRIOLA (2008, p. 372), os requisitos necessrios para a realizao
deste teste so:

1. 1 e 2 so desconhecidos e no se faz qualquer suposio sobre igualdade de 1 e 2.


2. As duas amostras so independentes.
3. Ambas as amostras so amostras aleatrias simples.
4. Uma, ou ambas, das seguintes condies satisfeita: Os dois tamanhos amos-
trais so ambos grandes (com n1 > 30 e n2 > 30) ou ambas as amostras provm de
populaes com distribuies normais (Para amostras pequenas, a exigncia de nor-
malidade relaxada, no sentido de que os procedimentos funcionam bem, desde que
no haja outliers e o afastamento da normalidade no seja extremo).

Seguimos os seguintes passos para a realizao do teste de hipteses:

1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia ().
3. Determinaremos a estatstica de teste:

x1 x 2 ( 2)
1
t=
s12 s22
+
n1 n2

captulo 4 141
4. Determinaremos o nmero de graus de liberdade: menor de n1 1 e
n2 1.
5. Determinaremos os valores crticos na Tabela 2 Apndice.
6. Concluso:
Se t estiver na regio de rejeio, rejeitamos H0. Caso contrrio, no rejei-
tamos H0.

Neste livro, utilizaremos uma estimativa simples e conservadora para o nmero de graus
de liberdade: o menor de n1 1 e n2 1. Os pacotes estatsticos, em geral, utilizam uma
estimativa mais precisa, porm mais difcil de ser calculada, dada por:
2
s12 s22
+
n n
g .l . = 12 2 2
s12 s22

n1 + n2
n1 1 n2 1

Apesar dos dois mtodos resultarem, geralmente, em nmeros diferentes de graus de


liberdade, a concluso do teste raramente afetada pela escolha.

EXEMPLO
4.4: Dois grupos de indivduos participaram de um experimento planejado para testar o efei-
to da frustrao sobre a agressividade. O grupo experimental de 35 indivduos, escolhidos
aleatoriamente, recebeu um quebra-cabea frustrante para resolver, enquanto o grupo de
controle de 35 indivduos, escolhidos aleatoriamente, recebeu uma verso no frustrante do
mesmo quebra cabea. Mediu-se, ento, o nvel de agressividade para ambos os grupos. En-
quanto o grupo experimental (frustrao) acusou um escore mdio de agressividade x1 = 5
e um desvio padro S1 = 2,4, o grupo de controle (no frustrao) teve um escore mdio de
agressividade x2 = 3 e um desvio padro S2 = 1,5 (escores mdios mais altos indicam maior
agressividade). Com esses resultados, teste a hiptese nula de que no h diferena quanto
agressividade entre as condies de frustrao e no frustrao. O que o resultado desse
teste indica? Utilizar = 0,05.
Fonte: Adaptado (LEVIN, 2004, p. 259).

142 captulo 4
Resoluo
Neste estudo, temos duas amostras independentes, que foram selecionadas aleatoria-
mente. No conhecemos os desvios padres das duas populaes e no h suposies
sobre a igualdade destes desvios. Os tamanhos amostrais so grandes (com n1 > 30 e
n2 > 30). Portanto, os requisitos necessrios para a realizao do teste de hipteses para
amostras independentes com desvios padres desconhecidos e diferentes esto satisfeitos.

GRUPO EXPERIMENTAL GRUPO DE CONTROLE

x1 = 5 x2 = 3
S = (2,4) = 5,76
1
2 2
S = (1,5)2 = 2,25
2
2

n1 = 36 n2 = 35

Agora, seguiremos os passos necessrios para a realizao do teste:

1. Hipteses:

H0 : 1= 2

H1 : 1
2

2. O nvel de significncia = 0,05.


3. A estatstica de teste :

x1 x 2 ( 1
2) 530 2 2
t= = = = = 4,1807
s12 s22 5, 76 2, 25 0, 228857143 0, 478390
+ +
n1 n2 35 35

4. O nmero de graus de liberdade o menor entre n1 e n2. Como os dois tamanhos amos-
trais so iguais, g.l. 35 1 = 34.
5. Os valores crticos so:

P(|t DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


G. L. 0.50 0.20 0.10 0.05 0.04 0.02 0.01 0.005 0.001
29 0.683 1.311 1.699 2.045 2.150 2.462 2.756 3.038 3.660
30 0.683 1.310 1.697 2.042 2.147 2.457 2.750 3.030 3.646
31 0.682 1.309 1.696 2.040 2.144 2.453 2.744 3.022 3.633

captulo 4 143
P(|t DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS
32 0.682 1.309 1.694 2.037 2.141 2.449 2.738 3.015 3.622
33 0.682 1.308 1.692 2.035 2.138 2.445 2.733 3.008 3.611
34 0.682 1.307 1.691 2.032 2.136 2.441 2.728 3.002 3.601
35 0.682 1.306 1.690 2.030 2.133 2.438 2.724 2.996 3.591
36 0.681 1.306 1.688 2.028 2.131 2.434 2.719 2.990 3.582

Os valores crticos so t c = 2, 032 e t c = 2, 032


6. Concluso:

Como o teste bilateral, rejeitamos H0 se t > tc ou t > tcComo t = 4,1807 , a estatstica


de teste est na rea de rejeio. Portanto, rejeitamos H0, ou seja, os dados amostrais for-
necem evidncias suficientes para apoiar a afirmativa de que h diferena quanto agressi-
vidade entre as condies de frustrao e no frustrao.
Neste exemplo, consideramos desvios padres desconhecidos e diferentes, que o mais
comum de acontecer. Caso os desvios padres possam ser considerados iguais, o procedi-
mento para a realizao do teste muda. Abordaremos esta situao no prximo item.

4.3.1.2 Amostras independentes com desvios padres desconhecidos e iguais

Quando as varincias populacionais no forem conhecidas, mas for razovel


supor que tenham o mesmo valor, ambas so utilizadas para se estimar 2. A
melhor maneira para combinar essas duas estimativas formar uma mdia
ponderada. O estimador resultante de 2 :

sp2 =
( n1 1) s12 + ( n2 1) s22
n1 + n2 2

144 captulo 4
Este valor chamado estimador combinado de Image, pois combina as in-
formaes de ambas as amostras.
De acordo com TRIOLA (2008, p. 378), os requisitos necessrios para a rea-
lizao deste teste so:

1. Os dois desvios padres populacionais no so conhecidos, mas supe-se que


sejam iguais, isto , 1 = 2.
2. As duas amostras so independentes.
3. Ambas as amostras so amostras aleatrias simples.
4. Uma ou as duas condies seguintes so satisfeitas: Os dois tamanhos amostrais
so ambos grandes (com n1 > 30 e n2 > 30) ou ambas as amostras provm de popula-
es com distribuies normais (Para pequenas amostras, a exigncia de normalidade
relaxada, no sentido de que os procedimentos funcionam bem, desde que no haja
outliers e os desvios da normalidade no sejam acentuados).

Os passos para a realizao do teste de hiptese so:

1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia ().
3. Determinaremos a estatstica de teste:

x1 x 2 ( 2 )
1
t=
1 1
sp +
n1 n2

4. Determinaremos o nmero de graus de liberdade: n1 + n2 1.


5. Determinaremos os valores crticos na Tabela 2 Apndice.
6. Concluso:
Se t estiver na regio de rejeio, rejeitamos H0. Caso contrrio, no rejei-
tamos H0.

Para usar este teste, precisamos verificar que os desvios padres das duas
amostras so iguais. Uma maneira usar um teste preliminar de 1 = 2. De
acordo com TRIOLA (2003), alguns autores ressaltam que dificilmente sabemos
que 1 = 2. Eles analisam o desempenho de diferentes testes, considerando

captulo 4 145
tamanhos amostrais e poderes dos testes e concluem que o esforo deve ser
empregado em aprender o mtodo descrito no item 4.3.1.1 (desvios padres
desconhecidos e diferentes).
A menos que algum problema e/ou exerccio j fornea alguma informao
sobre desvios padres desconhecidos e iguais, vamos trat-los como diferentes
e usar o mtodo descrito no item 4.3.1.1.

EXEMPLO
4.5: Um estudo foi conduzido para determinar se a fumaa de cigarro de uma gestante
tem algum efeito no contedo mineral sseo da criana por ela gerada, sob outros aspec-
tos saudveis. Uma amostra aleatria de 77 recm-nascidos cujas mes fumaram durante
a gravidez tem um contedo mineral mdio sseo de x1 = 0,098 g/cm e desvio padro
S1 = 0,026 g/cm; uma amostra aleatria de 161 bebs cujas mes no fumavam tem mdia
x2 = 0,095 g/cm e desvio padro S2 = 0,025 g/cm. Assuma que as varincias das popu-
laes originais sejam iguais. Estabelea as hipteses nula e alternativa para o teste bilateral
e conduza o teste ao nvel de significncia 0,05. O que podemos concluir?
Fonte: PAGANO (2004, p. 250).

Resoluo
Temos duas amostras independentes, que foram selecionadas aleatoriamente. Os tama-
nhos amostrais so grandes (com n1 > 30 e n2 > 30) e os desvios padres so desconheci-
dos, mas, supostamente iguais (o enunciado informa que devemos assumir que as varincias
das populaes so iguais). Portanto, os requisitos necessrios para a realizao do teste de
hiptese para amostras independentes com desvios padres desconhecidos e iguais esto
satisfeitos.

AMOSTRAS N x S
Mes que fumaram
77 0,098 0,026
durante a gravidez
Mes que no fumaram
161 0,095 0,025
durante a gravidez

Vamos realizao do teste:


1. Hipteses:

1 =
H0 : 2

0 1
H : 2

146 captulo 4
De acordo com o enunciado, o teste bilateral.
2. O nvel de significncia = 0,05.
3. A estatstica de teste :

x1 x 2 ( 2 )
1
t=
1 1
sp +
n1 n2

em que:

sp2 =
( n1 1) s12 + ( n2 1) s22 = (77 1)( 0, 026 )2 + (161 1) ( 0, 025)2 = 0, 051376 + 0,10
n1 + n2 2 77 + 161 2 236
0,151376
= = 0, 0006414
236
e
sp = 0, 0006414 = 0, 02533

Ento:

x1 x 2 ( 2 )
1 0, 098 0, 095 0, 003 0, 003
t= = = = = 0, 8548
1 1 1 1 0, 02533 0,138558 0, 0035096
sp + 0, 02533 +
n1 n2 77 161

4. O nmero de graus de liberdade n1 + n2 2 = 236 .


5. Os valores crticos so:

P(|T DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


G. L. 0.50 0.20 0.10 0.05 0.04 0.02 0.01 0.005 0.001
1 1.000 3.078 6.314 12.706 15.894 31.821 63.656 127.321 636.578
2 0.816 1.886 2.920 4.303 4.849 6.965 9.925 14.089 31.600
3 0.765 1.638 2.353 3.182 3.482 4.541 5.841 7.453 12.924
4 0.741 1.533 2.132 2.776 2.999 3.747 4.604 5.598 8.610
5 0.727 1.476 2.015 2.571 2.757 3.365 4.032 4.773 6.869
6 0.718 1.440 1.943 2.447 2.612 3.143 3.707 4.317 5.959
7 0.711 1.415 1.895 2.365 2.517 2.998 3.499 4.029 5.408
8 0.706 1.397 1.860 2.306 2.449 2.896 3.355 3.833 5.041

captulo 4 147
P(|T DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS
110 0.677 1.289 1.659 1.982 2.078 2.361 2.621 2.865 3.381
120 0.677 1.289 1.658 1.980 2.076 2.358 2.617 2.860 3.373
0.674 1.282 1.645 1.960 2.054 2.326 2.576 2.807 3.290
0,25 0,10 0,05 0,025 0,02 0,01 0,005 0,0025 0,0005

6. Concluso

Como o teste bilateral, rejeitamos H0 se t < tc ou t > tc. Como 0,85 > 1,96, a estatstica
de teste no est na rea de rejeio. Portanto, no rejeitamos H0, ou seja, os dados amos-
trais no fornecem evidncias suficientes para apoiar a afirmativa de a fumaa de cigarro de
uma gestante tem algum efeito no contedo mineral sseo da criana por ela gerada.

4.3.1.3 Amostras independentes com desvios padres conhecidos

Como dito anteriormente, os desvios padres populacionais 1 e 2 raramente


so conhecidos, mas, se forem, a estatstica de teste baseia-se na distribuio
normal. Como nos casos anteriores, para a realizao do teste, temos que veri-
ficar alguns requisitos.
De acordo com TRIOLA (2008, p. 378)

1. Os dois desvios padres populacionais so ambos conhecidos.


2. As duas amostras so independentes.
3. Ambas as amostras so amostras aleatrias simples.
4. Uma ou as duas condies seguintes so satisfeitas: Os dois tamanhos amostrais
so ambos grandes (com n1 > 30 e n2 > 30) ou ambas as amostras provm de popula

148 captulo 4
es com distribuies normais (Para pequenas amostras, a exigncia de normalidade
relaxada, no sentido de que os procedimentos funcionam bem, desde que no haja
outliers e os desvios da normalidade no sejam acentuados).

Novamente, utilizaremos os seguintes passos para a realizao do teste:

1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia ().
3. Determinaremos a estatstica de teste:

x1 x 2 ( 2 )
1
z=
12 22
+
n1 n2

4. Determinaremos os valores crticos na Tabela 1 Apndice.


5. Concluso:
Se z estiver na regio de rejeio, rejeitamos H0. Caso contrrio, no rejei-
tamos H0.
As situaes descritas para amostras independentes podem ser visualiza-
das na Figura 4.3.

Figura 4.3 Mtodos para inferncia sobre duas mdias independentes. Fonte: TRIOLA (2003).

captulo 4 149
Agora, estudaremos o caso em que as amostras so dependentes.

4.3.1.4 Amostras dependentes

Neste caso, desejamos comparar duas mdias populacionais sendo que, para
cada unidade amostral, realizamos duas medies da caracterstica de interes-
se. No geral, estas medies so tomadas antes e aps uma dada interveno.
Voltando ao exemplo j citado sobre o peso de um grupo de pessoas. A medio
feita antes e aps uma dieta e cada par de medidas antes/depois se refere
mesma pessoa.
No caso de amostras dependentes, tambm precisamos verificar alguns re-
quisitos para a realizao do teste.
Segundo TRIOLA (2008, p. 384)

1. Os dados amostrais consistem em dados emparelhados.


2. As amostras so amostras aleatrias simples.
3. Uma, ou ambas, das seguintes condies so satisfeitas: O nmero de pares de
dados grande (n > 30) ou os pares tm diferenas que so provenientes de uma po-
pulao com distribuio aproximadamente normal. (Se houver um afastamento radical
de uma distribuio normal, no devemos usar os mtodos deste item, mas devemos
usar mtodos no paramtricos).

Passos para a realizao do teste:


1. Identificaremos H0 e H1.
2. Especificaremos o nvel de significncia ().
3. Determinaremos a estatstica de teste:

d
d
t=
sd
n

4. Determinaremos o nmero de graus de liberdade: n 1.


5. Determinaremos os valores crticos na Tabela 2 Apndice.
6. Concluso:
Se t estiver na regio de rejeio, rejeitamos H0. Caso contrrio, no rejei-
tamos H0.

150 captulo 4
Vamos compreender a notao utilizada na estatstica de teste:
d: diferena individual entre os dois valores em um nico par.
d: valor mdio das diferenas d para a populao de todos os pares.
d : valor mdio das diferenas d para dados amostrais emparelhados.
sd: desvio padro das diferenas d para os dados amostrais emparelhados.
n: nmero de pares de dados.

EXEMPLO
4.6: Um estudo foi realizado com o objetivo de investigar a eficcia de uma dieta de ema-
grecimento. O quadro a seguir apresenta os pesos, em kg, de 10 pessoas selecionadas
aleatoriamente. Os pesos foram registrados antes e aps a dieta. Vamos supor que os dados
so provenientes de uma populao normalmente distribuda. Use um nvel de significncia
de 5% para testar a afirmativa que a dieta de emagrecimento eficaz na reduo do peso.

Antes 77 61 60 80 90 75 85 58 89 67
Depois 80 57 60 74 87 68 90 50 82 63

Resoluo
Temos um estudo com amostras dependentes (ou emparelhadas), pois cada par de me-
didas antes/depois se refere mesma pessoa.
Avaliando os requisitos necessrios para a realizao do teste, temos: os dados amostrais
so emparelhados, a amostra aleatria simples e proveniente de uma distribuio normal.
Ento, podemos realizar o teste de acordo a avaliao das informaes do enunciado.
Realizando os passos do teste, temos:

1. Hipteses:

d = 0
H0 :

0
H : d <0

2. O nvel de significncia = 0,05..


3. A estatstica de teste :

Para encontrar o valor da estatstica, precisamos encontrar o valor mdio das diferenas
e o desvio padro das diferenas. Vamos acrescentar algumas colunas no Quadro 4.5, para
facilitar os clculos.

captulo 4 151
Tabela 4.2 Clculos auxiliares no clculo da mdia e do desvio padro das diferenas.

Ento, a mdia amostral :

d 31 = 3,1
n

d = i =1 =
n 10

e a varincia amostral :

( i =1di )2
n
( 31)2
i =1di2
n
273
n 10 273 96,1 176,9
9
s2 = = = = = 19, 66
n 1 10 1 9 9

Portanto, o desvio padro amostral :

=s =
19, 66 4, 43

Substituindo os valores encontrados, temos:

d d 3,1 0 3,1
t= = = = 2, 2129
sd 4, 43 14009
,
n 10

152 captulo 4
4. O nmero de graus de liberdade (g.l.) n 1 = 10 1 = 9.
5. O valore crtico :

P(|t DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


G. L. 0.50 0.20 0.10 0.05 0.04 0.02 0.01 0.005 0.001
1 1.000 3.078 6.314 12.706 15.894 31.821 63.656 127.321 636.578
2 0.816 1.886 2.920 4.303 4.849 6.965 9.925 14.089 31.600
3 0.765 1.638 2.353 3.182 3.482 4.541 5.841 7.453 12.924
4 0.741 1.533 2.132 2.776 2.999 3.747 4.604 5.598 8.610
5 0.727 1.476 2.015 2.571 2.757 3.365 4.032 4.773 6.869
6 0.718 1.440 1.943 2.447 2.612 3.143 3.707 4.317 5.959
7 0.711 1.415 1.895 2.365 2.517 2.998 3.499 4.029 5.408
8 0.706 1.397 1.860 2.306 2.449 2.896 3.355 3.833 5.041
9 0.703 1.383 1.833 2.262 2.398 2.821 3.250 3.690 4.781
10 0.700 1.372 1.812 2.228 2.359 2.764 3.169 3.581 4.587
11 0.697 1.363 1.796 2.201 2.328 2.718 3.106 3.497 4.437
0.674 1.282 1.645 1.960 2.054 2.326 2.576 2.807 3.290
0,25 0,10 0,05 0,025 0,02 0,01 0,005 0,0025 0,0005

Tabela 4.3 Valores crticos da distribuio t de Student

6. Concluso

Como o teste unilateral esquerda (pois, H1 contm o sinal <), o valor crtico encon-
trado levando em conta o nvel de significncia que est na ltima linha da tabela. Por isto
que escolhemos a terceira coluna ( = 0,05).
Rejeitamos H0 se t < t0. Como 2,2129 < 1,833, a estatstica de teste est na rea de
rejeio. Portanto, rejeitamos H0, ou seja, os dados amostrais fornecem evidncias suficien-
tes para se concluir que a dieta eficaz na reduo do peso.

captulo 4 153
4.4 Utilizao do Microsoft Excel para testes
de duas amostras

Vamos utilizar duas ferramentas disponveis no Excel para a realizao de tes-


tes de hiptese para a comparao de duas mdias: Teste T: duas amostras
presumindo varincias diferentes e Teste T: duas amostras em par para m-
dias. Estas escolhas se devem ao fato delas serem as mais utilizadas na rea
profissional e de pesquisas. A verso utilizada o Excel 2010.
Como mencionado no Captulo 2, o suplemento Ferramenta de Anlise
deve estar ativo. Caso seja necessrio, seguir os procedimentos descritos no
Captulo 2 para ativar este suplemento.

4.4.1 Comparao de duas mdias com desvios padres


desconhecidos e diferentes

EXEMPLO
4.7: Uma empresa de computadores desenvolveu um novo curso que, comparado com o usu-
al, apresenta novas tcnicas para reparar computadores pessoais. Trinta e um estagirios fo-
ram selecionados aleatoriamente em dois grupos: 31 deles fizeram o curso usual e os outros
31 frequentaram o novo curso. Aps 8 semanas, todos os estagirios foram submetidos ao
mesmo exame final. De acordo com os resultados apresentados a seguir, h evidncias de
que os dois cursos apresentam resultados diferentes em termos de habilidade nos reparos?
As pontuaes mais altas indicam maior habilidade nos reparos. Use = 0,05.

Resoluo:
Vamos seguir os seguintes passos para a realizao do teste:

1 Passo: Digitar os dados das duas amostras na planilha:

154 captulo 4
Figura 4.4 Valores das pontuaes obtidas pelos estagirios, nos dois tipos de cursos.

2 Passo: Para a anlise do nosso exemplo, clicamos na janela Dados e a seguir em


Anlise de dados. Escolhemos a Ferramenta de Anlise Teste T: duas amostras presumin-
do varincias diferentes e, em seguida, OK.

Figura 4.5 Escolha da Anlise de dados Teste T: duas amostras presumindo varincias
diferentes.

captulo 4 155
3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No campo Intervalo
da varivel 1, selecionar os dados arrastando com o mouse desde A2 at A32. No campo
Intervalo da varivel 2, selecionar os dados arrastando com o mouse desde B2 at B32.
Em Hiptese da diferena de mdia, digitamos 0 (a hiptese 1 = 2 pode ser escrita como
1 2 = 0). O nvel de significncia = 0,05. Em Opes de sada, escolher Nova planilha
(as estatsticas calculadas sairo em uma planilha diferente daquela que utilizamos para digi-
tar a entrada dos dados, basta identific-la no rodap) e, por fim, clicar em Ok.

Figura 4.6 Entrada dos dados para a realizao do teste.

4 Passo: Os resultados abaixo foram apresentados em uma nova planilha. Vamos en-
tender as informaes que esto grifadas:
1. Mdia: mdia de cada amostra.
2. Varincia: varincia de cada amostra.
3. Observaes: nmero de observaes em cada amostra
4. Hiptese da diferena de mdias: 1 2 = 0.
5. g.l.: graus de liberdade (calculada por meio da frmula descrita no box explicativo).
6. Stat t: valor da estatstica de teste.
7. P(T < = t): valor p para o teste bicaudal (bilateral).
8. t crtico bicaudal: valores crticos para um teste bicaudal (bilateral).

156 captulo 4
Figura 4.7 Resultados obtidos a partir do Teste t duas amostras presumindo varincias
diferentes, para os dados do Exemplo 4.7.

Sabemos que podemos concluir um teste de hipteses utilizando o mtodo do valor P


e o mtodo tradicional. Ao longo do captulo, utilizamos o valor da estatstica de teste e dos
valores crticos para tomar uma deciso sobre rejeitar ou deixar de rejeitar a hiptese nula.
Agora, por meio dos resultados obtidos pelo Excel, tambm podemos concluir pelo valor p.
Como 0,313 > 0,05, deixamos de rejeitar a hiptese nula. Pelo mtodo tradicional, como o
teste bilateral, rejeitamos H0 se t < tc ou t < tc. Como t = 1,02, a estatstica de teste no
est na rea de rejeio, pois 1,02 < 2,00029. Portanto, deixamos de rejeitar H0, ou seja,
os dados amostrais no fornecem evidncias suficientes para apoiar a afirmativa de que os
cursos apresentam resultados diferentes em termos de habilidade nos reparos de computa-
dores pessoais.

4.4.2 Comparao de duas mdias (amostras dependentes)

Para este caso, utilizaremos os dados do Exemplo 4.6.


Vamos seguir os seguintes passos para a realizao do teste:

captulo 4 157
Figura 4.8 Pesos, kg, de 10 pessoas, antes e depois de uma dieta.

2 Passo: Para a anlise do exemplo, clicamos na janela Dados e a seguir em


Anlise de dados. Escolhemos a Ferramenta de Anlise Teste T: duas amos-
tras em par para mdias e, em seguida, OK.

Figura 4.9 Escolha da Anlise de dados Teste T: duas amostras em par para mdias.

158 captulo 4
3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No cam-
po Intervalo da varivel 1, selecionar os dados arrastando com o mouse desde
A2 at A11. No campo Intervalo da varivel 2, selecionar os dados arrastando
com o mouse desde B2 at B11. Em Hiptese da diferena de mdia, digitamos
0 (a hiptese 1 = 2 pode ser escrita como 1 2 = 0.). O nvel de significncia
= 0,05. Em Opes de sada, escolher Nova planilha (as estatsticas calculadas
sairo em uma planilha diferente daquela que utilizamos para digitar a entrada
dos dados, basta identific-la no rodap) e, por fim, clicar em Ok.

Figura 4.10 Entrada dos dados para a realizao do teste.

4 Passo: Os resultados abaixo foram apresentados em uma nova planilha.


Vamos entender as informaes que esto grifadas:

1. Observaes: nmero de observaes.


2. Hiptese da diferena de mdias: 0 = 0.
3. gl: graus de liberdade.
4. Stat t: valor da estatstica de teste.
5. P(T < = t): valor p para o teste unicaudal (unilateral).
6. t crtico unicaudal: valores crticos para um teste unicaudal (unilateral).

captulo 4 159
Figura 4.11 Resultados obtidos a partir do Teste t duas amostras em par para mdias,
para os dados do Exemplo 4.6.

Nesta anlise, tambm temos a informao do valor p. Como 0,027 < 0,05,
rejeitamos a hiptese nula, mesma concluso que aquela obtida pelo mtodo
descrito ao longo do captulo (-2,2111 < -1,833). Portanto, os dados amostrais
fornecem evidncias suficientes para se concluir que a dieta eficaz na reduo
do peso.
O valor p tambm pode ser obtido atravs da funo TESTE.T. Para explicar
o procedimento, vamos utilizar os dados do Exemplo 4.6. Aps digitar os dois
conjuntos de dados, como na Figura 4.8, seguimos os seguintes passos: na aba
Frmulas, clicar em Mais Funes , Estatstica e escolher TESTE.T. Esta sequ-
ncia apresentada na Figura 4.12.

160 captulo 4
Figura 4.12 Escolha da funo estatstica TESTE.T.

Aps clicar em TESTE.T aparecer uma janela em que temos que preencher
os argumentos da funo:

1. Matriz1: o primeiro conjunto de dados, ou seja: A2:A11;


2. Matriz2: o segundo conjunto de dados, ou seja: B2:B11;
3. Caudas: especifica o nmero de caudas da distribuio a ser retornado:
Para distribuio unicaudal, digitamos 1 e para distribuio bicaudal, digita-
mos 2. No nosso exemplo, o teste unicaudal, portanto, digitamos 1.
4. Tipo: o tipo de teste t. Para testes pareados, digitamos 1. Para testes
com variao igual das duas amostras, digitamos 2 e para variao desigual,
digitamos 3. No nosso exemplo, o teste t para amostras dependentes (ou seja,
pareadas). Ento, digitamos 1.

Aps o preenchimento de todos os argumentos, clicamos em OK e aparece-


r o valor p. As informaes esto apresentadas na Figura 4.13.

captulo 4 161
Figura 4.13 Probabilidade associada ao teste t de Student.

Observamos que o valor p obtido o mesmo daquele grifado na Figura 4.11.


Como a concluso de um teste pode ser feita pelo mtodo tradicional ou do valor
p, caso a escolha seja pelo valor p, a funo estatstica TESTE.T torna a anlise
mais rpida, sem a necessidade de fazer o procedimento pela Anlise de Dados.

REFLEXO
Ao longo deste captulo, estudamos uma das ferramentas mais importantes da inferncia
estatstica, que so os testes de hipteses. Aprendemos a realizar testes para a mdia po-
pulacional, nos casos de uma ou duas amostras.
Com os exemplos apresentados, pudemos observar a grande aplicabilidade dos testes
de hipteses na rea da sade.
Quando queremos fazer comparaes sobre os parmetros de duas populaes, no
basta selecionarmos duas amostras e analisarmos somente as estatsticas amostrais obtidas.
Precisamos testar a afirmativa sobre estes parmetros analisando os dados amostrais, por
meio da realizao de um teste apropriado e, a partir da concluso do teste, teremos evidn-
cias para apoiar ou no a afirmativa sobre os parmetros.
No podemos esquecer que os testes no podem ser utilizados indiscriminadamente. H
requisitos que devem ser verificados! Com um planejamento correto para a obteno dos dados
amostrais, podemos fazer uso de mais uma ferramenta imprescindvel na tomada de decises!

162 captulo 4
LEITURA
Sugerimos que voc assista ao vdeo que est no seguinte endereo: http://m3.ime.unicamp.
br/recursos/1098. Voc aprender algumas tcnicas de planejamento de experimento, bem
como verificar a importncia da formulao correta de uma hiptese na anlise estatstica.

REFERNCIAS BIBLIOGRFICAS
FARIAS, Alfredo A.; SOARES, Jos F.; CSAR, Cibel C. Introduo Estatstica. 2 ed. Rio de Janeiro:
LTC, 2003.
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
LEVIN, Jack; FOX, James A. Estatstica para Cincias Humanas. 9 ed. So Paulo: Prentice Hall,
2004.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MAGALHES, Marcos N. ; LIMA, Antonio C. P de. Noes de Probabilidade e Estatstica. 6. ed. So
Paulo: Editora da Universidade de So Paulo, 2004.
PAGANO, Marcello.; GAUVREAU, Kimberlee. Princpios de Bioestatstica. So Paulo: Pioneira
Thomson Learning, 2004.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
RIFO, Laura L. Ramos; CAMARNEIRO, Fbio; SANTOS, Jos P. de Oliveira.
Disponvel em: < http://m3.ime.unicamp.br/recursos/1098 >. Acesso em: 03 maio 2015.

captulo 4 163
164 captulo 4
5
Correlao e
Regresso Linear
Simples
No Captulo 2, estudamos como podemos descrever os dados provenientes de
uma varivel quantitativa por meio de medidas resumo. Agora, estudaremos
uma tcnica estatstica denominada correlao. Por meio dela, verificamos
se existe relao entre duas variveis quantitativas: uma, chamada varivel Y
(dependente ou resposta), e a outra, chamada varivel X (independente ou ex-
planatria). Direcionaremos nosso estudo no relacionamento linear entre as
variveis X e Y.
Se identificarmos uma relao linear entre as variveis X e Y, podemos de-
terminar a equao da reta que melhor modela os dados. Esta reta chamada
reta de regresso, e sua equao chamada equao de regresso. Com esta
equao, podemos prever o valor da varivel resposta associada com um valor
fixo da varivel explicativa. Para encontrarmos a equao de regresso, utiliza-
remos a tcnica de regresso linear simples.
Um exemplo do estudo de correlao e regresso linear simples pode ser
feito para verificar a relao entre o comprimento e a idade gestacional de be-
bs nascidos com at 1500 gramas. Havendo uma relao, podemos encontrar
a equao de regresso e utiliz-la para estimar o comprimento do beb para
determinado valor atribudo idade gestacional.

OBJETIVOS
Com as tcnicas estudadas neste captulo, esperamos que voc seja capaz de:

Construir e interpretar o diagrama de disperso;


Calcular e interpretar o coeficiente de correlao linear;
Compreender os conceitos bsicos da regresso linear simples;
Estimar a equao de regresso e utiliz-la para fazer previses.

166 captulo 5
5.1 Diagrama de disperso
Quando estudamos duas variveis quantitativas, temos interesse em responder
as seguintes questes:

H algum tipo de relao entre as variveis X e Y?


Qual o tipo de relacionamento entre elas?
Qual a intensidade da relao?

Neste tipo de estudo, temos um par de resultados (x, y) para cada elemento
da amostra, ou seja, a anlise dos dados envolve a resposta de duas variveis
para cada elemento da amostra. Antes de conduzirmos qualquer tipo de anli-
se, devemos construir um grfico denominado diagrama de disperso, com o
objetivo de verificar se existe uma relao entre as variveis X e Y. Neste diagra-
ma, os pares ordenados (x, y) representam pontos em um plano coordenado. A
varivel X representada no eixo das abscissas (horizontal) e a varivel Y no eixo
das ordenadas (vertical).
A Figura 5.1 apresenta alguns tipos de correlao.

Figura 5.1 Diagramas de disperso com alguns tipos de correlao. Fonte: LARSON
(2004, p. 334).

captulo 5 167
Com o auxlio do diagrama de disperso, podemos identificar a forma, a di-
reo e a intensidade da relao particular existente entre duas variveis quan-
titativas. Na Figura 5.1, identificamo,s nos dois primeiros grficos superiores ,
uma forma bem definida: os dados dispem-se aproximadamente ao longo de
uma linha reta, portanto, verificamos um padro linear. Tambm, identifica-
mos nestes dois grficos, uma direo bem clara: No grfico esquerda, me-
dida que x cresce, y tende a decrescer e, no da direita, medida que x cresce, y
tende a crescer. A intensidade de uma relao determinada por quo prximo
os pontos se aproximam mais de uma reta. Analisando os dois grficos inferio-
res, verificamos que o da esquerda no mostra qualquer forma, sugerindo que
no h relao entre x e y. O grfico direita mostra uma forma bem distinta,
sugerindo uma relao entre x e y, cuja forma no de uma reta.

5.2 Coeficiente de correlao linear


A anlise do diagrama de disperso nos auxilia na verificao de uma possvel
relao linear entre as variveis X e Y, mas a intensidade da correlao entre as
variveis so determinadas utilizando o coeficiente de correlao linear (r).
O coeficiente de correlao um nmero adimensional, ou seja, no tem
unidade de medida. Os valores mnimo e mximo que o coeficiente pode assu-
mir so, respectivamente, -1 e 1. Quando isto ocorre, dizemos que h uma re-
lao linear perfeita entre as variveis X e Y, ou seja, no diagrama de disperso,
todos os pares (x, y) se encontrariam sobre uma linha reta. Valores prximos de
zero para o coeficiente de correlao linear indicam que x e y no esto linear-
mente relacionadas, ressaltando que pode haver outro tipo de relacionamento
entre x e y, mas no o linear. Se os valores da varivel y tendem a aumentar con-
forme os valores da varivel x aumentam, teremos r positivo, e dizemos que x e
y so positivamente correlacionadas. Agora, se os valores da varivel y tendem
a diminuir conforme os valores da varivel x aumentam, teremos r negativo, e
dizemos que x e y so negativamente correlacionadas. O coeficiente de correla-
o linear no resistente, ou seja, a presena de outliers pode afetar bastante
o valor de r.
O coeficiente de correlao linear de Pearson definido pela seguinte
frmula:

168 captulo 5
r=
( x y ) ( x ) ( y )
n
n
i =1 i i
n
i =1 i
n
i =1 i
, 1 r 1
n ( x ) ( x ) n ( y ) ( y )
n n 2 n n 2
2 2
i =1 i i =1 i i =1 i i =1 i

A correlao no faz distino entre a varivel explicativa e a varivel resposta, ou seja,


no clculo do coeficiente de correlao linear, no importa qual varivel chamada de
x e qual chamada de y. O clculo de r feito com dados amostrais. Se tivssemos
todos os pares de valores populacionais x e y, substituiramos r por (letra grega r).

Podemos calcular o coeficiente de correlao linear para qualquer conjunto


de dados amostrais em pares. Mas, no podemos esquecer que estamos usando
dados amostrais para tomar uma deciso sobre dados populacionais. Ento,
para determinarmos se o coeficiente de correlao populacional significan-
te, precisamos realizar um teste de hiptese.
Para se testar hipteses ou fazer inferncias sobre r, precisamos verificar
alguns requisitos.
Segundo TRIOLA (2008, p . 413)

1. A amostra de dados emparelhados (x,y) uma amostra aleatria de dados quan-


titativos independentes. ( importante que os dados amostrais no tenham sido coleta-
dos com o uso de mtodo no apropriado, por exemplo, amostra de resposta voluntria).
2. O exame visual do diagrama de disperso deve confirmar que os pontos se apro-
ximam do padro de uma reta.
3. Quaisquer outliers devem ser removidos caso se saiba que so erros. Os efeitos
de quaisquer outros outliers devem ser considerados pelo clculo de r com e sem o
outlier includo.

Utilizaremos os dados do Exemplo 5.1 para construir o diagrama de disper-


so e para calcular o coeficiente de correlao linear.

EXEMPLO
5.1: A Tabela 5.1 fornece o peso e a estatura de 10 pessoas adultas, do sexo feminino.

captulo 5 169
ALTURA (X) PESO (Y)

156 53,5

158 58,4

163 59,4

162 56,4

165 61,2

172 57,5

173 67,3

174 69,7

179 77,2

183 81,6

Tabela 5.1 Peso, em kg, e altura, em cm, de 10 pessoas adultas, do sexo feminino.

Vamos construir o diagrama de disperso e calcular o coeficiente de correlao linear.

Resoluo
Primeiro, vamos construir o diagrama de disperso colocando cada par (x,y) no plano e
depois verificamos, visualmente, o comportamento conjunto das variveis.

Figura 5.2 Diagrama de disperso para os dados sobre a altura e o peso de 10 mulheres
adultas.

170 captulo 5
Analisando o diagrama de disperso, observamos que, medida que a altura aumenta, o
peso tende a aumentar. Portanto, o diagrama nos sugere que as variveis x e y so positiva-
mente correlacionadas. Para medir a intensidade da correlao, vamos calcular o coeficiente
de correlao linear. Para efetuar este clculo, vamos acrescentar trs colunas na tabela
original dos dados, obtendo o seguinte quadro:

ALTURA (X) PESO (Y) XY X2 Y2

156 53,5 8.346 24.336 2.862,25

158 58,4 9.227,2 24.964 3.410,56

163 59,4 9.682,2 26.569 3.528,36

162 56,4 9.136,8 26.244 3.180,96

165 61,2 10.098 27.225 3.745,44

172 57,5 9.890 29.584 3.306,25

173 67,3 11.642,9 29.929 4.529,29

174 69,7 12.127,8 30.276 4.858,09

179 77,2 13.818,8 32.041 5.959,84

183 81,6 14.932,8 33.489 6.658,56

= 1.685 = 642, 2 = 108.902, 5 = 284.657 = 42.039, 6

Para obtermos os valores da coluna (x y), multiplicamos cada par (x , y), ou seja, 156
53,5, 158 58,4 e assim por diante. Os valores x2 so obtidos elevando ao quadrado cada
valor da primeira coluna, ou seja, 156 156 = 24.336; 158 158 = 24,964, e assim por dian-
te. Finalmente, obtemos y2 fazendo cada valor da segunda coluna ao quadrado, isto , 53,5
53,5 = 2.286,25; 58,4 58,4 = 3.410,56, e assim por diante.
Com os totais de cada uma das colunas, temos todos os valores necessrios para subs-
tituir na frmula do coeficiente de correlao linear:

captulo 5 171
r=
( x y ) ( x ) ( y )
n
n
i =1 i i
n
i =1 i
n
i =1 i

n ( x ) ( x ) n ( y ) ( y )
n n 2 n n 2
2 2
i =1 i i =1 i i =1 i i =1 i

10 (108.902, 5) (1.685) ( 642, 2 )


r=
10 ( 284.657) (1.685) 10 ( 42.039, 6 ) ( 642, 2 )
2 2

1.089.025 1.082.107
r=
2.846.570 2.839.225 420.396 412.420, 84
6.918 6.918 6.918
r= = = = 0, 9039
7.345 7.975,16 85, 7030 89, 3038 7.653, 60

Como r = 0,9039, conclumos que as variveis peso e altura so fortemente correlacio-


nadas.
Aps o clculo do coeficiente de correlao linear, comum utiliz-lo para fazer infe-
rncias sobre a natureza da relao entre x e y. Quando fazemos isto, precisamos tomar os
seguintes cuidados:

Uma alta correlao no implica necessariamente que haja uma relao de causa e efeito
entre x e y.
Uma baixa correlao no implica, necessariamente, que x e y no estejam correlacio-
nadas. Apenas podemos afirmar que no esto fortemente e linearmente relacionadas. O
diagrama de disperso pode retratar um padro que sugere uma forte relao no linear.

Devemos, tambm, ter o cuidado em interpretar correlaes baseadas em mdias de


valores.
De acordo com TRIOLA (2008, p. 417),

As mdias suprimem a variao individual e podem aumentar o coeficiente de correla-


o. Um estudo produziu um coeficiente de correlao 0,4 para dados emparelhados
que relacionavam renda e educao entre indivduos, mas o coeficiente de correlao
linear se tornou 0,7 quando foram usadas mdias regionais.

Um exemplo antigo, mas muito interessante, foi dado por um estatstico que mos-
trou que havia correlao positiva entre o nmero de recm-nascidos e o nmero

172 captulo 5
de cegonhas em uma pequena cidade da Dinamarca, no decorrer dos anos 30. A
correlao entre essas duas variveis espria: no indica relao de causa e efeito.
Existe uma terceira varivel, o crescimento da cidade, que implicava tanto no nmero
de recm-nascidos (quanto maior a cidade, mais crianas nascem) quanto no nmero
de casas com chamins, perto das quais as cegonhas faziam seus ninhos (VIEIRA,
2008, p. 120).

Como j dissemos anteriormente, o coeficiente de correlao obtido por


meio de dados amostrais. Para fazermos inferncias sobre o coeficiente de cor-
relao populacional , realizaremos um teste de hipteses utilizando o coefi-
ciente de correlao amostral.

5.3 Teste de hipteses para correlao


Estudamos, no Captulo 4, que o teste de hipteses um mtodo da inferncia
estatstica, em que utilizamos dados amostrais de uma populao para testar
uma afirmativa sobre uma propriedade desta populao.
Para a realizao de um teste de hipteses para correlao, devemos seguir
os seguintes passos:

1. Estabelecer as hipteses nula e alternativa:

H0 : = 0 ( no h correlao linear significante )



H1 : 0 ( h coorrelao linear significante )

em que o coeficiente de correlao populacional.

2. Determinar a estatstica de teste:


r
t=
1 r 2
n 2

em que n o nmero de pares ordenados e r o coeficiente de correlao


amostral de Pearson.

captulo 5 173
3. Especificar o nvel de significncia. Normalmente, utilizamos = 0,01,
= 0,05 ou = 0,10.
4. Determinar o nmero de graus de liberdade: g.l. = n 2.
5. Concluso:

Se |t| > valores crticos, encontrado na Tabela 2 - Apndice, rejeitamos H0


e conclumos que h uma correlao linear significante.
Se |t| valores crticos, encontrado na Tabela 2 - Apndice, deixamos de
rejeitar H0. Ou seja, no h evidncia suficiente para se concluir que haja uma
correlao linear.

EXEMPLO
5.2: Utilizando os dados do Exemplo 5.1, vamos testar a hiptese de que h uma correlao
entre o peso e a altura de pessoas adultas, do sexo feminino. Considerar = 0,05.

Resoluo
As hipteses so:

H0 : = 0 ( no h correlao linear significante )



H1 : 0 ( h correlao linear significante )

A estatstica de teste :

r 0, 9039 0, 9039 0, 9039 0, 9039


t= = = = = = 5, 977
1 r 2 1 ( 0, 9039 )
2 1 0, 81703521 0, 022870599 0,151230284
n 2 10 2 8

Como = 0,05 e o nmero de graus de liberdade n 2 = 10 2 =8, os valores


crticos so t = 2,306. O teste bicaudal devido maneira que as hipteses foram esta-
belecidas (= e ).
9.

P(|T DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


G. L. 0.50 0.20 0.10 0.05 0.04 0.02 0.01 0.005 0.001
1 1.000 3.078 6.314 12.706 15.894 31.821 63.656 127.321 636.578
G. L. 0.50 0.20 0.10 0.05 0.04 0.02 0.01 0.005 0.001
1 1.000 3.078 6.314 12.706 15.894 31.821 63.656 127.321 636.578

174 captulo 5
P(|T DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS
2 0.816 1.886 2.920 4.303 4.849 6.965 9.925 14.089 31.600
3 0.765 1.638 2.353 3.182 3.482 4.541 5.841 7.453 12.924
4 0.741 1.533 2.132 2.776 2.999 3.747 4.604 5.598 8.610
5 0.727 1.476 2.015 2.571 2.757 3.365 4.032 4.773 6.869
6 0.718 1.440 1.943 2.447 2.612 3.143 3.707 4.317 5.959
7 0.711 1.415 1.895 2.365 2.517 2.998 3.499 4.029 5.408
8 0.706 1.397 1.860 2.306 2.449 2.896 3.355 3.833 5.041
9 0.703 1.383 1.833 2.262 2.398 2.821 3.250 3.690 4.781
10 0.700 1.372 1.812 2.228 2.359 2.764 3.169 3.581 4.587
11 0.697 1.363 1.796 2.201 2.328 2.718 3.106 3.497 4.437
12 0.695 1.356 1.782 2.179 2.303 2.681 3.055 3.428 4.318
110 0.677 1.289 1.659 1.982 2.078 2.361 2.621 2.865 3.381
120 0.677 1.289 1.658 1.980 2.076 2.358 2.617 2.860 3.373
0.674 1.282 1.645 1.960 2.054 2.326 2.576 2.807 3.290
0,25 0,10 0,05 0,025 0,02 0,01 0,005 0,0025 0,0005

Tabela 5.2 Valores crticos da distribuio t de Student

De acordo com a estatstica de teste e os valores crticos, temos que 5,977 > 2,306.
Portanto, rejeitamos H0, ou seja, h uma correlao linear significante entre o peso e a altura
das mulheres.
Quando determinamos, por meio do teste de hipteses, que a correlao linear sig-
nificante, podemos encontrar a reta que melhor descreve os dados observados. Esta reta
obtida por meio da equao de regresso, que utilizada para prever o valor da varivel y para
determinado valor da varivel x.

Aprenderemos, a seguir, como encontrar e equao de regresso.

5.4 Regresso linear simples


De acordo com Moore et al. (2006, p.95)

Uma reta de regresso uma linha reta que descreve como uma varivel de resposta y
muda medida que uma varivel explicativa x tambm varia. Frequentemente utilizamos
uma reta de regresso para predizer o valor de y a partir de um determinado valor de x.

captulo 5 175
Para obtermos a reta de regresso, precisamos da equao de regresso.
Esta equao estimada utilizando a tcnica de regresso linear simples. A
equao de regresso expressa a relao entre a varivel independente (x) e a
varivel dependente ( y ). Voltando ao nosso exemplo do incio do captulo, a
idade gestacional do beb a varivel independente e, a partir de determinado
valor atribudo a ela, podemos prever o comprimento do beb (que varivel
dependente) utilizando a equao de regresso.

A regresso linear simples envolve uma varivel independente e uma varivel depen-
dente. A anlise de regresso envolvendo duas ou mais variveis independentes cha-
mada de anlise de regresso mltipla.

Antes de comearmos o estudo para encontrar a equao de regresso, va-


mos relembrar qual a equao de uma reta.
A equao tpica de uma reta y = mx + b, em que m o coeficiente angular e
b o intercepto. O coeficiente angular informa a inclinao da reta em relao
ao eixo das abscissas (x).
Se m for um nmero:

positivo, a reta crescente;


negativo, a reta decrescente;
zero, a reta paralela ao eixo das abscissas.

O coeficiente linear a ordenada do ponto em que a reta corta o eixo das


ordenadas (y).
Em Estatstica, a equao de regresso expressa na forma:
y = b0 + b1x

Os coeficientes b0 e b1 so estatsticas amostrais usadas para estimarem os


parmetros populacionais 0 e 1. Portanto, utilizaremos dados amostrais em
pares para estimar a equao de regresso. A notao y (y chapu) serve para
distinguir entre um valor observado y e o valor correspondente y , que encon-
trado utilizando a reta de regresso.

176 captulo 5
Utilizaremos as seguintes frmulas para encontrar os coeficientes b0 e b1,
respectivamente:

b1 =
n ( n
x
i =1 i) ( x ) ( y )
yi
n
i =1 i
n
i =1 i

n ( x ) ( x )
n n 2
2
i =1 i i =1 i

e b0 = y b1 x

Podemos observar que o numerador do clculo do estimador b1 exatamente o nume-


rador do coeficiente de correlao linear e o denominador o valor obtido dentro da
primeira raiz do denominador do coeficiente de correlao linear.

Vamos lembrar que:

xi
n

x = i =1 ( mdia da varivel x )
n
yi
n

y = i =1 ( mdia da varivel y )
n

Analisando a frmula para calcular b0, observamos que este coeficiente s pode ser
encontrado aps o clculo de b1.

CONEXO
A reta de regresso a que melhor se ajusta aos dados amostrais. O critrio especfico usa-
do para se determinar qual reta se ajusta melhor a propriedade dos mnimos quadrados.
Uma leitura interessante sobre a propriedade dos mnimos quadrados pode ser encontrada
em TRIOLA (2008, p. 435).

Uma observao importante: diferentemente do clculo do coeficiente de correlao li-


near r, a distino entre a varivel independente e a varivel dependente essencial. Se
invertermos os papis das duas variveis, obteremos uma reta de regresso diferente.

captulo 5 177
5.3: Vamos utilizar os dados do Exemplo 5.1 para encontrar a equao de regresso.

Resoluo
Precisaremos das informaes contidas no Quadro 5.1.

ALTURA (X) PESO (Y) XY X2 Y2

156 53,5 8.346 24.336 2.862,25

158 58,4 9.227,2 24.964 3.410,56

163 59,4 9.682,2 26.569 3.528,36

162 56,4 9.136,8 26.244 3.180,96

165 61,2 10.098 27.225 3.745,44

172 57,5 9.890 29.584 3.306,25

173 67,3 11.642,9 29.929 4.529,29

174 69,7 12.127,8 30.276 4.858,09

179 77,2 13.818,8 32.041 5.959,84

183 81,6 14.932,8 33.489 6.658,56

= 1.685 = 642, 2 = 108.902, 5 = 284.657 = 42.039, 6

Os valores de b1 e b0 so, respectivamente,

b1 =
n ( n
) ( x ) ( y )
x
i =1 i
yi
n
i =1 i
n
i =1 i

n ( x ) ( x )
n n 2
2
i =1 i i =1 i

10 (108.902, 5) (1.685) ( 642, 2 )


b1 =
10 ( 284.657) (1.685)
2

6.918
b1 = = 0, 941865
7.345
b0 = y b1 x
b0 = 64, 22 0, 941865 (168, 5)
b0 = 64, 22 158, 704253 = 94, 4843

178 captulo 5
i =1y i
n
xi
n
1685 642, 2
pois, x = i =1 = = 168, 5 e y = = = 64, 22
n 10 n 10

Portanto, a equao de regresso :

y = 94, 4843 + 0, 9419 x

Agora que j conhecemos a equao de regresso, a pergunta que surge : como po-
demos interpret-la?
Segundo TRIOLA (2008, p. 434)

Ao se trabalhar com duas variveis relacionadas por uma equao de regresso, a mu-
dana marginal em uma varivel a quantidade que ela varia quando a outra varivel
varia de exatamente uma unidade. A inclinao b1 na equao de regresso representa
a mudana marginal em y quando x varia de uma unidade.

Ento, para os dados da Tabela 5.1, referentes ao peso e altura das 10 mulheres, a
equao de regresso tem uma inclinao 0,9419, que mostra que, se aumentarmos x (al-
tura) em 1 unidade, o peso aumenta em 0,9419 unidades, aproximadamente. Esta in-
terpretao fica fcil de ser verificada se substituirmos valores para x. Por exemplo, se x =
155, y = 94, 4843 + 0, 9419 (155 ) = 94, 4843 + 155, 9945 = 515102
, e, se x = 156,
y = 94, 4843 + 0, 9419 (156 ) = 94, 4843 + 146, 9364 = 52, 4521. A diferena entre os va-
lores de y encontrados, y = 94, 4843 + 0, 9419 x = 94, 4843 + 0, 9419 (171) = 66, 58 kg ,
exatamente o valor de b1, ou seja, para cada acrscimo de 1 unidade em x, y cresce de
0,9419 unidades.
A Figura 5.3 apresenta, no diagrama de disperso, a reta de regresso.

Figura 5.3 Reta de regresso: peso (kg) em funo da altura (cm).

captulo 5 179
Estudaremos, mais adiante, o que significa a informao R2 = 0,817.
Podemos utilizar a equao de regresso para prever valores de Y para quaisquer valo-
res de X dentro do intervalo estudado, mesmo que tais valores no estejam na amostra. Por
exemplo, para x = 171 (valor que no est na Tabela 5.1), podemos estimar o valor de Y.
Basta substituir este valor na equao da reta, ou seja:

y = 94, 4843 + 0, 9419 x = 94, 4843 + 0, 9419 (171) = 66, 58 kg

Interpretamos o valor y = 66, 58 kg como uma previso para o peso, quando a altura da
mulher adulta for 171 cm.
Se atribuirmos varivel x um valor observado no conjunto de dados, por exemplo, x =
165, vamos encontrar o seguinte valor previsto para y:

y = 94, 4843 + 0, 9419 x = 94, 4843 + 0, 9419 (165 ) = 60, 93 kg

Analisando a Tabela 5.1, observamos que para a altura x = 165 cm, o peso correspon-
dente y = 61,2 kg. Esta diferena entre o valor amostral observado e o valor previsto pela
equao de regresso denominada resduo. Ento, temos a seguinte definio:

resduo = y observado y previsto = y y

Um grfico de resduos outro instrumento til para a anlise dos resultados da corre-
lao e regresso e para a verificao dos requisitos necessrios para se fazerem infe-
rncias sobre correlao e regresso. Este grfico construdo usando o mesmo eixo
x do diagrama de disperso, mas no eixo y (vertical) utilizamos os valores dos resduos.
Se o grfico de resduos no revelar qualquer padro, a equao de regresso uma
boa representao da associao entre as duas variveis.

A equao de regresso deve ser utilizada para fazer previses apenas se ela for um bom
modelo para os dados, ou seja, se for verificado por meio de um teste de hipteses que a
relao entre as duas variveis significante. Caso a relao no seja significante, o melhor
valor previsto de y y .
Devemos tomar o cuidado de no fazer extrapolaes, ou seja, utilizar a equao de re-
gresso para fazer previses para a varivel Y utilizando valores para X muito distantes dos
limites dos dados amostrais disponveis.

180 captulo 5
De acordo com Anderson et al. (2003, p. 447), usar a equao de regresso estimada
fora do intervalo dos valores da varivel independente deve ser feito com cuidado por-
que fora deste intervalo ns no podemos assegurar que a mesma relao seja vlida.

Agora que j aprendemos a utilizar as tcnicas de correlao e regresso linear simples,


vamos listar alguns conceitos importantes que foram estudadas e que no podemos esquecer:

1. O diagrama de disperso nos d uma ideia da relao, ou no, entre duas variveis
quantitativas.
2. O coeficiente de correlao linear de Pearson mede a intensidade da relao linear, ou
seja, s tem sentido calcul-lo se o diagrama de disperso indicar uma relao linear.
3. Correlao no indica causa. Uma forte relao entre duas variveis no suficiente
para que se tirem concluses de causa e efeito.
4. Caso haja relao entre duas variveis quantitativas, podemos descrev-la atravs da
equao de regresso que melhor representa a relao.
5. Devemos usar a equao de regresso para previses somente se houver uma corre-
lao linear, confirmada pelo teste de hipteses. Caso contrrio, a melhor estimativa para a
varivel y sua mdia amostral y .

5.5 Coeficiente de determinao


Em geral, h uma variao em torno da reta de regresso, ou seja, nem todos os
pontos ficam sobre a reta (pode acontecer de nenhum estar exatamente sobre a
reta). Para medir a preciso da reta de regresso ajustada, isto , a proporo da
variao de Y que explicada pela reta de regresso (variao de X), utilizamos
o coeficiente de determinao. O coeficiente de determinao, R2, dado pelo
quadrado do coeficiente de correlao. Este coeficiente particularmente im-
portante se vamos usar a equao de regresso para fazer previses. Nesse caso,
queremos um R2 to prximo de 1 quanto possvel.
Para os dados do Exemplo 5.1, o coeficiente de determinao :

R 2 = ( 0, 9039 ) = 0, 8170
2

captulo 5 181
Isto significa que 81,70% da variao do peso das mulheres se explica pela
variao da altura. Este valor aparece na Figura 5.3.
Com a definio do coeficiente de determinao, podemos perceber que, se
o coeficiente de correlao for r = 0,7, teremos um coeficiente de determina-
o r2 = 0,49, significando que a reta de regresso ajustada no consegue expli-
car nem a metade da variao de y. Por isso, para 0,7 x 0,7, no se deve, em
geral, ajustar a reta de regresso. Para |r| = 0,9, a reta de regresso explica mais
de 80% da variao total de y.
Vamos estudar mais um exemplo para exercitar todos os contedos aborda-
dos ao longo do captulo.

EXEMPLO
5.4: Muitos acidentes de carro so causados por motoristas cansados. Vrios estudos de
pesquisa mostram que mudanas nas pupilas dos olhos esto relacionadas com a fadiga.
Obteve-se uma amostra aleatria de 25 motoristas, e mediram-se as oscilaes no tamanho
da pupila (x, em milmetros por segundo) usando-se um pupilgrafo. O cansao de cada
pessoa (y) tambm foi registrado, usando-se o ndice de pupila sem descanso (IPSD). As
estatsticas resumo so:

x i = 7,1 ; y i = 192 ; x i y i = 49, 22 ; x i2 = 2,1064 ; y i2 = 2.094


Fonte: KOKOSKA (2013, p. 509).

De acordo com as estatsticas resumo:


a) Calcule o coeficiente de correlao linear.
b) Teste a hiptese de que h correlao linear significante, com um nvel de significncia 0,05.
c) Encontre a equao de regresso por mnimos quadrados.
d) Faa a previso para o IPSD, considerando x = 0,3 milmetro por segundo.
e) Calcule o coeficiente de determinao e interprete.

Resoluo
a) Neste exerccio, j temos as informaes necessrias para substituirmos na frmula do
coeficiente de correlao linear:

182 captulo 5
r=
( x y ) ( x ) ( y )
n
n
i =1 i i
n
i =1 i
n
i =1 i

n ( x ) ( x ) n ( y ) ( y )
n n 2 n n 2
2 2
i =1 i i =1 i i =1 i i =1 i

25 ( 49, 22 ) ( 7,1) (192 )


r=
25 ( 2,1064 ) ( 7,1) 25 ( 2.094 ) (192 )
2 2

1.230, 5 1363, 2
r=
52, 66 50, 41 52.350 36.864
132, 7 132, 7 132, 7
r= = = = 0, 7109
2, 25 15.486 15 , 124, 44 186, 66

Como o coeficiente de correlao -0,7109, conclumos que as variveis oscilao no


tamanho da pupila e IPSD so negativamente correlacionadas.

b) Estabelecendo as hipteses:

H0 : = 0 ( no h correlao linear significante )



H1 : 0 ( h correlao linear significante )

A estatstica de teste :

r 0, 7109 0, 7109 0, 7109 0, 7109


t= = = = = = 4, 848
1 r 2 1 ( 0, 7109 )
2 1 0, 50537881 0, 021505269 0,1466467
n 2 25 2 23

Como = 0,05 e o nmero de graus de liberdade n 2 = 25 2 = 23, os valores


crticos so t = 2,069. Novamente, o teste bicaudal devido maneira que as hipteses
foram estabelecidas (= e ).
Tabela - Valores crticos da distribuio t de Student

P(|T DE STUDENT| VALOR TABELADO) = VALORES BILATERAIS


G. L. 0.50 0.20 0.10 0.05 0.04 0.02 0.01 0.005 0.001
20 0.687 1.325 1.725 2.086 2.197 2.528 2.845 3.153 3.850
21 0.686 1.323 1.721 2.080 2.189 2.518 2.831 3.135 3.819
22 0.686 1.321 1.717 2.074 2.183 2.508 2.819 3.119 3.792
23 0.685 1.319 1.714 2.069 2.177 2.500 2.807 3.104 3.768
24 0.685 1.318 1.711 2.064 2.172 2.492 2.797 3.091 3.745
25 0.684 1.316 1.708 2.060 2.167 2.485 2.787 3.078 3.725
26 0.684 1.315 1.706 2.056 2.162 2.479 2.779 3.067 3.707

Tabela 5.3 Valores crticos da distribuio t de Student

captulo 5 183
De acordo com a estatstica de teste e os valores crticos, temos que | 4,848| >
2,069. Portanto, rejeitamos H0, ou seja, h uma correlao linear significante entre a oscila-
o no tamanho da pupila e IPSD.

Quando a correlao linear significante, podemos encontrar a reta de regresso, que


melhor descreve os dados em estudo.

c) Para encontrar a equao de regresso, precisamos encontrar os valores estimados


dos parmetros.
Os valores de b1 e b0 so, respectivamente,

b1 =
n ( n
) ( x ) ( y )
x
i =1 i
yi
n
i =1 i
n
i =1 i

n ( x ) ( x )
n n 2
2
i =1 i i =1 i

25 ( 49, 22 ) ( 7,1) (192 )


b1 =
25 ( 2,1064 ) ( 7,1)
2

132, 7
b1 = = 58, 9778
2, 25
b0 = y b1 x
b0 = 7, 68 ( 58, 9778 ) ( 0, 284 )
b0 = 7, 68 + 16, 7497 = 24, 4297

i =1x i
n
i =1y i
n
7,1 192
pois, x = = = 0, 284 e y = = = 7, 68 .
n 25 n 25

Portanto, a equao de regresso :

y = 24, 4297 58, 9778 x

d) Para encontrar o valor previsto do IPSD, basta substituirmos x = 0,3 na equao de


regresso:

184 captulo 5
y = 24, 4297 58, 9778 ( 0, 3)
y = 24, 4297 17, 69334 = 6, 7364

e) O coeficiente de determinao dado pelo quadrado do coeficiente de correlao, ou


seja:

R 2 = ( 0, 7109 ) = 0, 5054
2

Isto significa que 50,54% da variao do IPSD se explica pela oscilao no tamanho da pupila.

5.6 Utilizao do Microsoft Excel na anlise


de regresso e correlao

Podemos utilizar o Excel para construir o diagrama de disperso, obter o coefi-


ciente de correlao linear de Pearson e o coeficiente de determinao e deter-
minar a equao de regresso. Para aprendermos o processo, vamos utilizar os
dados do Exemplo 5.1. Utilizaremos a verso Excel 2010.
Para fazer as anlises, seguiremos os seguintes passos:

1 Passo: Vamos digitar os pares ordenados das variveis X e Y em uma pla-


nilha do Excel.

Figura 5.4 Valores da altura e peso de pessoas adultas, do sexo feminino

captulo 5 185
2 Passo: Neste passo, selecionamos os dados (podemos selecionar com os
ttulos das colunas). Aps a seleo, clicar na aba Inserir e depois selecionar o
tipo de grfico a ser elaborado. Vamos escolher a primeira opo para o grfico
de Disperso. Clicar sobre a figura.

Figura 5.5 Seleo dos dados e escolha do grfico Disperso.

3 Passo: Aps clicar na primeira opo do grfico Disperso, o grfico


construdo est apresentado na Figura 5.6.

Figura 5.6 Diagrama de disperso.

4 Passo: Nesta etapa, vamos formatar o grfico: deletar a legenda, o ttulo


e as linhas de grade e vamos colocar nome nos eixos. Para deletar, basta cli-
carmos sobre a legenda e o ttulo e usar o boto direito do mouse ou o prprio

186 captulo 5
teclado do computador para excluir. Para as linhas de grade, basta clicar sobre
qualquer uma delas e utilizar o boto direito do mouse para excluir.

Figura 5.7 Diagrama de disperso (sem a legenda e sem o ttulo).

5 Passo: Agora, vamos colocar nome nos eixos: clicamos sobre o grfico e
aparecer Ferramentas de Grfico com algumas opes de escolha. Clicar em
Layout e logo em seguida Ttulos dos Eixos. Utilizamos as duas opes: uma
para colocar ttulo no eixo horizontal e a outra para colocar o ttulo no eixo ver-
tical. A Figura 5.8 ilustra a escolha para o Ttulo do Eixo Horizontal Principal,
com a opo Ttulo Abaixo do Eixo. Aps a insero do ttulo horizontal, segui-
mos o mesmo procedimento para o eixo vertical.

Figura 5.8 Procedimentos para inserir ttulos nos eixos.

captulo 5 187
6 Passo: A Figura 5.9 apresenta o diagrama de disperso finalizado.

Figura 5.9 Diagrama de disperso da altura e peso de pessoas adultas, do sexo feminino.

Agora, vamos obter o coeficiente de correlao linear de Pearson.


1 Passo: Vamos digitar os pares ordenados das variveis X e Y em uma pla-
nilha do Excel.

Figura 5.10 Valores da altura e peso de pessoas adultas, do sexo feminino.

188 captulo 5
2 Passo: Para obtermos o coeficiente de correlao, clicamos na aba
Frmulas e, em seguida, clicamos em Mais Funes. Selecionando a primeira
opo, Estatstica, aparecer uma lista de funes. Escolher a opo CORREL.

Figura 5.11 Escolha da funo CORREL para obteno do coeficiente de correlao.

3 Passo: Aps a escolha da funo CORREL, aparecer uma janela


Argumentos da funo. No campo Matriz 1, selecionamos os dados da varivel
altura (sem o ttulo) que esto na planilha e, no campo Matriz 2, selecionamos
os dados da varivel peso (sem o ttulo) que esto na planilha. Para selecionar os
dados, basta clicar no primeiro valor e arrastar (com o mouse) at o ltimo valor.

Figura 5.12 Preenchimento dos argumentos da funo.

captulo 5 189
4 Passo: Agora, clicamos em OK e obtemos o coeficiente de correlao.

Figura 5.13 Coeficiente de correlao linear.

O coeficiente de correlao r = 0,9038887. J sabamos que seria positivo,


pois o diagrama de disperso indica uma relao linear positiva (crescente) en-
tre as variveis em estudo. Por definio, o coeficiente de determinao dado
pelo quadrado do coeficiente de correlao. Portanto:

R2 = ( 0, 9038887 ) = 0, 8170
2

Isto significa que 81,70% da variao do peso se explica pela variao na al-
tura das pessoas adultas, do sexo feminino.
E, para finalizar, vamos obter a equao de regresso.

1 Passo: Vamos digitar os pares ordenados das variveis X e Y em uma pla-


nilha do Excel.

190 captulo 5
Figura 5.14 Valores da altura e peso de pessoas adultas, do sexo feminino.

2 Passo: As medidas apresentadas neste captulo podem ser obtidas utili-


zando o Excel. Para isto, o suplemento Anlise de Dados deve estar ativo. Caso
ele esteja ativo, deve aparecer o cone Anlise de Dados aps clicar na janela
Dados.
muito comum este suplemento no aparecer ativo. Caso isto acontea, de-
vemos seguir o seguinte procedimento:

Clicar no Boto Office e em seguida Opo do Excel. Escolher Suplementos


e clicar;
Escolher na lista Suplementos de Aplicativos Inativos a opo Ferramenta
de Anlise e clicar em Ir...
Selecionar o seguinte suplemento disponvel: Ferramenta de anlise e cli-
car em OK.
Com o suplemento ativo, podemos fazer vrias anlises estatsticas!

captulo 5 191
Para a anlise do nosso exemplo, clicamos na janela Dados e a seguir em
Anlise de dados. Escolhemos a Ferramenta de Anlise Regresso e clicamos
em OK.

Figura 5.15 Escolha da Anlise de dados Regresso.

3 Passo: Aps clicar em Ok aparecer uma nova caixa de dilogo. No cam-


po Intervalo Y de entrada, selecionar os dados arrastando com o mouse desde
B2 at B11. No campo Intervalo X de entrada, selecionar os dados arrastando
com o mouse desde A2 at A11. Devemos ficar atentos para selecionar correta-
mente os valores de Y e X! Em Opes de sada, escolher Nova planilha (as es-
tatsticas calculadas sairo em uma planilha diferente daquela que utilizamos
para digitar a entrada dos dados, basta identific-la no rodap) e, por fim, clicar
em Ok.

Figura 5.16 Entrada dos dados para anlise de regresso.

192 captulo 5
4 Passo: Os resultados abaixo foram apresentados em uma nova planilha.
Vamos entender as informaes que esto grifadas:

1. R mltiplo: o coeficiente de correlao.


2. R Quadrado: o coeficiente de determinao.
3. Interseco: o coeficiente b0.
4. Varivel X1: o coeficiente b1.
5. Observaes: nmero de pares ordenados (x,y).

Figura 5.17 Resumo dos resultados.

Utilizando os coeficientes obtidos, temos que a equao de regresso :


y = b0 + b1x
y = 94, 4843 + 0, 9419 x

Agora que j sabemos qual a equao de regresso, temos a opo de tra-


ar a reta e mostrar a equao e o coeficiente de determinao no diagrama
de disperso. Para isto, quando estamos construindo o grfico, clicamos sobre
qualquer um dos pontos. Aparecer:

captulo 5 193
Figura 5.18 Adicionar linha de tendncia no diagrama de disperso.

Quando clicarmos em Adicionar Linha de Tendncia aparecer a janela


Formatar Linha de Tendncia. Nela, escolhemos a opo Linear, Exibir Equao
no grfico e Exibir valor de R-quadrado no grfico.

Figura 5.19 Formatao da linha de tendncia.

Finalmente, quando clicamos em fechar, aparecer, no diagrama de dis-


perso, a reta ajustada, a equao da reta e o coeficiente de determinao.
Podemos deslocar, com o mouse, as informaes da reta e do coeficiente, colo-
cando-os em uma posio mais conveniente no diagrama. Basta clicar em cima
das informaes e arrastar.

194 captulo 5
Figura 5.20 Reta de regresso: peso (kg) em funo da altura (cm).

REFLEXO
Chegamos ao final deste captulo. Nele, exploramos as tcnicas de correlao e regresso
linear simples. Com larga aplicao, o contedo apresentado nos permite obter, por exem-
plo, funes matemticas relacionando o preo com a demanda, a nmero de anos que um
paciente fumou e a capacidade pulmonar, nveis de colesterol e triglicerdeos antes de uma
dieta, peso da me e do beb ao nascer, taxa de mortalidade infantil e expectativa de vida
em uma amostra de pases, entre tantas outras aplicaes. Aprendemos que, quando temos
informaes, em pares, de duas variveis quantitativas, podemos estudar mais profundamen-
te um possvel relacionamento entre essas variveis, em particular, o relacionamento linear.
Havendo um relacionamento linear, estimamos os coeficientes da equao de regresso
pelo mtodo de mnimos quadrados. Um dos maiores interesses conseguir fazer previses
da varivel dependente a partir, valores atribudos para a varivel independente. Mas, sa-
bemos que para fazermos previses, precisamos testar a adequabilidade de modelo! Alm
disto, temos que, tomar cuidado em no fazer extrapolaes, pois no podemos garantir que
a mesma relao seja vlida para valores da varivel independente muito distantes daqueles
utilizados para encontrar a equao de regresso.
Com o uso cuidadoso destas tcnicas, obtemos informaes estatsticas importantes no
auxlio tomada de decises, em vrias reas do conhecimento.

captulo 5 195
LEITURA
Um vdeo muito interessante, que aborda o conceito de correlao e correlaes esprias,
encontrado no endereo http://m3.ime.unicamp.br/recursos/1084. Vale a pena assistir!

REFERNCIAS BIBLIOGRFICAS
ARANGO, Hctor G. Bioestatstica Terica e Computacional. Rio de Janeiro: Editora Guanabara
Koogan S.A., 2001.
LARSON, Ron; FARBER, Betsy. Estatstica Aplicada. 2. ed. So Paulo: Prentice Hall, 2004.
KOKOSKA, Stephen. Introduo Estatstica Uma Abordagem por Resoluo de Problemas.
Rio de Janeiro: LTC, 2013.
LEVINE, David M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: Teoria e Aplicaes Usando
Microsoft Excel em Portugus. Rio de Janeiro: LTC, 2000.
MOORE, David S.; McCABE, George P.; DUCKWORTH, William M.; SCLOVE, Stanley L. A Prtica da
Estatstica Empresarial Como Usar Dados para Tomar Decises. Rio de Janeiro: LTC, 2006.
TRIOLA, Mrio F. Introduo Estatstica. 10. ed. Rio de Janeiro: LTC, 2008.
VIEIRA, Sonia. Estatstica bsica. So Paulo: Cengage Learning, 2013.
VIEIRA, Sonia. Introduo Bioestatstica. 4 ed. Rio de Janeiro: Elsevier, 2008.
RIFO, Laura R. Ramos; ANNUNCIATO, Angela; SANTOS, Jos P. de Oliveira. Disponvel em: < http://
m3.ime.unicamp.br/recursos/1084 >. Acesso em: 03 maio 2015.

196 captulo 5
ANOTAES

captulo 5 197
ANOTAES

198 captulo 5
ANOTAES

captulo 5 199
ANOTAES

200 captulo 5