Escolar Documentos
Profissional Documentos
Cultura Documentos
UNIDADE 2
Probabilidade e
Estatstica
Probabilidade
e ela
Estatstica, como
Mtodos Tabulares e
Mtodos Grficos
2015
Editora e Distribuidora Educacional S. A.
Avenida Paris, 675 Parque Residencial Joo Piza
CEP: 86041 -100 Londrina PR
e-mail: editora.educacional@kroton.com.br
Homepage: http://www.kroton.com.br/
Sumrio
19
33
49
Unidade 2
MTODOS TABULARES E
MTODOS GRFICOS
Convite ao estudo
Nesta unidade, veremos contedos que so necessrios para a
realizao dos mtodos tabulares e mtodos grficos. Os objetivos desta
unidade so: compreender as medidas separatrizes e sua utilizao
em estatstica; construir e interpretar o boxplot; utilizar as tabelas de
frequncia e os diagramas de disperso para melhor interpretao dos
dados estatsticos; utilizar o coeficiente de correlao linear e a regresso
linear para o aluno organizar os dados coletados e para a interpretao e
anlise desenvolvendo o raciocnio crtico sobre o fenmeno em questo.
Com esses objetivos, a competncia geral da disciplina que
conhecer os fundamentos estatsticos bsicos necessrios formao
do profissional da rea de exatas, ser desenvolvida nesta unidade.
A estatstica nos auxilia em todos as reas da nossa vida. Continuamente
vemos a utilizao de grficos, porcentagens e pesquisas que nos do
um panorama sobre nossas situaes cotidianas.
Voc j se deparou com revistas especializadas em sade que nos
mostram porcentagem da populao com um certo tipo de doena? Voc
j ficou tendencioso a no consumir algum tipo de alimento ou a consumir
por causa de uma dessas pesquisas? Essas pesquisas tm muito a dizer
sobre nossa rotina, sobre nosso estilo de vida e nossa expectativa de vida.
Falando de sade, podemos falar sobre o sistema musculoesqueltico
que muito importante para o ser humano, alm de nos ajudar em
atividades atlticas, responsvel por movimentos simples como levantar
U2
U2
Seo 2.1
Medidas Separatrizes e Boxplot
Dilogo aberto
As medidas separatrizes so valores que separam o rol (os dados ordenados) em
quatro (quartis), dez (decis) ou em cem (percentis) partes iguais, para essas separaes
os dados devem estar ordenados. Medidas separatrizes so medidas intuitivas, de
fcil compreenso e que tambm podem ser utilizadas para construir medidas de
disperso. Indicam limites para propores de observaes em um conjunto.
O boxplot, ou diagrama de caixa, um grfico que capta importantes aspectos
de um conjunto de dados atravs do seu resumo dos cinco nmeros, formado
pelos seguintes valores: valor mnimo, primeiro quartil, segundo quartil, terceiro
quartil e valor mximo.
Os objetivos de aprendizagem dessa seo so compreender as medidas
separatrizes e sua utilizao em estatstica e construir e interpretar o boxplot.
Com a preocupao com a perda de massa muscular que responsvel pela
reduo da fora, aumento do risco de quedas e a lentido nos movimentos, um
educador fsico fez uma pesquisa com seus clientes. As informaes levantadas
pelo educador fsico foram a idade e a quantidade de massa muscular. esperado
que a massa muscular de uma pessoa diminua com a idade.
Para estudar essa relao, o educador fsico selecionou 18 mulheres, com idade
entre 40 e 79 anos, e coletou informaes sobre a idade e a massa muscular (Y),
conforme a tabela 2.1.
Tabela 2.1 | Dados da pesquisa idade x massa muscular
Idade (X)
71.0
82.0
64.0
91.0
43.0
100.0
67.0
68.0
56.0
87.0
(continua)
U2
73.0
73.0
68.0
78.0
56.0
80.0
76.0
65.0
65.0
84.0
45.0
116.0
58.0
76.0
45.0
97.0
53.0
100.0
49.0
105.0
78.0
77.0
73.0
73.0
68.0
78.0
Assimile
Medidas Separatrizes
As medidas separatrizes so nmeros que dividem a sequncia
ordenada de dados em partes que contm a mesma quantidade de
elementos da srie.
As medidas separatrizes comeam pela mediana que divide a sequncia
ordenada em dois grupos, cada um deles contendo 50% dos valores da sequncia,
tambm uma medida separatriz. Alm da mediana, as outras medidas separatrizes
so: quartis, quintis, decis e percentis.
Quartis
Se uma srie for dividida em quatro partes, o primeiro quartil ser correspondente
a 25% dos elementos e o segundo quartil a 50% de seus valores direita. O Q2
a Mediana da srie. O terceiro quartil Q3 obedece mesma regra dos anteriores.
U2
1/4
1/2
25%
Q1= x
25%
1 (n+1)
)
4
3/4
25%
Q2= x
1 (n+1)
)
2
25%
Q3= x
3 (n+1)
)
4
Quintis
Ao dividir a srie ordenada em cinco partes, cada uma ficar com 20% de seus
elementos. Os elementos que separam esses grupos so chamados de quintis.
Assim, o primeiro quintil, indicado por K1, separa a sequncia ordenada, deixando
20% de seus valores esquerda e 80% de seus valores direita. De modo anlogo
so definidos os outros quintis.
Decis
Ao dividir a srie ordenada em dez partes, cada uma ficar com seus 10% de
seus elementos. Os elementos que separam esses grupos so chamados de decis.
Assim, o primeiro decil, indicado por D1, separa a sequncia ordenada, deixando
10% de seus valores esquerda e 90% de seus valores direita. Os outros decis so
calculados da mesma forma.
Percentis
Ao dividir a srie ordenada em cem partes, cada uma ficar com 1% de seus
elementos. Os elementos que separam esses grupos so chamados de centis ou
percentis. Assim, o primeiro percentil, indicado por P1, separa a sequncia ordenada,
deixando 1% de seus valores esquerda e 99% de seus valores direita. De mesmo
modo, definimos os outros percentis. Verifica-se que os quartis, quintis e decis so
mltiplos dos percentis, ento basta estabelecer a frmula de clculo de percentis.
Todas as outras medidas podem ser identificadas como percentis, ou seja:
Tabela 2.2 | Percentis
Percentis
Quartis
Quintis
Decis
K1
D2
P10
D1
P20
P25
Q1
P30
P40
D3
K2
D4
(continua)
U2
P50
Q2
P60
D5
K3
P70
D6
D7
P75
Q3
P80
K4
P90
D8
D9
Clculo da separatriz:
Identifica-se a medida que se pretende obter com o percentil correspondente,
Pi. Calcula-se i% de n para localizar a posio do percentil i no Rol, ou seja:
Pi= i x n
100
Boxplot
A partir das medidas separatrizes, constri-se tambm um grfico chamado
grfico de caixas (em ingls boxplot) que ilustra os principais aspectos da
distribuio, tomando por base essas medidas robustas.
O boxplot um grfico muito til tambm na comparao de distribuies,
formado basicamente por um retngulo vertical (ou horizontal). O comprimento
do lado vertical (ou horizontal) dado pelo intervalo interquartil (em que estamos
trabalhando com um retngulo vertical).
O tamanho do outro lado indiferente, sugerindo-se apenas uma escala razovel.
Na altura da mediana, traa-se uma linha, dividindo o retngulo em duas partes.
Note que a j temos representados 50%
da distribuio e tambm j temos ideia da
assimetria da mesma. Para representar os
25% restantes em cada cauda da distribuio,
temos que cuidar primeiro da presena de
possveis outliers ou valores discrepantes.
Um dado ser considerado outlier se ele
for menor que Q1 - 1,5 IQ ou maior que Q3 +
1,5 IQ, como mostra a figura abaixo.
Para representar o domnio de variao
dos dados que no so outliers, traa-se a
partir do retngulo, uma linha para cima e
outra para baixo at o ponto mais remoto que
10
Q3
Q1
U2
no seja outlier. Esses pontos so chamados juntas.
O intervalo interquartil IQ a distncia entre o
terceiro e o primeiro quartis, isto :
IQ = Q3 - Q1
Q3
Q2
Q1
Pesquise mais
O Portal Action traz uma explicao sobre a construo do boxplot
que vale a pena pesquisar mais um pouco. Vamos l?
<http://www.portalaction.com.br/estatistica-basica/31-boxplot>.
Acesso em: 8 jul. 2015.
Vocabulrio
Rol Lista, relao. Nmeros ordenados.
Separatrizes Qualquer valor de uma varivel aleatria para o qual a
funo de distribuio assume valores mltiplos inteiros de uma frao
dada.
Assimetria Que no tem simetria; no divisvel em metade por um eixo
longitudinal.
11
U2
Exemplificando
Visando ao aumento de peso de crianas do interior do Pernambuco,
uma dieta melhor foi aplicada em 12 crianas. Os resultados foram:
11,2 / 6,3 / 7,8 / 5,9 / 5,6 / 4,6 / 2,5 /-0,7 / 3,0 / 6,2 / 6,0 / 3,6
Calcule as medidas separatrizes e construa o grfico boxplot da
distribuio de valores apresentados.
Dados ordenados:
-0,7
2,5
3,0
3,6
4,6
5,6
5,9
6,0
6,2
6,3
7,8
11,2
Medidas Separatrizes
Q1 = 3,3 kg
Mnimo = -0,7
Mximo = 11,2
IQ = Q3 Q1 = 6,25 3,3 = 2,95
-1 -0,5 0 0,5 1
5.6
6.25
Quilos
12
7 7,5
11.2
U2
81
77
75
72
70
70
69
68
68
67
67
66
66
66
65
64
63
62
61
61
60
58
58
Ateno!
Quando estiver trabalhando com medidas separatrizes, utilize o rol de
dados, ou seja, os dados ordenados.
43.0
100.0
45.0
116.0
45.0
97.0
49.0
105.0
53.0
100.0
56.0
87.0
(continua)
13
U2
56.0
80.0
58.0
76.0
64.0
91.0
65.0
84.0
67.0
68.0
68.0
Sendo n=18
Q1=x( 1
(n+1)
Q2=x
(
1
2
(n+1)
78.0
Q3=x
(
3
4
(n+1)
68.0
78.0
Calcula-se o IQ
71.0
82.0
73.0
73.0
73.0
73.0
76.0
65.0
78.0
77.0
)=53
=65
)
=71
)
IQ = Q3 - Q1=71-53=18
Passo 1 - Calcula-se o 1 Quartil.
Passo 2 Calcula-se o 3 Quartil.
Situao Realidade
43
53
40
45
50
65
55
60
65
71
70
78
75
80
85
Idade
Lembre-se
O boxplot gerado a partir das medidas separatrizes. Ele chamado
grfico de caixas (em ingls, boxplot) e ilustra os principais aspectos da
distribuio.
14
U2
Avanando na prtica
Pratique mais!
Instruo
Desafiamos voc a praticar o que aprendeu transferindo seus conhecimentos para novas situaes
que pode encontrar no ambiente de trabalho. Realize as atividades e depois as compare com a de
seus colegas e com o gabarito disponibilizado no apndice do livro.
IPCA - ndice de Preos ao Consumidor Amplo
1. Competncia de
fundamentos de rea
2. Objetivos de aprendizagem
3. Contedos relacionados
4. Descrio da SP
fev
mar
abr
mai
jun
jul
ago
set
out
nov
1,05
1,10
0,56
0,30
0,19
1,09
0,56
0,31
1,09
0,95
0,30
0,31
0,56
0,56
0,95
1,05
1,09
1,09
1,10
(n+1)
Q2=x( 1
(n+1)
Q3=x( 3
(n+1)
4
2
5. Resoluo da SP
15
U2
Avanando na Prtica
0,19
0,31
0,1
0,2
0,3
0,56
0,4
0,5
0,6
1,09
0,7
0,8
0,9
1,1
1,2
Valores da infrao
A caixa contm 50% dos dados e o limite superior 1,09 e indica 75% dos dados e o
limite inferior 0,31 indica 25%. A distncia entre os pontos conhecida como interquartil, no
nosso caso 0,78. A linha na caixa a mediana, calculamos 0,56. A distribuio de dados
assimtrica, pois a linha no centro da caixa.
90
25
34
12
24
19
Lembre-se
As medidas separatrizes so: Quartis - Ao dividir a srie ordenada em
quatro partes, cada uma ficar com seus 25% de seus elementos.
Quintis - Ao dividir a srie ordenada em cinco partes, cada uma ficar
com seus 20% de seus elementos. Decis - Ao dividir a srie ordenada
em dez partes, cada uma ficar com seus 10% de seus elementos.
Percentis - Ao dividir a srie ordenada em cem partes, cada uma ficar
com 1% de seus elementos.
O boxplot um grfico muito til tambm na comparao de
distribuies. O boxplot formado basicamente por um retngulo
vertical (ou horizontal). O comprimento do lado vertical (ou horizontal)
16
U2
dado pelo intervalo interquartil (em que estamos trabalhando com
um retngulo vertical), medida que calculada subtraindo Q1 de Q3.
17
U2
4. O valor de interquartil pode ser calculado por IQ = Q3-Q1. Para essa
distribuio, qual o valor de IQ?
a) 7.
b) 8.
c) 9.
d) 10.
e) 12.
18
U2
Seo 2.2
Tabelas de Frequncias e Diagrama de Disperso
Dilogo aberto
Uma vez que se conhece o conjunto de dados, sabe-se quais os valores que
sero trabalhados e como essa distribuio pode ser classificada, podemos utilizar
ferramentas para anlises desses dados que facilitem a tomada de decises.
As tabelas de frequncias e os diagramas de disperso so ferramentas que auxiliam
essas anlises, pois, pela definio, a distribuio de frequncias um arranjo tabular
de um conjunto de dados em grupos, classes ou nveis, as frequncias so s vezes,
que esse valor aparece na distribuio. O diagrama de disperso um grfico em
que pontos no espao cartesiano XY so usados para representar simultaneamente
os valores de duas variveis quantitativas medidas em cada elemento do conjunto
de dados.
Os diagramas de disperso so indicados para anlises estatsticas quando se
tem interesse em mostrar a relao entre dois grupos de dados. Os objetivos de
aprendizagem dessa seo so utilizar as tabelas de frequncia e os diagramas de
disperso para melhor interpretao dos dados estatsticos.
Os dados levados pela pesquisa do educador fsico foram dispostos na tabela a
seguir e mostram as idades das clientes e tambm a massa muscular.
Voc deve organizar uma tabela de frequncia para as idades com intervalos de
classe de 5 anos.
Com essas informaes, construa o diagrama de disperso e interprete-o.
Como o diagrama de disperso pode auxiliar na interpretao da pesquisa? A
tabela de frequncia tem qual importncia para a anlise de dados?
Ao final da seo, voc ser capaz de elaborar a tabela de frequncia e o diagrama
de disperso para o relatrio do educador fsico.
19
U2
Tabela 2.4 | Dados da Pesquisa Idade x Massa Muscular
Idade (X)
43
100
45
116
45
97
49
105
53
100
56
87
56
80
58
76
64
91
65
84
67
68
68
75
68
78
71
82
73
73
73
65
76
65
78
77
No pode faltar
Tabela de Frequncia
Para encontrar as respostas de uma pesquisa, no basta apenas que sejam feitas
as entrevistas ou os levantamentos de dados, necessrio tambm que eles estejam
organizados de forma a facilitar o entendimento do leitor.
A primeira etapa aps o levantamento dos dados organizar uma tabela contendo
todas as variveis e suas respostas, mas isso ainda no o suficiente, preciso, com
esses dados todos reunidos, montar uma Tabela de Frequncias, ou seja, montar
uma tabela para cada varivel.
A Tabela de Frequncia indica a frequncia observada (relativa ou absoluta).
Mostra a frequncia com que cada observao aparece nos dados (tambm pode
se referir a classes de observaes).
Frequncia absoluta: definida por nmero de eventos analisados de um tipo.
Frequncia relativa: a porcentagem dos eventos que se tem interesse pelo
20
U2
total de eventos observados.
xi
n
x 100
Exemplificando
Em um estudo com mulheres que fazem exerccios todos os dias,
queremos saber a quantidade de mulheres que est em cada categoria
de exerccio; os dados foram tabulados da seguinte forma:
Tabela 2.5 | Estudo com mulheres
Exerccio
Frequncia
Absoluta
Frequncia Relativa
Frequncia
Cumulativa Relativa
Nenhum
185
40,04%
Mudando
213
213
( 462 )100%= 46,10%
86,14%
Baixo para
moderado
49
49
( 462 )100%=10,61%
97,75%
Alto
15
15
( 462 )100%=3,25%
100,00%
21
U2
Na distribuio de frequncias, os dados estatsticos esto dispostos
ordenadamente em linhas e colunas, permitindo-se assim sua leitura no sentido
horizontal e vertical e o tempo, o local e a espcie do fenmeno no variam.
Uma tabela de frequncia uma tabela em que se procura fazer corresponder os
valores observados da varivel em estudo e as respectivas frequncias. Essas tabelas
de frequncias podem representar tanto valor individual quanto valores agrupados.
Exemplificando
A distribuio de frequncias apresentada na tabela relativa aos
salrios de uma amostra de 100 empregados de uma construtora da
Capital de Minas Gerais.
Tabela 2.6 | Estudo com mulheres
N classes
Salrios
Empregados
400 a 450
451 a 500
10
501 a 550
18
551 a 600
25
601 a 650
20
651 a 700
13
701 a 750
751 a 800
Total
100
Fonte: DRH
22
U2
Assimile
Diagramas de Disperso
Diagrama ou grfico de disperso uma ferramenta que indica a
existncia, ou no, de relaes entre variveis de um processo e sua
intensidade, representando duas ou mais variveis, uma em funo da
outra. Deve ser usada quando se necessita visualizar o que acontece
com uma varivel quando outra varivel se altera, podendo identificar
uma possvel relao de causa e efeito entre elas.
Varivel X
Varivel Y
Fonte: O autor
23
U2
Reflita
Diagrama de disperso so grficos que permitem a identificao
entre causas e efeitos, para avaliar o relacionamento entre variveis.
O diagrama de disperso a etapa seguinte do diagrama de causa e
efeito, pois verifica-se se h uma possvel relao entre as causas, isto
, mostra-nos se existe uma relao, e em que intensidade.
Peso
Altura
17
50
1,50
18
55
1,58
20
72
1,62
25
62
1,65
17
70
1,71
38
83
1,72
54
80
1,78
64
72
1,80
37
52
1,55
41
95
1,90
28
62
1,65
19
79
1,82
46
85
1,82
74
79
1,90
58
85
1,90
60
89
2,00
O primeiro diagrama deve ser Idade x Peso. O segundo deve ser Idade
x Altura.
24
U2
Vocabulrio
Disperso - Medida de variabilidade de uma distribuio em relao
mdia.
Quantitativas - Relativo ao indicativo da quantidade.
Sumarizar - Ato de reunir, de maneira resumida, os principais indicativos,
assuntos e informaes de forma a facilitar o que se pretender ler,
estudar, entender.
Pesquise mais
Caro aluno, utilize o link a seguir para se aprofundar um pouco mais
sobre os mtodos tabulares e os mtodos grficos, o artigo traz
exemplos que facilitaram a sua compreenso sobre o assunto:
Disponvel em: <http://www.sboc.org.br/app/webroot/leitura-critica/
LEITURA-CRITICA_C3.pdf>. Acesso em: 8 jul. 2015.
Ateno!
Para criar os diagramas de disperso mais facilmente, voc pode utilizar
o software Excel. No link h uma breve explicao de como podemos
construir o diagrama utilizando o Excel: Disponvel em: <https://youtu.be/
k1N7skhL01M>. Acesso em: 8 jul. 2015.
Para construirmos a tabela de frequncia, precisamos organizar as idades de 5
em 5 anos e contar quantas idades esto nessa faixa etria.
Tabela 2.9 | Pesquisa com Mulheres
Idades das Mulheres
Frequncia fi
40 45
46 50
51 55
56 60
61 65
2
(continua)
25
U2
66 70
71 75
76 80
Lembre-se
A distribuio de frequncias visa representar um grande conjunto de
informaes, sem perder as suas principais caractersticas.
O Diagrama de disperso so grficos que permitem a identificao entre
causas e efeitos, para avaliar o relacionamento entre variveis.
26
U2
Avanando na prtica
Pratique mais!
Instruo
Desafiamos voc a praticar o que aprendeu transferindo seus conhecimentos para novas situaes
que pode encontrar no ambiente de trabalho. Realize as atividades e depois as compare com a de
seus colegas e com o gabarito disponibilizado no apndice do livro.
Programa de Habitao
1. Competncia de
fundamentos de rea
2. Objetivos de aprendizagem
3. Contedos relacionados
4. Descrio da SP
Idade do
Comprador
Renda
R$
Idade do
Comprador
Renda R$
21
1000
29
2200
38
1100
22
2650
37
1200
26
3245
25
1300
36
3420
33
1400
24
3500
30
1500
39
3540
31
1600
23
3950
28
1700
27
4521
32
1800
35
4800
34
2000
40
5000
27
U2
Faa a tabela de frequncia, separe os dados em faixas salariais de
0 a 1600,00, de 1601,00 a 3250,00 e 3251,00 a 5000,00.
Frequncia fi
0 - 1500
1501 - 3000
3001 - 4500
4501 - 6000
28
U2
Lembre-se
Frequncia absoluta: Nmero de eventos observados de um tipo.
Frequncia relativa: Dada em porcentagem (ou como frao). Se
foram observados xi do tipo i, dentre n dados, a frequncia relativa
x
percentual ser: ( ni )100%
Frequncia Cumulativa: Mede frequncia absoluta ou relativa at um
certo ponto e no apenas em um valor.
Contagem
Menos de 500
10.547
500 a 999
53.001
1000 a 1499
31.900
1500 a 1999
67.140
2000 a 2499
218.296
2500 a 2999
301.458
3000 a 3499
100.254
3500 a 3999
580.145
4000 a 4499
280.270
4500 a 4999
39.109
29
U2
No ano de 2008, foram levantados o peso e a contagem de bebs
nascidos no ano de 2008, nos Estados Unidos. Os dados foram
apresentados na tabela anterior.
Utilize essas informaes para responder as questes 01 a 03.
1. Os dados da contagem correspondem a qual tipo de frequncia?
a) Frequncia Absoluta.
b) Frequncia Relativa.
c) Frequncia Cumulativa Relativa.
d) Frequncia Cumulativa.
e) Frequncia Assimtrica.
2. A frequncia relativa para os bebs com peso de 3500 a 3999 gramas
aproximadamente:
a) 10%.
b) 25%.
c) 35%.
d) 50%.
e) 75%.
3. A frequncia cumulada referente aos bebs com peso de 2000 a 2499
aproximadamente:
a) 10%.
b) 20%.
c) 30%.
d) 40%.
e) 50%.
30
U2
4. O diagrama de disperso visa:
a) Identificar se existe uma tendncia de variao conjunta entre duas
ou mais variveis.
b) Mostrar os dados para uma anlise qualitativa.
c) Coletar dados sem tempo determinado, entre as variveis que se
deseja estudar as relaes.
d) Verificar se as duas variveis esto relacionadas, e se no h relao
de causa e efeito.
e) Manter os padres de dados para uma varivel apenas.
5. Sobre o Diagrama de disperso, pode-se afirmar que:
I. Diagrama de disperso uma ferramenta que indica a existncia,
ou no, de relaes entre variveis de um processo e sua intensidade,
representando duas ou mais variveis uma em funo da outra.
II. Diagrama de disperso deve ser usado quando se necessita visualizar
o que acontece com uma varivel quando outra varivel se altera,
podendo identificar uma possvel relao de causa e efeito entre elas.
III. Diagrama de disperso usado para representar simultaneamente os
valores de duas variveis quantitativas medidas em cada elemento do
conjunto de dados.
Quais das alternativas correta?
a) I e II.
b) I, II e III.
c) I e III.
d) Apenas a I.
e) II e III.
31
U2
Utilize os dados para os exerccios 6 e 7. Os valores do metabolismo
basal de 40 alunos foram tabulados. Os dados foram medidos em
calorias por dia.
Tabela 2.13 | Pesquisa Idade x Metabolismo basal de 40 alunos
Idade
Metabolismo
Idade
12
910
16
15
1090
14
17
1090
12
15
1547
15
Metabolismo
Idade
Metabolismo
Idade
Metabolismo
Idade
950
16
1570
18
1250
15
990
13
Metabolismo
1070
11
1000
18
1100
1670
10
1155
13
1290
15
1450
18
1478
17
1150
1350
12
1680
16
1520
16
1230
14
1280
18
1130
13
1890
12
910
1380
15
1695
13
1220
12
1200
14
1960
13
1175
11
1348
18
1130
12
1370
15
2000
11
1210
11
1780
15
1950
18
1530
16
2100
32
U2
Seo 2.3
Coeficiente de correlao linear e o uso e
aplicabilidade do coeficiente de correlao
Assimile
Correlao significa relao mtua entre dois termos, qualidade de
correlativo, correspondncia. Correlacionar significa estabelecer
relao ou correlao entre; ter correlao.
Dilogo aberto
Necessitamos agora estudar o relacionamento entre duas ou mais variveis, j
sabemos calcular suas medidas individuais. Agora queremos verificar como uma
varivel influencia na relao com a outra.
Estudaremos dois tipos de associao entre duas variveis. A primeira chamamos
de experimental, em que as medidas so observadas pela imputao de valores ao
acaso. A segunda chamamos de correlacional, no temos nenhum controle sobre
as variveis. Elas so analisadas naturalmente, sem ter interferncia, as duas variveis
so consideradas aleatrias. Quando os valores so ao acaso, no so tendenciosos
e so definidos pela natureza.
O objetivo de aprendizagem desta seo entender o clculo da correlao
linear e estabelecer relaes que possibilitem predizer uma ou mais variveis em
termos de outras.
Assim que se fazem estudos para predizer as vendas futuras de um produto
em funo do seu preo, ou a perda de peso de uma pessoa em decorrncia do
nmero de semanas que se submete a uma dieta de 800 calorias por dia, ou a
despesa de uma famlia com mdico e remdios em funo de sua renda, ou o
consumo per capita de certos alimentos em funo de seu valor nutritivo e do gasto
33
U2
com propaganda na TV, etc.
Naturalmente, o ideal seria que pudssemos predizer uma quantidade
exatamente em termos de outra, mas isso raramente possvel. Na maioria dos
casos, devemos contentar-nos com a predio de mdias, ou valores esperados.
Por exemplo, no podemos predizer exatamente quanto ganhar um bacharel nos
10 anos subsequentes sua formatura, mas, com base em dados adequados,
possvel predizermos o ganho mdio de todos os bacharis nos 10 anos aps a
formatura. Analogamente, podemos predizer a safra mdia de certa variedade de
trigo em termos do ndice pluviomtrico de julho, e a nota mdia de um calouro do
curso de Direito em funo do seu QI.
Assim, quando consideramos variveis como peso e altura de um grupo de
pessoas, uso de cigarro e incidncia de cncer, procuramos verificar se existe
alguma relao entre as variveis de cada um dos pares e qual o grau dessa relao.
Para isso, necessrio o conhecimento de novas medidas.
Os dados levados pela pesquisa do educador fsico foram dispostas em idades das
clientes e tambm a massa muscular. Necessita-se estabelecer a correlao linear
entre a idade e a massa muscular para colocar no relatrio do educador fsico. Isso
nos permitir estabelecer a relao de como a idade influencia na massa muscular
das clientes da amostra estudada.
Para isso, utilize a tabela com os dados de idade (x) e massa muscular (y).
Tabela 2.14 | Dados Pesquisados Idade x Massa Muscular
Idade (X)
43
100
45
116
45
97
49
105
53
100
56
87
56
80
58
76
64
91
65
84
67
68
68
75
68
78
(continua)
34
U2
71
82
73
73
73
65
76
65
78
77
No pode faltar
Coeficiente de Correlao Linear
Apesar do diagrama de disperso nos fornecer uma ideia do tipo e extenso do
relacionamento entre duas variveis X e Y, seria altamente desejvel ter um nmero
que medisse essa relao. Essa medida existe e denominada de coeficiente de
correlao. Quando se est trabalhando com amostras, o coeficiente de correlao
indicado pela letra r.
Tem-se uma varivel estatstica bidimensional quando, relativamente a cada
elemento da populao, se observa e estuda duas caractersticas distintas.
Para as variveis estatsticas X e Y, a varivel estatstica bidimensional
representada por (X, Y).
35
U2
Figura 2.2 | Grficos de Correlao
36
U2
Pesquise mais
Para saber um pouco mais sobre o coeficiente de correlao de
Pearson, voc pode ler o artigo disponvel em:
<http://www.revista.ufpe.br/politicahoje/index.php/politica/article/
viewFile/6/6>. Acesso em: 8 jul. 2015.
Assimile
Uso e aplicabilidade do coeficiente de Correlao
O principal objetivo da anlise da correlao linear medir a intensidade
de uma relao linear entre duas variveis.
A Correlao no o mesmo que causa e efeito. Duas variveis podem estar
altamente correlacionadas e, no entanto, no haver relao de causa e efeito entre
elas.
37
U2
Figura 2.3 | Diagrama de Disperso para a correlao
Correlao Correlao
Negativa
Negativa
Forte
Fraca
Correlao
Positiva
Fraca
Correlao
Positiva
Forte
Ausncia de
correlao
Fonte: O autor (2015).
O diagrama de disperso mostrar que a correlao ser tanto mais forte quanto
mais prximo estiver o coeficiente de 1 ou +1, e ser tanto mais fraca quanto mais
prximo o coeficiente estiver de zero.
Tabela 2.15 | Coeficientes de Correlao
Coeficiente de
correlao
Correlao
r=1
Perfeita positiva
0,8 r < 1
Forte positiva
Moderada positiva
Fraca positiva
0 r < 0,1
nfima positiva
Nula
nfima negativa
Fraca negativa
Moderada negativa
-1 < r -0,8
Forte negativa
r=-1
Perfeita negativa
38
U2
c) Correlao nula (rxy = 0): quando no houver relao entre as variveis X e
Y, ou seja, quando os valores de X e Y ocorrerem independentemente, no existe
correlao entre elas.
d) Correlao positiva (0 < rxy < 1): ser considerada positiva se os valores
crescentes de X estiverem associados a valores crescentes de Y.
e) Correlao perfeita positiva (rxy = 1): a correlao linear perfeita positiva
corresponde ao caso anterior, s que os pontos (X, Y) esto perfeitamente
alinhados.
f) Correlao espria: quando duas variveis X e Y forem independentes, o
coeficiente de correlao ser nulo. Entretanto, algumas vezes, isso no ocorre,
podendo, assim mesmo, o coeficiente apresentar um valor prximo de 1 ou +1.
Nesse caso, a correlao espria. Todas as correlaes so mostradas na tabela.
A correlao indica o comportamento conjunto de duas variveis. Algumas
aplicabilidades da correlao linear:
- O salrio de um trabalhador est relacionado com a escolaridade, sendo
em que grau varivel salrio mdio do trabalhador est ligada com a varivel
escolaridade do trabalhador?
- A quantidade de livros que uma pessoa j leu est relacionada com a sua
escolaridade?
- Em que grau o peso de uma pessoa est relacionada com a sua altura?
- A estatura de uma pessoa est relacionada com a sua alimentao?
Vocabulrio
Correlao Relao de interdependncia entre duas ou entre mltiplas
variveis.
Exponencial Diz-se de uma quantidade ou varivel que se apresenta em
expoente, do clculo relativo a essas quantidades, das equaes em que
elas existem e das curvas que as representam.
Espria Que no certo, verdadeiro ou real; hipottico.
39
U2
Exemplificando
Uma amostra aleatria, formada por 5 de 50 pacientes de um
endocrinologista, vamos verificar a correlao entre consumo de
acares por dia e o consumo de sal por dia. A tabela dispe os valores
para cada paciente.
Tabela 2.16 | Pacientes x Consumo de Acares e Sal
Nmeros do
Paciente
Consumo de
Aucares (xi)
Consumo
de Sal (yi)
xi . yi
xi2
yi2
30
25
36
72
64
81
24
56
49
64
38
10
10
100
100
100
44
30
36
25
Total
36
38
288
274
306
Correlao Correlao
Negativa
Negativa
Forte
Fraca
40
Correlao
Positiva
Fraca
Ausncia de
correlao
Correlao
Positiva
Forte
U2
a) -0,336
b) -0,985
c) 0,897
d) 0,495
e) 0
Ateno!
1. O intervalo de variao vai de -1 a +1.
2. O coeficiente de correlao uma medida adimensional, isto , ele
independente das unidades de medida das variveis X e Y.
3. Quanto mais prximo de +1 for r, maior o grau de relacionamento
linear positivo entre X e Y, ou seja, se X varia em uma direo, Y variar na
mesma direo.
4. Quanto mais prximo de -1 for r, maior o grau de relacionamento
linear negativo entre X e Y, isto , se X varia em um sentido, Y variar no
sentido inverso.
5. Quanto mais prximo de zero estiver r menor ser o relacionamento
linear entre X e Y. Um valor igual a zero indicar ausncia apenas de
relacionamento linear.
Calculando o coeficiente de correlao linear entre X e Y, denotamos as
variveis: Y = Massa Muscular e X = Idade n=18
Tabela 2.17 | Dados Pesquisados
Clientes
Idade (X)
Massa
muscular (Y)
xi . yi
xi2
yi2
43
100
4300
1849
10000
45
116
5220
2025
13456
45
97
4365
2025
9409
49
105
5145
2401
11025
53
100
5300
2809
10000
(continua)
41
U2
6
56
87
4872
3136
7569
56
80
4480
3136
6400
58
76
4408
3364
5776
64
91
5824
4096
8281
10
65
84
5460
4225
7056
11
67
68
4556
4489
4624
12
68
75
5100
4624
5625
13
68
78
5304
4624
6084
14
71
82
5822
5041
6724
15
73
73
5329
5329
5329
16
73
65
4745
5329
4225
17
76
65
4940
5776
4225
18
78
77
6006
6084
5929
Total
1108
1519
91176
70362
131737
42
U2
Lembre-se
Correlao perfeita negativa rxy = -1.
Correlao negativa -1 < rxy < 0.
Correlao nula rxy = 0.
Correlao positiva 0 < rxy < 1.
Correlao perfeita positiva rxy = 1.
Avanando na prtica
Pratique mais!
Instruo
Desafiamos voc a praticar o que aprendeu transferindo seus conhecimentos para novas situaes
que pode encontrar no ambiente de trabalho. Realize as atividades e depois as compare com a de
seus colegas e com o gabarito disponibilizado no apndice do livro.
Experimento no Laboratrio de Biologia
1. Competncia de
fundamentos de rea
2. Objetivos de aprendizagem
3. Contedos relacionados
4. Descrio da SP
xi
yi
12
15
5. Resoluo da SP
(continua)
43
U2
Tabela 2.18 | Pacientes x Consumo de Acares e Sal
40
50
55
60
65
44
U2
2. Como se classifica a correlao encontrada no exerccio 1?
a) Correlao Negativa Forte.
b) Correlao Negativa Fraca.
c) Correlao Nula.
d) Correlao Positiva Forte.
e) Correlao Positiva Fraca.
80
44
51
70
61
12
11
45
U2
d) A pesquisa apresenta maior o grau de relacionamento linear negativo
entre X e Y, pois os valores de livros esto relacionados aos anos de
escolaridade dos professores.
e) H uma correlao que indicar ausncia de relacionamento linear.
10
15
20
25
30
Comprimento (mm)
1003
1005
1010
1011
1014
Nmero de
acidentes
100
35
254
90
140
33
115
45
(continua)
46
U2
98
29
707
232
Fonte: O autor
47
U2
48
U2
Seo 2.4
Coeficiente de Determinao e Regresso Linear
Simples mtodo dos mnimos quadrados
Dilogo aberto
Na seo anterior, vimos que o principal objetivo da anlise da correlao linear
medir a intensidade de uma relao linear entre duas variveis. Nesta seo,
veremos que a anlise de regresso estuda o relacionamento entre uma varivel
chamada a varivel dependente e outras variveis chamadas variveis independentes.
Esse relacionamento representado por um modelo matemtico, isto , por uma
equao que associa a varivel dependente com as variveis independentes.
Esse modelo designado por modelo de regresso linear simples, define-se uma
relao linear entre a varivel dependente e uma varivel independente.
Da mesma forma, como usamos a mdia para resumir uma varivel aleatria,
a reta de regresso usada para resumir a estimativa linear entre duas variveis
aleatrias (LAPPONI, 1997)
Vamos estudar esse modelo nesta seo e nosso objetivo de aprendizagem
utilizar o coeficiente de correlao linear, o coeficiente de determinao e a
regresso linear para organizarmos os dados coletados.
Para o relatrio do estudo do educador fsico sobre a diminuio da massa
muscular com o envelhecimento, os dados coletados so referentes a 18 mulheres.
Ser necessrio para o relatrio mostrar a reta de regresso linear simples entre as
variveis dependente (y), no nosso caso, a massa muscular e a varivel independente
(x) a idade das mulheres.
Voc deve determinar o coeficiente de determinao, utilizando o coeficiente
de correlao que foi calculado na seo anterior. E com a reta de regresso
estimada da varivel massa muscular (y) em funo da Idade (x), estime a massa
muscular mdia de mulheres com 50 anos.
49
U2
No pode faltar
Coeficiente de Determinao
Assimile
O coeficiente de determinao indica a proporo de variao da
varivel independente que explicada pela varivel dependente, ou
seja, uma ferramenta que avalia a qualidade do ajuste. Tambm pode
ser explicada pela relao da variao explicada pela variao total.
variao explicada
variao total
Associao no causalidade
Suponha que encontremos uma associao ou correlao entre duas variveis
A e B. Podem existir diversas explicaes do porqu elas variam conjuntamente,
incluindo:
50
U2
Pesquise mais
O link mostra mais alguns aspectos sobre a associao e causalidade.
Acesse o link e estude um pouco mais sobre o tema.
Disponvel
em:
<http://www.galileu.esalq.usp.br/mostra_topico.
php?cod=130>. Acesso em: 8 jul. 2015.
Regresso Linear
O objetivo da regresso linear fazer a anlise estatstica, verificando a
relao funcional entre uma varivel dependente com uma ou mais variveis
independentes. A regresso prope uma equao que tenta explicar a variao da
varivel dependente pelas variveis independentes.
A equao representa o fenmeno que est sendo estudado, podemos fazer
um grfico que j estudamos, que o diagrama de disperso, o qual verifica
como os valores da varivel dependente (Y) se comportam em relao varivel
independente (X).
Os pontos do diagrama de disperso ficam distanciados da curva do modelo
matemtico que podemos escolher. Para isso, podemos usar uma relao funcional
para obtermos a equao estimada, de modo que as distncias entre os pontos do
diagrama e os pontos da curva do modelo escolhido sejam as menores possveis.
51
U2
Esse mtodo descrito chamado de Mtodo dos Mnimos Quadrados (MMQ).
O Mtodo dos Mnimos Quadrados faz a soma dos quadrados das distncias
entre os pontos do diagrama e os pontos da curva da equao estimada e os
minimiza. Assim, uma relao funcional de X e Y ocorre para o modelo escolhido,
mas com o mnimo de erro possvel.
Reflita
O objetivo principal da anlise de regresso predizer o valor da
varivel dependente Y, dado que seja conhecido o valor da varivel
independente X.
52
U2
Sendo:
Exemplificando
X tempo s
Y posio m
0,100
0,51
0,200
0,59
0,300
0,72
0,400
0,80
0,500
0,92
53
U2
Coeficiente de Determinao:
Calcularmos os ndices a e b:
0,100
0,49
0,200
0,60
0,300
0,71
0,400
0,82
0,500
0,92
Vocabulrio
Regresso linear - Uma equao que determina a relao entre as
variveis.
Causalidade - o conjunto de todas as relaes de causa e efeito.
54
U2
Ateno!
O material disponvel no link a seguir traz uma aula sobre regresso
linear, os exemplos apresentados esto bem detalhados e lhe ajudaro
no estudo do tema. Disponvel em:
<http://www.ime.unicamp.br/~hlachos/RegresCorr.pdf>.
Ajuste uma reta de regresso para a relao entre as variveis Y: massa muscular
(dependente) e X: idade (independente). Determine o coeficiente de determinao,
utilize o coeficiente de correlao que foi calculado na seo anterior. E com a
reta de regresso estimada da varivel, Massa muscular (Y) em funo da Idade (X),
estime a massa muscular mdia de mulheres com 50 anos.
Tabela 2.20 | Dados Pesquisados
Clientes
Idade (X)
xi . yi
xi2
yi2
43
100
4300
1849
10000
45
116
5220
2025
13456
45
97
4365
2025
9409
49
105
5145
2401
11025
53
100
5300
2809
10000
56
87
4872
3136
7569
56
80
4480
3136
6400
58
76
4408
3364
5776
64
91
5824
4096
8281
10
65
84
5460
4225
7056
11
67
68
4556
4489
4624
12
68
75
5100
4624
5625
13
68
78
5304
4624
6084
14
71
82
5822
5041
6724
15
73
73
5329
5329
5329
16
73
65
4745
5329
4225
17
76
65
4940
5776
4225
18
78
77
6006
6084
5929
Total
1108
1519
91176
70362
131737
55
U2
O coeficiente de correlao calculado na seo anterior foi:
O coeficiente de determinao :
r2=(-0,84)2=0,71
Para calcular os ndices a e b da reta de regresso, temos:
Calcularmos os ndices a e b
Massa
Muscular (Y)
43
104,31
45
102,15
45
102,15
49
97,83
53
93,51
56
90,27
56
90,27
58
88,11
64
81,63
(continua)
56
U2
65
80,55
67
78,39
y= 150,75 - 1,08x
68
77,31
68
77,31
71
74,07
73
71,91
73
71,91
76
68,67
78
66,51
y= 150,75 - 1,0850
y= 96,75
Lembre-se
O coeficiente de determinao indica a proporo de variao da
varivel independente que explicada pela varivel dependente, ou
seja, uma ferramenta que avalia a qualidade do ajuste. Tambm pode
ser explicada pela relao da variao total.
A regresso linear tem objetivo de fazer a anlise estatstica, verificando
a relao funcional entre uma varivel dependente com uma ou mais
variveis independentes. A regresso prope uma equao que tenta
explicar a variao da varivel dependente pelas variveis independentes.
57
U2
Consumo de
Sal (yi)
10
10
xi = 36
yi = 38
Avanando na prtica
Pratique mais!
Instruo
Desafiamos voc a praticar o que aprendeu transferindo seus conhecimentos para novas situaes
que pode encontrar no ambiente de trabalho. Realize as atividades e depois as compare com a de
seus colegas e com o gabarito disponibilizado no apndice do livro.
58
U2
Experimento de Biologia
1. Competncia de
fundamentos de rea
2. Objetivos de aprendizagem
3. Contedos relacionados
4. Descrio da SP
xi
yi
12
15
Fonte: O autor
5. Resoluo da SP
59
U2
12
15
Fonte: O autor.
60
U2
Faa valer a pena
Em uma clnica para mulheres, o endocrinologista fez uma pesquisa
com 50 mulheres e analisou uma amostra de 5 mulheres com 50 anos
de idade. As perguntas realizadas foram em relao ao nvel de HDL
Colesterol bom, e quantas horas semanais elas praticam exerccios
fsicos. Utilize os dados para os exerccios 1 e 2.
HDL (mg/dL)
40
50
55
60
65
Temperatura (C)
10
15
20
25
30
Comprimento (mm)
1003
1005
1010
1011
1014
61
U2
3. Qual o valor do coeficiente de determinao do experimento?
a) 0,966.
b) 0,844.
c) 0,547.
d) 0,125.
e) 0,248.
62
U2
6. Os dados a seguir correspondem varivel renda familiar e gasto
com alimentao (em unidades monetrias) para uma amostra de 25
famlias.
Tabela 2.25 | Dados para o coeficiente de correlao
Renda Familiar (X)
Gasto com
Alimentao (Y)
1,5
2,0
10
6,0
10
7,0
20
10,0
20
12,0
20
15,0
30
8,0
40
10,0
50
20,0
60
20,0
70
25,0
70
30,0
80
25,0
100
40,0
100
35,0
100
40,0
120
30,0
120
40,0
140
40,0
150
50,0
180
40,0
180
50,0
200
60,0
200
50,0
Fonte: O autor.
63
U2
7. Com os dados apresentados no exerccio 6:
a) Obtenha a equao de regresso do gasto com alimentao em
funo da renda familiar.
b) Qual o significado prtico do valor do coeficiente angular da reta de
regresso?
64
U2
Referncias
BARBETTA, P. A.; BORNIA, A. C. R.; Estatstica para cursos de engenharia e
informtica. 3. ed. So Paulo: Atlas, 2010.
CARVALHO, T. M. de. Variabilidade espacial de propriedades fsico-hdricas de em um
latossolo vermelho-amarelo atravs da geoestatstica. Dissertao (Mestrado) - Escola
Superior de Agricultura de Lavras.Lavras: ESAL, 1991. 84p.
GROSSI SAD, J. H. Fundamentos sobre variabilidade dos depsitos minerais. Rio de
Janeiro: DNPM/CPRM - GEOSOL, 1986. 141p.
HINES, W. W. et al. Probabilidade e estatstica na engenharia. 4. ed. Rio de Janeiro:
LTC, 2006.
JOHNSON, R.; KOBY, P. Estatstica. So Paulo: Cengage Learning, 2013.
LAPPONI, J. C. Estatstica usando Excel 5 e 7. Rio de Janeiro: Elsevier. 2005.
LARSON, R.; FARBER, B. Estatstica aplicada. 4. ed. So Paulo: Pearson, 2010.
MARCONI, M. D. A.; LAKATOS, E. M. Tcnicas de pesquisa: planejamento e execuo
de pesquisas, amostragens e tcnicas de pesquisas, elaborao, anlise e interpretao
de dados. 3. ed. So Paulo: Atlas, 1996.
MOORE, D. S. A estatstica bsica e sua prtica. 6. ed. Rio de Janeiro: LTC, 2014.
MORETTIN, L. G. Estatstica bsica: probabilidade e inferncia. So Paulo: Pearson,
2010.
PINHEIRO, J. I. D. Probabilidade e estatstica. Rio de Janeiro: Elsevier, 2012.
SPIEGEL, M. R. Estatstica. 3. ed. So Paulo: Makron Books, 1993. 643p.
WALPOLE, R. E. Probabilidade e estatstica para engenheiria e cincias. 8. ed. So
Paulo: Pearson-Prentice Hall, 2009.
65