Escolar Documentos
Profissional Documentos
Cultura Documentos
CURSO DE ADMINISTRAÇÃO
Estatística
Itumbiara - 2015
2
1- Introduçao
Panorama Histórico:
A Estatística é um ramo da Matemática Aplicada que fornece métodos para a coleta,
organização, descrição, análise e interpretação de dados e para a utilização dos mesmos na
tomada de decisões.
A palavra estatística teve sua origem na palavra grega “Statizei” cujo significado geral
está relacionado com informações sobre o Estado, o qual detinha as condições de levantar
quantidades de dados numéricos sobre a economia e a população que compunha a sociedade.
Outros autores acreditam que a origem veio da palavra latina “Status”. Desde a Antigüidade,
vários povos já registravam o número de habitantes, de nascimentos, de óbitos, faziam
estimativas das riquezas individual e social, distribuíam eqüitativamente terras ao povo,
cobravam impostos e realizavam inquéritos quantitativos por processos que, hoje,
chamaríamos de estatísticas. A associação entre estatística e o Estado é bem antiga, a exemplo
disso, o Império Romano utilizava a mediana para cobrar um imposto mais justo ao cidadão
romano. Mas foi somente no século XVI que começaram a surgir as primeiras análises
sistemáticas de fatos sociais, como batizados, casamentos, funerais, originando as primeiras
tábuas e tabelas, e os primeiros números relativos.
Quem batizou a Estatística e determinou o seu objetivo e sua relação com as ciências
foi Godofredo Achenwall no século XVIII. Deste ponto em diante a Estatística se tornou o
estudo de como chegar a conclusões sobre o todo (população), partindo da observação de
partes desse todo (amostras). A Estatística cresceu e se desenvolveu até se tornar um método
de análise que tem aplicações nas ciências exatas, sociais, humanas e da saúde. A estatística
tem seu suporte na teoria da probabilidade que foi fundamentada por Kolmogorov no início
do século XX. Com os trabalhos de Sir Ronald Fischer, na década de 1920, considerado o pai
da estatística moderna, esta ciência passou a ter seu papel bem definido. Atualmente podemos
olhar a ciência estatística por dois grandes ramos: a estatística descritiva e a inferencial que
envolve a suposição de modelos probabilísticos para os dados.
As medidas descritivas dos dados são muito úteis nas empresas, pois a maioria delas
necessita de informações para planejar ações, tais como crescimento da produção, salário dos
funcionários, números de empregados, gráficos, etc. Com o avanço da informática, o mercado
para computadores coloca à disposição softwares acessíveis, permitindo que toda empresa
informatize seus serviços, criando condições para que mantenha um banco de dados no qual
3
Método Científico
Método científico é um conjunto de meios dispostos convenientemente para se chegar
a um fim que se deseja.
Dos métodos científicos, vamos destacar o método experimental e o estatístico.
O método experimental consiste em manter constantes todas as causas (fatores),
menos uma, e variar esta causa de modo que o pesquisador possa descobrir seus efeitos, caso
existam.
É o método preferido no estudo da Física, da Química, etc.
O método estatístico é geralmente utilizado nas ciências sociais e biológicas. Diante da
impossibilidade de manter as causas constantes, admitem-se todas essas causas presentes,
variando-as, registrando essas variações e procurando determinar, no resultado final, que
influencias cabem a cada uma delas.
1- O que é estatística?
2- Como surgiu esta ciência?
3- Quem é considerado o pai da estatística moderna?
4- Diferencie o método científico do método estatístico.
5- Quais são os dois grandes grupos que se divide a estatística?
6- Fale sobre cada fase do método estatístico.
5
2 - Coleta de dados
2.1 - Algumas definições
Variáveis qualitativas: são aquelas para as quais uma medição numérica não é
possível. Ex: cor dos olhos, cor dos cabelos, sexo, cidade de origem, etc.
Variáveis quantitativas: são aquelas que podem ser mensuradas numa escala de
valores. Ex: idade, número de filhos, número de alunos, peso, altura, etc. Podem ser
subdivididas em discretas e contínuas.
Discretas: só podem assumir valores pertencentes a um conjunto inteiro,
geralmente provenientes de dados de contagem, é sempre um conjunto enumerável de valores.
Ex: número de filhos, número de alunos, etc.
Contínuas: podem assumir, teoricamente, qualquer valor entre dois limites,
geralmente provenientes de medições, quando se usa algum instrumento para captar o valor.
Ex.: peso, altura, comprimento, etc.
População estatística = universo estatístico: conjunto de todos os elementos que
possuem pelo menos uma característica em comum. Ex: eleição - população são todos os
indivíduos portadores de título de eleitor.
Cliente: Todo indivíduo que está cadastrado em uma loja, empresa, firma, e que irá
constituir a população estatística de interesse a uma determinada pesquisa. Pode ser clientes,
fornecedores, empregados registrados, alunos matriculados, pessoas registrados no cartório
como eleitores de uma determinada cidade, carros fabricados por determinada empresa, etc...
Consumidor: todo indivíduo da população estatística de interesse e que não está
regularmente cadastrado em uma loja, empresa, firma, etc... Pode ser: aquele que abastece em
um posto de gasolina e que não tem ficha, aquele que almoça ocasionalmente em um
restaurante, aquele que compra em determinado supermercado ocasionalmente e que não tem
ficha, etc...
É muito importante para a pesquisa na área de administração que seja definida qual
tipo de população será alvo da pesquisa, anteriormente ao início da mesma. Ou seja para se
determinar qual processo amostral fazer, antes precisa-se saber se a população é constituída
de consumidores ou clientes. Cada tipo de população irá proporcionar processos amostrais
diferentes.
Amostra: é qualquer subconjunto da população. Deve possuir as mesmas
características da população de onde foi extraída. A amostra deve ser representativa da
população, ou seja, possuir um número de elementos suficientes para que as estimativas
6
encontradas possam ser extrapoladas para toda a população. Ex: eleição - uma amostra pode
ser formada por 10% da população, distribuída por toda a cidade de forma a seguir as
características básicas da população.
2.2 - Teoria da Amostragem:
Objetivo: fazer inferências sobre a população, ou seja, fazer afirmações sobre
características da população, tomando-se por base os resultados de uma amostra.
População Amostra
x
2 Erro s2
P p̂
Parâmetros populacionais desconhecidos Estimadores amostrais
Quadro 1.: Descrição do processo de amostragem
As vantagens da amostragem sobre o recenseamento são o menor custo e menor tempo
gasto no processo além de uma massa menor de dados. A grande vantagem do recenseamento
sobre a amostragem é a exatidão das informações, uma vez que o censo tem as informações
de toda a população e a amostra tem informações apenas de partes dessa população.
A maneira de se obter a amostra é tão importante, e existem tantos modos de fazê-lo,
que estes procedimentos constituem uma especialidade dentro da Estatística, conhecida como
Amostragem. A amostragem pode ser dividida em dois grandes grupos, probabilística e não
probabilística.
Amostragem probabilística ou aleatória: se todos os indivíduos da população tiverem
probabilidade conhecida, igual e não nula de pertencer à amostra, ou seja, todos os indivíduos
da população têm a mesma probabilidade de pertencer à amostra. Dentre as diversas
modalidades deste tipo de amostragem os mais importantes são:
Amostragem simples ao acaso (ASA);
Amostragem sistemática;
Amostragem por conglomerado;
Amostragem estratificada.
Amostragem não probabilística, ou não aleatória, ou escolha justificada ou racional:
nesse caso nem todos os indivíduos da população têm a mesma chance de pertencer à
amostra, ou seja, alguns indivíduos da população possuem probabilidade muito baixa ou até
mesmo zero de pertencer à amostra. As principais modalidades deste tipo de amostragem são:
7
N
r ;
n
Onde, N é o "tamanho" da população e n é o "tamanho" da amostra.
2º Passo: Sorteia-se o primeiro elemento da amostra utilizando a seguinte fórmula:
n º tab r
1º elemento
1Zeros
3º Passo: Soma-se a razão r ao 1º elemento para encontrarmos o 2º elemento; soma-se a razão
ao 2º elemento para encontrarmos o 3º elemento; e assim por diante até encontrarmos o
último elemento de nossa amostra.
c) Amostragem por Conglomerado: Quando a população apresenta subdivisões naturais de
grupos menores (denominados conglomerados), sorteia-se um número suficiente desses
grupos (ou conglomerados) e todos os elementos destes, vão compor a amostra.
pesquisador deverá formular categorias fixas adicionais para as respostas que apareçam
freqüentemente e guardar a categoria "outros, favor especificar" para as respostas menos
freqüentes. Caso não haja indícios da necessidade dessa categoria, ela não deve ser incluída.
Há uma tendência maior de a simplicidade do formato de resposta fixa levar à maior
probabilidade de erros inadvertidos nas respostas. Por exemplo, um entrevistador ou
entrevistado pode, sem perceber, assinalar uma resposta adjacente à pretendida. Perguntas
abertas eliminam essa possibilidade de erro. Além disso, as perguntas fechadas tendem a
restringir a amplitude do assunto do questionário e impedem que os entrevistados expressem
suas opiniões da forma mais abrangente possível. Para evitar esse problema, o pesquisador
pode optar pelo uso de uma ou mais perguntas abertas no decorrer da pesquisa.
d) Extensão do questionário
O questionário deve ser o mais conciso possível, mas cobrindo a gama necessária do
assunto requerido pelo estudo. O pesquisador deve tomar cuidado para resistir à tentação de
elaborar perguntas que, apesar de interessantes, são periféricas ou alheias ao foco do projeto
de pesquisa.
A finalidade do cuidado quanto à extensão do questionário é assegurar que ele não
fique tão longo para o entrevistado a ponto de gerar relutância em preenchê-lo, pondo assim
14
4 - Séries Estatísticas
Exemplo:
Tabela 2: Duração média dos estudos superiores - 1994
Países Número de anos
Itália 7,5
Alemanha 7,0
Franca 7,0
Holanda 5,9
Inglaterra Menos de 4
Fonte: Revista Veja, 1995.
O nome Tabela deve vir sempre acima do corpo da tabela, ele deve ser escrito em
negrito com a primeira letra em maiúsculo. As tabelas devem ser numeradas de acordo com
sua aparição no texto, a primeira tabela a aparecer é a Tabela 1, segunda é a Tabela 2 e assim
sucessivamente. Tabelas não são cercadas por bordas, as únicas “linhas” (bordas) que
aparecem numa tabela são acima e abaixo do cabeçalho e acima e abaixo do total, quando este
estiver presente, ou, abaixo do último texto da tabela caso o total não esteja presente.
4.2 Séries Estatísticas: toda tabela que apresenta a distribuição de um conjunto de dados
estatísticos em função da época, do local ou da espécie.
a) Séries históricas, cronológicas, temporais ou marchas: descrevem os valores da variável,
em determinado local, discriminados segundo intervalos de tempo variáveis.
Exemplo:
Tabela 3: Preço do acém no varejo - São Paulo - 1989/94
Anos Preço médio (US$)
1989 2,24
1990 2,73
1991 2,12
1992 1,89
1993 2,04
1994 2,62
Fonte: APA, 1995.
17
Exemplo:
Tabela 4: Duração média dos estudos superiores - 1994
Países Número de anos
Itália 7,5
Alemanha 7,0
Franca 7,0
Holanda 5,9
Inglaterra Menos de 4
Fonte: Revista Veja, 1995.
Exemplo:
Tabela 5: Rebanhos Brasileiros - 1992
Espécies Quantidade (1000 cabeças)
Bovinos 154.440,8
Suínos 34.532,2
Ovinos 19.955,9
Caprinos 12.159,6
Bubalinos 1.423,3
Eqüinos 549,5
Fonte: IBGE, 1993.
d) Séries conjugadas ou tabela de dupla entrada: conjugando duas séries em uma única
tabela, obtemos uma tabela de dupla entrada. Em uma tabela desse tipo ficam criadas duas
ordens de classificação: uma horizontal (linha) e uma vertical (coluna).
Exemplo:
Tabela 6: Terminais telefônicos em serviço - 1991/93
Regiões 1991 1992 1993
Norte 342.938 375.658 403.494
Nordeste 1.287.813 1.379.101 1.486.649
Sudeste 6.234.501 6.729.467 7.231.634
Sul 1.497.315 1.608.989 1.746.232
Centro-Oeste 713.357 778.925 884.822
Fonte: Ministério das Comunicações, 1994.
18
5 - Gráficos Estatísticos
75
70
Quantidade (1000 t)
65
60
55
50
45
40
35
30
1987 1988 1989 1990 1991 1992
Anos
Exemplo:
75
70
Quantidade (1000 t)
65
60
55
50
45
40
35
30
1987 1988 1989 1990 1991 1992
Anos
1992 59,5
1991 69,1
1990 65,1
Anos
1989 53,9
1988 39,1
1987 39,3
30 40 50 60 70 80
Quantidade (1000 t)
São Paulo
33%
Minas Gerais
55%
Rio de
Janeiro
5%
Espírito
Santo
Fonte: IBGE, 1993. 7%
Figura 5: Rebanho Suíno do Sudeste do Brasil - 1992.
Como vimos anteriormente, os nomes das tabelas devem vir acima das mesmas, no
caso de figuras ou quadros, os nomes devem, obrigatoriamente, vir abaixo de suas
representações, como nos exemplos acima, devem estar em negrito, com a primeira letra em
maiúsculo e sempre numerada de acordo com a aparição no texto. Neste caso segue a
recomendação para a fonte das tabelas, pode ser oculto quando os dados apresentados foram
obtidos pelo próprio pesquisador. No caso de gráficos, deve estar presente: título
(obrigatório), eixo X, eixo Y, legenda e fonte, em alguns casos podem ser ocultados.
5.2. Quadros
Exemplo:
País Capital Moeda
Brasil Brasília Real
Argentina Buenos Aires Peso
Espanha Madri Euro
Inglaterra Londres Libra Esterlina
Quadro 1: Alguns países, com suas respectivas capitais e moedas.
24
6. Distribuição de Freqüência
Quando apuramos (ou contamos) os dados de uma série atemporal com o objetivo de
apresentá-los numa tabela, chamaremos esta tabela de distribuição de freqüência. O objetivo
da Distribuição de Freqüência é resumir grandes massas de dados brutos (ou rol) em classes
ou categorias e determinar o número de indivíduos pertencentes a cada uma dessas classes.
Este número é chamado de freqüência da classe. O arranjo tabular dos dados por classes ou
categorias e suas freqüências correspondestes é denominado de Distribuição de Freqüência ou
Tabela de Distribuição de Freqüência e diz-se que os dados estão agora agrupados. Os dados
agrupados perdem muitos detalhes originais ou informações, mas ganham em clareza
tornando evidente algumas relações importantes.
Observe que dada uma relação de valores, lista ou rol de valores (ou série de valores
ou série estatística), é quase impossível entender estes valores (ou conjunto de valores) se ele
é apresentado no seu estado bruto, (sem ser tabulado). Por isso surge a necessidade da
tabulação destes valores na forma de uma tabela de distribuição de freqüência.
A fórmula sugerida por Oliveira, M.S. para determinar o número de classes (k),
baseado no tamanho amostral (n) apresenta a expressão, lembrando que k varia de 5 até 20:
Tamanho da amostra (n) Número de classes (k)
Até 100 k = n (inteiro mais próximo)
Acima de 100 k = 5 log 10 n (inteiro mais próximo)
30
Depois calcula-se o valor da amplitude que é: A = 48 - 18 = 30. Agora, c = 6. Agora
6 1
6
calcula-se o primeiro limite inferior: LI1ª 18 - = 18 - 3 = 15.
2
A distribuição de freqüência com intervalo de classe (note que idade é uma variável
contínua), ficará como na tabela 5, deixando para o leitor completar as freqüências como
exercício. A fórmula de Oliveira não é a palavra final sobre o número de classe, ela deve ser
usada como um ponto de partida para a escolha de k. Dependendo da necessidade ou do
problema, o valor de k é escolhido livremente e, com raríssimas exceções, está abaixo de 5 ou
acima de 20.
Tabela 5: Distribuição de freqüência da idade de 30 funcionários da firma A
i IDADE xi fi Fi fri Fri fpi Fpi
1 15 ├ 21 18
2 21 ├ 27 24
3 27 ├ 33 30
4 33 ├ 39 36
5 39 ├ 45 42
6 45 ├ 51 48
Total
i é o índice de classe, ele varia de 1 até k;
xi é o ponto médio da classe, (LI + LS)/2; Obs.: o 1º ponto médio é igual ao menor valor e o
último é próximo ou igual ao maior valor do grupo de dados;
fi é a freqüência simples da classe, ou seja, quantos valores no grupo de dados são maiores ou
iguais ao limite inferior e menores que o limite superior; Obs.: o somatório da freqüência
simples é igual a n;
Fi é a freqüência acumulada crescente;
fri é a freqüência relativa simples, que é calculada dividindo-se a freqüência simples por n;
Obs.: seu somatório é igual a 1,00;
Fri é a freqüência relativa acumulada crescente;
fpi é a freqüência percentual simples, que é calculada dividindo-se a freqüência simples por n
e multiplicando o resultado por 100, o resultado é dado em %; Obs.: seu somatório é igual a
100,00;
26
7 - Medidas de Posição
MÉDIAS
As principais médias são: Aritmética, Geométrica, Harmônica e Quadrática.
Quando não é especificado o tipo de média, está se falando da média aritmética.
Média Aritmética ( x ): A média aritmética é a mais fácil de ser calculada e todos já a
calculam diariamente ou a calcularam algum dia de sua vida, para saber a média semanal de
horas trabalhadas, a média de gastos com alimentação, a média de consumo de combustível
de nossos veículos, a média das notas, etc. É a principal medida de posição, sendo utilizada
principalmente quando os dados apresentam distribuição simétrica ou aproximadamente
simétrica, como acontece na maioria das situações práticas. Deve-se diferenciar, através de
notação apropriada a média populacional (μ) da amostral ( x ). A população refere-se a todos
os elementos de interesse do pesquisador, para a qual fica praticamente impossível tomar as
informações elemento a elemento. A amostra por sua vez refere-se a um subconjunto de
elementos desta população, tomada de acordo com alguns critérios para que haja uma
representatividade da população da qual foi extraída, e para a qual se deseja extrapolar as
informações (inferências estatísticas). A fórmula para a média amostral também é muito
simples de ser compreendida e está apresentada a seguir:
28
n
xi n
i 1
a) Dados brutos: x , onde x i é o somatório de todos os elementos;
n i 1
n
fi xi n
i 1
b) Dados agrupados: x , onde f i x i é o somatório da multiplicação de cada
n i 1
Média Harmônica (H): Uma série de valores de n elementos tem média harmônica igual
ao inverso da média aritmética do inverso destes valores, ou seja:
n n
H , ou H n
1 1 1 1
...
x1 x 2 xn i 1 x i
Pode ser usada quando desejamos confrontar grandezas que são inversamente
proporcionais.
Média Quadrática (Q): Muito utilizada na formação das medidas de dispersão, que
estudaremos mais adiante. É definida por:
n
Q x i2 / n
i 1
MEDIANA (Md)
É o valor que divide um conjunto de dados ordenados em dois subconjuntos de mesmo
número de elementos. No primeiro conjunto estarão todos os elementos menores que a
mediana e no segundo todos os elementos maiores que a mediana. Em outras palavras, a
mediana é o valor que fica no centro quando os dados estão ordenados. Para calcular a
mediana, primeiramente deve-se ordenar os dados brutos, aí o valor central será a mediana,
este valor será único quando n for ímpar. Se n for par ocorrerão dois valores no centro e
deve-se então retirar a média desses dois valores centrais e o valor desta média será o valor da
mediana.
Para dados agrupados, tem-se a seguinte expressão:
n
2 Fa
M dLI md c,
f md
Onde c = amplitude de classe; LImd = Limite inferior da classe mediana; n = número total de
elementos ou tamanho da amostra; fmd = freqüência simples da classe mediana; Fa =
Freqüência acumulada anterior à classe mediana; e, a classe mediana é aquela cuja freqüência
acumulada ultrapassa n/2 pela primeira vez (ou é igual a n/2), ou seja ultrapassar 50% dos
dados.
A mediana não é afetada por valores extremos como a média, sendo bem adequada
nos níveis de mensuração ordinais, quando a série tem valores distintos, 50% dos dados estão
abaixo dela e 50% estão acima. Ela divide o Histograma ao meio.
MODA (Mo)
Moda é o valor mais freqüente de um conjunto de dados, é o valor que mais se
repete. Se em um conjunto, dois valores se repetem com a mesma e maior freqüência, diz-se
que este conjunto é bimodal. Um conjunto com mais de duas modas será dito multimodal.
Podem ocorrer casos em que todos os elementos do conjunto têm a mesma freqüência, neste
caso diremos que este conjunto não tem moda, ou seja, ele é amodal.
Para dados brutos, basta localizar o elemento que mais repete e diz-se que este é a
moda. No caso de dados agrupados em classes ou sem intervalo de classes, existe a fórmula
de King, a de Czuber e alguns autores sugerem o ponto médio da classe. Apresentaremos a de
Czuber (demonstrada em Toledo, 1995).
30
1
MoLI mo c,
1 2
onde c = amplitude de classe, LImo = limite inferior da classe de maior freqüência, 1 =
Exemplos:
1- As taxas de juros recebidas por 10 ações durante um certo período foram (medidas em
porcentagem) 2,50; 2,55; 2,57; 2,59; 2,60; 2,61; 2,62; 2,63; 2,64; 2,64. Calcule a média, a
mediana e a moda para este grupo de dados.
Resolução:
10
x i
2,50 2,55 2,57 2,59 2,60 2,61 2,62 2,63 2,64 2,64
a) Média: x i 1
10 10
25,95
2,595 2,60 , então a média das taxas de juros recebidas foi de 2,60 %.
10
b) Mediana: como o grupo de dados é par, então buscou-se os dois valores centrais, neste
2,60 2,61
caso 2,60 e 2,61; tirou-se a média deles, Md 2,605 2,60 , então a
2
mediana é 2,60 %.
c) Moda: a moda é o valor que mais repete, neste caso o único valor que repetiu foi 2,64 que
apareceu duas vezes no banco de dados, então a moda é: 2,64 %.
2- Para facilitar um projeto de ampliação da rede de esgoto de uma certa região de uma
cidade, as autoridades tomaram uma amostra de tamanho 50 dos 270 quarteirões que
compõem a região, e foram encontrados os seguintes números de casas por quarteirão:
2 2 3 10 13 14 15 15 16 16 18 18 20 21 22 22 23 24 25 25 26 27 29 29 30
32 36 42 44 45 45 46 48 52 58 59 61 61 61 65 66 66 68 75 78 80 89 90 92 97
Calcule a média, a mediana e a moda para este grupo de dados.
31
Resolução:
50
x
i 1
i
2 2 3 ... 92 97 2021
a) Média: x 40,42 , então a média do número de
50 50 50
casas por quarteirão é de 40,42 casas.
b) Mediana: como o grupo de dados é par, então buscou-se os dois valores centrais, neste
30 32
caso 30 e 32; tirou-se a média deles, Md 31 , então a mediana é 31 casas.
2
c) Moda: a moda é o valor que mais repete, neste caso o valor que repetiu mais vezes (3
vezes) foi 61, então a moda é: 61 casas.
3- Numa pesquisa realizada com 100 famílias, levantaram-se as seguintes informações:
Número de filhos 0 1 2 3 4 5 Mais de 5
Freqüência de famílias 17 20 28 19 7 4 5
a) Qual a mediana do número de filhos? 2 filhos, pois o 50º e o 51º elemento valem 2.
b) Qual a moda do número de filhos? 2 filhos, pois é o grupo que tem maior freqüência 28
elementos.
c) E qual a média do número de filhos? Tem-se um problema para calcular a média, pois não
está expresso quantos filhos as últimas famílias tiveram, para burlar este problema
podemos assumir que todas as famílias que tiveram mais de 5 filhos, tiveram 6 filhos,
assim podemos calcular a média.
6
f x
i 1
i i
0 17 1 20 2 28 3 19 4 7 5 4 6 5 211
x 2,11 , então a
100 100 100
média foi de 2,11 filhos por família.
Exercício:
Calcule a média, a moda e a mediana dos dados brutos e das tabelas de distribuição de
freqüência feitas como exercício do capítulo anterior.
32
8 - Medidas de Dispersão
x x xi
2
i
1 n 2 i 1
S
2 i 1
n 1
ou S
2
xi n ,
n 1 i 1
33
Sendo a segunda mais fácil de ser empregada. n-1 é denominado graus de liberdade.
A unidade da variância é igual ao quadrado da unidade dos dados originais. O desvio
padrão, por sua vez, é expresso na mesma unidade do conjunto de dados, sendo obtido por:
S S2 ,
Onde, S2 representa a variância de um conjunto de dados.
Quando tem-se recenseamento (coleta de dados de toda a população), usa-se a letra
2
grega σ (sigma minúsculo) no lugar de S, e σ no lugar de S2. Esta medida isoladamente pode
ter pouco significado se não se tem outra para compará-la, mas coletando dados regularmente,
obtém-se uma idéia da homogeneidade dos valores se comparado com outro desvio-padrão ou
variância da série obtida em outro levantamento.
Têm muitas aplicações para simples cálculos de limites de tolerância supondo que os
dados seguem a distribuição normal, por exemplo: Uma firma contrata pedreiros e faz um
teste medindo o tempo que o mesmo gasta para assentar 1m2 de cerâmica. Após 30 testes,
pode-se usar a regra de que aproximadamente 95% dos pedreiros possuirão tempo entre
t 2S,t2S. Outro exemplo, quando a hemoglobina do nosso sangue está normal é porque os
valores dela estarão em uma faixa de valores que para ser determinada levou-se em
consideração o desvio padrão, podendo ser t 3S,t 3S (99%). Este mesmo intervalo pode
servir para uma intervenção no processo de produção de peças. Se o diâmetro de algumas
dessas peças começar a sair desse intervalo, então se pode interromper a produção para avaliar
qual problema está ocorrendo e calibrar a máquina.
Para dados agrupados, a fórmula para o cálculo da variância será a seguinte:
n
2
fi xi
1 n 2 i 1
S
2
fi xi
n 1 i 1 n
Exercício:
Calcule as medidas de dispersão para os dados brutos e as tabelas de distribuição de
freqüência feitas como exercício do capítulo 6.
35
9 - Correlação e Regressão
n n
1 x y
,onde COV( x, y) xy , Sx é o desvio padrão da variável X e Sy é o
n 1 n
desvio padrão da variável Y.
A correlação varia de -1 até +1, e quanto mais próximo de -1 ou +1 estiver, mais forte
será o grau de correlação entre as variáveis, e quanto mais próximo a zero estiver, mais fraca
será. Uma sugestão de classificação do grau de relação entre duas variáveis X e Y é, se
36
X X X
X X
desvio padrão de X e de Y.
1 x y 1 65 65 1
473 422,5 50,5
1
COV( x, y) xy = 473
n 1 n 10 1 10 9 9
linear de Y sobre X consiste em obter, a partir desses valores, uma reta que melhor represente
a relação entre essas variáveis. A determinação dos parâmetros dessa reta é denominada
ajustamento. O processo de ajustamento deve partir da escolha da função através da qual os
valores de X explicarão os de Y. Para isso recorre-se ao diagrama de dispersão. A reta
ˆ ˆa ˆbX , ou, Y
ajustada é representada por Y ˆ ˆb ˆb X , ou ainda, Y
ˆ ˆ X , onde a
ˆ
i 0 1
e b são os parâmetros do modelo: a é o ponto onde a reta ajustada corta o eixo da variável Y
(coeficiente linear), e b é a tangente do ângulo que a reta forma com uma paralela ao eixo da
variável X (coeficiente angular).
x y
x i y i nxy x y
i i
COV(X, Y)
ˆ y ˆ x , e ˆ , ou, ˆ n , ou ainda, ˆ
x 2
nx 2
x 2 S 2x
x
i 2
i
n
Obs:
1- Como estamos fazendo uma de uma amostra para obtermos os valores dos parâmetros, o
resultado, na realidade, é uma estimativa da verdadeira equação de regressão. Sendo assim,
sempre devemos colocar o símbolo matemático "^" que representa um valor estimado do
valor verdadeiro.
2- Quando usamos um valor de X ou Y dentro do intervalo de dados originais para calcular o
outro valor do par de dados, dizemos que estamos fazendo uma interpolação aos dados; e
quando usamos um valor de X ou Y fora do intervalo de dados originais para calcular o outro
valor do para de dados, dizemos que estamos fazendo uma extrapolação ao dados. Uma
norma fundamental no uso de equações de regressão é a de nunca extrapolar, exceto quando
considerações teóricas ou experimentais demonstrem a possibilidade de extrapolação.
Exemplo 2: usando os dados das notas de Estatística e Matemática apresentadas no exemplo
1, ajustar a equação de regressão para a variável Estatística em função da variável
Matemática:
ˆ
Tem-se que Y ˆ X ; então primeiramente devemos estimar e .
ˆ
ˆ COV(X, Y)
Usaremos a equação R 2 , para calcularmos o valor do coeficiente de
S 2y
determinação. Então:
ˆ COV( X , Y ) 0,8632 5,6111
R2 0,7656 ; ou R2 = 76,56%;
2
Sy 2,5152 2
isto implica que a relação linear obtida explica 76,56% das variações totais da variável Y e
23,44% das variações de Y são consideradas aleatórias caso seja adotado o modelo linear. O
modelo não explica muito bem o que acontece com os dados.
a) Na tabela abaixo estão apresentados os pesos (kg) aparentes e reais de alguns objetos.
Peso real 18 30 42 62 73 97 120
Peso aparente 10 23 33 60 91 98 159
40
x 11,34; y 20,72; x 2
12,16; y 2 84,96; xy 22,13 .
41
Anexos
1 - Arredondamento de dados
Compensação de Resultados
2 – Técnicas de Somatório
1- Sejam os conjuntos:
X={1; 3; 4; 5; 5; 6; 7; 8; 12; 15} Y={1; 2; 2; 3; 3; 4; 6; 6; 7; 8} Z={1; 3; 5; 9; 10; 11; 12; 13; 14; 15}
10 10 10 8 9 7
a) xi b) yi c) zi d) xi y i e) y i z i xi
i 1 i 1 i 1 i 5 i 3 i 3
10
10 10
zi z i2 10
xi2 10
f) 2 xi 2
g) i 1
10 h) 3 xi 2 z i 3
i) xi
i 1 i 1
xi2 i 1 i 1
i 1
Obtenha:
5 4 5 4 3 4 5 1 5
a) xij b) xij2 c) xij d) xij e) xij j = 1, 3
i 1 j 1 i 1 j 1 i 1 j 2 i 1 j 1 i 1
5 3 3 4
f) xij j = 1, 2, 3, 4 g) xij i = 1, 2, 5 h) xij i = 1, 2, 3, 4, 5 i) xij i = 1, 2, 3, 4, 5
i 1 j 1 j 1 j 1
GABARITO:
1) a) 66 b) 42 c) 93 d) 129 e) 359+27=386 f) 132-(93/2)=85,5 g) 1071/594=1,8030
h) 198-186+198=210 i) 24,4649399
2) a) 137 b) 1075 c) 64 d) 27 e) 1=27; 2=27 f) 1=27; 2=45; 3=27; 4=38
g) 1=13; 2=22; 3=20 h) 1=13; 2=22; 3=19; 4=25; 5=20 i) 1=18; 2=30; 3=30; 4=35; 5=24
43
xi x f i i
Média ( x ) x i 1
x i 1
n
n
f
i 1
i
Observação Md LI md 2
n FA
c
LImd = Limite inferior da classe média;
FA = Freqüência acumulada das classes
Mediana Central f md anteriores;
(Md) md
fmd = Freqüência simples da classe
mediana.
1 LImo = Limite inferior da classe modal;
Observação que Mo LI mo c mo 1 = Diferença entre a freqüência
Moda (Mo) mais se repete
1 2 simples da classe modal para a anterior;
2 = Diferença entre a freqüência
simples da classe modal para a
posterior.
Medidas de Dispersão
Dados Ordenados Dados Agrupados
Amplitude (A) Maior valor – menor valor Maior valor – menor valor
Variância
1 x i 2
1 f i x i 2
2 (população) x i2
2
f i x i2
2
N N N N
S2 (amostra)
1 x i 2 1 f i x i 2
S
2
n 1
xi n
2
S
2
n 1
fi xi n
2
Desvio Padrão
(população) 2 2
S (amostra)
S S2 S S2
Coeficiente de Variação (CV) CV 100 S x CV 100 S x
Erro Padrão da Média ( S x ) S S
SX SX
n n