Escolar Documentos
Profissional Documentos
Cultura Documentos
Probabilidade e Estatística Completa
Probabilidade e Estatística Completa
PROBABILIDADE E ESTATÍSTICA
GUARULHOS – SP
SUMÁRIO
2 VARIÁVEIS .............................................................................................................. 6
4 DISTRIBUIÇÃO DE FREQUÊNCIA........................................................................ 14
5 AMPLITUDES......................................................................................................... 22
6 FREQUÊNCIA ........................................................................................................ 24
15 PROBABILIDADE................................................................................................. 55
16 CORRELAÇÃO .................................................................................................... 60
18 REFRESSÃO ....................................................................................................... 71
2
1 ESTATÍSTICA E MÉTODO ESTATÍSTICO
Estatística
A estatística, é um dos ramos da matemática aplicada que coleta um conjunto
de dados, organiza-os, apresenta-os de uma forma conveniente, de modo a permitir
a análise dos dados com o intuito central de constituir uma sólida base para a tomada
de decisões e formulação de soluções (TRIOLA, 2013)
O mundo contemporâneo é caracterizado pela disponibilidade de um grande
volume de informações que passam a integrar nosso dia a dia. Neste cenário, jornais,
revistas, Internet e outros meios de comunicação veiculam diversas notícias pautadas
em dados estatísticos, como podemos ver nos dois exemplos abaixo:
Método Estatístico
Método é um modo de proceder a um conjunto de meios dispostos,
convenientemente, para se alcançar um fim desejado.
Para Reis (2001) o Método Estatístico admite todas as causas presentes em
determinado fenômeno aleatório, variando-as, registrando-as e procurando
determinar que influência cabe a cada uma delas no resultado final.
a) Coleta de Dados;
b) Organização de tais dados;
c) Descrição dos Dados através de Planilhas e Gráficos;
d) Análise e Interpretação;
e) Tomada de Decisões, Soluções.
1. Estatística Descritiva
Corresponde à parte da Estatística que trata da coleta e da organização de
dados. O objetivo é efetuar, posteriormente, a descrição dos dados coletados através
de planilhas e gráficos sem, no entanto, propor qualquer tipo de conclusão.
2. Estatística Indutiva
Também conhecida por Estatística Inferencial, tem por objetivo tirar conclusões
sobre o todo (população), a partir de informações fornecidas por parte representativa
do todo (amostra).
4
População
População corresponde a todos os elementos do grupo a serem estudados.
Para uma maior precisão de resultados, seria preferível trabalhar sempre com todo o
universo estudado, porém, por questões que envolvem aspectos pertinentes a tempo,
custo e logística, dentre outros, normalmente torna-se inviável tal proposta, surgindo,
aí, o grande objetivo da estatística: estudar a amostra e tirar conclusões sobre a
população.
Amostra
Amostra é a parte do todo efetivamente estudada. É um subconjunto finito de
elementos de uma população.
Vamos agora fixar os nossos conhecimentos
Imagine a seguinte situação problema: Um conjunto de pedagogos desenvolveu uma
técnica nova para a aprendizagem da leitura, que encurta o tempo de aprendizagem
tradicional.
Podemos dizer que a População desse experimento: é o conjunto de todos os
alunos que ingressam na escola sem saber ler.
Por sua vez, a Amostra desse experimento: é o conjunto de alunos matriculados em
algumas escolas selecionadas para tal estudo. Os alunos serão separados em dois
grupos para se aplicarem as duas técnicas em confronto (REIS, 2001)
5
Estatística Indutiva:
Análise de Dados: através da simples análise do gráfico acima, podemos
concluir que a média obtida pelo grupo de alunos que aprendeu a ler pelo método
novo obteve melhores resultados que os demais. Fato que induz à ideia de que
realmente o aprendizado é mais rápido. Porém, através de fórmulas que iremos
aprender nas próximas aulas, a estatística nos oferece a possibilidade de analisar
tais informações de forma mais detalhada e precisa (REIS, 2001).
2 VARIÁVEIS
3) Para o fenômeno “estatura” temos uma situação diferente, uma vez que
os resultados podem tomar um número infinito de valores numéricos dentro de um
intervalo determinado. As pessoas podem medir 1,28 m, 2,14 m, 1,82 m.
6
Tal como visto nos exemplos acima, as variáveis podem ser qualitativas ou
quantitativas.
7
2.2 Variáveis Quantitativas
8
1. Delimitação do tema
Para que uma pesquisa seja objetiva e nos conduza a respostas específicas,
devemos sempre pesquisar temas específicos. Quando necessário podemos
encaminhar pesquisas paralelas, porém cada uma delas dentro de temas mais
específicos possíveis.
3. Formulação do Problema
Um Problema (questão) de pesquisa deve expressar a dúvida que queremos
esclarecer sobre o tema delimitado, de sorte que exista a possibilidade de respostas
através de pesquisas.
4. Construção da hipótese
Uma hipótese de pesquisa é a resposta que você imagina para o problema
formulado. Ela deve conter todos os conceitos e variáveis envolvidas. Deve ser
redigida de forma clara, sem termos ou conceitos implícitos (TRIOLA, 2013).
Após o cuidadoso trabalho de planejamento da pesquisa, podemos dar início à coleta
dos dados numéricos necessários à sua descrição.
A coleta de dados pode ser realizada de forma direta ou indireta.
A coleta direta é feita de três formas:
1) sobre elementos informativos de registro obrigatório, como nascimentos,
casamentos e óbitos;
2) sobre elementos pertinentes a registros ou arquivos, como os prontuários de
alunos de uma escola;
3) diretamente pelo pesquisador, através de inquéritos e questionários, como notas
de verificação e de exames, censo demográfico.
9
A coleta direta pode ser ainda classificada em relação ao fator tempo:
a) contínua – também conhecida como registro, é feita continuamente, tal como o
registro de nascimentos, óbitos e a frequência dos alunos às aulas;
b) periódica - quando efetuada em intervalos constantes de tempo, como as
avaliações mensais, ou bimestrais, dos alunos;
c) ocasional - realizada de forma extemporânea, visando satisfazer determinada
conjuntura ou uma emergência, como uma epidemia.
Define-se uma coleta como indireta quando ela é realizada a partir de
conclusões sobre dados coletados de forma direta, ou ainda sobre o conhecimento de
outros fenômenos relacionados com o fenômeno estudado (TRIOLA, 2013)
10
Cada um dos grupos integrantes da amostra foi composto por 35 alunos do ensino
fundamental.
A primeira avaliação aplicada aos dois grupos foi composta por 40 questões
valendo 0,25 cada.
Notas de 35 alunos de ensino fundamental do grupo da Nova Aprendizagem, na
primeira avaliação.
Da forma como os dados estão descritos, no exemplo acima, fica difícil fazer
qualquer tipo de análise, pois os dados coletados não foram numericamente
organizados (TRIOLA, 2013).
A princípio, o modo mais simples de organizar tais dados é através de uma
certa ordenação, crescente ou decrescente.
11
A tabela acima, organizada em ordem crescente, ou decrescente, recebe o
nome de Rol.
A partir do Rol, com relativa facilidade, podemos fazer algumas análises, por
exemplo, identificar que a menor nota foi 2,50 e a maior 10. Por um exame mais
apurado, pode-se observar ainda que a maioria dos alunos obteve nota no intervalo
entre 6 e 9. E ainda que apenas dois alunos atingiram a nota máxima (10), sendo que
nenhum aluno obteve a nota mínima (0) (TRIOLA, 2013).
Então podemos dizer que a organização do dos dados é algo muito importante
– Podemos organizar em quadros ou tabelas.
– As tabelas podem ser: simples ou de dupla entrada.
– Tabelas simples: são aquelas que apresentam dados ou informações relativas a
uma variável.
12
– Exemplo: A REDE FUTURA DE ENSINO tem em sua Faculdade de Economia 30
professores. Foi levantado o tempo de serviço de cada um deles, em anos:
3,3,3,4,4,4,4,5,5,5,5,5,6,6,6,6,6,6,6,6,6,7,7,7,8,8,8,8,9,9.
13
4 DISTRIBUIÇÃO DE FREQUÊNCIA
14
Notas de 35 alunos de ensino fundamental do grupo da Nova Aprendizagem, na
primeira avaliação.
Agora temos uma tabela um pouco mais organizada, onde podemos visualizar
claramente o número de vezes que uma nota se repete, porém, a estatística nos
oferece uma outra forma de organizar esses dados a qual chamamos de Distribuição
de Frequência com Intervalo de Classe (MONTGOMERY, 2009)
A Distribuição de Frequência com Intervalo de Classe consiste em agrupar os
valores da variável contínua “nota” em intervalos. Cada intervalo destes é conceituado
como intervalo de classe.
E a frequência de cada intervalo passa a ser definida como frequência de uma
classe.
15
O símbolo indica que o intervalo de classe vai do número à esquerda do
mesmo até o número exatamente anterior aquele localizado à sua direita. Tal regra
não se aplica ao último intervalo de classe da tabela, pois, caso o número que indique
o seu limite superior integre os dados coletados, tal número incidirá na apuração da
frequência da classe, como é o caso do exemplo acima (MONTGOMERY, 2009).
16
Elementos de uma Distribuição de Frequência
Classes de Frequência:
Também conhecida simplesmente como Classe, as Classes de Frequência são
intervalos de variação dos valores que integram uma variável (MONTGOMERY,
2009).
A Classe ou Classe de Frequência é simbolicamente representada pelo “i”, sendo i =
1,2,3,....k, onde k representa o número total de classes da distribuição.
17
Limites de Classe:
Como o próprio nome sugere, os Limites de Classe são os extremos da classe. O
menor número do intervalo é o limite inferior da classe (li) e o maior número é o limite
superior da classe (Li) (MONTGOMERY, 2009).
18
Uma vez conhecidas as definições de limite inferior e superior da classe, cabe
retomar os esclarecimentos acerca do símbolo ├-. Tecnicamente falando, os
intervalos de classe devem respeitar os parâmetros impostos pela Resolução 886/66
do IBGE, que assim prega: “o intervalo vai desta quantidade até menos aquela”,
usando como símbolo para esta afirmação o “├-”, que indica a inclusão do li e a
exclusão do Li. Assim a nota 4 não está inclusa no intervalo 02├- 04, mas sim no
intervalo 04 ├- 06.
19
Ponto Médio de uma Classe:
O Ponto Médio de uma Classe é justamente aquilo que sua denominação
sugere, ou seja, o ponto que divide o intervalo de classe em duas partes iguais
(MONTGOMERY, 2009).
A fórmula para a sua obtenção é a seguinte:
20
Abaixo, vemos um outro exemplo retirado do livro Introdução a Bioestatística
Vieira, Sônia
3ª edição – 4ª tiragem
Editora Campus
De acordo com o IBGE (1988) a distribuição dos suicídios ocorridos no Brasil
em 1986, segundo a causa atribuída, foi a seguinte: 263 por alcoolismo, 198 por
dificuldade financeira, 700 por doença mental, 189 por outro tipo de doença, 416 por
desilusão amorosa, 217 por outras causas. De acordo com estas informações:
Apresente esta distribuição em uma tabela.
Onde:
i: é o número de classes;
21
n: é o número total de dados
Decidido o número de classes intervalares que deve ter a distribuição, devemos
determinar a amplitude do intervalo de classe, o que conseguimos dividindo a
amplitude total pelo número de classes:
5 AMPLITUDES
(REIS, 2002)
22
L (máx.) = 10
l (mín.) = 02
AT = 10 – 02 = 08
k = AT ÷ hi
k = 08 ÷ 02 = 04
Amplitude Amostral:
A Amplitude Amostral é a diferença entre o valor mínimo e o valor máximo da
amostra resultante da coleta de dados. É calculada através da fórmula:
AA = x (máx.) – x (mín.)
Onde x (máx.) é o maior valor da amostra e x (mín.) é o menor valor da amostra.
Vejamos um exemplo:
Abaixo temos as Notas de 35 alunos na Avaliação 01 de Geografia do sexto ano do
Ensino Fundamental
Avaliação: 01
(REIS, 2002)
23
X (máx.) = 10,00
X (mín.) = 02,50
AA = x (máx.) – x (mín.)
AA = 10,00 – 02,50 = 07,50
O que nos leva aos seguintes valores para a Amplitude Total e Amplitude
Amostral
AT = 08,00
AA = 07,50
6 FREQUÊNCIA
(NAVIDI, 2012).
25
7 DISTRIBUIÇÃO DE FREQUÊNCIA SEM INTERVALO DE CLASSE
(MEYER, 2009)
26
(MEYER, 2009)
(MEYER, 2009)
27
8 REPRESENTAÇÃO GRÁFICA DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA
Histograma:
O Histograma é formado por um conjunto de retângulos justapostos, cujas
bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios
coincidam com os pontos médios dos intervalos de classe. As larguras dos retângulos
equivalem às amplitudes dos intervalos de classe. A altura de cada retângulo deve ser
proporcional às frequências das classes.
Exemplo:
28
Notas
Polígono de Frequência:
O Polígono de Frequência é um gráfico em linha, sendo as frequências
marcadas sobre as perpendiculares ao eixo horizontal levantadas pelos pontos
médios do intervalo de classe. Em outras palavras, as junções são formadas pelo
ponto médio da classe na vertical, com a frequência da classe na horizontal (MEYER,
2009). Para realmente termos um polígono, devemos ligar os extremos da linha obtida
aos pontos médios da classe anterior e da posterior à última, da distribuição
Por exemplo, se o limite inferior de intervalo da primeira classe é 02 e o limite superior
da última classe é 10, o polígono será encerrado em 01 e 11.
Exemplo:
29
x1=3; x2=5; x3=7; x4=9
(MEYER, 2009)
Exemplo:
31
9 GRÁFICOS ESTATÍSTICOS
32
Gráfico Estatístico:
O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo
objetivo consiste em produzir, no investigador ou no público em geral, uma impressão
mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à
compreensão que as séries (NAVIDI, 2012)
Para tornarmos possível uma representação gráfica, estabelecemos uma
correspondência entre os termos da série e de uma determinada figura geométrica,
de modo que cada elemento da série seja representado por uma figura proporcional.
Diagrama:
Os diagramas são gráficos geométricos de, no máximo, duas dimensões. Para
sua construção, em geral, fazemos uso do sistema cartesiano.
O sistema cartesiano utiliza duas retas perpendiculares. As retas são os eixos
coordenados. O ponto de intersecção é a origem. O eixo horizontal é chamado eixo X
ou eixo das abscissas, e o vertical é conhecido por eixo Y ou das ordenadas.
Os principais diagramas são: Gráfico em linha ou curva, gráfico em colunas ou
em barras e o Gráfico em Setores.
33
Para elaborar o gráfico em linha, fazendo uso do exemplo colhido junto ao
Instituto Nacional de Estudos Pesquisas Educacionais – INEP, vamos adotar como
abscissas os tipos de avaliações, e como ordenadas as médias obtidas pelas escolas
da cidade de Santos.
Assim sendo, cada tipo de avaliação transcrita no eixo X, junto com a respectiva
média no eixo Y, formarão um par (X,Y), que poderá ser representado num sistema
cartesiano.
Determinados, graficamente, todos os pontos da série, utilizando as
coordenadas (X,Y), unindo todos estes pontos, dois a dois, por segmentos de reta, o
que irá originar uma poligonal. Tal poligonal é justamente o gráfico em linha ou em
curva correspondente ao exemplo adotado.
Gráfico em colunas:
36
É empregado, usualmente, quando precisamos representar, simultaneamente,
dois ou mais fenômenos estudados com o propósito de comparação.
Gráfico em Setores
O Gráfico em Setores é um tipo de gráfico construído com base em um círculo,
e é empregado sempre que desejarmos ressaltar a participação de um certo dado em
relação ao total.
O total é representado pelo círculo em sua íntegra. As partes deste total são
representadas ao dividi-lo em setores. Os setores têm suas áreas respectivamente
proporcionais aos dados da série (BUSSAB; MORETTIN, 2013)
A área de cada setor é obtida através da regra de três simples e direta, lembrando
que o total do gráfico corresponde sempre a 360˚.
37
10 MEDIDAS DE TENDÊNCIA CENTRAL
Média Aritmética:
A Média Aritmética é o ponto de qualquer distribuição em torno do qual se
equilibram as diferenças positivas e negativas. Neste sentido, situa-se entre o valor
máximo e o mínimo da distribuição, podendo inclusive vir a ser um número não
presente na distribuição.
Quando comparada entre dois grupos possibilita algumas interpretações,
identificado qual o grupo com resultados mais ou menos elevados.
38
O cálculo da média aritmética é feito através da soma de todos os valores da
distribuição dividida pelo número total de observações da série, em outras palavras, é
o quociente da divisão da soma dos valores da variável pelo número total deles.
A fórmula adotada para calcular a Média Aritmética é:
39
Desvio em relação à média(di) é a diferença entre cada elemento da série e a
média que o representa. Calculada através da fórmula:
11 PROPRIEDADES DA MÉDIA
40
b) (-05) + (-13) + (-27) + 03 + 50 + (-08) = 0
41
Média Aritmética de Dados Agrupados:
Sem intervalo de Classe:
A média aritmética dos dados agrupados sem intervalo de classe é apurada
através da média aritmética ponderada (MONTGOMERY, 2009). Esta é a fórmula
usada para o cálculo:
42
Cabe esclarecer que mesmo x sendo uma variável discreta, o valor médio 2,6
sugere que a maioria dos alunos obtiveram nota entre 2 e 3.
Com intervalo de Classe:
No cálculo da média aritmética dos dados agrupados com intervalo de classe,
leva-se em conta que todos os valores incluídos em um certo intervalo de classe
coincidem com seu ponto médio. Esta é a fórmula:
Assim sendo:
43
12 MODA E MEDIANA
A Moda é o valor que ocorre com maior frequência em uma série de valores.
Neste exemplo, a nota modal é 5, visto que é a nota que mais se repete entre
os alunos
A Moda em dados não agrupados:
Quando tratamos com dados não agrupados, a moda é facilmente identificada.
Na série de dados: 3, 3, 3, 4, 5, 5, obviamente a moda é 3 (TRIOLA, 2013).
Vale destacar que existem séries de dados sem números que se repetem. A
série de dados: 1, 2, 3, 4, 5, é chamada amodal. Da mesma forma, há séries com
números que se repetem identicamente. A série de dados: 1, 1, 4, 4, 5, é chamada
bimodal, pois tem duas modas, o 1 e o 4.
44
A Moda em dados agrupados:
Sem intervalo de classe:
Uma vez agrupados os dados, a moda é imediatamente localizada.
Como é o caso da tabela anterior, da onda a moda é, evidentemente “5”.
Com intervalo de classe:
A classe com maior frequência é denominada classe modal, ou seja, o valor
dominante estará compreendido entre os limites da classe modal.
O método mais simples para se calcular a moda consiste em somar os limites
da classe e dividir por dois:
Mo = li + Li, onde li é o limite inferior e Li é o limite superior da classe
2
O resultado de tal fórmula é denominado Moda Bruta.
Como a frequência maior está na segunda classe, a Moda será assim calculada: Mo
= (2+4)/2 = 3
li = 02
Li = 04
Mediana (Md)
Segundo Navidi (2012) a Mediana de um conjunto de valores, ordenados
segundo uma ordem de grandeza, é o valor situado de tal forma que o separa em dois
45
subconjuntos de mesmo número de elementos. Ou seja, é o número que divide uma
série de valores exatamente ao meio.
Exemplo:
a) Notas de 11 alunos: 2, 3, 6, 9, 10, 4, 5, 2, 1, 8, 7.
O primeiro passo para o cálculo da mediana consiste em ordenar tais dados:
1, 2, 2, 3, 4, 5, 6, 7, 8, 9, 10
Em seguida, observamos o número que se situa exatamente ao centro da série
de valores expostos em ordem crescente.
No caso, a mediana é o 5, visto que a sua esquerda ficará cinco números e a
sua direita mais cinco números (NAVIDI, 2012).
Temos então: Md = 5
Em nosso exemplo, a série é composta por onze valores, então fica fácil
determinar a Mediana. Porém, como seria a apuração da Mediana no caso de uma
série com dez valores?
Para séries com número de valores par, convencionou-se utilizar o chamado ponto
médio.
b) 1, 2, 2, 3, 4, 6, 7, 8, 9, 10
Nesta série de dados temos dois valores centrais, daí o cálculo do ponto médio
será encontrado através da média aritmética entre os dois valores centrais 4 e 6.
Assim sendo:
Md = (4+6)/2 = 5
Neste exemplo, podemos notar que o valor da mediana não fará parte da série
de dados quando o número de valores de tal série for par.
Observações:
a) A média aritmética e a mediana nem sempre terão o mesmo valor.
b) A mediana depende da posição física dos dados ordenados, e não dos valores em
si. Essa é uma das marcantes distinções entre média e mediana. Exemplo: 1, 2, 3, 4,
5 => Mediana = 3 e Média = (1+2+3+4+5) /5 = 3
46
A forma de apuração da mediana em dados agrupados não difere muito
daquela aplicada em dados não agrupados (NAVIDI, 2012).
Para o cálculo da mediana em dados agrupados, o primeiro passo consiste em
encontrarmos a frequência acumulada da distribuição para, posteriormente,
determinarmos um valor que separe tal distribuição em dois grupos com o mesmo
47
Sendo Md = (x3 + x4 + 1) / 2 = (4+5+1)/2 = 5.
O valor de Fi se encontra entre 17 e 20.
Na distribuição o valor 17 equivale à nota 4, bem como, 20 corresponde à nota 5, que,
observando, podemos perceber claramente serem os valores que dividem a tabela
em duas partes iguais, com duas classes abaixo e duas classes acima.
Exemplo:
48
Aplicando a fórmula, teremos:
Onde:
- li = limite inferior da classe mediana
- F (ant) = frequência acumulada anterior à classe mediana
- fi = frequência simples da classe mediana
- hi = amplitude da classe mediana
Assim sendo:
49
15 15
= 2+(15/15) = 2+1
Md = 3
2) Calcular
3) Localizar a classe mediana
4) A partir da classe mediana aplicamos a seguinte fórmula:
14 DESVIO PADRÃO
50
Número de matrículas dos alunos no ensino médio de primeira à quarta série,
no Brasil:
51
Fórmula:
Onde:
S = Desvio Padrão
fi = é frequência simples
Xi = os valores das variáveis
N = é o total de fi
52
Com intervalo de classe:
Fórmula:
Onde:
S = Desvio Padrão
fi = é frequência simples
Xi = ponto médio
N = é o total de
Exemplo:
53
54
15 PROBABILIDADE
55
várias vezes, sob condições semelhantes, apresentam resultados imprevisíveis. A
cada fenômeno ou experimento correspondem resultados possíveis.
Ao lançarmos uma moeda, há dois resultados possíveis: cara ou coroa. Já no
caso de lançarmos um dado, teremos seis resultados possíveis (MAGALHÃES; LIMA,
2013)
Nesses dois exemplos o espaço amostral será representado da seguinte forma:
Moeda – S = {Ca,Co}
Dado – S={1,2,3,4,5,6}
Fórmula da Probabilidade:
Probabilidade de um evento (A)
Onde:
n (A) = é o número de elementos de A
n (S) = é o número de elementos de S
Eventos Complementares:
Como vimos, um evento pode ocorrer ou não ocorrer. Sendo p a probabilidade de que
venha a ocorrer e q a probabilidade de que ele não ocorra. Para cada evento sempre
existirá a relação: p+q=1 => q=1-p.
Eventos Independentes:
Dois eventos são independentes quando a realização ou não realização de um dos
eventos não afeta a probabilidade do outro, e vice-versa (MAGALHÃES; LIMA, 2013)
Se dois eventos são independentes, a probabilidade de que eles sejam realizados
simultaneamente é igual ao produto das probabilidades de realização dos dois
eventos.
Ou seja, p = p1 x p2.
57
Dois dados são lançados.
Qual a chance de obtermos 1 em cada dado?
Primeiro dado:
(A) Chance de sair 1 = 01
(S) = Resultados Possíveis = {1,2,3,4,5,6} = 06
Então: P1(A) = 1/6 = 0,1667 ou 16,67%
Segundo dado:
(A) Chance de sair 1 = 01
(S) = Resultados Possíveis = {1,2,3,4,5,6} = 06
Então: P2(A) = 1/6 = 0,1667 ou 16,67%
Logo, a probabilidade de obtermos simultaneamente 1 em cada dado é igual a:
p = p1(A) x p2(A) = 0,1667 x 0,1667 = 0,0277 ou 2,77%.
58
Exercícios de Fixação
Considerando que este aluno, além da avaliação acima, participe de mais uma
outra avaliação oral com notas inteiras entre 0 e 5, qual a possibilidade de alcançar
nota 3 na primeira e 2 na segunda?
P1(A) = Chance de tirar nota maior que 3 na prova = {3} = 01
P1(S) = Notas possíveis = {0,1,2,3,4,5} = 06
16 CORRELAÇÃO
60
Diagrama de Dispersão:
61
Representando em um sistema coordenado cartesiano ortogonal, os pares
ordenados (xi, yi), obtemos uma nuvem de pontos denominada: Diagrama de
Dispersão.
62
Esta fórmula, assim, à primeira vista, nos parece algo complicado, de difícil
resolução, porém, tomemos um exemplo de aplicação sobre distribuição de frequência
para podermos perceber, que sua compreensão é muito mais fácil do que parece
(TRIOLA, 2013)
Considerando como população, todas as escolas de Santos que participaram
do ENEM/2005, e como amostra um grupo formado por dez destas instituições de
ensino, obtemos a seguinte distribuição:
63
Para efeito de didática, estipulamos uma legenda para cada coluna: A,B,C,D,E.
Onde A(xi) são os valores da variável Prova Objetiva, e B(yi) são os valores da Média
Total de cada Escola da cidade de Santos, no ENEM/2005.
Para calcularmos o coeficiente de correlação precisamos encontrar os valores
de xi.yi, coluna C, que corresponde a cada valor de xi multiplicado por seu respectivo
yi.
Na coluna D, temos xi² que equivale a cada valor da coluna A(xi) elevado ao
quadrado. O mesmo acontece com a coluna E, onde temos yi ² que equivale a cada
valor da coluna B(yi) elevado ao quadrado (TRIOLA, 2013).
Agora ficou mais fácil compreender a fórmula do coeficiente de correlação de
Pearson:
Onde:
n = quantidade de escolas que integram a amostra = 10
(∑xi ) = total da coluna A = 388,91
(∑yi ) = total da coluna B = 459,61
∑ xi.yi = total da coluna C = 18.507,74
∑xi ² = total da coluna D = 15.903,17
∑yi ² = total da coluna E = 21.645,09
Assim, temos:
64
Os valores limites de r são -1 e +1, isto é, o valor de r pertence ao intervalo [-1,
+1] (TRIOLA, 2013).
Dessa forma:
a) se a correlação entre duas variáveis é perfeita e positiva, então r = + 1;
b) se a correlação é perfeita e negativa, então r = -1;
c) se não há correlação entre as variáveis, então r = 0.
Logo:
a) se r = +1, há uma correlação perfeita e positiva entre as variáveis;
b) se r = -1, há uma correlação perfeita e negativa entre as variáveis;
c) se r = 0, ou não há correlação entre as variáveis, ou a relação, que acaso exista,
não é linear.
65
n=10 alunos
66
Sendo r = 0,91, podemos afirmar que há uma correlação linear positiva
consideravelmente significante entre as duas variáveis.
A tabela abaixo pretende verificar se existe uma relação entre a renda familiar
e o número de aparelhos de TV em cores em cada lar brasileiro:
Sejam X: renda familiar em R$1.000,00 e Y: nº de aparelhos de TV em cores
Considere o quadro:
67
68
Há dependência Linear entre X e Y
Parece complicado à primeira vista, mas, se você praticar tudo isso, ficará mais
simples. Refaça os exemplos para ver se assimilou tudo.
Correlação Linear:
69
Os pontos obtidos formam uma elipse em diagonal. Podemos correlação linear.
Cada correlação está associada como imagem relações funcionais são chamadas
relações perfeitas. Então afirmar que houve uma de uma relação funcional (BUSSAB;
MORETTIN, 2013)
As relações funcionais são chamadas relações perfeitas.
70
18 REGRESSÃO
71
Onde:
n = número de observações
Porém, antes disso precisamos montar a tabela com os valores de xi, yi, xi.yi e xi²:
72
b = 6,25 - 0,9048 x 5,5 = 6,25 - 4,9764 = 1,2736
Visando traçarmos uma reta no gráfico de dispersão, basta definir dois pontos
desta.
Para encontrarmos o primeiro ponto, vamos assumir que o valor de X é ZERO,
então a fórmula ficaria:
Y = (0,90 x 0) + 1,27
Y = 0 + 1,27
73
Y = 1,27
Logo para X = 0 o valor de Y será 1,27, então temos que o primeiro ponto para
traçarmos a reta será (0;1,27), ou seja no cruzamento onde a reta x equivale a 0 e a
reta Y é igual a 1,27.
Na obtenção do segundo ponto, vamos propor que X seja igual a 5.
Y = (0,90 x 5) + 1,27
Y = 4,50 + 1,27
Y = 5,77
Logo para X = 5 o valor de Y será 5,77, então temos que o segundo ponto para
traçarmos a reta será (5;5,77), ou seja no cruzamento onde a reta x equivale a 5 e a
reta Y é igual a 5,77.
Interpolação e Extrapolação:
Interpolação ocorre quando utilizamos um valor que não integra a variável,
mas está dentro do intervalo de valores desta, na fórmula: Y=aX+b.
Extrapolação ocorre quando utilizamos um valor que não integra a variável, e
não está dentro do intervalo de valores desta, na fórmula: Y=aX+b
74
Y = 0,90X + 1,27
Extrapolação:
O intervalo de X vai de 2 a 9, então tomaremos X=1 na fórmula acima.
Y = 0,9 x 1 + 1,27
Y = 2,17
Neste caso, como 5 E [2,9], dizemos que foi feita uma extrapolação.
Interpolação:
Para um exemplo de interpolação, vamos supor que o número 5 não seja um
valor da variável x.
X= 5 => Y= 0,90 x 5 + 1,27 = 4,50 + 1,27 = Y = 5,77
Neste caso, como 5 E [2,9], dizemos que foi feita uma interpolação.
20 DISTRIBUIÇÃO NORMAL
76
Uma distribuição normal fica completamente especificada por dois parâmetros:
sua média e seu desvio-padrão, ou seja, existe uma única distribuição normal
para cada combinação de uma média e um desvio-padrão, assim o número de
distribuições normais é ilimitado.
Segundo Reis e Reis (2001) ao estudarmos uma variável aleatória com
distribuição normal, a principal intenção será determinar a probabilidade de a mesma
assumir um valor dentro de certo intervalo.
Exemplo:
Considerando X uma variável aleatória que representa os diâmetros dos
parafusos produzidos por determinada máquina, vamos imaginar que X = 2 cm e o
desvio padrão seja s = 0,04 cm.
Vamos agora apurar a probabilidade de um parafuso ser fabricado com um
diâmetro entre 2 e 2,05 cm. Podemos definir que: P (2 < X < 2,05)
77
21 DISTRIBUIÇÃO NORMAL REDUZIDA
Logo, quando X for uma variável aleatória com distribuição normal de média [1]
x e desvio padrão [1] s , escreveremos:
Exemplo:
Os funcionários de certa empresa ganham em média R$ 400,00 mensais, com
desvio padrão de R$ 40,00. Qual a probabilidade de um funcionário ganhar um salário
mensal entre R$ 380,00 e R$ 410,00?
Solução:
Temos que:
78
Os valores 0,1915 e 0,0987, correspondem respectivamente à localização dos
valores 0,50 e 0,25 na tabela normal padrão a seguir (a tabela completa está no final
da aula).
79
Exemplo:
Sabe-se que o faturamento diário de um restaurante segue uma distribuição de
média R$ 20 mil e desvio padrão de R$ 2 mil. Qual a probabilidade, em um período
de 60 dias, do faturamento total ultrapassar R$ 1230 mil?
Solução:
Seja X o faturamento diário do restaurante, em mil reais. Sabemos que:
80
81
Áreas sob a curva normal padrão.
(Para os valores negativos de z as áreas são obtidas por simetria)
82
22 BIBLIOGRAFIA BÁSICA
BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. 8ª ed., São Paulo: Editora
Saraiva, 2013.
BIBLIOGRAFIA COMPLEMENTAR
83