Você está na página 1de 10

Estatística e Propabilidade

Conteúdo da Disciplina:
Estatística Descritiva
Propabilidades
Estatística Indutiva

Frequência absoluta de medidas: em um conjunto de dados é a frequência de vezes que


um valor aparece em quantidade em um conjunto de dados.

Frequência relativa (Fr) de cada medida de um conjunto de dados é uma relação


estabelecida entre a Frequência Absoluta (Fa) e o número da Amostra (N), e para
sabermos a Frequência Relativa devemos apenas dividir a Frequência Absoluta pelo
número total da Amostra:
Fr = Fa / N

Percentual de cada medida em um conjunto de dados é quanto cada quantidade vale em


porcentagem em relação ao todo, basta multiplicar a Frequência Relativa por 100:
Perc% = Fr . 100

Medidas de tendência central em um conjunto de dados representam uma forma de


sintetizar as caractristicas desse conjunto da dados, também chamadas de medidas de
posição e podem ser na forma de médias, modas e medianas.

Média = soma todos os valores apresentados e divide o resultado da soma pelo


número de elementos somados.
Cálculo das médias das frequências absolutas, multiplicamos cada medida pela sua
frequência absoluta de ocorrência, somamos todas as multiplicações de meidas pela
suas respectivas frequências absolutas, dividimos a soma anterior pela quantidade
total de medidas.

Moda = o valor mais frequente no conjunto, ou seja o que aparece mais vezes,
e se não tive uma moda o conjunto dedos é chamado amodal, já se tiver duas modas
chama-se bimodal, se tiver três modas trimodal e assim por diante.

Mediana = o valor que se encontra na posição central se o número de elementos


do conjunto por ímpar e deve-se escrever os valores do conjunto de dados em ordem
crescente para adquirir a mediana. Caso o conjunto de elementos for par, pega-se os
dois valores centrais, faz a soma deles e os divide por dois, assim adquirindo a
nossa mediana.

Medidas de dispensão de um conjunto de dados avaliam de modo mais amplo o


comportamento de um conjunto de valores e são medidas feitas por amplitude,
variância e
desvio-padrão.
Amplitude (A) = diferença entre o Maior Valor Apesentado (MVO) e o Menor
Valor Apresentado (mvo) em um conjunto de dados.
A = MVO - mvo

Variância e Desvio-padrão servem para observar se a variabilidade de um conjunto de


dados é grande ou pequena.
Variância (VAR) = em medidas de conjunto de dados representa a diferença
entre cada uma das medida observadas e a média dessas medidsas elevado ao quadrado
e dividido pelo total de amostras.

Desvio-padrão (DP) = simplesmente é a raiz quadrada da variância, e mostra se


a variabilidade do conjunto de dados é grande ou pequena em relação a média de
valores, e se o desvio-padrão for igual a zero significa que o conjunto é formado
por valores idênticos, já se o desvio-padrão for pequeno comparada a média
significa que esse conjunto é formado por valores que pouco variam entre sí, e se o
descio-padrão for grande em relação a média significa que oo conjunto é formado por
valores que variam muito entre sí.

Nota: logo para podermos obter o Desvio-padrão de um conjunto de dados, devemos ter
a média desse conjunto para fazermos a Variância para finalmente obtermos o Desvio-
padrão.
Média = x1 + x2 + x3 / 3
Variância = (x1 - média)2 + (x2 - média)2 + (x3 - média)2 / 3
Desvio-padrão = raiz quadrada da variância

Probabilidade = estudo das chances de ocorrência de um resultado, que são obtidas


pela razão entre casos favoráveis e casos posíveis.
P = P(sucesso) = Número de casos favoráveis / Número de casos possíveis
Como o número de casos favoráveis é menos que o número de casos possíveis, a
probabilidade P varia de 0 até 1. Muitas vezes, a probabilidade P é multiplicada
por 100 para expressarmos o resultado em percentual (%). Os resultado possíveis de
uma amostragem são chamados de espaço amostral.

Probabilidade da união e da interseção de eventos


Imaginemos por exemplo dois dados, cada um com seu respectivo evento, no caso do
dado um, por exemplo termos o evento A de cair a face três e no segundo dado o
evento B de cair a face cinco.
Logo as probabilidades de ocorrência são P(A) e P(B).
A probabilidade da ocorrência de A ou B, ou seja, a probabilidade da ocorrência da
união dos eventos A e B, indicada por P(A u B), é dada por:
P(A u B) = P(A) + P(B) - P(A n B)

u = União | n = intersecção

Na igualdade acima, chamada de regra de adição de probabilidades, P(A n B) indica a


probabilidade de ocorrência de A e B, ou seja, a aprobabilidade de ocorrência da
intersecção dos eventos A e B.

Exemplo:
Qual a probabilidade de um dos 1253 estudantes de Ciências da Computação do
turno diurno de uma faculdade com 6283 alunos de diversos cursos ser sorteado?
Nota: C = Ciências da Computação | D = Diurno | P = Probabilidade

Intersecção = P(C n D) = 1253 / 6283 = 0,1994

Qual a probabilidade de o estudante sorteado cursar Ciências da Computação ou


estudar no turno diurno? (dados estudantes de Ciências da Computação = 3609 e
estudantes do turno diurno = 2617)

P(C u D) = P(C) + P(D) - P(C n D)


P(C u D) = 0,5744 + 0,4165 - 0,1994 = 0,7915

Probabilidade Condicional:
Vamos indicar por A e B dois eventos do espaço amostral E, cujas probabilidades de
ocorrência são, respectivamente, P(A) e P(B).
A probabilidade de ocorrência de A dado que B ocorreu, ou seja, a probabilidade
condicional de A dada a ocorrência de B, indicada por P(A / B) e lida como "pê de A
dado B", é dada por:
P(A / B) = P(A n B) / P(B)

Eventos Independentes:
Vamos indicar por A e B dois eventos do espaço amostral E, cujas probabilidades de
ocorrência são, respectivamente, P(A) e P(B).
Os eventos A e B são independentes se informações a respeito da ocorrência ou da
não ocorrência de A não interferem na probabilidade de ocorrência de B, dada por:
P(A / B) = P(A) e P(A n B) = P(A) . P(B)

Função discreta de probabilidade de uma variável aleatória:


Principais modelos de distribuição discreta de probabilidade:
Modelo uniforme discreto
Modelo de Bernoulli
Modelo Binomial

Modelo uniforme discreto: todos os possíveis valores da variável aleatória discreta


tem a mesma probabilidade P de ocorrência.

Modelo de Bernoulli: usado em experimentos aleatórios que admitem apenas um dos


resultados a seguir:
Sucesso, em que a variável aleatória secreta assume o valor 1.
Fracasso, em que a variável aleatória secreta assume o valor 0.
Se aprobabilidade de sucesso for p, a probabilidade de fracasso será 1 - p, visto
que há apenas duas situações (sucesso ou fracasso) e a soma das probabilidades de
todos os resultados possíveis dá 1.

Modelo binomial: a variável discreta X que corresponde ao número de sucessos


obtidos na realização de n ensaios de Bernoulli independentes, todos com a mesma
probabilidade P de sucesso, segue modelo binomial de parâmetros n e p e é indicada
por "X ~ b(n;p)".

Imagine que, nesses n ensaios, consideremos a probabilidade de ocorrência de k


sucessos (e, evidentemente n - k fracassos). Essa probabilidade, indicada por P(X =
k), é calculada por:
P(X = k) = (n k) p^k (1 - p)^n-k

(n k) = n! / k!(n - k)!

Função de densidade de probabilidade: operam com variáveis aleatória contínuas,


cujo valores ocorrem de modo aleatório eu cujo o domínio está em um intervalo de
números reais, ou seja diferentemente das variáveis aleatórias discretas, as
variáveis aleatórias contínuas podem assumir "infinots" valores, ou seja, não
conseguimos listar individualmente todos os seus possíveis valores.

Modelo uniforme contínuo: a função densidade de probabilidade f(x) da variável


aleatória contínua X no intervalo [a;b], ou seja, para a ≤ X ≤ b, é dada por:
f(x) = 1 / b - a

Para essse tipo de distribuição, se x < a ou se x > b, f(x) = 0.

Pense na reta real (reta "contínua" em que temos número reais). Imagine que um
número seja escolhido aleatoriamente no segmento [3;8] dessa reta. Qual a
probabilidade de que o ponto escolhido se encontre entre 5,2 e 7,1?

f(x) = 1 / b - a =
f(x) = 1 / 8 - 3 =
f(x) = 1 / 5 =
f(x) = 0,2

Numéricamente, essa probabilidade é igual à área do retângulo mostrado pelo


gráfico.
A base B do retângulo mede 7,1 - 5,2 = 1,9 e a sua altura H mede 0,2. Logo a àrea A
do retângulo é 0,38, visto que A = B . H (A = 1,9 . 0,2 | A = 0,38).
Concluímos que a probabilidade de que o ponto escolhido se encontre entre 5,2 e 7,1
é igual a 0,38 (ou 38%).

Modelo normal:
A distribuição normal de probabilidade também é chamada de gaussiana.
No modelo normal, a função de densidade de probabilidade f(x) da variável aleatória
contínua X, é dada por:

f(x) = 1 / σ √2 e 1 / 2 (x - σ - μ / σ)^2

(Bem como o cálculo disso é grotescamente complicado ficaremos com a


simplificada que funciona com o auxílio de uma tabela e é chamada de normal
reduzida ou normal padrão):
z = X - μ

A probabilidade de termos a ≤ x < b no caso de uma variável aleatória contínua X


que segue modelo normal, representada por P(a ≤ x < b), é numericamente igual à
área delimitada pelo gráfico f(x), pelo eixo x e pelas retas verticais x = a e x =
b.

Exemplo de modelo de distribuição normal:


P(0 < Z < 1,68)
Inicialmente vamos determinar P(Z < 1,68). Como 1,68 é o resultado da soma de
1,6 e 0,08; na tabela normal reduzida, entramos com 1,6 na horizontal e com 0,08 na
vertical e chegamos a P(Z = 1,68) = 0,9535.
Sabemos que a área total delimitada pela curva normal (gaussiana) e pelo eixo
horizontal vale 1. Como a curva normal reduzida tem média 0 (ela é simétrica em
relação a essa média), a área da região à esquerda de média vale 0,5; que é metade
de área total sob a curva, e essa área equivale à probabilidade P(Z < 0).
Como queremos P(0 < Z < 1,68), devemos fazer:

P(0 < Z < 1,68) = P(Z < 1,68) - P(Z < 0)


P(0 < Z < 1,68) = 0,9535 - 0,5
P(0 < Z < 1,68) = 0,4535

Estatística indutiva: caracterizada pelo uso de técnicas que possibilitam avaliar


caracteísticas de uma população por meio do estudo de uma amostra dela.
Ela nasce da ideia de que nem sempre uma amostra grande é uma amostra boa.

Ao trabalharmos com estatística indutiva, de modo geral, chamamos de X a varíavel


aleatória que representa a caractrística que queremos estudar em dada população.
Dessa população retiramos uma amostra de tamanho N representada por (X1, X2, ...,
Xi, ..., Xn).
A partir disso precisamos definir: parâmetro, estimador e estimativa.

Parâmetro: é a quantidade da caractrística da população que estamos estudando. Na


maioria das vezes, não conhecemos tal valor. Por isso utilizamos uma estimativa
para fazer inferências.
Exemplo:
.μ (média) é o parâmetro cujo valor fornece o peso médio das pessoas entre 15
e 65 anos que moram na cidade fictícia, chamada de Novo Brasil, que tem cerca de 5
mil habitantes;
.σ^2(variância) é o parâmetro cujo valor fornece a variância do peso médio
das pessoas entre 15 e 65 anos que moram na cidade Novo Brasil.
.Veja que, nos exemplos apresentados, a população é formada por todas as
pessoas entre 15 e 65 anos que moram na cidade Novo Brasil.

Estimador: representa o resultado da amostra usado para estimar determinado


parâmetro populacional, é uma variável aleatória que depende dos componetes X1, X2,
..., Xi, ..., Xn da amostra.
Exemplo:
.x̅ é o símbolo estimador usado para estimar o parâmetro peso médio das
pessoas entre 15 e 65 anos que moram na cidade Novo Brasil.
.Imagine que para contituirmos este estimador, usamos uma amostra aleatória
formada por 12 pessoas entre 15 e 65 anos que moram na cidade Novo Brasil.
.Essa amostra, de tamanho n = 12, é representada por (X1, X2, ..., X12).

Suponha que o estimador x̅ seja a média das observações X1, X2, ..., X12. Assim,
nesse caso temos:

x̅ = X1 + X2 + ... + X12 / 12

Um bom estimador deve ser:


Não viciado (seu valor esperado é o valor do parâmetro em foco);
Consistente (quanto mais aumentarmos o tamanho da amostra, mais seu valor
converge para o "valor" do parâmetro em foco e mais sua variância vai para 0).

Estimativa: é o valor "específico" de um esmtimador quando usamos valores


"específicos" de determinada amostra.
Exemplo:
Imagine que para determinada amostra de 12 pessoas entre 15 e 65 anos que
moram na cidade Novo Brasil, tenhamos observado os valores a seguir de pesos, em
kg.
(X1, X2, X3, X4, X5, X6, X7, X8, X9, X10, X11, X12) = (58, 67, 76, 57, 69,
77, 72, 63, 65, 54, 51, 66)
Admita que a "fórmula" do estimador X empregado para estimar o peso médio da
população da cidade Novo Brasil seja a média das observações X1, X2, ..., X12
conforme já vimos:
x̅ = X1 + X2 + ... + X12 / 12

Se aplicarmos os valores da amostra coletada à expressão anterior, obtmos uma


estimativa pontual, indicada por x̅ obs, para a média populacional μ:

x̅ obs = 58 + 67 + 76+ 57 + 69 + 77 + 72 + 63 + 65 + 54 + 51 + 66 / 12

x̅ obs = 775 / 12

x̅ obs = 64,6 kg.

Teorema central do limite (TCL):


Amostra aleatória simples de tamanho “n" de uma população cujos parâmetros são μ e
σ.
Considere os seus estimadores média amostral X e variância amostral S^2 calculadas
por:

x̅ = X1 + X2 + ... + Xi + ... + Xn / n

Observe que diferentes amostras geram diferentes médias amostrais. Por exemplo A,
B, C e
D, geram, respectivamente, médias amostrais x̅A, x̅B, x̅C e x̅D.

Se n é suficientemente grande, a distribuição das médias amostrais comporta-se como


uma
distribuição normal, que tem como média a média populacional (μ) e como variância a
variância populacional (σ) dividida pela raiz quadrada do tamanho da amostra (√2).

Assim, o TCL garante que, em amostras aleatórias simples grandes, a distribuição da


média amostral é a seguinte:
x̅ ~ n (μ; σ^2 / n)

O TCL é importante pois assegura que a média amostral de uma mostra aleatória
simples é um estimador não viciado para a média populacional.
Isso significa que, se extraírmos muitas amostras aleatórias simples de uma mesma
população e calculássemos a média das médias amostrais, ela seria muito próxima da
média populacional verdadeira.
Esse teorema aponta que a média amostral é um estimador bastante eficiente, pois a
variância da média amostral é inversamente proporcional ao tamanho da amostra.
Por exemplo:
Como a variância da média amostral é igual σ^2 / n, caso tenhamos uma amostra
de peso de 1000 crianças, a variância da média amostral do peso será 1000 vezes
menor do que a variância amostral do peso das crianças.

Os estimadores apresentados até agora são chamados de estimadores pontuais, pois


estimam por meio de "números fixos", os valores (parâmetros) de média populacional
μ e da variância populacional σ^2.

Estimadores intervalares:
Muitas vezes é interessante utilizar estimadores intervalares, em vez de
estimadores pontuais, dizendo que:

A média populacional μ situa-se, com determinado coeficiente de confiança c,


entre μ - a e μ + a, ou seja, no intervalo de confiança:
|C = [μ - a;μ + a]

A variância populacional σ^2 situa-se com determinado coeficiente de


confiança, entre σ^2 - b e σ^2 + b, ou seja no intervalo de confiança:
|C = [ σ^2 - b, σ^2 + b]

Teste de hipótese: tem o objetivo de, com base nas características de uma amostra
representativa de uma população, concluir informações sobre a população como um
todo, atividade conhecida comoinferência estatística.
Exemplo:
O tempo de retífica de peça em uma máquina é uma variável aleatória contínua
e segue uma distribuição normal de probabilidades com média igual a 120s e desvio
padrão igual a 5s.
Essa máquina será suvstituída por outra, mais nova, cujo o tempo de retífica
segue a mesma distribuição.
É verdadeira a suspeita de que o tempo médio da retífica da peça diminua?

A resposta pode ser dada por meio de um teste de hipóteses.


Neste teste , tornamos uma hipótese como referência: trata-se da hipótese
nula, indicada po Ho.
Prosseguimos fazendo uma comparação entre a hipótese nula e uma hipótese
alternativa, indicada por Ha.

Para a situação em estudo, vamos chamar de X a variável aleatória contínua


que representa o tempo, em segundos, que a máquina leva para retificar a peça.
Sabemos que X segue uma distribuição normal da média μ = 120s e desvio padrão
σ = 5s, ou seja, de variância σ^2 = 5^2 = 25s^2, o que é indicado por:
X ~ N (120;25).

Queremos testar a hipótese a seguir:


Hipótese nula (Ho): o tempo médio de retífica permanece igual a 120s com a
máquina nova.
Ho: μ = 120s
Hipótese alternativa (Ha): o tempo médio de retífica é menor do que 120s com
a máquina nova.
Ha: μ < 120s

Não sabemos exatamente o que vai acontecer, visto que a hipótese nula (Ho) e
hipótese alternativa (Ha) são conjecturas (suposições) que fazemos sobre um
parâmetro populacional que não conhecemos.

Erro tipo I (falso positivo) ocorre quando rejeitamos Ho, sendo Ho, na
realidade, verdadeira.
Erro tipo II (falso negativo) ocorre quando não rejeitamos Ho, sendo Ho, na
realidade, falsa.

As decisões em que não cometemos erros são as seguintes:


Rejeitamos Ho, e Ho é falsa.
Não rejeitamos Ho, e Ho é verdadeira.

Vamos chamar de "α" a probabilidade de ocorrência do erro tipo I e de "β" a


probabilidade de ocorrência de erro tipo II. Assim temos:

A probabilidade α é chamada de nível de significância do teste e está


relacionada ao controle do erro tipo I.
α = P(erro tipo I) = P(rejeitar Ho/Ho é verdadeira)

A probabilidade β é chamada de poder do teste e está relacionada ao controle


do erro tipo II.
β = P(erro tipo II) = P(não rejeitar Ho/Ho é falsa)

Observação: a soma das probabilidadesa e b não resulta em 1 (ou 100%). Mas,


quanto mais diminuímos α, mais aumentamos β.

Voltemos para à situação da nova máquina retificadora.


Imagine que façamos uma amostra de 30 tempos de retificação.
Para dado nível de significância α do teste de hipóteses, descrevemos o valor
crítico Xc, conforeme segue:

α = P(erro tipo I) = P(rejeitar Ho/Ho ser verdadeira) = P(x̅ < 120 / μ =120)

Imagine que adotemos nível de significâmcia de 5% (α = 0,05). Assim, ficamos


com:

0,05 = P(x̅ < 120 / μ =120)

Vimos, pelo TCL, que, se a variável X segue uma distribuição normal de média
μ e variância σ^2, ou seja, X ~ N(μ;σ^2), então a probabilidade com média μ e
variância σ^2 / 2, ou seja X ~ N(μ;σ^2 / 2). Logo:

Z = x̅ - μ / σ/√n ~ N(0;1)

Imagine que façamos uma amostra de 30 tempos de retificação da máquina nova, ou


seja, obtemos uma amostra de tamanho n = 30. Assim, para o exemplo em estudo temos:

0,05 = P(x̅ < 120 / μ =120) = P(x̅ - μ / σ/√n < Xc - 120 / 5/√30)

Chamemos x̅ - μ / σ/√n de Z e Xc - 120 / 5/√30 de Zc e chegamos a : 0,05 = P(Z < Zc)

Queremos achar Zc.

Então precisamos encontrar "dentro" da tabela normal reduzida, o valor 0,95, em que
o valor mais próximo é de 0,9505, que corresponde a Z* = 1,65.
Como Z* = 1,65 e Z* = -Zc, então Zc = -1,65

Zc = Xc -120 / 5/√30

-1,65 = Xc - 120 / 5/√30

-1,65 . 5/√30 = Xc - 120

-1,65 . 5/5.5 = Xc - 120

-1,65 . 0,9090909091 = Xc - 120

-1,5 = Xc -120

Xc = 120 - 1,5

Xc = 118,5

Podemos dizer que testar uma hipótese estatística é estabelecer uma regra que
possibilite , com base na informação de uma amostra, decidir pela rejeição ou pela
não rejeição da hipótese nula (Ho).

No caso em análise, com uma amostra de tamnho n = 30, essa regra, expressa pela
região crítica (RC) ao nível de significância de 5% (a = 0,05), é dada por X <
118,5s.

Com uma mostra de tamanho n = 30, o conjunto de valores de tempo, representada pela
variável X, que levam à não aceitação da hipótes Ho é dado por X < 118,5.
Ou seja, se a média mostral dos tempos resultar em tempo menor que 118,5s, ao nível
de significância de 5%, não aceitaremos que o tempo médio da nova máquina seja
igual a 120 segundos (nesse caso, aceitaremos a hipótese alternativa - Ha, segundo
a qual o tempo médio da nova máquina é menor do que 120s).
No entanto, se uma amostra de 30 tempos de retificação da máquina nova tivermos a
média amostral de 119s, por exemplo, não vamos concluir, ao nível de significância
de 5%, que o tempo médio de retificação da nova máquina é menor que 120s. Fazendo
com que não rejeitemos a hipótese nula (Ho).

Etapas em um teste de hipótese para média com variância populacional conhecida.

Etapa 1: Estabelecer as hipóteses Ho e Ha em relação ao valor da média amostral de


referência μo, em que podemos ter o caso 1 (unilateral a esquerda), o caso 2
(unilateral a direita) ou o caso 3 (bilateral).

Caso 1 Caso 2
Caso 3
Ho: μ = μo Ho: μ = μo
Ho: μ = μo
Ha: μ < μo Ha: μ > μo
Ha: μ ≠ μo

Etapa 2: definir uma regra de decisão com base em Ha, em que Xc representa o valor
crítico e RC representa a região crítica (zona de rejeição de Ho).

Regra 1 Regra 2
Regra 3
Ha: μ < μo Ha: μ > μo
Ha: μ ≠ μo
Rejeitar Ho se x̅ ≤ Xc Rejeitar Ho
se x̅ ≥ Xc Rejeitar Ho se x̅ ≤ Xc1 ou se x̅ ≥ Xc2

Etapa 3: identificar o estimador e o tipo de distribuição de probabilidades que


essa variável aleatória segue.
Por exemplo:
Se a variável aleatória populacional X segue uma norma de média μ e variância
σ^2, ou seja, X ~ N(μ;σ^2), então a variável aleatória amostral x̅, relativa a uma
amostra de tamanho n, segue uma normal de média μ e variância σ^2/n, ou seja, x̅ ~
N(μ;σ^2 / n).

Etapa 4: fixar o nível de significância α (ou seja, a probabilidade de rekeitar Ho,


sendo ho verdadeira) e determinar a RC.

Etapa 5: concluir o teste verificando se o valor da média observado na amostra,


indicado por x̅obs, pertence ou não pertence à RC.

Testes qui-quadrado:
Teste de aderência: visam a testar se tal modelo probabilístico é adequado a
determinado cunjunto de dados. Nesses testes, verificamos se a distribuição das
frequências absolutas de fato observadas de uma variável é significativamente
diferente da distribuição das frequências absolutas esperadas para essa variável.

Teste de independência: visam a testar se há independência entre duas variáveis A e


B.

Exemplo de teste de independência:


Imagine que a fábrica Chocolate Delicioso produza 4 tipos de chocolate: Choc
A, Choc B, Choco C e Choc D.
O gestor dessa fábrica quer saber se a preferância por tipo de chocolate é ou
não é independente do local de moradia do consumidor (zona sul, zona norte ou zona
central).
Para isso, fez uma pesquisa com 1320 consumidorese obteve as observações
apresentadas a seguir.

O que se pode concluir dessas observações ao nível de significância de 5%?

Local de moradia Tipo de chocolate preferido


Choc A Choc B Choc C
Choc D Total

Zona sul 11 9 5
28 53
Zona norte 91 165 126
75 457
Zona central 202 257 221
130 810
Total 304 431 352
233 1320

As hipóteses a serem testadas são:


Hipótese nula (Ho): a preferência por determinado tipo de chocolate não
depende do local em que o consumidor mora.
Hipótese alternativa (Ha): a preferência por determinado tipo de chocolate
depende do local em que o consumidor mora.

Encontramos o total "n" de 1320 observações dividido em;


4,02% dos 1320 consumidores moram na zona sul, pois (53/1320) . 100% = 4.02%.
34,62 dos 1320 consumidores moram na zona norte, pois (457/1320) . 100% =
34,62%.
61,36% dos 1320 consumidores moram na zona central, poins (810/1320) . 100% =
61,36%.

Se há independência entre o local em que o consumidor mora e o tipo de chocolate


que ele prefere, temos as quantidades esperadas mostradas na tabela a seguir.
Como se trata de quantidades teóricas, para fins de cálculos, consideraremos
valores não inteiros, mesmo sabendo que o número de consumidores é inteiro.

Exemplo de cálculo para adquirir a quantidade esperada de consumidores:


Quantidade esperada de consumidores que moram na zona sul e preferem Choc A: 12,22.

(% de moradores da zona sul) . (número de consumidores que preferem Choc A) /


100% =

4,02 . 304 / 100% =

12,22.

Na tabela a seguir, temos, na coluna a direita, as quantidades observadas e nas


colunas a direita, as quantidades esperadas de consumidores.

Local de moradia Tipo de chocolate


preferido
Choc A Choc B Choc
C Choc D Total

Zona sul 11 12,22 9 17,33 5


14,15 28 9,37 53
Zona norte 91 105,24 165 149,21 126
121,86 75 80,66 457
Zona central 202 186, 53 257 264,46 221
215,99 130 142,97 810
Total 304 431 352
233 1320

Coeficiente de correlação
Será que essas duas variáveis estão relacionadas ou correlacionadas entre si
de maneira aproximadamente linear?

X -2,1 1,5 3,3 5,6 8,8


Y -4,4 2,8 6,1 10,1 18,3

Temos um coeficiente, chamado de coeficiente de correlação e indicado por R, que


quantifica o grau de associação entre duas variáveis. Esse coeficiente é cálculado
pela expressão, em que n é o número de pares (X;Y).

Regressão linear:
Muitas vezes, queremos saber qual é a reta que se ajusta da melhor maneira aos
pontos de um gráfico de dispersão.
Nesse caso, usamos o chamado método dos mínimos quadrados para estimar os
coeficientes m e n de uma função do primeiro grau y = m . x + n (cujo gráfico é uma
reta) que minimizam a soma dos quadrados dos resíduos vindos da diferença entre os
valores y efetivamente observados e os seus valores esperados E(Y/X = x).

Você também pode gostar