Escolar Documentos
Profissional Documentos
Cultura Documentos
NEGÓCIOS
CAPÍTULO 02 – PROBABILIDADE
Para muitos, a estatística não passa de conjuntos de tabelas de dados numéricos. E os estatísticos pessoas
que coletam esses dados.
Falando um pouco da história, a estatística originou-se com a coleta e construção de tabelas de dados para
os governos. A situação evoluiu e atualmente, ela está presente em qualquer área do conhecimento, com
um papel importante de organizar, descrever, analisar e interpretar dados oriundos de estudos ou
experimentos.
A Estatística pode ser definida como: a ciência de coletar, organizar, apresentar, analisar e interpretar dados
numéricos com o objetivo de tomar melhores decisões. (LARSON, 2016)
A estatística descritiva é a etapa inicial da análise utilizada para organizar, descrever e resumir o
comportamento dos dados. A disponibilidade de uma grande quantidade de dados e de métodos
computacionais muito eficientes revigorou está área da estatística.
Conjuntos de dados desorganizados são de pouco ou nenhum valor. Para que os dados se transformem em
informação é necessário organizá-los, resumi-los e apresentá-los. O resumo de conjuntos de dados é feito
através das medidas de tendência central ou de dispersão e a organização e apresentação através das
distribuições de frequências e dos gráficos ou diagramas.
A teoria de probabilidades nos permite descrever os fenômenos aleatórios, ou seja, aqueles em que está
presente a incerteza.
A probabilidade é a ciência que está nos bastidores das principais tecnologias do século 20 e início do século
21. Não conseguimos imaginar o dia em que não utilizamos a probabilidade em nossas ações rotineiras. Por
exemplo, ao consultarmos a previsão de tempo ou, ao realizarmos jogos da loteria estamos sob os princípios
da teoria da probabilidade.
E, por fim, a inferência estatística é o estudo de técnicas que possibilitam a extrapolação, a um grande
conjunto de dados, das informações e conclusões obtidas a partir da amostra.
Tem como objetivo estudar generalizações sobre uma população através de evidências fornecidas por uma
amostra retirada desta população. A amostra contém os elementos que podem ser observados e é onde as
quantidades de interesse podem ser medidas, e como tudo faz parte da atividade diária da maioria das
pessoas.
1. ESTATÍSTICA DESCRITIVA
O conjunto de todos os elementos que se deseja estudar é denominado de população. Note-se que o termo
população é usado num sentido amplo e não significa, em geral, conjunto de pessoas.
Pode-se definir uma população como sendo o conjunto de elementos sobre o qual incide o estudo estatístico
e que apresentam uma ou mais características em comum. Esse conjunto pode ser o conjunto das rendas de
todos os habitantes de Fortaleza ou o conjunto de todas as notas dos alunos da disciplina de estatística da
Unichristus.
A cada elemento da população nomeia-se Unidade Estatística. O número de elementos de uma população,
ou seja, o número de unidades estatísticas é designado de Dimensão Populacional. E essa dimensão
populacional pode ser finita ou infinita.
• Dimensão populacional ou população finita: em uma população finita é possível enumerar todos os
elementos que a formam. Refere-se a um universo limitado. Exemplos: Quantidade de celulares
produzidos por uma indústria por mês; A população da cidade de Fortaleza; O número de alunos nos
cursos de EAD da Unichristus.
• Dimensão populacional ou população infinita: em uma população infinita os seus elementos não
podem ser mensurados. Refere-se a um universo não delimitado. Exemplos: Os resultados (cara ou
coroa) obtidos em sucessivos lançamentos de uma moeda; O conjunto de números inteiros, reais ou
naturais; os pontos de uma reta.
Um levantamento efetuado sobre toda uma população é dito de levantamento censitário ou simplesmente
censo. Fazer levantamentos, estudos, pesquisas, sobre toda uma população (censo) é, em geral, muito difícil.
Isto se deve à vários fatores. O principal é o custo. Um censo custa muito caro e demanda um tempo
considerável para ser realizado.
Assim, normalmente, se trabalha com partes da população denominadas de amostras. Uma amostra pode
ser caracterizada como um subgrupo ou subconjunto da população, que pode ser estudado para investigar
as características ou o comportamento dos dados populacionais.
A primeira técnica é a aleatória simples, é o processo mais elementar, basta atribuir um número a cada
elemento da população em estudo e em seguida escolhe-se os elementos por meio de sorteio. Das Amostras
Probabilísticas é a mais utilizada pela simplicidade de aplicação.
A segunda técnica é a sistemática. As unidades amostrais são selecionadas a partir de um esquema rígido e
preestabelecido de sistematização, com o propósito de cobrir a população em toda sua extensão, a fim de
obter um modelo sistemático simples e uniforme. Exemplo: vamos supor que sejam escolhidos os elementos
da população baseado nos números múltiplos de 3. Então, serão escolhidos os elementos da população que
possuem a numeração múltipla de 03, isto é, 3, 6,9,12.... e assim sucessivamente.
A terceira técnica é a estratificada, são identificados vários estratos de uma população e para cada estrato é
determinada a amostra. O número de sujeitos por estrato pode ser igual ou proporcional à população de
cada um destes estratos.
Essa situação deve ser considerada quando selecionamos uma amostra para mantermos a
representatividade da população. Uma amostra aleatória simples pode não incluir elementos
representativos de um ou mais estratos. Neste caso, pode-se realizar uma amostragem estratificada que é
obtida simplesmente tomando amostras de cada estrato da população.
Veja o exemplo: será realizada uma pesquisa com 200 estudantes de uma população de 10 mil. Suponhamos
que o grupo de alunos dessa instituição seja composto de 30% de calouros, 30% de estudantes do primeiro
ano, 20% do segundo e 20% do terceiro. Seria possível estratificar por classes, antes da seleção aleatória,
para garantir que a amostra fosse exata em termos de representação dessas classes. Nesse caso, na técnica
de amostragem estratificada proporcional selecionaríamos, de modo aleatório, 60 estudantes dos 3 mil
calouros; 60 dos 3 mil do primeiro ano; 40 dos 2 mil do segundo ano; e 40 dos 2 mil do terceiro ano. No final,
teríamos uma amostra total de 200 estudantes. Já na amostragem estratificada simples, que não é a mais
apropriada neste contexto, seriam selecionados 50 indivíduos de cada estrato.
A quarta é a amostragem por conglomerados ou clusters, uma técnica que explora a existência de grupos na
população. Esses grupos representam adequadamente a população total em relação a característica que
queremos medir. É utilizada quando dentro de uma população são identificados agrupamentos (Clusters)
naturais; por exemplo, alunos de mestrado no estado do Ceará. Neste tipo de amostragem o elemento focal
não é o sujeito e sim o cluster. Identificados os clusters, utiliza-se alguma das técnicas de amostragem
mostradas para se atingir o tamanho da amostra desejada. Outro exemplo, se desejarmos saber a
escolaridade dos moradores de um bairro de uma determinada cidade brasileira, dividiremos, em um mapa,
esse bairro em pequenas áreas. Após esta divisão, faz-se uma amostragem aleatória simples dessas pequenas
áreas e, nas mesmas, serão entrevistados todos os seus moradores para conhecermos suas escolaridades.
Conforme Bussab et al (2017), podemos definir variável como a característica que é medida ou avaliada em
cada elemento da amostra ou população.
Em resumo, é aquilo que está sendo avaliado na sua pesquisa. Como o próprio nome diz, seus valores variam
de elemento para elemento. E as variáveis podem ter valores numéricos ou não numéricos, e podem ser
classificadas da seguinte forma:
• Variáveis Quantitativas: as variáveis quantitativas são as que podem ser descritas por números,
sendo estas classificadas entre contínuas e discretas.
• Variáveis discretas: a variável é avaliada em números que são resultados de contagens e, por
isso, somente fazem sentido números inteiros. Exemplos: número de filhos, número de bactérias
por litro de leite, número de cigarros fumados por dia.
• Variáveis contínuas: a variável é avaliada em números que são resultados de medições e, por
isso, podem assumir valores com casas decimais e devem ser medidas por meio de algum
instrumento. Exemplos: massa (balança), altura (régua), tempo (relógio), pressão arterial, idade.
• Variáveis Qualitativas: as variáveis qualitativas (ou categóricas) são as que não possuem valores
quantitativos, são definidas por categorias, ou seja, são valores expressos por atributos não
numéricos. E podem ser nominais ou ordinais.
• Variáveis nominais: não existe ordenação dentre as categorias. Exemplos: sexo, cor dos olhos,
fumante/não fumante, doente/sadio.
• Variáveis ordinais: existe uma ordenação entre as categorias. Exemplos: escolaridade (1º, 2º, 3º
graus), estágio da doença (inicial, intermediário, terminal), mês de observação (janeiro,
fevereiro, …, dezembro).
Para se trabalhar com grandes conjuntos de dados é necessário inicialmente agrupar estes dados. O
agrupamento é feito em tabelas, denominadas de distribuições de frequências. Para se construir uma
distribuição de frequências é comum fazer a distinção entre dois tipos de variáveis. A variável (ou conjunto
de elementos) discreta (valores que são resultados de contagem) e a variável (ou conjunto de elementos)
contínua (valores que são resultados de uma medida). Em geral variáveis discretas são agrupadas em
distribuições por ponto ou valores e variáveis contínuas em distribuições por classes ou intervalos. A
separação não é rígida e depende basicamente dos dados considerados.
Considere-se um conjunto de valores resultados de uma contagem. Poderia ser, por exemplo, o número de
irmãos dos alunos matriculados em EAD da Unichristus.
0–1–1–6–3–1–3–1–1–0–4–5–1–1–1–0–2–2–4–1–3–1–2–1–1–1–1–5–5–6–
4–1–1–0–2–1–4–3–2–2–1–0–2–1–1–2–3–0–1–0
Para uma melhor organização, aconselha-se organizar os dados em ordem crescente ou decrescente, pois
facilita as análises. Esta organização dos dados, chamamos de rol. Em nosso exemplo fica desta forma:
0–0–0–0–0–0–0–1–1–1–1–1–1–1–1–1–1–1–1–1–1–1–1–1–1–1–1–1–2–2–
2–2–2–2–2–2–3–3–3–3–3–4–4–4–4–5–5–5–6–6
Esta coleção de valores não constitui informação, mas pode ser transformada em informação mediante sua
representação em uma distribuição de frequências por pontos ou valores. Para tal, coloca-se o conjunto em
uma tabela.
Tabela 01 – Distribuição de frequência por ponto ou valores do número de irmãos dos alunos matriculados em EAD
da Unichristus.
Número de irmãos Número de alunos
0 7
1 21
2 8
3 5
4 4
5 3
6 2
Total 50
Além da frequência simples (fi) temos a frequência relativa (fr) que é definida como sendo o quociente entre
a frequência simples “fi” e o total de dados “n”. No exemplo, o n = 50.
Na tabela tem-se: fr3 = 8 / 50 = 0,16 = 16%, significando que 16% dos alunos em EAD da Unichristus possuem
2 irmãos.
A frequência acumulada simples ou absoluta da linha “i” é definida como sendo a soma das frequências
simples ou absolutas até a linha “i “. Isto é, Fi = f1 + f2 + ... + fi
Na tabela 02, abaixo, estão ilustrados os cálculos das frequências simples, frequência relativas percentuais,
da frequência acumulada simples.
Tabela 02 – Distribuição de frequência por ponto ou valores com frequência simples, relativa e acumulada.
Considere-se um conjunto de valores resultados de uma medida. Poderia ser, por exemplo, a quantidade de
celulares vendidos durante os últimos 30 meses em uma determinada loja.
17 – 19 – 21 – 23 – 23 – 24 – 25 – 26 – 28 – 29 – 29 – 30 – 30 – 33 – 33 – 35 – 36 – 36 – 36 – 37 – 39 – 40 –
42 – 43 – 49 – 50 – 50 – 59 – 59 – 79.
Neste caso é necessário construir uma tabela denominada de distribuição de frequências por classes ou
intervalos.
Baseado no passo a passo ficou estabelecido as 05 classes definidas para o exemplo. Em seguida definimos
os cálculos das frequências simples, frequência relativas percentuais, da frequência acumulada simples
Tabela 03 – Estrutura de classes com frequência simples, relativa e acumulada.
Classes fi fr Fi
17 Ⱶ 30 11 36,7 11
30 Ⱶ 43 12 40 23
43 Ⱶ 56 4 13,3 27
56 Ⱶ 69 2 6,7 29
69 Ⱶ 82 1 3,3 30
30 100%
Observações:
Uma distribuição de frequências por pontos ou valores é apresentada graficamente através de um diagrama
de linhas ou colunas, onde a variável “xi” é representada no eixo das abcissas (horizontal) e as frequências
(que podem ser de qualquer tipo) no eixo das ordenadas (vertical). Veja o diagrama de colunas simples do
exemplo que estabelecemos.
Distribuição de frequências por classes ou intervalos
Se os pontos médios de cada classe de um histograma forem unidos através de segmentos de retas teremos
então um diagrama denominado de polígono de frequências.
As mais importantes medidas de tendência central são a média aritmética, média aritmética para dados
agrupados, mediana, moda e quartis.
Sendo a média uma medida tão sensível aos dados, é preciso ter cuidado com a sua utilização, pois pode dar
uma imagem distorcida dos dados.
17 – 19 – 21 – 23 – 23 – 24 – 25 – 26 – 28 – 29 – 29 – 30 – 30 – 33 – 33 – 35 – 36 – 36 – 36 – 37 – 39 – 40 –
42 – 43 – 49 – 50 – 50 – 59 – 59 – 79.
1080
ẍ =∑ = 36 celulares vendidos por mês
30
A média aritmética de uma distribuição de frequências por pontos ou valores ou ainda por classes ou
𝑓𝑖 . 𝑥𝑖
intervalos é dada por: ẍ =∑
𝑛
Tabela 04 – Distribuição de frequências por pontos ou valores com cálculos para média aritmética
95
ẍ=∑ = 1,90 irmãos
50
Ou seja, o número médio de irmãos dos alunos matriculados em EAD da Unichristus é de 1,90.
Tabela 04 – Distribuição de frequências por classes ou intervalos com cálculos para média aritmética
1.3.3 Mediana
É o valor situado na posição do centro do rol de dados. Se o tamanho da amostra for ímpar, a mediana será
a observação central [(n + 1)/2].
Se o número for par, a mediana será a média aritmética das duas observações centrais [p1 = n/2; p2 = n/2 +
1]
É o valor situado na posição do centro do rol de dados. A mediana de uma distribuição de valores ou pontos
é obtida da mesma forma que para dados não agrupados. Se o tamanho da amostra for ímpar, a mediana
será a observação central, isto é, me = (n + 1)/2. Caso n for par, a mediana será a média aritmética das duas
observações centrais, isto é, me = [x(n/2) + x(n/2)+1] / 2.
17 – 19 – 21 – 23 – 23 – 24 – 25 – 26 – 28 – 29 – 29 – 30 – 30 – 33 – 33 – 35 – 36 – 36 – 36 – 37 – 39 – 40 –
42 – 43 – 49 – 50 – 50 – 59 – 59 – 79.
me = [x50/2 + x(50/2)+1] / 2 = [x25 + x26] / 2 = (1 + 1) / 2 = 1, pois da oitava posição até a vigésima oitava
posição todos os valores são iguais a um, e a mediana é a média entre os valores que se encontra na vigésima
quinta e vigésima sexta posição.
A mediana de uma distribuição de frequências por classes ou intervalos é dada pela seguinte expressão:
𝑛
( 2 )−𝐹𝑖−1
ɱe = li + hi [
𝑓𝑖
], onde
li = limite inferior da classe mediana, isto é, a classe que contém o ou os valores centrais;
Considerando que a classe mediana, no exemplo, é a que contém os valores x15 e x16, isto é, a segunda
classe, vem:
Tabela 06 – Distribuição de frequências por classes ou intervalos com cálculos para mediana
Classes fi Fi
17 Ⱶ 30 11 11
30 Ⱶ 43 12 23
43 Ⱶ 56 4 27
56 Ⱶ 69 2 29
69 Ⱶ 82 1 30
30
𝑛
( 2 )−𝐹𝑖−1
ɱe = li + hi [
𝑓𝑖
], me = 30 + 13 [(15)−11
12
] 4
12
1
, me = 30 + 13 [ ], me = 30 + 13 [ ], me = 30 +
3
13
[
3
], me = 34 celulares
1.3.4 Moda
É o valor que apresenta a maior frequência. A moda de uma distribuição de valores ou pontos é obtida da
mesma forma que para dados não agrupados, ou seja, observando o valor ou os valores que mais se repetem.
mo = 36, pois este valor com uma frequência de 03 é o que mais se repete.
𝑓𝑖+1
ɱo = li + hi [
(𝑓𝑖−1)+(𝑓𝑖+1)
], onde
li = limite inferior da classe modal, isto é, a classe de maior frequência;
𝑓3 4 4 52
ɱo = 30 + 13 [
(𝑓1)+(𝑓3)
], ɱo = 30 + 13 [
(11+4)
], ɱo = 30 + 13 [ ], ɱo = 30 + [ ], ɱo = 30 +
15 15
1.4.1 Amplitude
Como já vimos, a amplitude de uma distribuição de frequências é definida como sendo a diferença entre os
valores extremos da distribuição, isto é: h = xmax - xmin, para a distribuição por pontos ou valores e h = ls - li,
para a distribuição por classes ou intervalos.
1.4.2 Variância
Variância é uma medida de dispersão usada para expressar o quanto um conjunto de dados se desvia da
média. Mas não muito utilizada em análises de dispersão, porém é a base para o cálculo do desvio padrão.
VARIÂNCIA POPULACIONAL
𝜮 (𝒙 − 𝝁)²
𝝈² =
𝑵
VARIÂNCIA AMOSTRAL
𝜮 (𝒙 − ẍ)²
𝒔² =
𝒏−𝟏
O Desvio padrão é a raiz quadrada da variância. Indica o quanto um conjunto de dados é uniforme. Quanto
mais próximo de 0 for o desvio padrão, mais homogêneo são os dados, isto é, mais próximo da média será o
resultado.
𝜮 (𝒙 − 𝝁)²
𝝈= √
𝑵
DESVIO PADRÃO AMOSTRAL
𝜮 (𝒙 − ẍ)²
𝒔= √
𝒏−𝟏
Exemplo
17 – 19 – 21 – 23 – 23 – 24 – 25 – 26 – 28 – 29 – 29 – 30 – 30 – 33 – 33 – 35 – 36 – 36 – 36 – 37 – 39 – 40 –
42 – 43 – 49 – 50 – 50 – 59 – 59 – 79.
Em outras palavras, um desvio padrão grande significa que os valores amostrais estão bem distribuídos em
torno da média, enquanto um desvio padrão pequeno indica que eles estão condensados próximos da média.
Em poucas palavras, quanto menor o desvio padrão, mais homogênea é a amostra.
1.5. Separatrizes
As separatrizes são valores que dividem a distribuição em um certo número de partes iguais: a mediana
divide em 2 partes iguais, os quartis dividem em 4 partes iguais, sendo a mais utilizada nas análises
descritivas, os decis em 10 partes iguais e os centis em 100 partes iguais.
O objetivo das separatrizes é proporcionar uma melhor ideia da dispersão do conjunto, principalmente da
simetria ou assimetria da distribuição.
1.5.1 Quartis
O primeiro quartil ou quartil inferior (Qi) é o valor do conjunto que delimita os 25% menores valores: 25%
dos valores são menores do que Qi e 75% são maiores do que Qi. O segundo quartil ou quartil do meio é a
própria mediana (Md), que separa os 50% menores dos 50% maiores valores.
O terceiro quartil ou quartil superior (Qs) é o valor que delimita os 25% maiores valores: 75% dos valores são
menores do que Qs e 25% são maiores do que Qs.
2º Quartil (Q2)
Limite inferior 1º Quartil ou Mediana 3º Quartil Limite superior
(Q1) (Q3)
25 50 75 100
% % % %
Como são medidas baseadas na ordenação dos dados, primeiro é preciso calcular a posição dos quartis.
Exemplo:
60 – 65 – 66 – 67 – 68 – 68 – 69 – 70 – 71 – 72 – 77
𝑄1 = 3 → 𝑄1 = 66
𝑄3 = 9 → 𝑄3 =71
Logo, 25% das observações estão abaixo de 66 e 75% estão acima de 66.
Bem como, 75% das observações estão abaixo de 71 e 25% estão acima de 71
1.6. Assimetria
Uma Distribuição é Simétrica quando seus valores de Média, Mediana e Moda coincidem. A comparação
entre o valor da Média e o valor da Moda, dá, portanto, uma indicação da inclinação da distribuição.
A assimetria pode ser avaliada através da seguinte relação devida a Karl Pearson:
a1 = 3(x - me) / s
Se a1 for igual a zero então a distribuição (ou conjunto) é dito simétrico. Se a1 > 0 então a assimetria é
positiva significando que o gráfico da distribuição tem uma cauda alongada à direita. Caso a1 seja negativo a
cauda do gráfico será alongada à esquerda.
é: x = me = mo.
2.1.1. CONJUNTOS
As idéias básicas da teoria dos conjuntos foram desenvolvidas pelo Matemático Alemão Georg
Cantor (1845-1918) em 1875 mais ou menos.
A palavra conjunto é indefinida. Para escrever um conjunto usam-se chaves. Os elementos de um
conjunto são escritos separados por vírgula e a ordem em que são escritos é irrelevante. Se o
conjunto é infinito usa-se três pontos para indicar o fato. O nome de um conjunto é escrito com
letra mai- úscula, enquanto os dos seus elementos com letra minúscula. Alguns conjuntos tem
representação es- pecial como, por exemplo, o conjunto dos números naturais: N .
O número de elementos de um conjunto é denominado de número cardinal ou simplesmente
cardinal do conjunto. Representa-se por n(A) e lê-se “ene de A”.
Em muitas situações existe a idéia declarada ou implícita de um universo de discurso. Este universo
inclui todas as coisas em discussão a um dado tempo. Com conjuntos, o universo do discurso é
denominado de conjunto universal ou conjunto universo. Este conjunto é normalmente
representa- do pela letra U. O conjunto universo pode variar de situação para situação.
A idéia de conjunto universal foi dada pelo logicista John Venn (1834-1923) que desenvolveu
diagramas de conjuntos conhecidos como Diagramas de Venn. Venn comparou o conjunto universo
ao nosso campo de visão. Ele mantém as coisas que focamos e ignora tudo o resto.
A interseção dos conjuntos A e B, representada por AB, é o conjunto formado pelos elementos
comuns a A e a B, ou AB = { x | x A e x B }
Dois conjuntos A e B que não possuem elementos em comum, isto é, tais que AB = são
denominados conjuntos disjuntos.
No par ordenado (a, b), “a” é denominado de primeira componente e “b” é chamada de segunda
componente. Em geral (a, b) (b, a).
Assim AxB = { (a, b) | a A e b B }.
Note-se que AxB não é igual a BxA, embora a ordem em que os pares são escritos dentro de cada
conjunto não seja importante, o que importa é a ordem dentro do par e não entre pares.
Se n(A) = a e n(B) = b então n(AxB) = ab.
Outras propriedades que podem ser verificadas através dos diagramas são:
As leis de De Morgan (em homenagem ao lógico Britânico Augustus de Morgan (1805-1871)):
(AB)’ = A’UB’
(AUB)’ = A’B’
Propriedade comutativa:
B
AUB = BUA
AB = BA
Propriedade associativa:
(AUB)UC = AU(BUC)
(AB) C = A (BC)
Figura 1.1- Exemplo de um diagrama de Venn
Propriedade distributiva:
A (BUC) = (AB)U(AC)
AU(BC) = (AUB) (AUC)
Propriedades da identidade:
AU = A e AU = A
2.1.2. FATORIAL
Um professor comprou 5 novos livros e quer colocá-los lado a lado em uma estante. Quantos
maneiras diferentes existem de colocar os 5 livros?
Para o primeiro espaço, existem 5 escolhas possíveis, uma para cada livro. Uma vez colocado o
primeiro livro, restam 4 escolhas para o segundo espaço e assim por diante. Então o número de
escolhas diferentes é: 5.4.3.2.1 = 120. Este tipo especial de multiplicação tem um símbolo próprio:
5!. De um modo geral se dispomos de um número n, então o produto acima é representado por n!
e é lido “ene fatorial”, isto é:
• ....................................................,
O número de permutações, ou arranjos, de “n” objetos distintos, tomados “r” a cada vez, onde r
n, é dado por:
P(n, r) = n(n - 1)(n - 2) ... (n - r + 1).
Exemplo
Calcular cada permutação: P(4, 2) = 4.3 = 12
P(7, 3) = 7.6.5 = 210
P(5, 5) = 5.4.3.2.1 = 120 = 5!
O número de permutações pode ser expresso em função do fatorial da seguinte forma:
P(n, r) = n! / (n - r)!
Permutações também podem ser realizadas com itens duplicados. Por exemplo, de quantas
maneiras diferentes pode-se arranjar a palavra zoo? (A idéia aqui é que o conjunto, das letras, da
palavra zoo, contém dois elementos “o” indistingüíveis, não que um único “o” é repetido. Desta
forma, se está lidando com itens duplicados e não com repetições. Uma vez que, dois “o” podem
ser arranjados em 2! diferentes maneiras, o número de arranjos diferentes (ou distinguíveis) é:
3! / 2! = 3 (zoo, ozo, ooz) Desta forma, pode-se definir:
Se uma coleção de “n” objetos contém n1 que são idênticos, outros, n2 que são idênticos entre
si, mas diferentes dos primeiros n1 e assim sucessivamente, até nk, então o número de arranjos
distinguíveis de todos os “n” objetos é dado por:
n! / (n1!n2!...nk!)
Exemplo
Quantos arranjos distintos podem ser feitos com as letras da palavra “estatística”?
Solução:
Neste caso tem-se um total de 11 letras, das quais n1 = 2 (o “s” ocorre duas vezes), n2 = 3 ( o “t”
ocorre 3 vezes), n3 = 2 ( o “a” ocorre duas vezes) e n4 = 2 ( a letra “i” ocorre duas vezes). Então,
existem:
Considere-se “n” elementos tomados “r” a “r”, onde são permitidas as repetições, isto é, o mesmo
elemento pode ocorrer mais de uma vez. Então o número de permutações (arranjos), não
necessariamente distintos, é dado por: nr, isto é:
P(n, r) = nr
Exemplo
Uma urna contém bolas vermelhas, brancas e pretas. Uma bola é extraída e após anotada a sua cor
volta para a urna. Então uma segunda bola é extraída e anotada igualmente a cor. Quantas são as
possíveis seqüências de cores observadas?
Solução:
Como cada extração fornece uma cor entre { V, B, P } o número de seqüências possíveis é, pelo
princípio fundamental da contagem: 3.3 = 32 = 9.
2.1.3. COMBINAÇÕES.
Existem certos arranjos onde a ordem entre os elementos não é importante, por exemplo, para
calcular a probabilidade de acertar a sena, a quina, etc. não é necessário saber a ordem em que os
números foram sorteados, mas apenas a combinação de números. Permutações (arranjos) onde a
ordem não interessa são denominadas de combinações.
O número de combinações de “n” objetos tomados em grupos de “r” é representado por C(n,r)
| |
O número de combinações, ou subconjuntos, de “n” objetos tomados em grupos de “r”, onde r
n é dado por:
C(n, r) = P(n, r) / r! = n! / r!(n - r)!
Exemplo
Uma forma comum de pôquer consiste em mãos (conjuntos) de cinco cartas cada, retiradas de um
baralho padrão de 52 cartas. Quantas mãos diferentes são possíveis?
Solução:
Neste caso a ordem não é importante, pois uma dada mão de cartas depende apenas das cartas que
ela contém e não da ordem específica que elas foram dadas. Neste caso, então, aplica-se o conceito
de combinação:
A ciência manteve-se até pouco tempo atrás, firmemente apegada à lei da “causa e efeito”. Quando
o efeito esperado não se concretizava, atribuía-se o fato ou a uma falha na experiência ou a uma
falha na identificação da causa. Não poderia haver quebra da cadeia lógica. Segundo Laplace (Pierre
Simon) uma vez conhecidas a vizinhança, a velocidade e a direção de cada átomo no universo,
poder-se-ia, a partir daí, predizer com certeza, o futuro até a eternidade.
Sabe-se hoje, através do princípio da incerteza , que não é bem assim. Que não existem meios que
permitam determinar os movimentos dos elétrons individuais se conhecido a sua velocidade,
conforme o estabelecido em 1927, pelo físico alemão W. Heinsenberg.
2.2.1. MODELOS
Conforme J. Neymann, toda a vez que se emprega Matemática com a finalidade de estudar algum
fenômeno deve-se começar por construir um modelo matemático. Este modelo pode ser:
determinístico ou então probabilístico.
É um modelo em que de antemão não é possível explicitar ou definir um resultado particular. Este
modelo é especificado através de uma distribuição de probabilidade. É utilizado quando se tem um
grande número de variáveis influenciando o resultado e estas variáveis não podem ser controladas.
Tome-se por exemplo, o lançamento de um dado onde se tenta prever o número da face que irá
sair, a retirada de uma carta de um baralho, etc.
O modelo estocástico é caracterizado como um modelo probabilístico que depende ou varia com o
tempo.
Não existe uma definição satisfatória de Experimento Aleatório. Por isto é necessário ilustrar o
conceito um grande número de vezes para que a idéia fique bem clara. Convém lembrar que os
exemplos dados são de fenômenos para os quais modelos probabilísticos são adequados e que por
simplicidade, são denominados de experimentos aleatórios, quando, de fato, o que deveria ser dito
é “modelo não-determinístico aplicado a um experimento”.
• Não se pode adiantar um resultado particular, mas pode-se descrever todos os resultados
possíveis
DEFINIÇÃO
É o conjunto de todos os resultados possíveis de um experimento aleatório. Anota-se por S, E ou .
Exemplo
Determinar o espaço amostra dos experimentos anteriores. Si refere-se ao experimento Ei.
S1 = { 1, 2, 3, 4, 5, 6 }
S2 = { 0, 1, 2, 3, 4 }
S3 = { cccc, ccck, cckc, ckcc, kccc, cckk, kkcc, ckck, kckc, kcck, ckkc, ckkk, kckk, kkck, kkkc, kkkk}
S4 = { 3, 4, 5, 6, 7, 8, 9 , 10 }
S5 = { t / t 0}
S6 = { 1, 2, 3, 4, 5,... }
S7 = { 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 }
S8 = { (1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6)
(2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6)
(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6)
(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)
(5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6)
(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6) }
2.2.4. EVENTOS
S é o evento certo;
{ a } é o evento elementar e
é o evento impossível.
Convém observar que tecnicamente todo subconjunto de um espaço amostra é um evento apenas
quando ele for finito ou, então, infinito enumerável. Se o espaço amostra é infinito não enumerável
é possível construir subconjuntos que não são eventos. Se S é finito, isto é, #(S) = n então o número
de eventos possíveis é #P(A) = 2n.
2.2.4.1. COMBINAÇÃO DE EVENTOS
Pode-se realizar operações entre eventos da mesma forma que elas são realizadas entre con- juntos.
Antes de definir as operações é conveniente conceituar o que se entende por ocorrência de um
evento.
Seja E um experimento com um espaço amostra associado S. Seja A um evento de S. É dito que o
evento A ocorre se realizada a experiência, isto é, se executado E, o resultado for um elemento de A.
Sejam A e B dois eventos de um mesmo espaço amostra S. Diz-se que ocorre o evento:
AB
AB
A-B
A'
Seja E um experimento aleatório e S um espaço amostra associado formado por “n” resultados
igualmente prováveis. Seja A S um evento com “m” elementos. A probabilidade de A, anotada
por P(A), lê-se pe de A, é definida como sendo:
P(A) = m / n
Exemplo
Solução:
S = { 1, 2, 3, 4, 5, 6 } n = #(S) = 6
ii. A definição não pode ser aplicada quando o espaço amostral é infinito.
Na prática acontece que nem sempre é possível determinar a probabilidade de um evento. Neste
caso é necessário ter um método de aproximação desta probabilidade. Um dos métodos utilizados
é a experimentação que objetiva estimar o valor da probabilidade de um evento A com base em
valores reais. A probabilidade avaliada através deste processo é denominada de probabilidade
empírica.
2.2.3.2.1. Freqüência relativa de um evento
Exemplo
• Uma moeda foi lançada 200 vezes e forneceu 102 caras. Então a frequência relativa de
“caras” é: frA = 102 / 200 = 0,51 = 51%
• Um dado foi lançado 100 vezes e a face 6 apareceu 18 vezes. Então a frequência relativa
do evento A = { face 6 } é: frA = 18 / 100 = 0,18 = 18%
Definição
Esta definição, embora útil na prática, apresenta dificuldades matemáticas, pois o limite pode não
existir. Em virtude dos problemas apresentados pela definição clássica e pela definição freqüencial,
foi desenvolvida uma teoria moderna, na qual a probabilidade é um conceito indefinido, como o
ponto e a reta o são na geometria.
2.2.4. DEFINIÇÃO AXIOMÁTICA DE PROBABILIDADE
Seja E um experimento aleatório com um espaço amostra associado S. A cada evento A S associa-
se um número real, representado por P(A) e denominado “probabilidade de A”, que satisfaz as
seguintes propriedades (axiomas):
(i) 0 P(A) 1;
(ii) P(S) = 1;
(iv) Se A1, A2, ..., An, ..., forem, dois a dois, eventos mutuamente excludentes, então:
Suponha-se que se quer extrair duas peças ao acaso de um lote que contém 100 peças das quais 80
peças são boas e 20 defeituosas, de acordo com os critérios (a) com reposição e (b) sem reposição.
Define-se os seguintes eventos:
Então, se a extração for com reposição P(A) = P(B) = 20 / 100 = 1 / 5 = 20%, porque existem 20 peças
defeituosas num total de 100.
Agora se a extração for sem reposição tem-se ainda que P(A) = 20 / 100 = 20%, mas o mesmo não é
verdadeiro para P(B). Neste caso, é necessário conhecer a composição do lote no momento da
extração da segunda peça, isto é, é preciso saber se a primeira peça retirada foi ou não defeituosa.
Neste caso é necessário saber se A ocorreu ou não. O que mostra a necessidade do conceito de
proba- bilidade condicionada.
2.2.5.1. DEFINIÇÃO
Sejam A e B dois eventos de um espaço amostra S, associado a um experimento E, onde P(A) > 0. A
probabilidade de B ocorrer condicionada a A ter ocorrido, será representada por P(B/A), e lida como:
“probabilidade de B dado A” ou “probabilidade de B condicionada a A”, e calculada por:
No exemplo acima, então P(B/A) = 19 / 99, pois se A ocorreu (isto é, se saiu peça defeituosa na
primeira retirada) existirão na urna apenas 99 peças das quais 19 defeituosas.
Sempre que se calcular P(B/A) está se calculando a probabilidade de ocorrência do evento B em
relação ao espaço amostra reduzido A, ao invés de fazê-lo em relação ao espaço amostral original
S.
Quando se calcula P(B) está se calculando a probabilidade de estar em B, sabendo-se que se está
em S, mas quando se calcula P(B/A) está calculando a probabilidade de B, sabendo-se que se está
em A agora e não mais em S, isto é, o espaço amostra fica reduzido de S para A.
(i) 0 P(B/A) 1,
(ii) P(S/A) = 1,
(iv) P(B1B2 ..../A) = P(B1/A) + P(B2/A) + ... se Bi Bj = para i j. Observe-se que estas propriedades
são idênticas aos axiomas de probabilidade.
Pode-se também comparar P(A/B) e P(A). Para tanto considere-se os quatro casos ilustrados nos
diagramas abaixo:
Tem-se:
(b) P(A/B) = P(AB) / P(B) = [P(A) / P(B)] P(A), já que P(A) P(B), pois A B.
(d) Neste caso nada se pode afirmar sobre o relacionamento entre P(A/B) e P(A).
B A
B
A B A B
P(A/B) = P(A) ou
P(B/A) = P(B) ou ainda se
P(AB) = P(A) . P(B)
Qualquer uma das 3 relações acima pode ser usada como definição de independência.
Exemplo
Três componentes C1, C2, e C3, de um mecanismo são postos em série (em linha reta). Suponha que
esses componentes sejam dispostos em ordem aleatória. Seja R o evento { C2 está à direita de C1 },
e seja S o evento { C3 está à direita de C1 }. Os eventos R e S são independentes? Por quê?
Solução:
Definição
Diz-se que os conjuntos A1, A2, ..., An eventos de um mesmo espaço amostra S, formam uma partição
deste espaço se:
Exemplo
Considere-se o espaço amostra obtido pelos números das faces no lançamento de um dado
equilibrado e sejam os eventos:
A1 = { 1, 2, 3 }, A2 = { 4, 5 } e A3 = { 6 }
Então, pode-se verifica facilmente que, os eventos acima formam um partição do espaço amostra S
= { 1, 2, 3, 4, 5, 6 }.
É claro que, alguns destes conjuntos B Aj, poderão ser vazios, mas isto não representa nenhum
problema na decomposição de B. O importante é que todos os conjuntos B A1, B A2, ..., B An
são dois a dois mutuamente excludentes. E por isto, pode-se aplicar a propriedade da adição de
eventos mutuamente excludentes e escrever.
P(B) = P[(B A1) (B A2) ... (B An)] = P(B A1) + P(B A2) + ... + P(B An)
Mas cada um dos termos P(B Aj) pode ser escrito na forma:
Exemplo
Uma determinada peça é manufaturada por 3 fábricas: A, B e C. Sabe-se que A produz o dobro de
peças que B e que B e C produzem o mesmo número de peças. Sabe-se ainda que 2% das peças
produzidas por A e por B são defeituosas, enquanto que 4% das produzidas por C são defeituosas.
To- das as peças produzidas são misturadas e colocadas em um depósito. Se do depósito for retirada
uma peça ao acaso, qual a probabilidade de que ela seja defeituosa?
Solução:
Considerem-se os seguintes eventos:
Tem-se então que: P(A) = 50%, P(B) = P(C) = 25%, uma vez que só existem as 3 fábricas e que A
produz o dobro de B e esta por sua vez produz a mesma quantidade que C. Sabe-se também que
P(D/A) = P(D/B) = 2% e que P(D/C) = 4%.
Suponha-se que no exemplo acima, uma peça é retirada do depósito e se verifica que é defeituosa.
Qual a probabilidade de que tenha sido produzida pela fábrica A? ou B? ou ainda C?
Pela notação já vista acima, e generalizando a questão o que se está interessado em obter é a
probabilidade de ocorrência de um dos Ai dado que B ocorreu, isto é, o que se quer é saber o valor
de P(Ai / B), onde os eventos A1, A2, ..., An formam uma partição de S e B é um evento qualquer de
S.
P(Ai / B) = P(Ai B) / P(B) = P(Ai).P(B / Ai) / P(B), onde P(B) é avaliado pelo teorema da probabilidade
total. Este resultado é conhecido como teorema de Bayes. Assim:
Exemplo
P(A / D), isto é a probabilidade de ter sido produzida pela máquina A dado que a peça é defeituosa
é: P(A / D) = P(A). P(D / A) / P(D) = 0,02.0,50 / (0,5.0,02 + 0,25.0,02 + 0,25.0,04) = 0,40 = 40%
Definição:
Seja X uma VAD definida por X = número de vezes que A ocorreu nas “n” repetições de E. A variável
aleatória X é denominada de variável aleatória Binomial. O conjunto de valores de X, isto é, X(S) é:
X(S) = { 0, 1, 2, 3, ..., n }
Teorema:
Exemplo
Considerando X como sendo a VAD igual a “número de vezes que ocorre face cara em 5 lançamentos
de uma moeda não viciada”, determinar a probabilidade de ocorrer:
(a) Duas caras
(b) Quatro caras
(c) No máximo duas caras
Solução:
n = 5 = número de lançamentos.
Então:
𝐟(𝐱) = 𝐏(𝐗 = 𝐱) = (𝟓𝒙). 𝟎, 𝟓𝒙 . 𝟎, 𝟓𝒏−𝒙 , para x = 1, 2, 3, 4, 5.
Assim como ocorre com as variáveis discretas, existem algumas distribuições especiais de
probabilidade contínuas que por sua frequência de uso vale a pena estudar mais detalhadamente.
Entre elas vale destacar a distribuição normal.
Um dos principais modelos de distribuição contínua é a curva normal ou de Gauss. Sua importância
para a Estatística (prática) reside no fato que muitas variáveis encontradas na natureza se
distribuem de acordo com o modelo normal. Uma variável aleatória contínua X tem uma
distribuição normal se sua função densidade de probabilidade for do tipo:
𝟏 𝟏 𝒙−𝝁
f(𝒙) = exp [− ( ) ²]
√𝟐𝝅𝝈² 𝟐 𝝈
Para achar a área sob a curva normal devemos conhecer dois valores numéricos, a média e o desvio
padrão. A Figura a seguir mostra algumas áreas importantes:
Para cada valor de 𝝁 e/ou 𝝈 temos uma curva de distribuição de probabilidade. Porém, para se
calcular áreas específicas, faz-se uso de uma distribuição particular: a "distribuição normal
padronizada", também chamada de Standartizada ou reduzida, o qual é a distribuição normal com
𝝁 = 0 e 𝝈 = 1. Para obter tal distribuição, isto é, quando se tem uma variável X com distribuição
normal com média 𝝁 diferente de 0 (zero) e/ou desvio padrão 𝝈 diferente de 1 (um), devemos
reduzi-la a uma variável Z, efetuando o seguinte cálculo:
𝒙 −𝒖
Z= 𝝈
Por ser uma distribuição muito usada, existem tabelas a qual encontramos a resolução de suas
integrais. Assim, a tabela fornece áreas acima de valores não negativos que vão desde 0,00 até 4,09.
Exemplo:
Suponha que o peso médio de 800 porcos de uma certa fazenda é de 64kg, e o desvio padrão é de
15kg. Supondo que este peso seja distribuído de forma normal, quantos porcos pesarão entre 42kg
e 73kg.
Solução:
𝑥 −64
Para resolvermos este problema primeiramente devemos padronizá-lo, ou seja, Z = 15
42 −64
Então o valor padronizado de 42kg é de Z = ≈ - 1,47
15
Assim a probabilidade é de
Portanto, o número aproximado que se espera de porcos entre 42kg e 73kg é 800 . 0,6549 ≈ 524
3. INTERVALO DE CONFIANÇA
3.1 ESTIMAÇÃO
A inferência estatística tem por objetivo fazer generalizações sobre uma população com base
em valores amostrais. A inferência pode ser feita estimando os parâmetros:
(a) Por ponto
(b) Por intervalo.
A estimação por ponto é feita através de um único valor, enquanto que a estimação por intervalo
fornece um intervalo de valores em torno do valor da estimativa pontual.
Exemplo:
Uma amostra aleatória simples de 400 pessoas de uma cidade é extraída e 300 respondem que
acham a administração municipal boa ou ótima. Então o valor p = 300/400 = 75% é uma estimativa
por ponto do percentual de pessoas da cidade que acham a administração boa ou ótima. Esta
mesma estimativa poderia ser enunciada como de: 70% a 80% das pessoas da cidade acham a
administração boa ou ótima. Neste caso, teríamos uma estimativa por intervalo da proporção. Note-
se que o centro do intervalo é o valor “75%” da estimativa pontual.
Exemplo:
Uma população tem um desvio padrão igual a 10 e média desconhecida. Uma amostra de
tamanho n = 100 é retirada e fornece uma média x = 50. Qual o intervalo de 95% de confiança
para a média desta população?
Solução:
Tem-se 1 - = 95%, então = 5% e / 2 = 2,5%. O coeficiente de confiança que deve ser buscado
na normal padrão é valor z/2 de Z tal que:
P(Z > z/2) = 2,5%, ou então: (-z/2) = 2,5%.
Este valor vale 1,96. Então o intervalo de confiança de 95% para a média desta população será,
conforme a fórmula: [50 – 1,96; 50 + 1,96] = [48,04; 51,96], ou seja, pode-se afirmar com uma
certeza de 95% de que este intervalo conterá a média desta população.
z/2 é o valor da distribuição normal padrão cuja área à direita é igual a /2. É o valor de Z tal que:
P(Z > z/2) = /2, ou então: (-z/2) = /2.
Exemplo:
Numa pesquisa de mercado, 400 pessoas foram entrevistadas sobre sua preferência por
determinado produto. Destas 400 pessoas, 240 disseram preferir o produto. Determinar um
intervalo de confiança de 95% de probabilidade para o percentual de preferência dos consumidores
em geral para este produto.
Solução:
Tem-se 1 - = 95%, então = 5% e / 2 = 2,5%. O coeficiente de confiança que deve ser buscado
na normal padrão é valor z /2 de Z tal que:
P(Z > z/2) = 2,5%, ou então: (-z/2) = 2,5%.
Este valor vale 1,96. A estimativa por ponto para a proporção populacional será: p = f/n =
240/400 = 0,60 = 60%.
Então o intervalo de confiança de 95% para a proporção populacional será:
4. TESTE DE HIPÓTESES
Um dos principais assuntos da Estatística moderna é a inferência estatística. A inferência estatística
é dividida em dois grandes tópicos: a estimação de parâmetros e os testes de hipóteses.
No desenvolvimento dos métodos da estatística moderna, as primeiras técnicas de inferência que
apareceram foram as que faziam diversas hipóteses sobre a natureza da população da qual se
extraíram os dados. Como os valores relacionados com a população são denominados
“parâmetros”, tais técnicas estatísticas foram denominadas de paramétricas.
4.2 AS HIPÓTESES
Uma hipótese estatística é uma suposição ou afirmação que pode ou não ser verdadeira, relativa a
uma ou mais populações. A veracidade ou falsidade de uma hipótese estatística nunca é conhecida
com certeza, a menos que, se examine toda a população, o que é impraticável na maior parte das
situações.
Desta forma, toma-se uma amostra aleatória da população de interesse e com base nesta amostra
é estabelecido se a hipótese é provavelmente verdadeira ou provavelmente falsa. A decisão de que
a hipótese é provavelmente verdadeira ou falsa é tomada com base em distribuições de
probabilidade denominadas de “distribuições amostrais”. Em estatística trabalha-se com dois tipos
de hipótese.
A hipótese nula é a hipótese de igualdade. Esta hipótese é denominada de hipótese de nulidade e
é representada por H0 (lê-se h zero). A hipótese nula é normalmente formulada com o objetivo de
ser rejeitada. A rejeição da hipótese nula envolve a aceitação de outra hipótese denominada de
alternativa. Esta hipótese é a definição operacional da hipótese de pesquisa que se deseja
comprovar. A natureza do estudo vai definir como deve ser formulada a hipótese alternativa. Por
exemplo, se o teste é do tipo paramétrico, onde o parâmetro a ser testado é representado por ,
então a hipótese nula seria: H0 : = 0 e as hipóteses alternativas seriam:
H1 : = 1 (Hipótese alternativa simples) ou
H1: 0; > 0 ou < 0. (Hipóteses alternativas compostas)
No primeiro caso, H1: 0, diz-se que o teste é bilateral (ou bicaudal), se H1: > 0, diz-se que o
teste é unilateral (ou unicaudal) à direita e se H1: < 0, então, diz-se que o teste é unilateral (ou
unicaudal) à esquerda.
= 455
População Não rejeitar a hipótese
Valor hipotético
do parâmetro. Qual é a magnitude da
Diferença
diferença entre o valor
pequena
Selecionada observado da estatística e
Aleatoriamente o valor hipotético do Diferença grande
parâmetro?
Amostra
Valor observado Rejeitar a hipótese
da estatística. x = 435
Figura 01 - A lógica dos testes de hipóteses
Tem uma distribuição normal com média “0” e desvio padrão “1”. A variável resultante Z se encontra
tabelada. Qualquer livro de Estatística traz esta tabela que fornece os valores desta variável, para z
variando de -3,9 até 3,9 em intervalos de 0,1 (aproximação decimal), entre -3,9 e -3,0 e entre 3,0 e
3,9, e em intervalos de 0,01 (aproximação centesimal) para os valores entre -3,0 e 3,0.
Supondo-se fixado um nível de significância de = P(Erro do Tipo I), verifica-se na tabela qual o valor
de z (no teste unilateral) ou z/2 (teste bilateral). Rejeita-se H0 (hipótese nula) se o valor de z
calculado na expressão acima for:
(i) Maior do que z (no teste unilateral à direita);
(ii) Menor do -z (no teste unilateral à esquerda) e
(iii) Maior que z/2 ou menor que -z/2 (no teste bilateral).
Exemplo
A associação dos proprietários de indústrias metalúrgicas está preocupada com o tempo perdido
em acidentes de trabalho, cuja média, nos últimos tempos, tem sido da ordem de 60 hora /homens
por ano com desvio padrão de 20 horas/homem. Tentou-se um programa de prevenção de
acidentes e, após o mesmo, tomou-se uma amostra de 9 indústrias e mediu-se o número de
horas/homem perdidas por acidente, que foi de 50 horas. Você diria, ao nível de 5%, que há
evidência de melhoria?
Solução
As hipóteses a serem testadas são:
H0: = 60 hora/homens
H1: < 60 hora/homens
A evidência amostral para sugerir que a média baixou é dada através da amostra de n = 9
(elementos) que forneceu x = 50 horas/homens. Vamos testar se esta diferença de 10 horas/homens
é ou não significativa ao nível de 5%. Para isto é necessário padronizar o resultado amostral.
Z = (50 – 60) / 20 /√9) = - 1,50
Para saber se este valor (-1,50) é pouco provável é necessário compará-lo com o valor crítico - z
(pois se trata de um teste unilateral à esquerda), que neste caso vale -1,64, já que o nível de
significância foi fixado em 5%. Vê-se portanto que o valor amostral não é inferior ao valor crítico,
não estando portanto na região de rejeição. Isto quer dizer que a diferença apresentada na amostra
não é suficientemente grande para provar que a campanha de prevenção deu resultado. Então a
conclusão é:
“Não é possível ao nível de 5% de significância afirmar que a campanha deu resultado, isto é, rejeitar
H0. ”
Convém lembrar que o fato de não rejeitar a hipótese nula, não autoriza a fazer afirmações a
respeito da veracidade dela. Ou seja, não se provou H0, pois no momento que se aceita a hipótese
nula, o risco envolvido é o do Tipo II, e este neste caso não está fixado (controlado). O teste de
hipóteses é feito para rejeitar a hipótese nula e sua força está na rejeição. Assim quando se rejeita
se prova algo, mas quando se aceita, nada se pode afirmar.
(b) desconhecido
A distribuição t de Student
Quando o desvio padrão populacional () é desconhecido é necessário estimá-lo através do desvio
padrão da amostra (s). Mas ao substituir o desvio padrão da população na expressão não teremos
mais uma distribuição normal.
De fato, conforme demonstrado por W. S. Gosset (Student) a distribuição da variável:
t = (X - X ) / s/√n
Não é mais normal padrão. Ao substituir por s na expressão teremos uma distribuição parecida
com a normal, isto é, simétrica em torno de zero, porém com uma variabilidade maior. Desta forma
a distribuição “t” é mais baixa no centro do que a normal padrão, mas mais alta nas caudas.
A distribuição t de Student encontra-se tabelada em função de n = tamanho da amostra ou então
em função de n - 1 denominado de graus de liberdade da distribuição. Neste caso cada linha de uma
tabela se refere a uma distribuição particular e cada coluna da tabela a um determinado nível de
significância. Conforme a tabela o nível de significância poderá ser unilateral ou bilateral. Em todo
caso é necessário sempre ler no cabeçalho ou no rodapé da tabela as explicações sobre como ela
está estruturada.
Desta forma a diferença entre o teste para a média de uma população com conhecido e um com
desconhecido é que é necessário trocar a distribuição normal padrão pela distribuição “t “ de
Student.
Exemplo
O tempo médio, por operário, para executar uma tarefa, tem sido 100 minutos. Introduziu-se uma
modificação para diminuir este tempo, e, após certo período, sorteou-se uma amostra de 16
operários, medindo-se o tempo de execução gasto por cada um. O tempo médio da amostra foi 85
minutos com desvio padrão de 12 minutos. Este resultado evidencia uma melhora no tempo gasto
para realizar a tarefa? Apresente as conclusões aos níveis de 5% e 1% de significância e diga quais
as suposições teóricas necessárias que devem ser feitas para resolver o problema.
Solução
A suposição teórica necessária é admitir que a distribuição da população de onde foi extraída a
amostra segue uma normal pois n < 30.
H0: = 100
H1: < 100
Considerando, então, um teste unilateral à esquerda e tendo = 5% ( = 1%) tem-se que a região
de rejeição é constituída por RC = [-, -1,753].(RC = [-, -2,602])
O valor de teste é:
t = (X - X ) / s/√n = (85 – 100) / (12/4) = -5
Como este valor pertence as duas regiões críticas, pode-se rejeitar a hipótese nula, aos níveis de 5%
e 1% de significância, isto é, neste caso, pode-se afirmar que a modificação diminuiu o tempo de
execução da tarefa.
A estatística teste a ser utilizada é a proporção amostral “P”, que para amostras grandes (n > 50)
tem uma distribuição aproximadamente normal com média:
P = , e desvio padrão
δP = √(1− ) /n
Exemplo
As condições de mortalidade de uma região são tais que a proporção de nascidos que sobrevivem
até 60 anos é de 0,60. Testar esta hipótese ao nível de 5% de significância se em 1000 nascimentos
amostrados aleatoriamente, verificou-se 530 sobreviventes até os 60 anos.
Solução
H1: = 0,60
H0: 0,60
Considerando, então, um teste bilateral e tendo = 5% tem-se que a região de aceitação é
constituída pelo intervalo RA = [-1,96, 196].
O valor de teste é:
Z = (p - ) / δP = (0,53 – 0,60) / √0,60(1- 0,60) /1000 = -4,52
Como este valor não pertence a região de aceitação, pode-se rejeitar a hipótese nula, ao nível de
5% de significância, isto é, neste caso, pode-se afirmar que a taxa dos que sobrevivem até os 60
anos é menor do que 60%. Neste caso, também poderia ser realizado um teste unilateral à
esquerda. Este teste também rejeitaria a hipótese nula, pois para ele o valor crítico z = -1645.
5. CORRELAÇÃO E REGRESSÃO
5.1 CORRELAÇÃO
Ao se estudar uma variável o interesse eram as medidas de tendência central, dispersão, assimetria,
etc. Com duas ou mais variáveis além destas medidas individuais também é de interesse conhecer
se elas tem algum relacionamento entre si, isto é, se valores altos (baixos) de uma das variáveis
implicam em valores altos (ou baixos) da outra variável. Por exemplo, pode-se verificar se existe
associação entre a taxa de desemprego e a taxa de criminalidade em uma grande cidade, entre
verba investida em propaganda e retorno nas vendas, etc.
A associação entre duas variáveis poder ser de dois tipos: correlacional e experimental. Numa
relação experimental os valores de uma das variáveis são controlados pela atribuição ao acaso do
objeto sendo estudado e observando o que acontece com os valores da outra variável. Por exemplo,
pode-se atribuir dosagens casuais de uma certa droga e observar a resposta do organismo; pode-se
atribuir níveis de fertilizante ao acaso e observar as diferenças na produção de uma determinada
cultura.
No relacionamento correlacional, por outro lado, não se tem nenhum controle sobre as variáveis
sendo estudadas. Elas são observadas como ocorrem no ambiente natural, sem nenhuma
interferência, isto é, as duas variáveis são aleatórias. Assim a diferença entre as duas situações é
que na experimental nós atribuímos valores ao acaso de uma forma não tendenciosa e na outra a
atribuição é feita pela natureza.
Suponha-se que queiramos determinar se duas variáveis aleatórias estão de alguma forma
correlacionadas. Por exemplo, suponha-se que se queira determinar se o desempenho dos
empregados no trabalho está de alguma forma associado ao escore obtido num teste vocacional.
Tabela de contingência 2x2. Uma vez que a correlação entre duas variáveis aleatórias reflete o
quanto os altos escores de uma delas implicam em altos escores da outra e baixos escores de uma
implicam em baixos escores da outra e vice-versa, no caso de uma relação negativa, pode-se
começar a análise identificando, justamente quantos elementos de uma das variáveis são altos e
quantos são baixos. Para determinar se um escore ou valor é alto ou baixo, pode-se convencionar
que qualquer valor acima da mediana é alto e qualquer valor abaixo da mediana é baixo.
Classificando desta forma pode-se ter então, para o exemplo, 4 possíveis resultados:
Estas quatro possibilidades podem ser arranjadas em uma tabela de contingência 2x2, como a
mostrada abaixo:
Tabela 1.1 - Desempenho no trabalho e no teste
Escore no teste vocacional
Desempenho no trabalho
Abaixo da mediana (-) Acima da mediana (+)
Acima da mediana (+) (- , +) 10 empregados (+, +) 40 empregados (-, -)
Abaixo da mediana (-) 40 empregados (+, -) 10 empregados
Observe que se não existir relação entre as duas variáveis deve esperar número idêntico de
empregados em cada uma das células da tabela, isto é, se a pessoa o escore da pessoa no teste
vocacional está acima ou abaixo da mediana não tem nada a ver com o seu escore no desempenho
no trabalho estar acima ou abaixo da mediana.
O que pode ser visto na tabela acima é que parece existir uma forte correlação entre as duas
variáveis, pois ao invés de igual número em cada célula o que se tem é um número grande de ambas
as variáveis acima da mediana e um número grande de escores de ambas as variáveis abaixo da
mediana. Das 50 pessoas com escore acima da mediana no teste, 40 deles (80%) apresentaram
escore acima da mediana no desempenho do trabalho. Da mesma forma dos 50 que tiverem
classificações abaixo da mediana, 40 deles apresentaram escore abaixo da mediana no desempenho
do trabalho. Se não houvesse correlação seria de se esperar que dos 50 que tiveram escores acima
da mediana no teste 25 tivessem escores acima da mediana no desempenho do trabalho e 25
abaixo.
A tabela 1.2 mostra outras possíveis saídas para este tipo de esquema de classificação cruzada.
Novamente 100 elementos são classificados em 4 células de acordo com o critério anterior. A parte
(a) da tabela mostra uma associação positiva, a parte (b) uma negativa e a parte (c) que não deve
existir associação entre duas variáveis X e Y.
35 15 15 35 25 25
Abaixo da Abaixo da Abaixo da
mediana mediana mediana
Pela observação da tabela não é fácil perceber o tipo de relacionamento que possa existir entre as
duas variáveis. Para ter uma idéia melhor, as variáveis são colocadas no que é denominado de
diagrama de dispersão. Uma das variáveis (X) é representada no eixo horizontal e a outra variável
(Y) no eixo vertical, conforme figura 1.2.
100
90
80
70
60
Apesar do diagrama de dispersão nos fornecer uma idéia do tipo e extensão do relacionamento
entre duas variáveis X e Y, seria altamente desejável ter um número que medisse esta relação. Esta
medida existe e é denominada de coeficiente de correlação. Quando se está trabalhando com
amostras o coeficiente de correlação é indicado pela letra r que é, por sua vez, uma estimativa do
coeficiente de correlação populacional: (rho).
O coeficiente de correlação pode variar de –1,00 a + 1,00, com um coeficiente de +1, indicando uma
correlação linear positiva perfeita. Neste caso, as duas variáveis serão exatamente iguais em termos
de escores padronizados z, isto é, um elemento apresentando um escore padronizado de 1,5 em
uma das variáveis vai apresentar o mesmo escore padronizado na outra variável. Um coeficiente de
correlação de –1, indica correlação linear perfeita negativa, com os escores padronizados
exatamente iguais em valores absolutos, diferindo apenas no sinal.
Uma correlação de +1 ou –1 é raramente observado. O mais comum é que o coeficiente fique
situado no intervalo entre estes dois valores. Um coeficiente de correlação “0”, significa que não
existe um relacionamento linear entre as duas variáveis.
A suposição básica sobre o coeficiente de correlação é que o relacionamento entre as duas variáveis
seja linear. Isto é, o coeficiente de correlação é adequado para avaliar somente o relacionamento
linear. As duas variáveis podem estar perfeitamente relacionadas, mas se não for de forma linear o
valor do coeficiente pode ser zero ou próximo de zero.
Uma segunda hipótese é que as variáveis envolvidas sejam aleatórias e que sejam medidas no
mínimo em escala de intervalo. Ele não se aplica a variáveis em escala nominal ou ordinal ou quando
uma das variáveis é manipulada experimentalmente, pois neste caso, a escolha dos valores
experimentais vai influenciar o valor de r obtido.
Uma terceira hipótese é que as duas variáveis tenham uma distribuição conjunta normal bivariada.
Isto é equivalente a dizer que para cada x dado a variável y é normalmente distribuída.
Suponha-se que existam apenas duas variáveis X e Y. Uma amostra da variável “X”, assumindo os
valores particulares X1, X2, ..., Xn e uma amostra da variável “Y” assumindo os valores particulares
Y1, Y2, ..., Yn são obtidas e suponha-se ainda que o objetivo é saber se existe algum tipo de
relacionamento linear entre estas duas variáveis. Isto poderá ser medido pelo coeficiente de
correlação que fornece o grau de relacionamento linear entre duas variáveis.
5.1.3. DEFINIÇÃO
Uma população que tenha duas variáveis não correlacionadas linearmente pode produzir uma
amostra com coeficiente de correlação diferente de zero. Para testar se a amostra foi ou não
retirada de uma população de coeficiente de correlação não nulo entre duas variáveis, precisamos
saber qual é a distribuição amostral da estatística r.
Na população o coeficiente de correlação é representado por e na amostra por r. Assim dadas
duas amostras, uma da variável X e outra da variável Y, o coeficiente de correlação amostral poderá
ser calculado através da seguinte expressão:
nΣ Xi . Yi − (Σ Xi).(Σ Y i)
r=
i i
Exemplo:
Quer-se testar se existe ou não correlação linear entre X = toneladas de adubo orgânico por ha e Y
= produção da cultura A por ha. Para tanto é realizado um experimento com duração de 5 anos que
mostrou os resultados da tabela 1.4. Verificar se existe relacionamento linear entre as duas
variáveis.
Tabela 1.4 - Valores das variáveis X e Y
Anos X Y
1989 2 48
1990 4 56
1991 5 64
1992 6 60
1993 8 72
Para saber se há ou não correlação linear entre estas duas variáveis na população de onde foi
retirada esta amostra é necessário realizar um teste de hipóteses, ou seja, é preciso testar:
H0: = 0 (Não existe relacionamento linear na população)
H1: 0 (Existe relacionamento linear na população)
A tabela 1.5 mostra os cálculos necessários para se obter o coeficiente de correlação para esta
amostra das variáveis X e Y.
Tabela 1.5 - Valores das variáveis X e Y e cálculos para obter r
Anos X Y XY 2 2
X Y
1989 2 48 96 4 2304
1990 4 56 224 16 3136
1991 5 64 320 25 4096
1992 6 60 360 36 3600
1993 8 72 576 64 5184
Total 25 300 1576 145 18320
nΣ Xi . Yi − (Σ Xi).(Σ Y i)
i i
r = 5 x 1576 - 25 x 300
r = 0,95
Dado que há fortes evidências de que as duas variáveis possuem um relacionamento linear pode-
se então ajustar uma linha de regressão entre elas.
5.1.4 PROPRIEDADES DE R
Uma vez constatado que existe correlação linear entre duas variáveis, pode-se tentar prever o
comportamento de uma delas em função da variação da outra.
Para tanto será suposto que existem apenas duas variáveis. A variável X (denominada variável
controlada, explicativa ou independente) com valores observados X1, X2, ..., Xn e a variável Y
(denominada variável dependente ou explicada) com valores Y1, Y2, ..., Yn. Os valores de Y são
aleatórios, pois eles dependem não apenas de X, mas também de outras variáveis que não estão
sendo representadas no modelo. Estas variáveis são consideradas no modelo através de um termo
aleatório denominado “erro”. A variável X pode ser aleatória ou então controlada.
Desta forma pode-se considerar que o modelo para o relacionamento linear entre as variáveis X e Y
seja representado por uma equação do tipo:
Y = + X + U,
onde “U” é o termo erro, isto é, “U” representa as outras influências na variável Y além da exercida
pela variável “X”.
Esta equação permite que Y seja maior ou menor do que + X, dependendo de “U” ser positivo
ou negativo. De forma ideal o termo “U” deve ser pequeno e independente de X, de modo que se
possa modificar X, sem modificar “U”, e determinar o que ocorrerá, em média, a Y, isto é:
E(Y/X) = + X
Os dados {(Xi, Yi), i = 1, 2, ..., n} podem ser representados graficamente marcando-se cada par (Xi, Yi)
como um ponto de um plano. Os termos Ui são iguais a distância vertical entre os pontos observados
(Xi, Yi), e os pontos calculados (Xi, + Xi).
Em resumo, o modelo de regressão proposto consiste nas seguintes hipóteses:
1. Y = + X + U;
2. E(Y/X) = + X;
3. V(Y/X) = 2;
4. Cov(Ui, Uj) = 0, para i j;
5. A variável X permanece fixa em observações sucessivas;
6. Os erros U são normalmente distribuídos.
5.2.1. ESTIMATIVA DOS PARÂMETROS DE REGRESSÃO
Se fosse conhecido toda a população de valores (Xi, Yi) então seria possível determinar os valores
exatos dos parâmetros , e 2. Como, em geral, se trabalha com amostras se faz necessário, então,
estimar estes parâmetros com base nos valores da amostra.
Existem alguns métodos para ajustar uma linha entre as variáveis X e Y o mais utilizado é o
denominado método dos mínimos quadrados (MMQ). A reta obtida através deste método, não é
necessariamente, o “melhor” ajustamento possível, mas possui muitas propriedades estatísticas
que são desejáveis.
Sejam a e b estimadores de e e Ei = Yi - a - bXi o desvio observado em relação a reta ajustada,
isto é, Ei é um estimador do termo Ui. O método dos mínimos quadrados exige que os estimadores
a e b sejam escolhidos de tal forma que a soma dos quadrados dos desvios dos mesmos em relação
à reta de regressão ajustada seja mínima.
Para tornar mínima esta soma em relação a a e b, é necessário
diferenciar a expressão parcialmente em relação aos valores a
e b. Após algumas simplificações vai-se obter:
ΣYi = na + bΣXi (i)
ΣXiYi = aΣXi + bΣ(Xi)2 (ii)
que são denominadas de equações normais da regressão,
y = a + bx + onde “n” é o número de pares de observações.
a = intercepto
b = coeficiente _ de _ inclinação
e a = Y − bX
−
2 2
i
i
Utiliza-se o valor Y , porque o valor de Y, obtido a partir da reta estimada de regressão, para um
dado valor de X, é uma estimativa do valor E(Y/X), isto é, do valor esperado de Y dado X.
Exemplo:
São fornecidos 5 pares de valores, na tabela abaixo, correspondentes as variáveis X e Y. A estimativa
da reta de regressão entre X e Y, é obtida utilizando as expressões de a e b acima e usando os
resultados obtidos na tabela 2.1.
X = 20 / 5 = 4;
Y = 31/5 = 6,2
b = (5.163 - 20.31) / (5.110 - 400) = 1,30 a = Y - b X = 6,20 - 1,30.4 = 1
Então a linha estimada será: Y = 1.3X + 1
Esta reta é o “melhor” ajustamento para estes dados e seria diferente para cada amostra das
variáveis X e Y, retiradas desta mesma população. Esta reta pode ser considerada uma estimativa
da verdadeira linha de regressão onde 1,3 seria uma estimativa do valor (parâmetro angular) e 1
uma estimativa do valor (parâmetro linear), que são os verdadeiros coeficientes de regressão.
6. Prática de Pesquisa Quantitativa
Define uma pesquisa no âmbito empresarial como a identificação, coleta, análise e disseminação de
informações de forma sistemática e objetiva e seu uso para assessorar a gerência na tomada de decisões
relacionadas a solução de problema e a identificação de oportunidade de mercado.
Observe que a definição apresentada evidencia que a pesquisa tem um papel fundamental, pois auxilia no
processo de tomada de decisão. Sendo assim, é essencial que os gestores disponham de informações, ou
seja, de fatos e estatísticas, e não apenas dados.
Pois bem, vejamos em quais ocasiões são utilizados os dois tipos de pesquisa que mais costumam ser
realizados. O primeiro seria a pesquisa para identificação de problema existentes e futuros e, com isso,
auxiliar os gestores a fornecer informações sobre o macroambiente e diagnosticar problemas relacionados a
ele. Por exemplo, uma empresa com potencial de mercado em declínio poderá enfrentar problemas para
atingir suas metas. As tendências econômicas, sociais ou culturais, como mudanças no comportamento do
consumidor, poderão sinalizar problemas ou oportunidades para o negócio. O segundo seria a pesquisa para
solução de problemas. No caso de haver a necessidade de resolver problemas específicos, o gestor deve
recorrer à pesquisa para solução de problemas. Muitas empresas utilizam essa pesquisa para a resolução de
problemas específicos de marketing relacionados à segmentação, ao produto, ao preço, à promoção e à
distribuição.
Vejamos alguns exemplos do uso da pesquisa na resolução de determinadas questões.
No ambiente de mercado - Quais são as tendências econômicas para os próximos meses/anos? O
comportamento dos nossos clientes está mudando?
Com relação ao perfil do público-alvo - Pertencem a que faixa etária? Onde moram? Exercem quais
profissões? Quais seus hobbies? Têm filhos?
Avaliando os 4Ps do marketing - Onde devemos distribuir nossos produtos? Que produtos devemos
disponibilizar no mercado? Qual é a embalagem mais adequada para eles? Que preço devemos cobrar pelo
produto? Como nossos clientes responderão às mudanças de preços dos nossos produtos? Que políticas de
preços adotaremos? Quanto devemos investir em promoção? Que tipos de mídias devemos utilizar?
Autores como Malhotra, Kotler e outros, descrevem o processo da pesquisa, de forma geral, nas seguintes
etapas: definição do problema de pesquisa, planejamento da pesquisa, coleta de dados, análise dos dados e
apresentação dos resultados.
A seguir, esclareceremos cada uma das etapas do processo de pesquisa de mercado.
1. Formular o problema de pesquisa - Toda pesquisa de mercado se inicia com a formulação do
problema. Nesta etapa, deve-se entender profundamente o problema enfrentado pela empresa por meio de
entrevistas, análises de dados secundários e, se preciso, realizando uma pesquisa qualitativa. Em seguida,
formular o objetivo, a questão-problema e as hipóteses de pesquisa de mercado.
2. Planejar a pesquisa - Após formular o problema, deve-se planejar a pesquisa, ou seja, definir os
procedimentos necessários para a obtenção das informações necessárias. Isso inclui: definir o tipo de
pesquisa e as fontes de dados que serão utilizados; os métodos de coletas de dados; o processo de medição
e escalonamento; a elaboração do questionário; o processo de amostragem e o tamanho da amostra.
3. Coletar os dados - Após planejar a pesquisa, iniciará o processo de coleta de dados. Para isso, são
necessárias a seleção, o treinamento, a supervisão e a avaliação da equipe de campo a fim de minimizar os
erros na coleta de dados.
4. Preparar e analisar os dados - Nessa etapa, todos os questionários ou formulários são inspecionados,
editados e, quando necessário, corrigidos. Os resultados são colocados em planilhas de Excel ou softwares
de pesquisas, permitindo ao gestor a análise dos dados por meio de técnicas estatísticas.
5. Apresentar os resultados - Todo projeto de pesquisa deverá ser entregue em um relatório escrito
que descreva o problema e o planejamento de pesquisa, a coleta de dados e os procedimentos de análises
adotados, apresentando os resultados e as principais constatações.
Então, e na prática como funciona?
Este caso exemplifica a importância da pesquisa na construção de uma marca, uma vez que descreve as
etapas percorridas pela empresa e recorre ao planejamento de marketing como ferramenta para gerar ideias
e empreendê-lo em estratégias de posicionamento.
A Danone, buscando uma oportunidade de fortalecer seu portfólio no Brasil por meio da marca Activia (que
já existia em outros países), precisava entender o comportamento dos consumidores em relação ao tema do
Intestino preguiçoso. Para isso, necessitava de respostas para questões como: Aproximadamente quantas
pessoas no Brasil sofrem de intestino preguiçoso? Qual o nível de conscientização dessas pessoas sobre o
assunto? Quais públicos apresentam os maiores índices de intestino preguiçoso?
Para os consumidores, o intestino preguiçoso é visto como um “problema” ou é considerado “hereditário”
e, por isso, constitui uma reação natural do organismo? As respostas a essas perguntas dariam o suporte
necessário ao gerente de marketing na tomada de decisão.
Estudando hábitos e atitudes, a Danone identificou que uma em cada três mulheres no Brasil apresentava
sintomas de Intestino preguiçoso. Com base em uma pesquisa exploratória realizada para apontar o maior
número de causas do problema, as atitudes para solucioná-lo e, principalmente, o nível de conscientização
sobre intestino preguiçoso, foi possível mapear vários aspectos que seriam trabalhados pela marca, focando
nas causas do intestino preguiçoso, assim como nos sintomas apresentados por quem padece desse
problema. Os resultados permitiram à Danone o desenvolvimento de um briefing de comunicação para o
lançamento do Activia como o primeiro iogurte funcional do mercado brasileiro.
6.6 Amostragem
0 assunto faz parte do processo de modelo de pesquisa. A essa altura do processo, você já identificou as
necessidades de informação do estudo, bem como a natureza do modelo de pesquisa, se é exploratória,
descritiva ou causal. Além do mais, especificou e estruturou o questionário. Então, a próxima etapa é
desenvolver procedimentos de amostragem adequados.
0 processo do modelo de amostragem inclui quatro etapas. Cada etapa está intimamente relacionada a todos
os aspectos do projeto de pesquisa, da definição do problema a apresentação dos resultados. Portanto, as
escolhas do modelo de amostra devem ser integradas com todas as outras decisões do projeto de pesquisa.
Agora vamos conhecer as quatro etapas!
A primeira é a definição da população-alvo. 0 modelo de amostragem inicia-se por meio da especificação da
população-alvo, que é a coleção de elementos ou objetos que possuem as informações que se está buscando.
Por exemplo, suponha que a empresa X desejasse avaliar a resposta do consumidor para uma nova linha de
batons para ser lançada no Brasil e quisesse extrair a amostra de mulheres acima de 18 anos. Nesse estudo,
o elemento da amostra seria uma mulher acima de 18 anos residente no Brasil, independente de classe social
ou outros parâmetros. Já a população seria todas as mulheres acima de 18 anos residentes no Brasil.
A segunda é a seleção da técnica de amostragem. Selecionar uma técnica de amostragem envolve escolher
uma amostragem não probabilística ou uma probabilística. A amostragem não probabilística conta com o
julgamento pessoal do entrevistador, e não com a probabilidade, na escolha de elementos da amostra. 0
pesquisador pode selecionar a amostra arbitrariamente, com base na conveniência, ou tomar uma decisão
consciente sobre quais elementos incluir na amostra. Exemplos incluem entrevistas com pessoas nas ruas,
nas lojas de varejo e nos shoppings. Embora produza boas estimativas sobre a característica populacional,
essas técnicas são limitadas: não é possível avaliar de maneira objetiva a precisão dos resultados da amostra.
Na amostragem probabilística, os elementos são selecionados por acaso, ou seja, de forma aleatória. A
probabilidade de selecionar cada amostra possível de uma população pode ser pre-especificada. Embora
toda amostra possível não precise ter a mesma probabilidade de seleção, é possível especificar a
probabilidade de selecionar uma amostra particular de certo tamanho. Os intervalos de confiança podem ser
calculados em torno das estimativas da amostra, e é significativo projetar estatisticamente os resultados da
amostra para a população; ou seja, fazer inferências sobre a população-alvo.
A terceira é o tamanho da amostra. 0 tamanho da amostra corresponde ao número de elementos a serem
incluídos no estudo. Como regra geral, quanto mais importante a informação, mais precisa ela deve ser, e
isso implica obter amostras maiores. A necessidade de maior precisão deve ser comparada ao aumento no
custo que vem com a coleta de informações.
A natureza da pesquisa também possui um impacto no tamanho da amostra. No caso das pesquisas
quantitativas, por exemplo uma pesquisa conclusiva, como um levantamento descritivo, exige amostras
grandes. A medida que o número de variáveis em um estudo aumenta, o tamanho da amostra deve crescer
consequentemente.
0 tipo de análise utilizado também influencia as exigências do tamanho da amostra. Uma análise sofisticada
dos dados utilizando técnicas avançadas, requer amostras maiores.
Por fim, a última etapa, que é a execução do processo de amostragem. Refere-se a implementação de vários
detalhes do modelo de amostra. A população é definida, a estrutura de amostragem é compilada, e as
unidades de amostragem são extraídas utilizando-se a técnica de amostragem apropriada necessária para
atingir o tamanho exigido da amostra.
As técnicas de amostragem podem ser amplamente classificadas como não probabilísticas e probabilísticas.
As técnicas de amostragem não probabilística mais utilizadas incluem a amostragem por conveniência, por
julgamento, por cota e a bola de neve. E as técnicas de amostragem probabilística são as amostragens
aleatórias simples, sistemáticas, estratificadas e por agrupamentos.
Vejamos cada uma delas!
A amostragem por conveniência, como o nome indica, envolve a obtenção de uma amostra de elementos
baseada na conveniência do pesquisador. Exemplos: uso de alunos, membros de organizações sociais;
abordagens em shoppings conduzidas sem qualificar os entrevistados; lojas de departamento que utilizam
lista de clientes; entrevistas com transeuntes e navegadores da Internet.
A amostragem por conveniência tem a vantagem de ser barata e rápida.
Apesar dessas vantagens, essa forma de amostragem possui serias limitações, e uma das principais é o fato
de a amostra resultante não ser representativa para qualquer tipo definível de população-alvo.
A amostragem por julgamento é uma forma de amostragem por conveniência na qual os elementos
populacionais são selecionados com base no julgamento do pesquisador. Esse profissional escolhe os
elementos da amostra acreditando que eles representem a população de interesse. Exemplos comuns
incluem: testes de mercado selecionados para determinar o potencial de um novo produto e lojas de
departamento selecionadas para testarem um novo sistema de exibição do produto.
A amostragem por julgamento é interessante, pois não é cara e se mostra conveniente e rápida. No entanto,
é subjetiva, dependendo, em grande parte, da habilidade e da criatividade do pesquisador. Portanto, não
podem ser feitas generalizações para uma população.
A amostragem por cota introduz dois estágios no processo de amostragem por julgamento. 0 primeiro
estágio consiste no desenvolvimento de categorias de controle, ou cotas, de elementos populacionais. Por
exemplo, mulheres asiáticas com idade entre 18 e 35 anos podem ser consideradas a categoria de controle
relevante para um estudo que envolve compras de cosméticos. 0 pesquisador, em seguida, estimaria a
proporção da população-alvo que se encaixa nessa categoria com base em experiencias passadas ou fontes
de informações secundárias. A amostragem seria então feita para garantir que a proporção das mulheres
asiáticas de 18 a 35 anos da população-alvo fosse refletida na amostra. As cotas são usadas para garantir que
a composição da amostra seja a mesma que a composição da população com relação as características de
interesse.
Assim que as cotas são atribuídas, ocorre o segundo estágio do processo de amostragem. Os elementos são
selecionados utilizando-se o processo por conveniência ou julgamento.
Diversos problemas possíveis estão associados com essa técnica de amostragem. As características
relevantes podem passar despercebidas no processo de estabelecimento de cotas, resultando em uma
amostra que não reflete a população em características de controle relevantes.
Na amostragem bola de neve, um grupo inicial de entrevistados é selecionado, geralmente de maneira
aleatória. Após serem entrevistados, esses participantes devem indicar outras pessoas pertencentes a
população-alvo de interesse. Esse processo contínuo resulta em um efeito bola de neve, já que uma
referência é obtida de outra.
Embora essa técnica de amostragem tenha início com uma amostra probabilística, o resultado é uma amostra
não probabilística. Isso acontece porque esses entrevistados tendem a ter características demográficas e
psicográficas que são mais semelhantes às da pessoa que os indicou do que poderia ocorrer ao acaso.
Na pesquisa industrial, a amostragem bola de neve é usada para identificar pares de
compradores/vendedores. Sua principal vantagem é o aumento substancial da chance de localizar a
característica desejada na população. Essa técnica também resulta em uma variação e custos relativamente-
baixos.
Vejamos agora as técnicas de amostragem probabilísticas.
As técnicas de amostragem probabilística consistem em aleatória simples, sistemática, estratificada e
agrupamentos. Essas técnicas variam em termos de eficiência da amostragem, que é um conceito que reflete
na relação direta e oposta entre o custo e a precisão da amostragem. Dessa maneira, os custos aumentam
com a melhoria da precisão.
Na amostragem aleatória simples (AAS), cada elemento da população possui uma probabilidade de seleção
conhecida e igual. Além disso, cada amostra possível de determinado tamanho (n) possui uma probabilidade
conhecida e igual de ser a amostra realmente selecionada. A implicação em um procedimento de
amostragem aleatória é que cada elemento é selecionado independentemente do outro.
A AAS possui muitos benefícios, e facilmente compreendida e produz dados que representam a população-
alvo. A maioria das abordagens de inferências estatísticas supõe que a amostragem aleatória foi utilizada.
Entretanto, a AAS sofre de pelo menos quatro limitações significativas: construir uma estrutura de
amostragem para a AAS é difícil; a AAS pode ser cara e demorada, pois a estrutura de amostragem pode ser
amplamente espalhada por uma área geográfica extensa; a AAS geralmente resulta em uma precisão menor,
produzindo amostras com grande erro padrão; e as amostras geradas por essa técnica pode não representar
a população-alvo, principalmente se o tamanho da amostra for pequeno. Embora as amostras extraídas
representem bem a população em geral, determinada amostra aleatória simples pode representar a
população-alvo de maneira extremamente equivocada.
Na amostragem sistemática, a amostra é escolhida selecionando-se um ponto de partida aleatório e, em
seguida, escolhendo cada i elemento em sucessão da estrutura de amostragem. A frequência com a qual os
elementos são extraídos, i, é denominada intervalo de amostragem. Ela é determinada dividindo-se o
tamanho da população N pelo tamanho da amostra n e arredondando para o número inteiro mais próximo.
Por exemplo, suponha que existam 100 mil elementos na população e uma amostra de 1.000 é desejada.
Nesse caso, o intervalo de amostragem, i, é 100. Um número aleatório entre 1 e 100 e selecionado. Se, por
exemplo, esse número for 23, a amostra consiste nos elementos 23, 123, 223, 323, 423, 523 e assim por
diante.
A amostragem estratificada envolve um processo de amostragem em duas etapas, produzindo uma amostra
probabilística. Primeiro, a população é dividida em subgrupos chamados estratos. Todo elemento da
população deve ser distribuído para somente um estrato e nenhum elemento deve ser omitido. Em seguida,
os elementos de cada estrato são então escolhidos de forma aleatória. De forma ideal, a AAS deve ser usada
para escolher os elementos de cada estrato. No entanto, na prática, a amostragem sistemática e outros
procedimentos de amostragem probabilística podem ser empregados.
Um dos principais objetivos da amostragem estratificada e aumentar a precisão sem elevar o custo. Assim, a
população é dividida usando-se variáveis de estratificação e os estratos são formados com base em quatro
critérios: homogeneidade, heterogeneidade, afinidade e custos.
As variáveis comumente usadas para estratificação incluem características demográficas, tipos de cliente,
tamanho da empresa ou tipo de indústria. A amostragem estratificada melhora a precisão da AAS. Portanto,
é uma técnica popular de amostragem
Na amostragem por agrupamento, primeiro a população-alvo é dividida em subpopulações mutuamente
exclusivas e agrupamentos. Depois, uma amostra aleatória de agrupamentos é escolhida com base em uma
técnica de amostragem probabilística, como a AAS. Para cada agrupamento escolhido, todos os elementos
são incluídos na amostra ou uma amostra dos elementos é extraída probabilisticamente.
Uma forma comum de amostragem por agrupamento é a amostragem por área, que se fundamenta nos
agrupamentos baseados nas áreas geográficas, como bairros ou quarteirão. Por exemplo, se um quarteirão
foi usado como agrupamento, então todos os domicílios dentro do quarteirão selecionado estarão aptos
para ser escolhido na amostra.
A amostragem por agrupamento tem duas grandes vantagens: a viabilidade e o baixo custo. Uma vez que as
estruturas de amostragem estão frequentemente disponíveis em termos de agrupamentos. Porém, a
amostragem por agrupamento produz amostras imprecisas nas quais agrupamentos distintos e
heterogêneos são difíceis de formar. Por exemplo, domicílios em um quarteirão tendem a ser semelhantes
em vez de diferentes. Pode ser difícil computar e interpretar as estatísticas baseadas em agrupamentos.
Pois bem, para facilitar mais o entendimento sobre amostragem, temos uma tabela com o resumo dos
pontos fortes e fracos das técnicas básicas de amostragem.
LARSON, Ron; FARBER, Betsy. Estatística aplicada. 6. ed. São Paulo: Pearson, 2016.
BUSSAB, Wilton de O.; MORETTIN, Pedro. A. Estatística básica. São Paulo: Saraiva, 2017