Você está na página 1de 87

APRESENTAÇÃO DE DADOS E CONCEITOS BÁSICOS

Prof. Simone Soares Echeveste

Nesta unidade temática, você vai aprender


 A importância da Estatística na construção do conhecimento e na
tomada de decisões;
 Principais conceitos básicos de Estatística;
 A realizar a apresentação de dados através da construção de tabelas;
 Principais gráficos estatísticos.

Introdução

A Estatística hoje se configura como uma das ciências que mais vem
crescendo em termos de utilização e importância. A importância do
conhecimento das ferramentas de análise de dados é destacada pelos
seguintes aspectos:

 Em uma pesquisa, muitas vezes, são realizados estudos
experimentais ou observacionais que culminam em uma coleção de
dados numéricos que devem ser organizados e resumidos.
 O padrão de variação nos dados faz com que a resposta não seja
óbvia, ou seja, somente tratando os dados adequadamente é que
poderemos verificar o comportamento das variáveis de estudo.
 Uma análise estatística é composta por métodos para coleta e
descrição dos dados, viabilizando a verificação da força da evidência nos
dados pró ou contra as hipóteses de pesquisa. A presença de uma
variação não previsível nos dados faz disso, muitas vezes, uma tarefa
pouco trivial.

O grande avanço tecnológico das últimas décadas gerou a necessidade de


formação de profissionais capazes de acompanhar esse desenvolvimento com
habilidades para gerar e analisar dados, produzindo informação útil a ser
utilizada na resolução de problemas. Nesse contexto, as ferramentas
estatísticas são imprescindíveis, e o conhecimento das mesmas torna-se
necessário para qualquer profissional.

O estudo da Estatística tem por objetivos: propiciar ao aluno o estudo da


estatística com vistas à análise de dados experimentais, cálculo e interpretação
das medidas descritivas, utilização de testes estatísticos como ferramenta de
análise de comparação e relação de dados no contexto das pesquisas
realizadas na sua área de conhecimento.

APRESENTAÇÃO DE DADOS E CONCEITOS BÁSICOS DE ESTATÍSTICA


CONCEITOS BÁSICOS DE ESTATÍSTICA

Encontramos vários conceitos e definições para a Estatística, alguns autores a


definem como um ramo da matemática, já outros defendem a ideia de que a
Estatística representa por si só uma área única da ciência desconsiderando ser
esta uma subdivisão da matemática.

Rao (1999) define estatística como:

A estatística é uma ciência que estuda e pesquisa sobre: o levantamento de


dados com a máxima quantidade de informação possível para um dado custo;
o processamento de dados para a quantificação da quantidade de incerteza
existente na resposta para um determinado problema; a tomada de decisões
sob condições de incerteza, sob o menor risco possível. Finalmente, a
estatística tem sido utilizada na pesquisa científica, para a otimização de
recursos econômicos, para o aumento da qualidade e produtividade, na
otimização em análise de decisões.
Este conceito apresenta de forma clara e concisa todos os aspectos que
envolvem as diversas formas de utilização da Estatística: levantamento de
dados, processamento, análise e auxílio na tomada de decisões.

Ao iniciar uma análise estatística, deve-se também considerar alguns


elementos relacionados à metodologia do estudo realizada, como as definições
de População e Amostra da pesquisa:

Uma população (N) é conjunto de elementos de interesse em um determinado


estudo, que podem ser pessoas ou resultados experimentais, com uma ou
mais características comuns, que se pretendem estudar.

Uma amostra (n) é um subconjunto da população usada para obter informação


acerca do todo. Obtemos uma amostra para fazer inferências de uma
população. Nossas inferências são válidas somente se a amostra é
representativa da população.

Para ilustrar esses conceitos através de um exemplo, considere a seguinte


situação de pesquisa:

EXEMPLO PRÁTICO:

“Uma empresa operadora de T.V. a cabo deseja realizar uma pesquisa com
seus clientes da cidade de Porto Alegre referente ao grau de satisfação dos
mesmos com o serviço prestado. Ao todo, essa operadora possui, nessa
cidade, 217.193 assinantes dos quais foram selecionados 620 para
participarem dessa pesquisa.”
Para essa situação, teremos:
 População: 217.193 assinantes da operadora de T.V. a cabo de Porto
Alegre.
 Amostra: 620 assinantes da operadora de T.V. a cabo de Porto Alegre
que participaram da pesquisa.
Outro conceito muito importante é o da Variável, que vem a ser a matéria
prima de qualquer pesquisa, ou seja, quando se termina uma coleta de dados,
em um primeiro momento, dispomos de um conjunto de valores ou ainda
respostas pertinentes às nossas variáveis de pesquisa.

Uma variável (x) é uma característica dos elementos investigados que difere
de um elemento para outro e do qual temos interesse em estudar. Cada
unidade (elemento) da população que é escolhido como parte de uma amostra
fornece uma medida de uma ou mais variáveis, também chamadas
observações.

As variáveis podem ser classificadas em:

Variáveis Quantitativas: são as características que podem ser medidas em


uma escala quantitativa, ou seja, apresentam valores numéricos/quantidades.
Podem ser contínuas ou discretas.
 Discretas: características mensuráveis que podem assumir apenas um
número finito ou infinito contável de valores e, assim, somente fazem sentido
valores inteiros. Exemplos: números de carros vendidos, número de filhos,
número de reclamações recebidas por dia, etc.
 Contínuas: características mensuráveis que assumem valores em uma
escala para as quais valores fracionais fazem sentido. Exemplos: renda
mensal, tempo de entrega da mercadoria, tamanho do imóvel em m2, etc.
Variáveis Qualitativas: são as características que não possuem valores
quantitativos, mas, ao contrário, são definidas por várias categorias, ou seja,
representam uma classificação dos elementos. Podem ser nominais ou
ordinais.

 Nominais: não existe ordenação dentre as categorias. Exemplos:
marca do carro, tipo de fornecedor, profissão, etc.
 Ordinais: existe uma ordenação entre as categorias. Exemplos:
escolaridade (Fundamental, Médio ou Superior), grau de importância
(nenhuma, pouca, razoável, muito), etc.
Figura 1: Classificação das variáveis.
Outros dois conceitos importantes são pertinentes à divisão da Estatística em
duas áreas: Estatística Descritiva e Estatística Inferencial. A
área descritiva é mais simples, contemplando ferramentas de organização de
dados e síntese de informação, fazem parte dela as tabelas, gráficos, medidas
de tendência central e medidas de variabilidade.

A área Inferencial, por sua vez, permite ao pesquisador projetar resultados


amostrais para populações, bem como testar hipóteses concernentes a
parâmetros populacionais. Inferência estatística é o processo pelo qual
estatísticos tiram conclusões acerca da população usando informação de
uma amostra. A Estatística Inferencial está baseada em dois pilares
fundamentais: a Amostragem e a Probabilidade.

APRESENTAÇÃO DE DADOS: TABELAS DE FREQUÊNCIA

O primeiro contato do pesquisador com os seus dados é feito através da


construção das tabelas de frequência, podemos dizer que neste momento os
dados recebem o seu primeiro tratamento. Nessa etapa de análise, o
pesquisador identifica as possíveis respostas a uma determinada variável e o
comportamento das mesmas no que se refere a sua frequência.

A tabela de frequência tem por objetivo apresentar os resultados de cada


variável de uma forma organizada e resumida. Nessa tabela, encontramos o
número de repetições de cada categoria de resposta de uma variável bem
como o seu percentual no grupo investigado.

De acordo com as normas da ABNT (Associação Brasileira de Normas


Técnicas) e do IBGE (Instituto Brasileiro de Geografia e Estatística) as tabelas
de frequência devem considerar os seguintes elementos:
 Título: deve conter as informações necessárias para que se
compreenda “o que” está sendo apresentado na tabela, “onde” os dados
foram obtidos e “quando” esses dados foram coletados.
 Cabeçalho: indica a natureza do conteúdo de cada coluna da tabela.
 Corpo da Tabela: é a parte composta por linhas e colunas com as
informações observadas.
 Rodapé: espaço logo abaixo da tabela que pode ser utilizado para a
apresentação de notas ou observações de natureza informativa.
 Fonte: refere-se à entidade que organizou ou forneceu os dados
apresentados na tabela.

EXEMPLO PRÁTICO:

Considere uma pesquisa realizada com uma amostra de 20 clientes que


compraram em um site de compras na Internet com o objetivo de investigar o
tempo de atraso na entrega (em dias) das mercadorias adquiridas nesse site.
Os dados observados foram:

0102332104

3100421010

Para esses dados, podemos destacar as seguintes informações:


 Variável de pesquisa (x): Tempo de atraso na entrega das
mercadorias;
 Amostra investigada (n): 20 clientes.
Para a construção da tabela, precisamos das seguintes informações:

 Valores da variável que surgiram: correspondem aos tempos
de atraso observados. Nesse caso, encontramos 0, 1, 2, 3 e 4 dias.
 Frequência (f) de cada valor da variável: corresponde ao
número de vezes que cada valor se repetiu.
Para o exemplo, podemos observar que 0 dias de atraso se repetiu em 7
clientes:

Na sequência, 1 dia de atraso se repetiu em 5 clientes:

Já 2 dias de atraso se repetiu em 3 clientes:


Para 3 dias de atraso observamos uma ocorrência em 3 clientes:

Por fim, para 4 dias de atraso observamos uma ocorrência em 2 clientes:

Agora, organizamos essa informação através da estrutura de uma tabela de


frequência, considerando todos os seus elementos:

Fonte: Pesquisa
Como calculamos a porcentagem da tabela de frequência?

Para a tabela construída do exemplo, temos:


Fique de olho!

De acordo com as normas, as tabelas de frequência não podem ser fechadas


dos lados e nem ter linhas dividindo as categorias da variável. As únicas linhas
permitidas são as que delimitam o cabeçalho e as que delimitam o total; no
centro da tabela, é opcional colocar ou não o traço divisório das colunas.

GRÁFICOS ESTATÍSTICOS

A utilização de gráficos como forma de apresentação de dados pode ser


justificada através de um ditado popular de que "uma imagem vale mais que
1000 palavras".

Técnicas gráficas são geralmente utilizadas, em vez de tabelas, para descrever


um conjunto de dados através de um "desenho". Um gráfico estatístico é uma
forma de apresentação dos dados estatísticos, cujo objetivo é o de reproduzir,
no investigador ou no público em geral, uma impressão mais rápida e viva do
fenômeno em estudo. (CRESPO, 2009)

A representação gráfica deve ser utilizada levando-se em conta algumas


qualidades essenciais básicas para a construção destes conforme nos mostra
a Figura 2.

Figura 2: Qualidade de um bom gráfico.


Em uma apresentação dos resultados de uma pesquisa, ou ainda, na
divulgação de uma informação na mídia, podemos observar que algumas
pessoas parecem não dar tanta atenção às informações estatísticas em forma
de tabelas, porém elas podem aumentar a sua atenção e o seu interesse com
as mesmas informações apresentadas em forma gráfica.

Vejamos agora alguns dos gráficos estatísticos mais utilizados.

GRÁFICO DE SETORES

O gráfico de setores, também conhecido como gráfico pizza, torta, queijo ou


bolacha é um dos mais simples recursos gráficos, sua construção é baseada
no fato de que o círculo possui 360º, sendo que esse círculo é dividido em
fatias de acordo com o percentual em cada categoria. É um gráfico útil para
representar variáveis nominais ou apresentadas em categorias de respostas.

Figura 3: Exemplo de gráfico de setores.

Fique de olho!

É recomendável a utilização desse gráfico para representar variáveis


qualitativas e que tenham poucas categorias de resposta distintas, pois para
uma variável com muitas opções de resposta este ficará visualmente “poluído”.

GRÁFICO DE COLUNAS

O gráfico de colunas é um dos gráficos mais utilizados para representar um


conjunto de dados, sendo a representação de uma série de dados através de
retângulos dispostos verticalmente. A altura desses retângulos é proporcional
às suas respectivas frequências ou porcentagens. Esse gráfico pode ser
utilizado para representar qualquer tipo de variável em qualquer nível de
mensuração, por esse fato, é um recurso extremamente utilizado em
pesquisas.

Figura 4: Exemplo de gráfico de colunas.

Fique de olho!

O gráfico de colunas é um gráfico que não possui restrições, pode ser utilizado
para representar variáveis qualitativas e quantitativas. Quando o número de
categorias for muito extenso, podemos utilizar legendas com cores distintas
para a identificação das categorias.

GRÁFICO DE BARRAS

O gráfico de barras é uma representação de uma série de dados através de


retângulos dispostos horizontalmente. Os comprimentos desses retângulos são
proporcionais às suas respectivas frequências. Esse gráfico é semelhante ao
gráfico de colunas, contudo, a posição da escala e da frequência é trocada, ou
seja, na linha horizontal, temos a frequência ou percentual de casos
observados e na linha vertical temos os valores ou as categorias da variável de
estudo.
Figura 5: Exemplo de gráfico de barras.

Fique de olho!

O gráfico de barras é um gráfico que não possui restrições, pode ser utilizado
para representar variáveis qualitativas e quantitativas. Quando o número de
categorias for muito extenso, podemos utilizar legendas com cores distintas
para a identificação das categorias. É um excelente gráfico para os casos em
que as categorias das variáveis são expressas através de frases ou palavras
muito extensas.

GRÁFICO DE LINHAS

Este gráfico utiliza-se de uma linha para representar uma série estatística. Seu
principal objetivo é evidenciar a tendência ou a forma como o fenômeno está
crescendo ou decrescendo através de um período de tempo. Seu traçado deve
ser realizado considerando o eixo "x" (horizontal) a escala de tempo e o eixo
"y" (vertical) frequência observada dos valores.
Figura 6: Exemplo de gráfico de linhas.

Fique de olho!

O gráfico de linhas é o gráfico mais específico de todos, ou seja, sua utilização


é limitada para situações em que a variável a ser representada for quantitativa,
e os seus valores estão registrados ao longo de um período de tempo.

MEDIDAS DESCRITIVAS: MEDIDAS DE TENDÊNCIA CENTRAL E DE


VARIABILIDADE

Prof. Simone Soares Echeveste

Nesta unidade temática, você vai aprender


 A resumir e representar um conjunto de dados através das Medidas de
Tendência Central;
 A compreender a variabilidade de um conjunto de dados através das
Medidas de Variabilidade;
 A compreender os procedimentos de cálculo e interpretação das
Medidas de Tendência Central e das Medidas de Variabilidade

Introdução

Muitas vezes, ao finalizar uma coleta, os pesquisadores deparam-se com uma


grande quantidade de dados, surgindo a necessidade do cálculo de
algumas MEDIDAS DESCRITIVAS que auxiliem no resumo de toda essa
informação. Podemos aprofundar um pouco mais a nossa análise estatística
para o caso em que as variáveis analisadas sejam QUANTITATIVAS através
das medidas estatísticas. Essas medidas dividem-se em dois grupos de
medidas: as Medidas de tendência central e as Medidas de variabilidade.

As medidas de tendência central objetivam através de um ÚNICO


VALOR obtido REPRESENTAR todos os demais valores coletados em uma
pesquisa, já as medidas de variabilidade revelam como os dados variam em
torno desse valor. As principais medidas de tendência central são: a média,
mediana e moda. As principais medidas de dispersão são a variância, desvio
padrão e coeficiente de variação.

Muitas pesquisas apresentam em seus resultados apenas estatísticas


descritivas e, com isso, cumprem com os objetivos propostos. Em outros
casos, é necessário o uso de testes estatísticos para a comprovação de
hipóteses. Nesses casos, essas medidas são utilizadas como um passo inicial
para a escolha do teste estatístico adequado.

Você conhecerá cada uma dessas medidas no que se refere à aplicabilidade,


ao cálculo e à interpretação dos resultados obtidos. Ao final desse estudo,
deverá ser capaz de calcular e interpretar as medidas estatísticas
apresentadas no contexto de uma pesquisa.
MEDIDAS DESCRITIVAS: MEDIDAS DE TENDÊNCIA CENTRAL E MEDIDAS
DE VARIABILIDADE

MEDIDAS DE TENDÊNCIA CENTRAL

Estas medidas têm por objetivo encontrar a “tendência central” de um conjunto


de dados, ou seja, encontrar o valor do meio ou ainda os valores típicos de
uma distribuição. São medidas úteis para caracterizar e representar um
conjunto de dados através de um único valor utilizando critérios distintos para
isso. As medidas de tendência central são: média, mediana e moda.

MÉDIA

A média é a medida de tendência central mais conhecida e mais utilizada de


todas. Existem vários tipos de médias, a que utilizamos em pesquisas é a
Média aritmética, obtida através da soma de todos os valores da variável
investigada (valores de x) dividida pelo número total de valores no conjunto de
dados (n).

Exemplo

Os dados abaixo representam o tempo de relacionamento (em anos) de uma


amostra de 7 clientes com a sua operadora de telefonia celular.
Elementos importantes:

Amostra (n): 7 clientes

Variável (x): tempo de relacionamento com a operadora de telefonia celular

Média:

Interpretação:

MÉDIA PARA DADOS AGRUPADOS EM TABELAS DE FREQUÊNCIA

Quando os dados estão organizados na forma de uma tabela de frequências,


devemos multiplicar os diferentes valores “x” pelas respectivas
frequências “f”. A fórmula utilizada deverá ser neste caso:
Exemplo

Considere a seguinte tabela referente ao Número de faltas no período de uma


ano em uma amostra de 62 funcionários de uma empresa:

Número de faltas no período de um ano


Interpretação:
“Em média, os funcionários tiveram 2,9 faltas em um ano”.

MEDIANA

Ordenados os elementos da amostra em ordem crescente, a mediana é o valor


considerado o ponto do meio, que a divide ao meio. Isto é, metade dos
elementos da amostra é menor ou igual à mediana e a outra metade é maior ou
igual à mediana.

Notação:

Md ou Me

Como obter a Mediana:

1º) todos os valores do conjunto de dados devem ser colocados em ordem


crescente; se houver algum valor que se repita mais de uma vez, ele deve ser
repetido na ordenação também.

2º) devemos encontrar a posição da mediana considerando a seguinte regra:


se o tamanho da amostra (n) é ímpar, a mediana é o valor central; se o
tamanho da amostra (n) for par, a mediana será a média dos dois valores
centrais.

EXEMPLO 1: Quando o tamanho da amostra “n” for ímpar.

Uma pesquisa foi realizada com o objetivo de verificar a renda, em salários


mínimos, de uma amostra de 5 clientes de uma loja.

8,0 9,1 8,5 9,7 9,2


Amostra (n): 5 clientes de uma loja

Variável (x): Renda em salários mínimos

Mediana (Md)

1º) Colocar os valores em ordem crescente

8,0 8,5 9,1 9,2 9,7

2º) Encontrar o valor central no conjunto de dados

8,0 8,5 9,1 9,2 9,7

Interpretação:
“Metade dos clientes dessa loja possuem renda de 9,1 salários mínimos ou
menos, e metade dos clientes possui renda de 9,1 salários mínimos ou mais.”
EXEMPLO 2: Quando o tamanho da amostra “n” for par.

Uma pesquisa foi realizada com o objetivo de verificar a renda, em salários


mínimos, de uma amostra de 6 clientes de uma loja.

8,0 8,8 8,5 9,7 9,5 9,2

Amostra (n): 6 clientes de uma loja

Variável (x): Renda em salários mínimos

1º) Colocar os valores em ordem crescente

8,0 8,5 8,8 9,2 9,5 9,7

2º) Encontrar os dois valores centrais no conjunto de dados

8,0 8,5 8,8 9,2 9,5 9,7

3º) Calcular o ponto médio entre estes dois valores centrais (somando os dois
valores e dividindo por dois)

Md = (8,8+9,2)/2 = 18/2 = 9,0

Md = 9,0 salários mínimos


Interpretação:
“Metade dos clientes dessa loja possuem renda de 9 salários mínimos ou
menos e metade dos clientes possui renda de 9 salários mínimos ou mais.”

MODA

A moda de um conjunto de dados é simplesmente o valor do conjunto de dados


que ocorreu com maior frequência, ou seja, que mais se repetiu.

Notação:

Mo

EXEMPLO

Os dados apresentados a seguir referem-se aos valores da diária (em reais)


para um casal em uma amostra de 8 Hotéis na cidade de Porto Alegre:

200 210 200 210

210 250 230 210

Amostra (n): 8 Hotéis em Porto Alegre

Variável (x): Valor da diária para um casal (em reais)

Mo = 210 reais (esse valor se repete quatro vezes na amostra, foi o valor de
diária que mais se repetiu).

200 210 220 210

210 250 230 210

Interpretação:
“O valor da diária para um casal que ocorreu com maior frequência foi de 210
reais”.

MEDIDAS DE VARIABILIDADE

Tão importante quanto representarmos todos os valores de um conjunto de


dados através das medidas de tendência central é ter o conhecimento da
variação que ocorre em torno dessa medida. As medidas de variabilidade ou
ainda medidas de dispersão são extremamente úteis no tratamento de dados,
pois estas indicam a variação existente em torno da média.
VARIÂNCIA

A variância de uma amostra corresponde à média dos quadrados dos desvios


dos valores em relação à média. Quanto maior for a variação dos valores do
conjunto de dados, maior será a variância.

No cálculo da variância, pode-se observar que a unidade da variável estudada


é elevada ao quadrado, dificultando assim, a interpretação de seu resultado
final. A solução para esse problema é extrair a raiz quadrada da variância,
permitindo assim que se volte à unidade original da variável. Essa nova medida
(a raiz quadrada da variância) é chamada de desvio-padrão.

DESVIO-PADRÃO

O desvio-padrão corresponde à raiz quadrada da variância. Essa medida


expressa a variação média do conjunto de dados em torno da média, para mais
ou para menos na mesma unidade de medida da média.
Exemplo

Os dados apresentados a seguir referem-se ao número de carros vendidos em


uma concessionária em uma amostra de 8 meses.

Amostra (n): 8 meses

Variável (x): Número de carros vendidos


Interpretação:
“Em média, são vendidos 215 carros ao mês com uma variação (desvio-
padrão) de 16,9 carros”. [215 ± 16,9 carros]

COEFICIENTE DE VARIAÇÃO

Neste momento, poderemos questionar: quando um desvio-padrão é grande e


quando ele é pequeno? Na verdade, um desvio padrão pode ser considerado
grande ou pequeno dependendo da ordem de grandeza da variável. Por esse
motivo, quando desejamos comparar a variabilidade entre métodos, ou ainda
entre grupos de valores, é indicada a utilização do Coeficiente de Variação que
representa o desvio-padrão expresso como uma porcentagem da média.
Notação:

C.V. – Coeficiente de variação

Para o exemplo anterior dos carros vendidos em uma concessionária no


período de 8 meses, o coeficiente de variação seria:
Interpretação: “Existe uma variação em torno da média de 7,9%

CONCEITOS BÁSICOS DE PROBABILIDADE E DISTRIBUIÇÕES DE


PROBABILIDADE

Prof. Simone Soares Echeveste

Nesta unidade temática, você vai aprender


 O que são modelos de probabilidades;
 Quais são os principais modelos de probabilidades discretos e
contínuos;
 Em quais situações práticas cada modelo poderá ser utilizado para a
obtenção das probabilidades;
 Os procedimentos de cálculos envolvidos em cada modelo de
probabilidade apresentado.
Introdução

A Probabilidade estuda fenômenos aleatórios, seu conhecimento é


fundamental para quem deseja se aprofundar nos conceitos estatísticos, pois a
teoria das probabilidades constitui a base teórica de toda estatística inferencial.

Em muitos experimentos aleatórios, os resultados calculados através dos


conceitos de probabilidade, após muitas repetições, começam a apresentar
uma regularidade em seu comportamento. Essa regularidade permite a criação
de modelos de probabilidade, considerados uma representação matemática
obtida com a finalidade de calcular probabilidades em problemas específicos.

Uma distribuição de probabilidades é caracterizada pela construção de um


modelo matemático que representa para uma variável aleatória “X” as
probabilidades associadas aos possíveis valores que essa variável pode
assumir.

Seu objetivo é determinar a probabilidade de ocorrência de cada valor que uma


variável aleatória pode assumir, ou seja, é uma correspondência que associa
probabilidades aos valores de uma variável aleatória, ou ainda, é
uma Função que relaciona a probabilidade de ocorrência de um valor da
variável aleatória. Vamos estudar aqui os principais modelos de probabilidade
discretos e contínuos.

CONCEITOS BÁSICOS DE PROBABILIDADE E DISTRIBUIÇÕES DE


PROBABILIDADE

O objeto de estudo da probabilidade corresponde a todos os fenômenos que


envolvem a incerteza em seus resultados, ou seja, os fenômenos aleatórios
que podem ainda ser chamados de não determinísticos ou estocásticos.

A observação de várias repetições de um experimento permite a representação


através de um modelo matemático das probabilidades associadas a cada
resultado possível. Esse modelo matemático é chamado de modelo ou
distribuição de probabilidades.
Uma distribuição de probabilidades é uma função que representa as chances
que uma variável aleatória pode assumir ao longo de um espaço de valores.
Essa distribuição pode ser discreta (quando a variável aleatória assume
somente valores inteiros) ou contínua (quando a variável aleatória assume
qualquer valor em um intervalo de valores).

MODELOS PROBABILÍSTICOS DISCRETOS


As variáveis aleatórias discretas são aquelas em que seus valores podem ser
contados através de valores INTEIROS e representados através de um
conjunto A finito ou infinito enumerável. São exemplos de variáveis aleatórias
discretas:
X = Nº de carros que abastecem em um posto de gasolina por dia;
X = Nº de partos realizados em um hospital em um ano;
X = Nº de itens defeituosos produzidos ao dia em uma linha de produção.
Cada modelo ou, ainda, distribuição de probabilidade possui suas
características e adequação a algumas situações de estudo em que se
enquadram uma série de aplicações práticas das leis da probabilidade. As
principais distribuições de probabilidade discretas são: Distribuição Binomial,
Distribuição Poisson.

DISTRIBUIÇÃO DE PROBABILIDADE BINOMIAL


A distribuição Binomial é útil para avaliar experimentos em que somente dois
resultados são possíveis: sucesso ou fracasso que são mutuamente
excludentes. As características dessa distribuição são:

O MODELO BINOMIAL
Exemplo:A probabilidade da ocorrência de peças defeituosas em um lote
produzido por uma fábrica é de 5%. Cinco lotes são investigados, qual é a
probabilidade de:

a) Somente um lote contenha uma peça defeituosa


n = 5 lotes
x = nº lotes com peças defeituosas
p = 0,05 (5% – probabilidade de “sucesso” = lote ter peças
defeituosas)
(1-p) = 1- 0,05 = 0,95 (95% – probabilidade de “fracasso” = lote
ter somente peças perfeitas)

Pede-se: Somente um lote contenha peças defeituosas = P(x = 1)


I n t e r p r e t a ç ã o :
Temos 20,36% de chance do lote conter 1 item defeituoso.
Obs.: Ao multiplicarmos o valor da probabilidade por 100, podemos interpretar
com percentual de chance de ocorrência do evento desejado.
b) Nenhum lote contenha peças defeituosas
n = 5 lotes
x = nº lotes com peças defeituosas
p = 0,05 (5% – probabilidade de “sucesso” = lote ter peças defeituosas)
(1-p) = 1- 0,05 = 0,95 (95% – probabilidade de “fracasso” = lote ter somente
peças perfeitas)

Pede-se: Nenhum lote contenha peças defeituosas – P(x = 0)

I n t e r p r e t a ç ã o :
Temos 77,38% de chance do lote conter 1 item defeituoso.

DISTRIBUIÇÃO DE PROBABILIDADE POISSON


Depois da Binomial, a distribuição de Poisson é a distribuição de probabilidade
discreta mais utilizada, pois pode ser aplicada a muitos casos práticos nos
quais interessa o número de vezes que um determinado evento pode ocorrer
durante um intervalo de tempo ou em um determinado ambiente físico, por
exemplo:
 Nº de acidentes de carros por dia em uma grande cidade;
 Nº de garrafas mal fechadas por trinta minutos na máquina de
enchimento de cerveja;
 Nº de ligações telefônicas recebidas por hora.

Em um processo de Poisson, podem ser observados eventos discretos


em uma área de oportunidade de tal forma que, reduzindo
suficientemente essa área de oportunidade que pode ser um intervalo de
tempo, espaço, ou área na qual mais de uma ocorrência de um evento
pode ocorrer:
A distribuição de Poisson é caracterizada apenas pelo parâmetro λ (lambda).
Enquanto a variável aleatória do processo de Poisson “X” se refere ao número
de sucessos por área de oportunidade, o parâmetro λ se refere ao valor
esperado, ou média, do número de sucessos por área de oportunidade.

O MODELO POISSON
A probabilidade de ocorrerem exatamente “x” eventos é dada por:

Onde: P(x) = a probabilidade de x ocorrências em um intervalo


p = número de ocorrências por unidade (tempo ou espaço)
λ= valor esperado ou número médio de ocorrências em um intervalo
e = 2,71828 (número de Euler)

Fique de olho!

Atenção!

Todas as calculadoras científicas possuem essa função (ex):


Exemplo:
Em uma linha de produção, uma peça é finalizada a uma taxa λ = 2 peças por
minuto. Qual a probabilidade de que, nessa mesma linha, sejam finalizadas 8
peças no próximo 1 minuto?
x = Nº peças finalizadas
n = 1 minuto

Pede-se:

P(x = 8 peças finalizadas)


I n t e r p r e t a ç ã o :
Temos 0,0859% de chance da peça ser finalizada no próximo 1 minuto.

MODELO PROBABILÍSTICO CONTÍNUO


Uma variável aleatória contínua caracteriza-se por assumir valores em um
intervalo de números reais, sendo medida em uma escala contínua. Para cada
variável aleatória existem duas funções associadas: Função densidade de
probabilidade – f(x) e função cumulativa de probabilidade – F(x). O modelo
mais conhecido de distribuição de probabilidade contínua é a Distribuição
Normal.

DISTRIBUIÇÃO DE PROBABILIDADE NORMAL


A distribuição normal começou a ser estudada no século XVIII, recebendo o
nome de distribuição Gaussiana em homenagem ao matemático, físico e
astrônomo alemão Karl Gauss que foi o primeiro cientista a aplicá-la na
resolução de um problema de probabilidade no ano de 1809.

Podemos considerar essa distribuição como uma das mais importantes, pois
diversas ferramentas estatísticas necessitam da suposição de que os dados se
distribuam normalmente para serem utilizadas. Os parâmetros da Normal são a
média ( µ ) e o desvio-padrão ( σ ), que permitem infinitas curvas normais com
diferentes formatos (mas sempre simétricas).

C A R A C T E R Í S T I C A S D A
D I S T R I B U I Ç Ã O N O R M A L
 Sua curva de probabilidades tem forma de sino;
 A área total sob a curva é igual a 1;
 No ponto mais alto na curva, encontra-se a média da distribuição;
 A curva é simétrica em relação à média;
 O desvio padrão determina a largura da curva. Quanto maior o desvio
padrão, mais larga e mais plana tende a ser a curva, mostrando a
variabilidade nos dados;
 As probabilidades para a variável aleatória normal são dadas por áreas
sob a curva.

DISTRIBUIÇÃO NORMAL-PADRÃO OU NORMAL REDUZIDA – Z


A função densidade de probabilidade f(x) da distribuição normal depende dos
valores de μ e σ, por essa razão teremos várias equações para vários
diferentes valores de μ e σ. Todas as curvas normais representativas de
distribuições de frequências podem ser transformadas em uma curva normal
padrão, usando-se a média µ e o desvio padrão s da variável em estudo.
Para evitar cálculos com a integração, uma tabela única foi desenvolvida para
uma variável aleatória agora chamada de “Z” com μ=0 e σ=1, e sua distribuição
de probabilidades é definida como normal padronizada, ou ainda normal
padrão.
Seja X uma variável aleatória normalmente distribuída com quaisquer
parâmetros média μ e desvio-padrão σ. Para realizar o processo de
padronização devemos realizar a seguinte transformação (padronização):

onde: x = valor de interesse da variável


μ = média da variável
σ = desvio-padrão da variável
Após a padronização, poderemos obter as probabilidades associadas a cada
área através da Tabela Normal padrão apresentada a seguir:
COMO UTILIZAR A TABELA NORMAL PADRÃO

Na tabela, desejamos saber a área correspondente a um determinado valor de


“z”, devemos considerar duas informações importantes obtidas a partir do valor
de “z” que são: a linha e a coluna em que devemos procurar o valor. Por
exemplo, para P(z<1,35) lê-se “probabilidade de z ser inferior a 1,35”:

Devemos dividir esse número em duas partes: a primeira composta pela parte
inteira do número e a primeira casa após a vírgula que representa os décimos;
a segunda parte é composta pela segunda casa após a vírgula que representa
o centésimo.

Para o nosso exemplo P(z<1,35), deveremos buscar na tabela dos valores de


“z” positivos a linha 1,3 e a coluna 0,05:
Então P(z<1,35) = 0,9115 ou ainda 91,15%

Exemplo

A vida média de uma marca e de um tipo de bateria (para determinado


equipamento em uso contínuo) é 20 horas. Com desvio-padrão de 0,5 horas,
qual a probabilidade de que essa bateria dure menos de 21 horas?
Deveremos buscar na tabela dos valores de “z” positivos a linha 2,0 e a coluna
0,00:
Então a P(x < 21 horas) = 0,9772 ou 97,72%

Fique de olho!
ATENÇÃO: Vamos verificar a seguir outras situações de probabilidades em
que devemos estabelecer algumas regras.

SITUAÇÃO 1

Quando a probabilidade desejada for uma área SUPERIOR a algum valor de


“x” ou ainda ENTRE dois valores de “x”, devemos utilizar a mesma tabela,
porém observando as seguintes regras.

Seguimos com o exemplo anteriormente apresentado.

b) Probabilidade de falhar após 7500 horas

Pede-se: P(x > 7500 horas)


Observe que aqui desejamos a área localizada à DIREITA no gráfico (área
escura), ou seja, uma área SUPERIOR, porém a tabela apresenta apenas o
cálculo das áreas INFERIORES, ou ainda à ESQUERDA do gráfico (área
clara). Nesse caso, utilizaremos a informação que a curva ao todo possui 100%
de área, então calcularemos a área INFERIOR e do resultado obtido na tabela
subtraímos 100%.

Então poderemos estabelecer a seguinte regra:

P( x ≥ a ) = 100% – P( x ≤ a )

Voltando ao exemplo:
Probabilidade de falhar após 7500 horas

Pede-se: P(x > 7500 horas)

Vamos então aplicar a regra:

P(x > 7500 horas) = 100% – P(x < 7500 horas)

Padronizando para obter o cálculo da área pela tabela Normal Padrão

Buscando o valor da probabilidade P(z<0,83) na tabela normal


Deveremos buscar na tabela dos valores de “z” positivos a linha 0,8 e a coluna
0,03:

Não esqueça que a probabilidade desejada é SUPERIOR a 7500 horas então:

P(x > 7500 horas) = 100% – P(x < 7500 horas)

P(x > 7500 horas) = 100% – 79,67%

P(x > 7500 horas) = 20,33%

SITUAÇÃO 2:
Agora, vejamos o terceiro e último tipo de área/probabilidade a ser
calculada: ENTRE dois valores.

Entre 6300 horas e 7400 horas

Pede-se: P( 6300 ≤ x ≤ 7400 )

Nesse caso, teremos dois valores de “x” que deverão ser padronizados
resultando em dois valores de probabilidade, uma referente à área inferior a
7400 e outra inferior a 6300.
Para obter a área de interesse, devemos subtrair uma área da outra. Então,
poderemos estabelecer a seguinte regra:

P( a ≤ x ≤ b ) = P( x ≤ b ) – P( x ≤ a )

Padronizando para obter o cálculo da área pela tabela Normal Padrão

Na tabela: linha 0,6 e coluna 0,07 è 0,7486 ou 74,86%

Na tabela: linha -1,1 e coluna 0,07 é 0,1210 ou 12,10%

Então:
P( 6300 ≤ x ≤ 7400 ) = 74,86% – 12,10%

P( 6300 ≤ x ≤ 7400 ) = 62,76%

AMOSTRAGEM E ESTIMAÇÃO

Prof. Simone Soares Echeveste

Nesta unidade temática, você vai aprender


 As diferentes metodologias de seleção da amostra, bem como
compreenda os procedimentos do cálculo do tamanho mínimo de uma
amostra em uma pesquisa;
 Realizar estimações intervalares para parâmetros como a média e a
proporção através da construção de intervalos de confiança, bem como
realizar a correta interpretação dos mesmos.

Introdução

Ao realizarmos uma pesquisa, muitas vezes não conseguimos investigar toda a


população alvo de estudo, ou seja, fazer um censo. Dentre os motivos dessa
impossibilidade, podemos citar a falta de recursos financeiros, o enorme tempo
que isso levaria ou, ainda, por ser impossível investigar todos os elementos da
população em casos de ensaios destrutivos (verificar o tempo de vida de uma
bateria, observar a resistência de uma cadeira até a sua quebra, etc.)
Nesses casos, a alternativa utilizada é a obtenção de uma amostra que seja
representativa de todos os elementos da população do qual foi obtida. Quando
uma pesquisa/estudo analisa os dados de todo o Universo/grupo que ele tenta
compreender, dizemos que está trabalhando com a população. Entretanto,
muitas vezes, o pesquisador trabalha com tempo, energia e recursos
econômicos limitados, tornando possível a análise de apenas parte do grupo de
dados retirados da população. Este grupo denomina-se amostra.

Os resultados obtidos através de uma amostra podem, sob certas condições


teóricas, ser generalizados, ou ainda, inferidos para toda a população, a este
processo chamamos de Inferência. A inferência estatística é o processo
caracterizado pela utilização de estimadores (estatísticas obtidas na amostra)
para a obtenção de informações acerca da população de estudo.

A Estimação é o processo pelo qual utilizamos um valor amostral (estimador)


com o objetivo de inferir o seu respectivo valor populacional (parâmetro),
podendo ser realizada de duas formas: estimativa pontual ou estimativa
intervalar.

Uma estimativa intervalar é construída a partir do cálculo do estimador de


interesse ajustado a um erro de estimação, corresponde a uma alternativa
sempre muito interessante no processo de estimação, pois permite ao
pesquisador considerar em uma estimativa pontual o erro de estimação que
pode ocorrer neste valor.

Ao compreender como as amostras devem ser calculadas e como se dá o


cálculo de estimativas intervalares e sua interpretação, o pesquisador poderá
utilizar essas ferramentas em suas pesquisas com o objetivo de tomar decisões
mais assertivas.

AMOSTRAGEM E ESTIMAÇÃO

AMOSTRAGEM

O entendimento do planejamento amostral de um estudo é crucial para que


possamos avaliar a qualidade da informação obtida de seus resultados. A
determinação do processo de amostragem e do tamanho da amostra são
decisões muito importantes em qualquer pesquisa, cabe sempre ao
pesquisador procurar desenhar seu planejamento amostral procurando reduzir
o máximo possível a fonte de erros. De acordo com a variável principal a ser
estimada e algumas informações a respeito da população alvo da pesquisa,
podemos utilizar diferentes fórmulas para determinar o tamanho mínimo da
amostra.
Amostragem é o conjunto de procedimentos e técnicas para extração de
elementos da população para compor a amostra, o objetivo de um bom
delineamento é obter amostras representativas das populações em estudo.

As técnicas de amostragem se dividem em: probabilísticas e não


probabilísticas. As técnicas probabilísticas são aquelas onde todos os
elementos da população têm uma probabilidade não nula de seleção. Nas
técnicas não probabilísticas, não podemos garantir que todos os elementos têm
probabilidade de serem selecionados para a amostra.

TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICAS

Amostra Aleatória Simples:


Uma amostra aleatória simples é selecionada considerando que todos os
elementos da população tenham a mesma chance de serem selecionados, por
exemplo, através de um sorteio.

Amostra Sistemática:
Uma amostra sistemática poderá ser tratada como uma amostra aleatória
simples se os elementos da população estiverem ordenados aleatoriamente, e
a seleção será realizada através da escolha sistemática, por exemplo, de um a
cada cinco elementos.

Amostra Estratificada:
Esta técnica consiste em dividir a população em subgrupos, que são
denominados estratos. Esses estratos devem ser internamente mais
homogêneos do que a população toda, com respeito às variáveis em estudo.

Amostra por Conglomerados:


Chamamos de conglomerado a um agrupamento de elementos da população.
Por exemplo, em uma população de alunos de uma escola, as turmas formam
conglomerados de alunos.

TÉCNICAS DE AMOSTRAGEM NÃO PROBABILÍSTICAS

Amostra por Cotas:


Nesta técnica, a população é vista de forma segregada, dividida em diversos
subgrupos. Em uma pesquisa socioeconômica, por exemplo, a população pode
ser dividida por faixas de renda, faixas de idade, nível de instrução, etc.
Amostra por Julgamento:
Os elementos escolhidos são aqueles julgados como típicos da população que
deseja-se estudar.

Amostra por Fluxo:


Os elementos são selecionados através do fluxo destes em determinado local.
Por exemplo, considere uma pesquisa referente à opinião das pessoas sobre a
administração da cidade. A amostra pode ser selecionada considerando o fluxo
das pessoas no centro de Porto Alegre.
As perguntas mais frequentes em relação ao tamanho mínimo da amostra
podem ser resumidas em três questões apresentadas na Figura 1.
Nesse contexto, definir o tamanho mínimo da amostra é indispensável para
garantir a capacidade de o estudo responder aos objetivos propostos
considerando o rigor científico indispensável em qualquer pesquisa. É
importante observar que não existe um tamanho de amostra pré-determinado,
ou seja, cada pesquisa deve ser considerando sua população e seus objetivos.

A determinação do tamanho amostral é realizada mediante fórmulas


estatísticas, conhecidas como fórmulas para cálculo de tamanho de amostra
que consideram alguns elementos importantes apresentados na Figura 2.

DETERMINAÇÃO DO TAMANHO MÍNIMO DA AMOSTRA

A determinação do tamanho de uma amostra é muito importante em uma


pesquisa, pois amostras grandes, com muitos elementos selecionados
consomem tempo e dinheiro, enquanto isso amostras de tamanho muito
pequeno podem conduzir o pesquisador a resultados distorcidos, com fraca
validade.

Não podemos evitar a ocorrência do ERRO AMOSTRAL, porém podemos


limitar seu valor através da escolha de uma amostra de tamanho adequado.
Obviamente, o ERRO AMOSTRAL e o TAMANHO DA AMOSTRA seguem
sentidos contrários: quanto maior o tamanho da amostra, menor o erro
cometido e vice-versa.

SITUAÇÃO 1: Quando desejamos estimar uma média e a população é


conhecida
Nesse caso, a população de estudo é finita e temos o conhecimento do seu
tamanho. Para estimar uma média, o cálculo para o tamanho mínimo de
amostra necessita das seguintes informações:
 Determinação do erro de estimação (ε)
 Nível de confiança desejado nos resultados (normalmente este valor é
estipulado em 95%)
 Valores de z (tabela de probabilidade normal padrão) para níveis de
confiança estabelecidos e o tamanho da amostra, os mais utilizados estão
na tabela a seguir.

- Tamanho da população de interesse do estudo (N).

FÓRMULA PARA O CÁLCULO DO TAMANHO DA AMOSTRA


EXEMPLO PRÁTICO

Deseja-se determinar o tamanho mínimo de uma amostra para estimar a média


de gastos mensais em supermercado de clientes que possuem o cartão
fidelidade, considerando um erro máximo de estimação de 15 reais e uma
confiabilidade de 95%, o desvio-padrão desse gasto é sabido* ser de 200 reais.
Considere que ao todo 6500 clientes possuem o cartão fidelidade.

Informações do problema:

Deseja estimar a média de gastos mensais no supermercado

N = 6.500 clientes (População)

Z = 1,96 (valor da tabela normal para uma confiança de 95%)

ε = 15 reais (erro amostral)

σ = 200 reais (desvio-padrão)


*O desvio-padrão pode ser obtido através de uma outra pesquisa semelhante
(características populacionais, mensuração das variáveis) da que está sendo
realizada.
Para essa pesquisa, deve-se investigar no mínimo 619 clientes.

SITUAÇÃO 2: Quando desejamos estimar uma média e a população é


desconhecida
Para o caso do tamanho total da população ser desconhecido, ou ainda
aqueles casos em que a população é infinita, poderemos utilizar a seguinte
fórmula para determinar o tamanho mínimo da amostra:

EXEMPLO PRÁTICO

Um Administrador de empresas deseja estimar a renda média para o primeiro


ano de trabalho em sua área de atuação. Quantos administradores devem ser
selecionados, desejando ter 95% de confiança em que a renda média amostral
esteja a menos de 20 reais da verdadeira renda média populacional?
Sabemos, por um estudo prévio, que o desvio-padrão é de 150 reais.

Informações do problema:

Deseja estimar a renda média para o 1º ano de trabalho de um Administrador


N = Desconhecemos o tamanho total da população (não temos essa
informação)

Z = 1,96 (valor da tabela normal para uma confiança de 95%)

ε = 20 reais (erro amostral)

σ = 150 reais (desvio-padrão)

Devemos, portanto, obter uma amostra de ao menos 216 administradores que


estejam no primeiro ano de trabalho, selecionadas aleatoriamente.

SITUAÇÃO 3: Quando desejamos estimar uma proporção (ou porcentagem) e


a população é conhecida
Outro parâmetro estatístico cuja determinação afeta o tamanho da amostra é a
proporção populacional. A fórmula para cálculo do tamanho da amostra para
uma estimativa da PROPORÇÃO POPULACIONAL (p) é dada por:

Onde:

Z- valor distribuição normal (para 95% de confiança, z=1,96)

p = proporção da característica a ser estudada (quando não sabemos esta


proporção, utilizamos o valor de p=50% ou ainda p=0,50)

N = tamanho da população

ε = erro máximo de estimação (normalmente, para pesquisas na área de


administração utilizamos 5% – 0,05)
EXEMPLO PRÁTICO

Considere uma pesquisa com uma população conhecida de 1450 assinantes


de uma empresa de telefonia celular, qual o tamanho mínimo que a amostra a
ser investigada deve ter considerando um erro máximo de estimação de 5%?

Informações do problema:

Z- 1,96 (para 95% de confiança, z=1,96)

p = 0,50 (quando não sabemos esta proporção, utilizamos o valor de p=0,50)

N = 1.450

ε = 0,05

Devemos então investigar uma amostra de 304 assinantes da NET.

SITUAÇÃO 4: Quando desejamos estimar uma proporção (ou porcentagem) e


a população é desconhecida
Quando a população é desconhecida, utilizamos para estimar uma proporção a
seguinte fórmula:

EXEMPLO PRÁTICO
Uma pequena indústria fabricante de gêneros alimentícios deseja realizar uma
pesquisa em um supermercado de uma região de São Leopoldo com o objetivo
de estimar a proporção de consumidores que preferem o leite embalado em
sacos plásticos. Qual deve ser o tamanho mínimo da amostra considerando um
nível de confiança de 95% e um erro máximo de estimação de 5%?

Informações do problema:

Z- 1,96 (para 95% de confiança, z=1,96)

p = 0,50 (quando não sabemos esta proporção, utilizamos o valor de p=0,50)

ε = 0,05

Devemos então investigar uma amostra de 385 consumidores.

ESTIMAÇÃO

A população representa todo o universo de pesquisa de interesse, todas as


estatísticas provenientes do estudo de todos os elementos da população são
denominadas parâmetros. Parâmetro corresponde a uma medida numérica
que caracteriza uma variável de interesse da população de estudo. Como já
vimos anteriormente, em muitos casos, o estudo de todos os elementos de
uma população (denominado de censo), é inviável, ou ainda impossível de ser
realizado. Nesses casos, uma amostra REPRESENTATIVA dessa população é
selecionada e todas as medidas estatísticas obtidas com a análise dos dados
provenientes dessa amostra são chamadas de estimativas.
Estimativa corresponde a uma medida numérica que caracteriza uma variável
de interesse da amostra de estudo, obtida com a finalidade de
representar/estimar um parâmetro da população do qual foi obtida.A premissa
básica da Estimação é a de que não é necessário comermos um bolo inteiro
para sabermos o seu gosto... Podemos, a partir de uma parte do bolo concluir
sobre todo ele. A ideia central da estimação é a de que, uma vez
selecionada UMA AMOSTRA REPRESENTATIVA DE TODA A POPULAÇÃO,
todos os resultados obtidos mediante a coleta de dados realizada com as
unidades amostrais podem ser generalizados (inferidos) para toda a população.
Nesse contexto, a estimação caracteriza-se pelo processo que consiste no
uso de dados da amostra (dados amostrais) para estimar valores de
parâmetros populacionais desconhecidos, tais como média, desvio
padrão, proporções etc.
Existem dois tipos de estimação de parâmetros: a estimação POR
PONTO e POR INTERVALO. A estimação por ponto é realizada quando uma
medida estatística é calculada para estimar um parâmetro através de um
único valor, já a estimativa intervalar permite a obtenção de um intervalo de
valores, em que, com uma determinada probabilidade (nível de confiança)
espera-se encontrar o verdadeiro valor do parâmetro.

ESTIMAÇÃO POR INTERVALOS DE CONFIANÇA

A estimação intervalar consiste na determinação de um intervalo de valores do


qual, com certa confiança (probabilidade), esteja contido o parâmetro
desconhecido, utilizando para isso a informação obtida com o seu estimador.

INTERVALO DE CONFIANÇA PARA ESTIMAR UMA MÉDIA

Ao construir um intervalo de confiança para uma média, desejamos estabelecer


um intervalo de valores com uma probabilidade pré-estabelecida. Destaca-se
aqui que a variável analisada (x) deve apresentar distribuição
aproximadamente normal para que se possa realizar esse procedimento de
estimação intervalar.

Seja “X” uma variável aleatória que apresenta distribuição normal com desvio-
padrão s, o intervalo de confiança para a média µ pode ser assim determinado:
Observe que nesse intervalo utilizaremos a distribuição t-student, que é uma
distribuição muito semelhante à distribuição normal e é utilizada em casos de
pequenas amostras ou ainda quando s é desconhecido. A tabela t-student
apresentada abaixo possui (n – 1) graus de liberdade:
EXEMPLO PRÁTICO

Uma pesquisa foi realizada em uma livraria com o objetivo de estimar o preço
de livros de literatura. Em um estudo realizado com uma amostra de 25 livros,
verificou-se um preço médio de 54,7 reais com um desvio-padrão de 5,2 reais.
Construa o Intervalo de Confiança (IC) 95% para o verdadeiro preço médio de
todos os livros de literatura dessa livraria.

Dados do Problema:

Variável (x) – preço dos livros de literatura

Amostra (n) = 25 livros

Média amostral = 54,7 reais

Desvio-padrão amostral = 5,2 reais

t = 2,064 (veja no final do exemplo como obter este valor)

Interpretação:
Estima-se com 95% de confiança que o verdadeiro preço médio dos livros de
literatura dessa livraria seja um valor entre 52,55 reais e 56,85 reais.

Como encontrar o valor de “t” na tabela t-studen


Na tabela “t”, devemos considerar duas informações importantes: a linha e a
coluna onde o valor se encontra. Na linha, temos os graus de liberdade (gl) que
correspondem sempre ao tamanho da amostra menos 1 (n-1) e na coluna
devemos observar o nível de confiança do intervalo desejado.

No exemplo acima, o tamanho da amostra é 25, e o intervalo de confiança


solicitado é 95%, então devemos olhar na tabela a linha 25 – 1 = 24 e a coluna
que corresponde ao IC 95%:

O valor de “t” então para este exemplo é de 2,064

t = 2,064

INTERVALO DE CONFIANÇA PARA PROPORÇÃO

Seja “p” a proporção de ocorrência de algum evento de interesse em uma


população, o Intervalo de Confiança para uma proporção da população p pode
ser definido como:
Os valores de Z (normal-padrão) podem ser obtidos na tabela t com infinitos
graus de liberdade. Valores típicos:

EXEMPLO PRÁTICO

Em um depósito, uma amostra de 230 latas de certo produto alimentar


armazenadas para serem distribuídas foram verificadas constatando-se que 12
ultrapassaram já o prazo de validade. Construa e interprete o Intervalo de
confiança 95% para a proporção verdadeira de latas que já ultrapassaram o
prazo de validade.

Dados do Problema:

Proporção investigada – proporção de latas com prazo de validade vencido


Interpretação:
Estima-se com 95% de confiança que a verdadeira proporção de latas que já
ultrapassaram o prazo de validade seja um valor entre 2,35% a 8,09%.

ESTATÍSTICA INFERENCIAL: TESTES DE HIPÓTESES

Prof. Simone Soares Echeveste

Nesta unidade temática, você vai aprender


 A identificar os tipos de problemas que podem ser analisados através de
um teste de hipóteses para médias;
 A compreender todos os passos e cálculos que compõem a realização
dos testes de hipóteses para médias;
 A concluir sobre os resultados obtidos de testes de hipóteses para
médias.

Introdução

Estudaremos aqui mais uma importante ferramenta de análise estatística muito


utilizada, que é o Teste de Hipóteses. Essa ferramenta permite ao pesquisador
verificar se uma afirmação sobre um parâmetro (média) pode ser aceita para
toda a população ou não.

Em algumas situações de pesquisa, existe um particular interesse em decidir


sobre a verdade ou não de uma hipótese específica (se dois grupos têm a
mesma média ou não, ou se o parâmetro populacional tem um valor em
particular ou não).

Nesse caso, precisamos de ferramentas que permitam testar se uma afirmação


é aceita ou rejeitada tendo como base as informações obtidas em uma
amostra. O Teste de hipóteses viabiliza uma estrutura para que façamos isso,
ele é útil quando desejamos verificar a alegação (afirmação) feita sobre um
parâmetro, como a média.

Exemplos:

 O lucro médio mensal da empresa é de 500 mil reais.
 As vendas médias da loja A são superiores às da loja B.
 O tempo médio de entrega da mercadoria é de 7 dias.

Um teste de hipóteses deve considerar alguns passos importantes na sua


realização. Iniciamos com a determinação da hipótese a ser investigada, ou
ainda o efeito que desejamos comprovar, este deve se referir a algum
parâmetro populacional. A hipótese estabelecida é comparada aos resultados
obtidos considerando uma pesquisa realizada com uma amostra de “n”
elementos. As informações obtidas com os estimadores dos parâmetros de
interesse adicionadas a alguns elementos de probabilidade permitirão ao
pesquisador decidir se a hipótese é verdadeira ou não.

TESTES DE HIPÓTESES

Algumas vezes, existe um particular interesse em decidir sobre a validade de


uma hipótese específica (se dois grupos têm a mesma média ou não, ou se o
parâmetro populacional tem um valor em particular ou não). O Teste de
hipóteses fornece-nos a estrutura para que façamos isso, ele é útil quando
desejamos verificar a alegação (afirmação) feita sobre um parâmetro como, por
exemplo, a média.

COMPONENTES DE UM TESTE DE HIPÓTESES


Um teste de hipóteses poderia ser descrito através de uma estratégia de
análise com as seguintes etapas:
1º) Determinação do parâmetro de interesse no problema;

2º) Formulação das Hipóteses de pesquisa H0 e H1;

3º) Definição do nível de significância do teste (valor de "p");

4º) Determinação da estatística do teste a ser utilizada;

5º) Construção da regra de decisão a partir do nível de significância


estabelecido;

6º) A partir dos resultados obtidos, decisão: aceitar ou rejeitar H0.


Vamos agora conhecer cada uma das etapas que compõem um teste de
hipóteses.

1. HIPÓTESES DE PESQUISA

O primeiro passo consiste em formular hipóteses sobre a afirmação de estudo,


podem ser determinadas da seguinte forma:

Hipótese Nula (H0) estabelece a ausência de diferença entre os parâmetros.


Nessa hipótese, estamos admitindo que a diferença entre o valor obtido na
amostra e o valor do parâmetro NÃO É SIGNIFICATIVA, logo essa diferença é
devida ao acaso.

Hipótese Alternativa (H1) é a hipótese contrária à H0, estabelecendo, com


isso, uma DIFERENÇA SIGNIFICATIVA entre o valor amostral e o parâmetro
populacional podendo representar simplesmente uma desigualdade, ou ainda a
ideia de superioridade/inferioridade. Nesse caso, a diferença observada NÃO é
devida ao acaso.

2. ESTATÍSTICA DO TESTE

A estatística do teste é um valor calculado com as informações provenientes da


amostra e utilizada para se tomar a decisão sobre a aceitação ou rejeição da
hipótese nula (H0). Em seu cálculo, são consideradas informações estatísticas
obtidas a partir da amostra investigada, bem como outros elementos
relacionados à probabilidade de erro.

3. REGRA DE DECISÃO

Se o valor da estatística do teste cai dentro da região crítica, rejeitamos a


hipótese (nula) H0, pois existe uma forte evidência amostral de sua falsidade.
Ao contrário, se aceitamos H0, não existe evidência amostral significativa para
sua rejeição.
4. CONCLUSÃO EXPERIMENTAL

Após a regra de decisão, o teste deve ter uma conclusão experimental onde o
pesquisador, de acordo com o contexto do problema, finalizará a sua análise.
Na conclusão experimental, o pesquisador terá subsídios científicos que o
auxiliarão na tomada de decisão sobre o objeto de estudo.

Vamos ver agora dois dos testes de hipóteses mais utilizados.

TESTE DE HIPÓTESES PARA UMA MÉDIA (TESTE T – STUDENT PARA


UMA AMOSTRA)

O objetivo deste teste é comparar os valores obtidos em uma amostra com


uma média estabelecida como referência.
Hipóteses

Regra de decisão

Na regra de decisão, devemos considerar que a variável analisada tenha


distribuição aproximadamente normal. Nesse caso, a partir dos valores da
tabela t-student, iremos definir os pontos de corte na regra de decisão, ou seja,
a partir de que ponto inicia e termina a região crítica (região de rejeição).

A regra estabelece que, se o valor calculado na estatística do teste for um valor


localizado na região de aceitação, deveremos então aceitar a hipótese nula
H0 que representa a decisão de que a diferença encontrada nos dados
amostrais com os parâmetros populacionais NÃO é significativa.

Para o caso do valor calculado na estatística estar localizado na região crítica,


deveremos então rejeitar a hipótese nula H0 que representa a decisão de
que SIM, existe diferença significativa dos dados amostrais com os parâmetros
populacionais.

Como obter o valor tabelado da Regra de Decisão

Utilizaremos aqui o valor da tabela t-student, da mesma forma como já


utilizamos para a construção dos Intervalos de Confiança, utilizando a mesma
tabela. A linha a ser utilizada corresponde aos graus de liberdade, obtidos a
partir do tamanho da amostra investigada menos 1(n – 1). Já a coluna
corresponderá ao nível de significância desejado do teste (p-value) que
corresponde ao erro do teste – normalmente esse nível de significância é
estabelecido em no máximo 5%.
EXEMPLO PRÁTICO

Uma fábrica de móveis afirma que o tempo médio de entrega de seus produtos
vendidos é de 18 dias. Para verificar essa afirmação, uma amostra de 30
pedidos dessa empresa foi analisada verificando-se um tempo médio de
entrega de 17,8 dias com um desvio-padrão de 5,6 dias. Analise os dados e
conclua ao nível de significância de 5%.
Passo 4 – Regra de Decisão

Vamos agora identificar o valor tabelado a ser utilizado na Regra de Decisão: a


amostra dessa pesquisa foi de 30 televisores, então o grau de liberdade (n-1) é
30 – 1 = 29 (linha 29 da tabela t). O nível de significância estabelecido no
problema é de 5% – então a coluna a ser utilizada da tabela é a que
corresponde 0,05.

O valor de “t” tabelado é então 2,045 – esse valor determinará na regra de


decisão os limites da região crítica.
A regra estabelecida é: se o valor da estatística do teste for SUPERIOR a
+2,045 ou INFERIOR a -2,045, nossa decisão será REJEITAR H0, ou seja, há
diferença significativa entre os valores observados na amostra com o valor
estabelecido como referência.

Já se o valor da estatística do teste estiver ENTRE -2,045 e +2,045, nossa


decisão será de ACEITAR H0, o que implica existência de uma diferença NÃO
significativa entre os valores da amostra com a referência.

Para o nosso exemplo, o valor da estatística do teste foi de t= -0,196

Este valor (t=-0,196) está localizado, na nossa regra de decisão, dentro da


região de aceitação – então nossa decisão será ACEITAR H0. Ao aceitar a
hipótese nula H0, estaremos aceitando a seguinte afirmação:

H0 : µ = 18 dias

No contexto do problema, estaremos então aceitando que o tempo médio de


entrega dos produtos dessa fábrica de móveis não difere significativamente de
18 meses, ou seja, a diferença encontrada em relação a esse tempo médio na
amostra NÃO FOI SIGNIFICATIVA.
Passo 5 – Conclusão

Na conclusão, escreveremos um parágrafo referente ao resultado final do teste


de hipóteses:

“Verifica-se através do teste estatístico realizado, ao nível de significância de


5%, que o tempo médio de entrega dos produtos não difere significativamente
de 18 meses.”

TESTE DE HIPÓTESES PARA COMPARAÇÃO ENTRE DUAS MÉDIAS (T-


STUDENT PARA DUAS AMOSTRAS)

Muitas vezes, nas pesquisas, ocorre o interesse do pesquisador em comparar


dois grupos de interesse em relação a uma variável de pesquisa através das
suas médias, como, por exemplo:
 Qual marca de lâmpada fluorescente tem maior tempo de vida médio, a
marca A ou a marca B?
 Existe diferença significativa para o número de acertos na prova entre as
turmas A e B?
 Quem tem, em média, maior gasto mensal em energia elétrica: o
residente em Santa Catarina ou o residente no Paraná?

Fique de olho!

Para esse teste, não teremos um valor de referência a ser comparado, mas sim
duas amostras provenientes de dois grupos distintos e o objetivo desse teste
é comparar as médias dessas duas amostras independentes verificando
se existe ou não diferença significativa entre elas.
Esse teste é muito semelhante ao anteriormente visto, porém aqui não teremos
um valor de referência a ser comparado, mas sim duas amostras provenientes
de dois grupos distintos, e o objetivo aqui é comparar as médias dessas duas
amostras independentes verificando se existe ou não diferença significativa
entre elas.

Cada um dos grupos investigados (ou amostras investigadas) gera suas


estatísticas descritivas que deverão ser utilizadas no cálculo da estatística do
teste: tamanho da amostra, média amostral e desvio-padrão amostral.
As hipóteses são estabelecidas a partir da comparação da média dos grupos,
na hipótese nula H0, novamente teremos a ausência de diferença significativa,
ou seja, a média do grupo 1 é igual à média do grupo 2. Já a hipótese
alternativa H1 indica que EXISTE diferença significativa entre as médias dos
grupos 1 e 2.

Regra de decisão

A regra de decisão para esse teste é praticamente a mesma do teste anterior,


porém a única diferença refere-se aos graus de liberdade que agora, como
teremos dois grupos, será: (n1 + n2 – 2), ou seja, deve-se somar os tamanhos
de amostra dos dois grupos e subtrair dois.
EXEMPLO PRÁTICO

Uma empresa fabricante de telefones celulares afirma que a duração média em


horas (em stand by) da sua bateria é superior à duração das concorrentes.
Duas amostras formadas por 40 baterias do fabricante e 40 do concorrente
apresentaram médias iguais a 65 e 60 horas, com um desvio-padrão de 2 e 3
horas, respectivamente. Seria possível supor que a bateria da empresa do
fabricante tenha significativamente maior duração? Considere um nível de
significância de 5%.
Passo 4 – Regra de Decisão

A tabela a ser utilizada é a mesma do teste anterior. Na linha, vamos obter os


graus de liberdade (gl) considerando a soma dos dois tamanhos de amostra
dos grupos menos 2: Gl: (n1 + n2 – 2) = (40+40 – 2) = 78 (Na tabela não temos
linha 78, então iremos para a mais próxima que é a linha 60).
Para o nosso exemplo, o valor da estatística do teste foi: t = 8,77.

Esse valor (t = 8,77) está localizado, na nossa regra de decisão, FORA da


região de aceitação, ou ainda, ele localiza-se na REGIÃO CRÍTICA – então
nossa decisão será REJEITAR H0.

Ao rejeitar a hipótese nula H 0, estaremos concordando com a afirmação feita


em H1:

No contexto do problema, estaremos então concluindo que os grupos de


celulares (fabricante e concorrente) têm um tempo médio de duração da
bateria DIFERENTE um do outro, ou seja, a diferença encontrada em relação a
esse tempo médio de duração na amostra investigada FOI SIGNIFICATIVA.
Como essa diferença foi significativa, poderemos observar na amostra que o
tempo médio de duração do fabricante (65 horas) é SUPERIOR ao tempo
médio de duração do concorrente (60 horas).
Passo 5 – Conclusão

Verifica-se, através do teste estatístico realizado, ao nível de significância de


5%, que o tempo médio de duração da bateria é
significativamente DIFERENTE entre os dois grupos de estudo (fabricante e
concorrente). Observa-se, ao analisar os resultados da amostra, que esse
tempo médio é significativamente SUPERIOR para o fabricante.”

ANÁLISE DE CORRELAÇÃO E ANÁLISE DE REGRESSÃO LINEAR

Prof. Simone Soares Echeveste


Nesta unidade temática, você vai aprender
 Em quais situações práticas de pesquisa podemos utilizar a ferramenta
Estatística Análise de Correlação no auxílio da tomada de decisão;
 Os cálculos necessários para a mensuração da correlação entre duas
variáveis, bem como a interpretação correta dos resultados obtidos;
 A identificar as situações práticas de pesquisa em que a Análise de
Regressão pode ser utilizada na resolução de problemas nas mais diversas
áreas de conhecimento, bem como interpretar corretamente os resultados
obtidos.

Introdução

Muitas vezes, em uma pesquisa, desejamos estudar a relação existente entre


duas variáveis quantitativas, como o objetivo de responder a questões como,
por exemplo: “quanto maior a temperatura do dia em uma cidade, maior será o
consumo de energia elétrica nessa cidade?” ou ainda: “quanto maior o peso de
um carro, menor será o rendimento da gasolina?”. Essas questões podem ser
respondidas através de uma ferramenta estatística muito importante: Análise
de Correlação.

A Análise de Correlação é uma ferramenta estatística que tem por objetivo


investigar o grau de relacionamento entre duas variáveis quantitativas.
Utilizamos essa análise quando estamos interessados em mensurar o grau de
associação entre duas variáveis, quando duas variáveis estão correlacionadas,
essa relação pode ser direta (à medida que uma variável aumenta, a outra
aumenta também ou vice-versa) ou inversa (à medida que uma variável
aumenta, a outra diminui).

Uma vez identificada a relação funcional entre essas variáveis, surge a


necessidade de descrever matematicamente essa relação – É exatamente
esse o objetivo de uma outra ferramenta estatística chamada Análise de
Regressão.

A Análise de Regressão permite a construção de modelos matemáticos que


relacionam o comportamento de uma variável dependente (y) com uma variável
independente (x). Esses modelos são extremamente úteis ao pesquisador, pois
viabilizarão ao mesmo a realização de previsões, simulações de resultados e
estimativas.

ANÁLISE DE CORRELAÇÃO

De acordo com o dicionário Aurélio, correlação significa relação mútua entre


dois termos, correspondência. Correlacionar significa estabelecer relação ou
correlação entre. Na Análise estatística de dados, ocorre frequentemente a
necessidade de estudar o relacionamento de duas variáveis, coletadas como
pares de valores, para resolver questões como, por exemplo:
 Quanto maior for a renda de uma família, maior serão os seus gastos no
supermercado?
 Existe relação entre o preço da gasolina e o IPCA?
 A nota de satisfação com o serviço prestado está relacionada com a
idade do cliente?
 A temperatura do forno está relacionada com resistência de tijolos?
 Quanto maior a inflação, menor é o consumo de gasolina?
A existência de relação entre as variáveis e o grau de relação é o que
caracteriza o objeto da Análise de Correlação, se desejamos correlacionar
apenas duas variáveis teremos o caso de uma correlação simples, já se
nosso desejo é correlacionar mais que duas variáveis devemos fazer
uma correlação múltipla. Essa ferramenta estatística, considerada como uma
medida de associação indica a existência ou não de relacionamento entre duas
variáveis e se esse relacionamento é forte ou fraco.

Os dados para a análise de correlação são provenientes de observações de


variáveis aos pares, isso significa que cada observação da amostra é composta
por dois valores (x e y), e com esses valores pode construir o diagrama de
dispersão que é uma forma de verificar o tipo de correlação existente entre
duas variáveis.

DIAGRAMA DE DISPERSÃO

Um dos métodos mais usados para a investigação desses pares de dados é a


utilização de diagramas de dispersão. Esse tipo de gráfico é construído de
forma que cada ponto representa um par de valores observados, onde
podemos visualizar empiricamente a relação entre as variáveis x e y, bem
como observar se essa relação é forte ou fraca de acordo com a forma em que
esses pontos se distribuem. Veja abaixo um exemplo de um Diagrama de
dispersão que demonstra o relacionamento entre as variáveis: Renda (x) e
Aplicação mensal na poupança (y).

Diagrama de Dispersão para as variáveis: Remuneração X Tempo de


experiência em um grupo de profissionais.
Observe que cada ponto desse gráfico refere-se a um par ordenado x e y ou,
ainda, a uma pessoa investigada. Na grande maioria das vezes, a relação entre
as variáveis não é uma relação perfeita (se assim fosse, os pontos se
alinhariam perfeitamente a uma reta), mas ainda assim podemos visualizar que
esses pontos “estão próximos a uma reta” indicando a existência de uma
correlação entre as variáveis. Podemos observar aqui que pessoas com alta
renda tendem a ter altos valores aplicados na poupança.

TIPOS DE CORRELAÇÕES

1.

Correlação Direta ou Positiva


Ocorre quando as duas variáveis crescem no mesmo sentido, estão
diretamente correlacionadas. À medida que a variável x aumenta, y aumenta
também (ou vice-versa). Por exemplo, o gráfico abaixo nos mostra que
quanto maior for o gasto de uma empresa em propaganda, maior tende a ser
o seu volume de vendas em determinado mês ou, ainda, poderíamos dizer que
quanto menor for o gasto em propaganda, menor tende a ser o volume de
vendas.
2. Correlação Negativa ou Inversa
Ocorre quando as duas variáveis crescem em sentido oposto, estão
inversamente correlacionadas. À medida que uma variável aumenta, a outra
diminui. Por exemplo, o gráfico abaixo nos mostra que quanto maior for o
número de faltas de um aluno menor tende a ser a suas notas (desempenho).
3. Ausência de Correlação
Ocorre quando as duas variáveis não estão correlacionadas, ou seja, não
observamos o alinhamento dos pontos a nenhum tipo de reta crescente ou
decrescente ocorrendo, assim, uma nuvem de pontos dispersos. Por exemplo,
o gráfico abaixo nos mostra que a idade não está relacionada com o valor
depositado na poupança, podemos verificar que existem pessoas mais jovens
com um saldo menor, assim como pessoas mais velhas com um saldo também
menor, ou seja, não há uma tendência de que, à medida que aumenta a idade,
o saldo na poupança aumente ou diminua também.

Idade X Saldo na poupança

COEFICIENTE DE CORRELAÇÃO DE PEARSON (r)

O diagrama de dispersão nos fornece uma avaliação inicial do comportamento


da relação entre duas variáveis, porém há a necessidade de determinarmos o
grau de relação através de uma medida mais objetiva. Esta medida chama-se
Coeficiente de Correlação de Pearson. O coeficiente de correlação é uma
medida do grau e da direção de uma relação linear entre duas variáveis. O
símbolo “r” representa o coeficiente de correlação amostral.
O Coeficiente de Correlação de Pearson foi desenvolvido de forma que o seu
resultado é SEMPRE um valor entre –1,00 e +1,00, sendo que quanto mais
próximo ele for dos valores extremos (+1 e -1) mais forte é a correlação
existente entre as variáveis x e y. Já quanto mais próximo o seu valor for de
zero mais fraca é a relação existente entre as variáveis x e y.

O sinal do Coeficiente de Correlação de Pearson também nos fornece uma


informação muito importante referente ao tipo de correlação existente. Se o
sinal é NEGATIVO, indica uma correlação INVERSA; já se o sinal
for POSITIVO, indica uma correlação DIRETA entre as variáveis.

Fique de olho!

ATENÇÃO!

Alguns pressupostos para o cálculo do Coeficiente de Correlação de Pearson.

Cálculo do Coeficiente de Correlação de Pearson (r)

Sua fórmula é:
Etapas do cálculo:

1º) Obtenha a soma dos valores de x : Σx

2º) Obtenha a soma dos valores de y: Σy

3º) Multiplique cada valor de x por seu valor y correspondente e obtenha a sua
soma: Σx.y

4º) Eleve ao quadrado cada valor de x e obtenha a sua soma: Σx2

5º) Eleve ao quadrado cada valor de y e obtenha a sua soma: Σy2

6º) Use essas cinco somas para calcular o coeficiente de correlação.

Cálculo do Coeficiente de Correlação de Pearson (r)


 Se r > 0 indica uma correlação positiva ou direta entre as variáveis,
um aumento na variável X provocará um aumento na variável Y.
 Se r < 0 indica uma correlação negativa ou inversa entre as variáveis,
um aumento na variável X provocará uma redução na variável Y.
 Se r = 0 indica a inexistência de qualquer relação ou tendência linear
entre as variáveis X e Y.

EXEMPLO PRÁTICO
Uma cadeia de supermercados financiou um estudo para verificar a relação
entre a renda mensal (salários mínimos) e as despesas semanais em
supermercados de 8 famílias selecionadas aleatoriamente.
Para esse exemplo, temos as seguintes informações:

n = 8 famílias

x = Renda mensal (salários mínimos)

y = Despesa semanal supermercado (reais)

Tabela de cálculos:
Interpretação:

ANÁLISE DE REGRESSÃO LINEAR

Uma das grandes necessidades de pesquisa nas mais diversas áreas é


estabelecer modelos que expliquem as estruturas de um fenômeno de
interesse. O modelo de regressão é um dos métodos estatísticos mais usados
para investigar a relação entre variáveis.

A Análise de Regressão linear simples estuda o relacionamento entre uma


variável dependente (y) e outra variável independente (x). Esse relacionamento
é representado por um modelo matemático, através de uma equação que
associa a variável dependente com a variável independente.

A relação linear simples entre duas variáveis “x” e “y” pode ser investigada de
duas formas: através da Análise de Correlação, onde quantificamos a
intensidade dessa relação, e a outra através da Análise de Regressão onde a
forma dessa relação é explicitada.

A importância da construção de um modelo matemático que represente a


relação entre duas variáveis deve-se ao fato de que, após a construção do
modelo, podemos realizar previsões e simulações, ou seja, uma vez
estabelecida a relação entre “x” e “y”, podemos estipular diferentes valores
para “x” e observar o comportamento da variável “y”. Por exemplo, poderíamos
prever o gasto mensal em energia elétrica de acordo com o número de
integrantes de uma família.

MODELO DE REGRESSÃO LINEAR

Na Análise de regressão, as variáveis estudadas “x” e “y” são denominadas:

x, denominada de variável independente;

y, denominada de variável dependente.

Os Modelos de Regressão simples são modelos matemáticos que relacionam o


comportamento de uma variável “y” com uma variável “x” através de uma
função:

Y = a + b (X)

Nesse modelo, a variável “x” é a variável independente da equação, enquanto y


= f(x) é a variável dependente das variações de “x”. Poderemos utilizar seus
resultados para os seguintes objetivos:

ESTIMADORES PARA O MODELO DE REGRESSÃO LINEAR

Os estimadores dos coeficientes angular (b) e linear (a) serão designados


respectivamente pelos seus estimadores b e a, respectivamente. Então,
considerando dados amostrais, a estimativa do modelo adotado será dada por:

y = a + bx

Os valores de a e b serão determinados, através do Método dos Mínimos


Quadrados (MMQ), definido como um método de computação matemática que
resulta na curva de regressão. Como resultado do método dos mínimos
quadrados, os coeficientes “a“ e “b” da reta são obtidos através das seguintes
expressões:
Fique de olho!

ATENÇÃO!
 O coeficiente angular “b” da reta de regressão mede a direção e a
magnitude da relação à magnitude da inclinação da regressão pode ser lida
como segue: para cada acréscimo unitário na variável (x), a variável
dependente aumentará/diminuirá “b” unidades de y.
 Quando as duas variáveis estão correlacionadas positivamente, a
inclinação (valor de b) também será positiva, enquanto quando as duas
variáveis estão correlacionadas negativamente, a inclinação (valor de b)
será negativa.

EXEMPLO PRÁTICO
Os dados abaixo representam x: tempo de experiência em anos, e os
respectivos y: salários (em salários mínimos) de uma amostra de 8
profissionais:
Para este exemplo, temos as seguintes informações:

n = 8 profissionais

x = Tempo de experiência (anos)

y = Renda mensal (salários mínimos)

Tabela de cálculos:
QUESTÃO IMPORTANTE:

Qual será a renda mensal estimada de um profissional com 15 anos de


experiência? Nesse caso, estamos determinando o valor de x = 15 anos e
desejamos estimar qual será valor de y = renda mensal (salários mínimos),
para isso basta substituirmos os dados na Equação da Reta obtida:

Conclusão
Estima-se que, para um tempo de experiência de 15 anos, o salário mensal de
um profissional seja em torno de 13,27 salários mínimos.

Referências

DOMINGUES, O.; MARTINS, G. Estatística Geral Aplicada. 4. ed. São Paulo:


Editora Atlas, 2011.

LARSON, R.; FARBER, B. Estatística Aplicada. 4. ed. São Paulo: Ed.


Pearson, 2010.

LEVIN, J.; FOX, J. A.; FORDE, D. R. Estatística para ciências humanas. São
Paulo: Ed. Pearson, 2012.

Você também pode gostar