Escolar Documentos
Profissional Documentos
Cultura Documentos
Apostila Análise de Dados 2014
Apostila Análise de Dados 2014
Apostila Análise de Dados 2014
Importante:
Este conjunto de textos visa apenas orientar o estudo dos alunos sobre
o conteúdo desenvolvido em sala de aula. Não substitui, portanto, as
discussões em sala de aula sobre os temas abordados ou exercícios nela
desenvolvidos. Nas avaliações realizadas, as anotações de aula e as
correções dos exercícios são igualmente importantes.
São Paulo
Fevereiro / 2014
1
ESTATÍSTICA
Na Antiguidade, quando os agricultores precisaram de um
método para contar sua produção e seus animais, utilizaram
pequenas pedras, que em latim eram chamadas de calculus.
2
2) TIPOS DE ESTATÍSTICAS
Estatística descritiva - Descreve a realidade a partir dos dados
obtidos, como se fosse um retrato estático da situação. Permite,
através de medidas de contagem e variabilidade, construir
gráficos e tabelas, ordenar as variáveis, calcular médias e
porcentagens para dar ao pesquisar uma primeira idéia de como
um determinado fenômeno se comporta ou se distribui ao longo
do tempo e do espaço. É uma análise fixa, estática, não cogita
explicar o passado ou saber sobre o futuro. Serve para
organizar, analisar e interpretar os dados disponíveis.
3. TIPOS DE ESTUDOS
ESTUDO EXPLORATÓRIO - Utilizado para descobrir
explicações novas para um determinado problema, relações de
causa e efeito. A formalidade dá lugar à flexibilidade e à
criatividade na coleta e análise dos dados. Utiliza primeiramente
fontes secundárias para se atualizar a cerca das hipóteses e
prováveis explicações a serem investigadas. Depois o
investigador parte para a pesquisa junto a indivíduos informados,
com forte associação ao problema. Requer do pesquisador um
bom conhecimento do problema.
Descritivo Quantitativo
Método Estatístico – Caracteriza-se por estudar uma quantidade
limitada de fatores em grande número de casos/entrevistas. Utiliza
3
forte base de cálculo para dar credibilidade às informações obtidas.
Pode sugerir, mas não comprovar relações de causa e efeito.
Descritivo Qualitativo
a) Método do Estudo de Caso - Analisa grande quantidade de
variáveis em uma unidade pesquisada (caso). Busca
interpretação das inter-relações associadas a um problema,
sendo indicado quando não é possível estudar isoladamente
uma variável. Há dificuldade de generalizar os resultados em
razão da avaliação de poucos casos.
Facilidades - Método bastante flexível, abrange todos os aspectos
importantes num único caso e analisa fenômenos em ambiente real,
sem abstrair partes da realidade.
Dificuldades - Subjetividade e amostra única - dificuldade de
generalizar conclusões, risco de ver só o que se quer ver (viés
antecipado), método mais demorado e necessidade de maior
experiência do pesquisador.
Pesquisador deve ser: observador, flexível, bom ouvinte, capaz de
não envolver seus julgamentos, correlacionar informações e
identificar contradições.
Coleta de dados deve ser: observação e entrevista – com
relatórios mais informais e narrativos (descritiva do que ocorre no
campo e reflexiva com comentários pessoais).
Qualidade dos resultados de um estudo de caso em 4 princípios:
Massa crítica – múltiplas fontes de evidência.
Validade interna – comparações e construções de explicações.
Validade externa – possibilidade de reaplicar o estudo em
outros casos.
Confiabilidade – protocolo de estudos, procedimentos
seguidos, registro de dados e tabulação de dados observáveis.
4
c) Pesquisa Etnográfica - descrição dos eventos que fazem parte
da vida social de um grupo, seja ele uma tribo indígena,
funcionários de uma empresa ou uma comunidade receptora.
ESTUDO EXPERIMENTAL
Indicado para estabelecer relações de causa e efeito quando é
possível separar/isolar uma variável das demais. Utiliza
experiências artificialmente constituídas com a finalidade de
visualizar a influência dessa variável. Pode ser usado para testar
campanhas publicitárias antes de sua veiculação, promoções,
design de embalagens etc.
4. PESQUISAS QUALITATIVAS
a) FOCUS GROUP
5
Entrevistadores experientes apenas introduzem os tópicos pelos
quais se interessam e os próprios participantes se encarregam de
conversar descontraidamente sobre o tema proposto. Ouvir é mais
importante do que falar, as pessoas adoram transmitir seus pontos
de vista, emoções e experiências quando são estimuladas. A
entrevista deve ser preparada apenas para as questões básicas. No
mais, o entrevistador deve deixar a conversa correr livremente.
5. DADOS E INFORMAÇÕES
Dado – aquilo que se toma por base para realizar uma análise
quantitativa ou qualitativa.
6. FONTES DE INFORMAÇÃO
8
Antes da pesquisa de campo devemos esgotar a busca por dados
secundários. Isso reduz esforços desnecessários e oferece
indicações novas sobre o que deve ser levantado em campo. É
indicado consultar o IBGE, FGV, Bacen, Fundação Seade e
entidades de classe. A análise de dados secundários deve seguir
os seguintes princípios:
Encontrar – busca de dados em fontes confiáveis (pesquisadores
ou instituições renomadas, órgãos públicos/oficiais, associações de
classe, sindicatos ou indivíduos de notório saber sobre o tema)
Filtrar – Deve-se focar ao máximo no objetivo da pesquisa e
aproveitar o que de fato é relevante. O excesso de dados dificulta o
trabalho do pesquisador e a compreensão do leitor.
Interpretar – Apenas colocar os dados filtrados na pesquisa torna o
conteúdo do relatório fraco. Todos os dados citados/mostrados
merecem uma análise mais aprofundada, explicando como
interferem no resultado final. Dado X Informação !
Comunicar – Dados levantados e interpretados devem ser também
divulgados, sendo necessário fazê-los circular. Dados escondidos
não formam um banco de dados, mas um bando de dados.
7. PLANEJAMENTO DA PESQUISA
Algumas pesquisas não dão certo por falta de planejamento inicial.
Quer pela pressa em obter dados, ou pela falta de experiência, o
impulso imediato de logo elaborar um questionário e entrevistar o
público é o meio mais rápido de fracassar. Uma pesquisa é um
projeto, e como tal deve ser planejado em etapas:
8. PESQUISA QUANTITATIVA
10
Outro método é utilizado para universos grandes, onde se sabe que
a amostra será proporcionalmente pequena (menor do que 10% do
universo), e o pesquisador pode variar margem de erro e grau de
confiança. Esse cálculo pode ser realizado pela seguinte fórmula:
n = tamanho da amostra
(Zα/2) = valor crítico associado ao grau de confiança desejado
E = erro máximo permitido
90% 1,645
95% 1,96
99% 2,575
11
Exemplo: Qual o tamanho da amostra que um pesquisador precisa
para saber a opinião dos turistas que visitaram à lazer um destino Y
sobre a receptividade local? Sabe-se que esse universo é composto
por 200 mil indivíduos/ano, o pesquisador quer um grau de
confiança de 95% e aceita uma margem de erro máxima de 3%.
12
( )
13
9. PRINCIPAIS ESCALAS DE AVALIAÇÃO
Escala comparativa
Melhor do Pior do Não sei
Concorrentes de A Igual a A
que A que A avaliar
Empresa B X
Empresa C X
Empresa D X
Empresa E X
Escala Stapel
Atributo Avaliação
Pzo de pagamento -5 -4 -3 -2 -1 1 2 3 4 5
Assistência técnica -5 -4 -3 -2 -1 1 2 3 4 5
Atendimento -5 -4 -3 -2 -1 1 2 3 4 5
14
Escala de soma constante – verificar a ordem e o intervalo
de preferência do consumidor.
Ex: Distribua 100 pontos entre as marcas abaixo de acordo
com sua preferência.
Concorrentes Pontos
Sansung 40
LG 30
Nokia 15
Motorola 10
Sony Ericsson 05
Escala Likert
Afirmações Concordo Concordo Indeciso Discordo Discordo
totalmente pouco pouco totalmente
Ambiente é X
aconchegante
Atendimento é X
cortês
Pouco tempo X
de espera
Cardápio é X
variado
15
10. TIPOS DE GRÁFICOS
16
LINHA – É o gráfico poligonal. Mostra a distribuição de dados
contínuos ao longo do tempo e, em intervalos iguais, como anos,
trimestres ou meses. Útil para demonstrar variações ou
flutuações cronológicas com freqüência acumulada.
17
Barras – mostra comparações entre itens individuais,
normalmente quando os rótulos ou valores forem longos.
18
De área - enfatiza as alterações das variáveis ao longo do tempo
mais a participação de cada uma delas para o valor total.
19
11. MEDIDAS DE TENDÊNCIA CENTRAL
Temos então:
_
X=∑ = 110,56
20
b) MEDIANA - Trata-se do valor situado no meio da distribuição,
depois que os dados forem ordenados.
o Se o conjunto de dados for ímpar, a mediana corresponde ao
valor situado no meio da distribuição. Se o conjunto de dados for
par, a mediana corresponde à média aritmética dos dois valores
centrais. No caso acima, onde a distribuição das idades forma
um conjunto de dados igual a 100:
Md = (34 + 35) / 2 = 34,5 anos
21
a) VARIÂNCIA
o Imaginemos dois conjuntos de dados representando o número
de faltas de funcionários em dois departamentos da mesma
empresa em um determinado mês:
22
DESVIO PADRÃO
o É fácil perceber quão pouco objetivo é trabalhar com medidas
como faltas/vendas/viagens/reclamações/peças rejeitadas/R$ ao
quadrado.
o Por esse motivo utiliza-se o desvio padrão, que mantém a
unidade de medida, porém de forma mais objetiva/prática. Sua
fórmula é: √ No caso acima, temos que:
COEFICIENTE DE VARIAÇÃO
o Para medir quanto o desvio padrão varia em relação ao conjunto
de dados é necessário calcular o coeficiente de variação (CV).
Sua fórmula é:
⁄
⁄
o Esse coeficiente nos mostra que os dados de Y variam muito
mais em relação à média, sendo, portanto, um conjunto bastante
instável e pouco sensível às medidas de tendência central.
23
Para demonstração, exemplificamos com a situação de um
município Z que começou a receber investimentos para construção
de casas populares (X) e também viu crescer a venda de calçados
nas suas lojas (Y). É preciso saber então se há alguma correlação
entre essas variáveis. A primeira tarefa foi cumprida, a coleta de
dados confiáveis e estáveis, como mostrado a seguir.
14.000
12.000
10.000
Calçados
8.000
6.000
4.000
2.000
0
10.000 12.000 14.000 16.000 18.000 20.000 22.000
∑ ∑ ∑
√ ∑ ∑ ∑ ∑
24
Para facilitar a resolução dessa fórmula é preciso construir a tabela:
Temos então:
rxy = 0,93
√
Interpretação do resultado
O coeficiente de correlação linear simples varia de -1 a 1.
Zero significa ausência de correlação, os pares de valores se
distribuem em nuvem sem nenhuma tendência.
Valor positivo significa crescimento das duas variáveis no
mesmo sentido. Quanto maior o coeficiente, maior será a relação
de dependência entre os pares de valores, como a relação entre
investimento em formação acadêmica e rendimento salarial.
1 significa dependência positiva totalmente proporcional.
Valor negativo significa que na medida em que uma variável
cresce, a outra decresce. Quanto maior a negatividade, maior
será a relação inversa de dependência entre os pares de valores,
como a correlação entre a iluminação pública e número de
ocorrências policiais em uma determinada área.
-1 significa dependência negativa totalmente proporcional.
25
14. REGRESSÃO LINEAR SIMPLES
16.000
14.000
12.000
Calçados
10.000
8.000
6.000
4.000
2.000
0
10.000 12.000 14.000 16.000 18.000 20.000 22.000
∑ ∑ ∑ ∑
∑ ∑
∑ ∑ ∑
∑ ² ∑ ²
26
Aplicando a fórmula de a no exemplo dado, temos:
20 = 3,23 + 0,65X
X = 20 – 3,23 / 0,65
X = 25.800 casas populares
27
Referências bibliográficas:
Referências eletrônicas:
28