Você está na página 1de 3

CAPÍTULO 1

INTRODUÇÃO À ANÁLISE EXPLORATÓRIA DE DADOS

1.1 O que é Estatística?

Estatística é um conjunto de técnicas que permite, de forma sistemática, organizar,


descrever, analisar e interpretar dados oriundos de estudos ou experimentos, realizados
em qualquer área do conhecimento. Denominamos por dados um ou mais conjuntos de
valores, numéricos ou não.

Existem três áreas da estatística:

 Estatística Descritiva
Utilizada na etapa inicial da análise , no primeiro contato com os dados. Tira-se
conclusões de modo informal e direto. Porém em uma grande massa de dados,
é preciso usar alguma técnica para RESUMIR a informação daquele particular
conjunto de valores. Ou seja, a Estatística Descritiva é um conjunto de técnicas
para descrever e resumir o dados, a fim de tirar conclusões sobre as características
de interesse.

 Probabilidade
Teoria matemática utilizada para estudar a incerteza de fenômenos aleatórios

 Inferência estatística
Estudo de técnicas que permitem a extrapolação das informações e conclusões
obtidas a partir de subconjunto, a um grande conjunto de dados. Se tivermos
acesso a todos os elementos que desejamos estudar, não é necessário o uso da
inferência estatística, porém é indispensável quando não é possível ter acesso a
todo o conjunto de dados, seja por razões econômicas, éticas ou físicas.

O grande conjunto de dados que contém a característica que temos interesse


chama-se POPULAÇÃO.
Um subconjunto da população, em geral com dimensão sensivelmente menor, é
denominado AMOSTRA.
>>> A seleção da amostra pode ser feita de várias maneiras, dependendo de fatores
como grau de conhecimento sobre a população, recusos disponíveis, etc.

ALGUNS TIPO DE AMOSTRAGEM:


 Amostra casual simples: As amostras são selecionadas ao acaso, com ou sem
reposição
 Amostragem estratificada: No caso de haver mais informações sobre a população
e a amostra, por exemplo, se numa cidade houver mais mulheres do que homens,
pode-se selecionar certo número de indivíduos entre as ulheres e outro entre os
homens.
 Amostragem sistemática: Se existir uma relação numerada dos iten da população,
seleciona-se os indivíduos de forma pré-determinada, exemplo: de 8 em 8, ou de
10 em 10.
Quanto mais complexa for a amostragem, maiores cuidados deverão ser tomados
nas análises estatísticas utilizadas.

1.2 Organização de dados

Podemos considerar dois grandes tipos de variáveis:


 NUMÉRICAS >> Quantitativas
 NÃO NUMÉRICAS >> Qualitativas

VARIÁVEIS QUALITATIVAS
Os possíveis valores que assumem representam atributos e/ou qualidades
 Qualitativas ordinais: Se tais variáveis têm uma ordenação natural, indicando
intensidades crescentes de realização
 Qualitativas Nominais: Não é possível estabelecer uma ordem natural entre seus
valores

VARIÁVEIS QUANTITATIVAS
Possuem natureza numérica
 Quantitativas discretas: Resultam de contagens, assumindo valores inteiros.
Conjunto finito e enumerável.
 Quantitativas contínuas: Assumem valores em intervalos dos números reais e,
geralmente, provém de mensuração.

FREQUÊNCIA
 Frequência Absluta: Valores das variáveis e suas respectivas contagens (nº de
ocorrências)
 Frequência Relativa: Número de ocorrências dividido pelo número total
 Frequência Acumulada: A frequência acumulada atéum certo valor é obtida pela
soma das frequências de todos os valores da variável, menores ou iguais ao valor
considerado.

GRÁFICOS

Três tipos básicos:

 Disco ou pizza: Adapta-se bem às variáveis qualitativas. Consiste em repartir um


disco em setores circulares corresposndents às porcentagens de cada valor,
calculada multiplicando-se por 100 a frequência relativa.
Gráfico de setores ou pizza
 Gráfico de barras: Utiliza-se o plano cartesiano com os valores da variável no
eixo das abcissas e a frequências ou porcentagens no eixo das ordenadas. Para
cada valor da variável desenha-se uma barra com altura correspondendo à sua
frequência ou porcentagem. Adapta-se melhor às variáveis discretas ou
qualitativas ordinais.
Gráfico de barras
6
4
2
0
Category 1 Category 2 Category 3 Category 4

 Histograma: Consistem em retângulos contíguos com base nas faixas de valores


da variável e com área igual à frequência relativa da respectiva faixa. Assim a
altura de cada retângul é denominada densidade de frequência ou simplesmente
densidade definida pelo quociente da área pela amplitude da faixa.

1.3 Uso de computadores em Estatística

Existem vários tipos de programas desenvolvidos especificamente para realizar


análises estatísticas, cada um voltado para uma determinada área do conhecimento.
Qualquer que seja o programa, existem três etapas que envolvem o seu uso:
1. Entrada de dados
2. Execução da análise estatística
3. Interpretação de resultados

O programa cria uma MATRIZ em que cada LINHA corresponde a uma UNIDADE
EXPERIMENTAL e cada COLUNA a uma VARIÁVEL.

Para executar o programa é necessário saber como o programa trabalha com as


informações.

Após as informações terem ido trabalhadas, vem a fase da interpretação dos


resultados obtidos. Em muitos casos a fase de interpretação é a mais difícil e interessante,
pois envolve o equacionamento das características apresentadas na análise,
correspondendo às questões inicialmente colocadas.