Você está na página 1de 5

Definies

Estatstica: a arte e a cincia de se coletar, analisar, apresentar e interpretar dados para uma melhor tomada de deciso em situaes de incerteza. Dados: so fatos numricos coletados, analisados e sintetizados para apresentao e interpretao. Conjunto de Dados: so todos os dados em um estudo particular. Elementos: entidades sobre as quais os dados so coletados. Variveis: uma caracterstica de interesse para os elementos. Dados: so medidas coletadas para cada varivel de cada elemento de um estudo. Observaes: conjunto de medidas coletadas para um determinado elemento em um conjunto de dados.

Escalas de Medio que Caracterizam Unidades de Observao


Dados nominais: dados referentes a varivel consiste em rtulos ou nomes. Podem ser apresentados como valores numricos. Dados ordinais: dados com propriedades de dados nominais e de ordem ou classificao significativa. So apresentados em ordem de grandeza. Dados intervalares: dados com propriedades de dados ordinais e intervalo entre valores dado segundo uma unidade de medida fixa (so sempre dados numricos). Ex.: Temperatura (C e F). Dados proporcionais ou das razes: dados com propriedades de dados intervalar e a proporo de dois valores significativa. (Nesta escala o zero absoluto). O zero includo na escala.

Classificao dos Dados


Qualitativos: usam rtulos ou nomes para identificar um atributo do elemento. Utilizam escala de medio nominal ou ordinal (podem ser dados numricos ou no-numricos). Quantitativos: indicam quantidades numricas (quantificao: valores numricos). Utilizam escala de medio intervalar ou proporo (so sempre dados numricos). Discretas resultam de uma contagem (conjunto enumervel). Ex.: Quantidade de carros Contnuas intervalos de observao (medidas) do fenmeno. Ex.: Bateria de celular Dados de Seo Transversal: So dados coletados ao mesmo tempo ou aproximadamente no mesmo ponto no tempo. Dados de Srie Histrica: So dados coletados em diversos perodos de tempo (avaliao segundo observao realizada em um nmero de anos, por exemplo).

Fontes de Dados
Fontes Existentes: dados necessrios para avaliao esto disponveis na organizao. Estudos Estatsticos: quando no h disponibilidade de dados em registros. Estudo Experimental: informaes so obtidas por meio de experimentos (variveis de interesse so controladas). Estudo Observacional: informaes so obtidas por meio de levantamento observacional (pesquisas por meio de entrevistas pessoais, aplicao de questionrios). Anlise Estatstica: quando usada como apoio para a tomada de deciso, demanda custo e tempo para obteno dos dados.

Erros na Obteno dos Dados


Erros nas amostragens: Falta de aleatoriedade na escolha das unidades da populao. Falta de representatividade da populao. Especificao errnea de uma populao e da variao aleatria. Dados fora da curva: valores incomumente elevados ou baixos (so normalmente revisados pelos analistas). Mtodos estatsticos usados para identificar dados errneos: Medidas de Posio: Mdia, Mediana, Moda, Percentis, Quartis. Medidas de Variabilidade: Amplitude, Amplitude de Interquartil, Varincia, Desvio Padro, Coeficiente de Variao.

Estatstica Descritiva
Dados reunidos e apresentados de forma clara para o entendimento do analista de dados: tabelas, grficos, nmeros. Inferncia Estatstica: Necessidade de coletar dados para determinado nmero de elementos (indivduos, empresas, eleitores, produtos, clientes). Populao: grupo maior de Elementos (conjunto de todos os elementos de interesse em determinado estudo). Ex.: Censo. Amostra: grupo menor de Elementos (subconjunto da populao). Ex.: Pesquisa Amostral. Populao: finita (nmero de alunos numa escola) e infinita (o que no pode ser contado, gs, lquido). rea de Abrangncia: Fisicamente limita as unidades de observao. Unidade de Observao e Caractersticas: caractersticas observadas dentro de uma ou mais unidades de observao. Tipos de Amostragem Sistemtica: a retirada das unidades de observao realizada periodicamente. Calcula-se o intervalo de seleo para uma populao finita N/n (populao/amostra). Aleatria Simples: cada unidade tem a mesma chance de ser retirada da populao. Sorteios podem ser usados para a seleo. Estratificada: caso de populao heterognea. Separa-se em grupos distintos as unidades da populao e em seguida procede-se a amostragem aleatria simples.

Sintetizando Dados Qualitativos


Sumrio Tabular de Dados Distribuio de Frequncia (xi): mostra nmero de itens em cada classe. Distribuio de Frequncia Relativa (FR): proporo ou frao dos itens de uma classe. (FR=xi/n) Distribuio de Frequncia Percentual (FP): porcentagem dos itens de uma classe. (FP=FRx100) Distribuio de frequncia cumulativa (FC); frequncia relativa cumulativa (FRC); frequncia percentual cumulativa (FPC) Tabulao Cruzada: sumrio tabular para compreender a relao entre 2 variveis.

Sintetizando Dados Quantitativos

Etapas: 1- Definir no classes no sobrepostas (recomendvel: de 5 a 20 classes); 2- Definir amplitude das classes; (Ampl=(maior valor-menor valor)/n de classes) 3- Determinar limites da classe (inferior e superior): cada observao deve pertencer a uma e s uma classe.

Anlise Exploratria dos Dados: Apresentao de Ramo-e-Folha


a) Organizar os dgitos esquerda de cada valor de dados esquerda da linha vertical; b) Registrar o ltimo dgito de cada valor de dados direita da linha vertical; c) Definir a unidade da folha usada. Ex.: Ramo|Folha 6|9 8 7|2 3 6 3 6 5 8|6 2 3 1 1 0 4 5 9|7 2 2 6 2 1 5 8 8 5 4 e etc. (obs.: esses dados devem ser arrumados) Unidade de folha a casa decimal aplicada: nesse caso 1, se fosse em centena seria 10,... Ramo e folha estendida dividir a classe em pedaos para no ficar imenso. Ex.: 9|1 2 2 2 4 9|5 5 6 7 8 8

Mtodos Numricos - Alternativas Adicionais para Sintetizar Dados


Medidas de Posio: Mdia, Mediana, Moda, Percentis, Quartis Medidas de Variabilidade (ou Medida de Disperso): Amplitude, Amplitude Interquartil, Varincia, Desvio Padro, Coeficiente de Variao Mdia aritmtica Mdia aritmtica ponderada (aquela que tem pesos) mdia aritmtica geomtrica: xbarra= raiz n dos produtos xi Mediana valor intermedirio quando os dados so organizados em ordem crescente (do menor para o maior). Os valores repetidos so includos na lista ordenada. Quando o nmero de dados par, pega-se os dois do meio e faz uma mdia deles. Quando mpar, pega-se o valor do meio. Moda o valor que ocorre com maior freqncia na amostra. Percentis - um PERCENTIL fornece informao sobre como os dados se distribuem ao longo do intervalo entre o menor e o maior valor. Interpretao: o p-simo percentil um valor tal que pelo menos p por cento das observaes so menores ou iguais a esse valor e pelo menos (100 p) por cento das observaes so maiores ou iguais a esse valor. I=(p/100).n Se der quebrado, arredondar para cima, se der inteiro ser a mdia dos valores nas posio i e i+1 Quartis dados divididos em 4 partes de 25% cada. Q0=0%; Q1=25%; Q2=50%; Q3%=75%; Q4=100% Interpretao a mesma. I=(q/100).n Se der quebrado, arredondar para cima, se der inteiro ser a mdia dos valores nas posio i e i+1

medidas de variabilidade (ou Medida de Disperso) amplitude - medida mais simples de variabilidade. (ampl=maior valor-menor valor) AMPLITUDE INTERQUARTIL - o intervalo correspondente aos 50% dos dados intermedirios. a diferena entre o terceiro quartil e o primeiro quartil. (aiq=q3-q1) varincia medida de variabilidade que utiliza todos os dados. medida til ao comparar a quantidade de variabilidade de 2 ou mais variveis (amostra s=(xi-xbarra)/n-1) (populao o=(xi-mi)/N) Desvio em torno da mdia: xi-xbarra Desvio padro: raiz quadrada positiva da varincia. (amostra s=raiz de s) (populao o=raiz de o) Coeficiente de Variao - DISPERSO RELATIVA: Grandeza relativa do desvio padro quando este comparado com a mdia. Medida de disperso que compara distribuies diferentes. o tamanho de desvio padro em relao mdia. (cv=(s/xbarra)x100) em porcentagem Interpretao: o desvio padro da amostra x% do valor da mdia da amostra. medidas da forma da distribuio, da posio relativa e deteco de pontos fora da curva. Assimetria=(n/(n-1).(n-2)).(xi-xbarra/s) 0 simtrico, de 0 a 1 moderadamente assimtrico, acima de 1 fortemente assimtrico Contagem z: posio relativa dos valores contidos em um conjunto de dados. ajudam a determinar quo afastado um valor em particular est da mdia (zi=(xi-xbarra)/s) Interpretao: o nmero de desvio padro que xi est afastado da mdia. Ex.: z1= 1,2 x1 1,2 desvio padro maior que a mdia TEOREMA DE CHEBYSHEV: Permite fazer afirmaes acerca da proporo de valores de dados que devem estar contidos em um nmero especfico de desvios padro da mdia. Se aplica a qualquer conjunto de dados, independente da forma da distribuio dos dados. (1-(1/z)) deve ser maior que 0 Interpretao: Pelo menos x ou x% dos valores de dados devem estar contidos em Z desvios padro da mdia (em que Z qualquer valor maior que 1). REGRA EMPRICA: conjunto de dados exibem uma distribuio simtrica em forma de MORRO ou SINO. Interpretao: Aproximadamente 68% dos valores esto contidos em 1 desvio padro da mdia; Aproximadamente 95% dos valores esto contidos em 2 desvios padres da mdia; Aproximadamente 100% dos valores esto contidos em 3 desvios padres da mdia. DETECO DE PONTOS FORA DA CURVA Contagem-Z para identificar Pontos Fora da Curva: Recomenda-se tratar quaisquer valores de dados com uma contagem-Z menor que - 3 ou maior que +3 como um ponto fora da curva. ANLISE EXPLORATRIA DE DADOS Regra de Cinco Itens: menor valor, primeiro quartil, mediana, terceiro quartil e maior valor Box plot: Sumrio grfico de dados baseado na regra de cinco itens. Calcular q1, q2, q3 e aiq (q3-q1)

MEDIDAS DE ASSOCIAO ENTRE DUAS VARIVEIS


Covarincia da Amostra: Medidas descritivas usadas para sintetizar dados da relao entre duas variveis. Sxy=(((xi-xbarra).(yi-ybarra))/n-1) Interpretao: Se sxy > 0 associao linear positiva entre x e y. Se sxy < 0 associao linear negativa entre x e y. Se sxy = 0 no h associao Coeficiente de Correlao: medida da relao entre 2 variveis que no afetada pela unidade de medida das variveis. Rxy=sxy/(sx.sy) s desvio padro