Você está na página 1de 25

Anlise Exploratria de Dados

Anlise Exploratria de Dados


Daniel Matos de Carvalho

Instituto Federal de Educao Cincia e Tecnologia

22 de maro de 2012

Anlise Exploratria de Dados Fases do Mtodo Estatstico

Estatstica Descritiva
1. Coleta 2. Crtica dos dados 3. Apurao dos dados 4. Exposio dos dados

Estatstica Inferencial
1. anlise 2. Interpretao

Anlise Exploratria de Dados Conceitos Fundamentais e Denies

Conceitos Fundamentais e Denies


Populao Estatstica ou Universo Estatstico - Conjunto de elementos que possuem ao menos uma caracterstica em comum. Usaremos N para designar esse nmero.
Populao dos alunos do primeiro perodo de uma faculdade Populao dos operrios da indstria automobilstica

Amostra - Fixada uma populao, qualquer subconjunto formado exclusivamente por seus elementos denominado amostra. Usaremos n para designar esse nmero. Varivel - a caracterstica que vai ser observada, medida ou contada nos elementos da populao ou da amostra.

Anlise Exploratria de Dados Conceitos Fundamentais e Denies

Conceitos Fundamentais e Denies


Varivel quantitativa - uma varivel que assume como possveis valores, nmeros.
1. Discreta - uma varivel que assume como possveis valores nmeros inteiros (Ex. N de Alunos e N Batimentos de corao por minuto). 2. Contnua - uma varivel que assume como possveis valores nmeros em intervalos da reta real ( Altura, comprimento de uma certa folha).

Varivel qualitativa - uma varivel que assume como possveis valores atributos ou qualidades.
1. Nominal - atributos ou qualidades que no apresentam uma ordem natural de ocorrncia. (Ex. Sexo, Marca do Produto) 2. Ordinal - atributos ou qualidades que apresentam uma ordem natural de ocorrncia. (Ex. Estatura - alta, mdia ou baixa; Grau de Instruo)

Anlise Exploratria de Dados Conceitos Fundamentais e Denies

Conceitos Fundamentais e Denies


Parmetro - a medida usada para descrever uma caracteristica numrica populacional. Genericamente representada por . A mdia () e a varincia ( ) so exemplos de parmetros populacionais. Estimador - uma caracterstica nmerica determinada na amostra, uma funo do seus elementos. Genericamente . A mdia amostral ( representaremos por x ), a varincia 2 amostral (s ) so exemplo de estimadores. Estimativa - o valor numrico determinado pelo estimador, 0 . que genericamente representaremos por Amostragem - o processo de seleo de uma amostra, que possibilita o estudo das caractersticas da populao.

Anlise Exploratria de Dados Introduo a Amostragem

Erro amostral - o erro que ocorre justamente pelo uso da amostra = Parte Casual + Vies ou Desvio. O vis pode aparecer no:
Na seleo da amostra - Tipo de amostragem utilizada. Na coleta dos dados - Ocorre quando se substitui a unidade de amostragem ou quando h falta de respostas. Na estimao dos parmetros

Amostragem
A teoria da amostragem estuda as relaes existentes entre uma populao e as amostras extradas dessa populao. Censo - envolve o estudo de TODOS os elementos de uma populao. Amostragem - envolve um estudo de apenas uma PARTE dos elementos da populao.

Anlise Exploratria de Dados Introduo a Amostragem

Desvantagens do Censo:
1. Fatore de tempo e custo podem apontar pela preferncia entre uma amostra a um censo. 2. O custo do censo pode torn-lo proibitivo. 3. A amostra pode ser atualizada mais facilmente.

Vantagens do Censo:
1. Quando a populao pequena e o custo entre o censo e a amostra forem praticamente iguais. 2. Se o tamanho da amostra necessria tiver que ser muito grande em relao a amostra examinada. 3. Nas ocasies em que se exige preciso completa

Anlise Exploratria de Dados Introduo a Amostragem

Fases do processo de amostragem


1. A identicao da populao alvo. 2. O mtodo e seleo da amostra. 3. A dimenso da amostra.

Mtodos de Seleo da amostra


Amostragem no probabilistca - o processo de seleo de uma amostra no qual cada unidade amostral da populao a probabilidade de seleo desconhecida para alguns ou todos elementos da populao.
So mtodos de carcter pragmtico ou intuitivo e so largamente utilizados, pois possibilitam um estudo mais rpido e com menores custos. A amostragem no probabilstica acarreta em um vis na seleo.

Anlise Exploratria de Dados Introduo a Amostragem

Amostragem por Convenincia


Os elementos da amostra so escolhidos por convenincia ou facilidade.
Ex - Espectadores de um programa so convidados a responder a um questionrio. Todos os casos em que se utilizem a subjetividade para seleo a amostra ser no representativa.

Anlise Exploratria de Dados Introduo a Amostragem

Amostragem Aleatria
So mtodos caracterizados por todos os elementos da populao poderem ser selecionados de acordo com uma probabilidade pr-denida.

Amostragem Aleatria Simples ou Casual


um processo de seleo de amostras em que todos os elementos da populao tem a mesma probabilidae de serem selecionados. equivalente a um sorteio lotrico.
Exemplo - Obter uma amostra representativa para a pesquisa de estatura de noventa alunos de uma escola: a. Numeramos os alunos de 01 a 90. b. Escrevemos os nmeros de 01 a 90, em pedaes iguais de um mesmo papel, colocando dentro de uma caixa. Considerando a amostra como sendo 10% da populao.

Anlise Exploratria de Dados Introduo a Amostragem

Exemplo
COnsideremos uma populao de tamanho N = 9, (Nmero de alunos em uma sala). E seja as notas desses alunos dadas por: X1 = 1, X2 = 2, X3 = 3, X4 = 4, X5 = 5, X6 = 6, X7 = 7, X8 = ...+9) 8, X9 = 9. A mdia da populao = (1+2+ =5 9 Retiramos dessa populao uma amostra de tamanho n = 3 x1 , x2 , x3 . Amostragem COM Reposio:
Amostra com menores valores x1 = 1, x2 = 1, x3 = 1. Erro padro = x = 1 5 = 4 Amostra com maiores valores x1 = 9, x2 = 9, x3 = 9. Erro padro = x =95=4 Portanto | | 4

Anlise Exploratria de Dados Introduo a Amostragem

Cont.
Amostragem SEM reposio:
Amostra com menores valores x1 = 1, x2 = 2, x3 = 3. Erro padro = x = 2 5 = 3 Amostra com maiores valores x1 = 7, x2 = 8, x3 = 9. Erro padro = x =85=3 Portanto | | 3

Logo o erro amostral menor na amostragem sem reposio

Anlise Exploratria de Dados Introduo a Amostragem

Amostragem proporcional estraticada


Consiste em dividir a populao em grupos (estratos) homogneos selecionando uma amostra aleatria de cada grupo. Os estratos podem ser faixas etrias, gneros ou graus de escolaridade, etc. DENTRO de cada extrato h uma grande homogeneidade, ou ento uma pequena variabilidade. ENTRE os extratos h uma grande heterogeneidade, ou ento uma grande variabilidade.

Anlise Exploratria de Dados Introduo a Amostragem

Exemplos
Dada a populao de N = 50.000 operrios dda indstria automobilstica, formar uma amostra de 5% (n = 2.500) de operrios para estimar seu salrio mdio. Cargos Chefes de Seo Operrios Especializados Operrios No Especializados Total Populao 5.000 15.000 30.000 50.000 Amostra 250 750 1.500 2.500

Anlise Exploratria de Dados Introduo a Amostragem

Amostragem Sistemtica
aplicada quando os elementos da populao j se acham ordenados (pronturios mdicos, prdios de um rua , linha de produo etc). Consideremos uma populao de tamanho N e dela tiramos uma amostra de tamanho n. Denimos s = N n como sendo o fator de sistematizao. Sorteamos um nmero (m) entre 1 e 2. Assim sendo, a amostra denida pelos elementos nmero {m, (m + s ), (m + 2s ), . . . , (m + (n 1)s )} Ex. Em uma linha de produo so produzidos N = 1.000 itens diariamente. Queremos retirar uma amostra sistemtica de tamanho n = 100. Ento s = 1000 100 = 10. Sorteamos m = 7, logo, a amostra ser formada pelos elementos {7, 17, 27, . . . , 997}

Anlise Exploratria de Dados Introduo a Amostragem

Exemplo
Em uma escola existem 250 alunos, sendo 35 na 1a srie, 32 na 2a srie, 30 na 3a srie, 28 na 4a srie, 35 na 5a srie, 32 na 6a srie, 31 na 7a srie e 27 na 8a srie. Obtenha uma amostra de 40 alunos e preencha o quadro.

Sexo 1a 2a 3a 4a 5a 6a 7a 8a

Populao

Clculo Proporcional

Amostra

Distribuio de Frequncia Introduo a Amostragem

Distribuio de Frequncia
Daniel Matos de Carvalho

UEPB - Universidade Estadual da Paraba Curso de Relaes Internacionais Disciplina - Estatstica

22 de maro de 2012

Distribuio de Frequncia Introduo a Amostragem

Tabela
um quadro que resume um conjunto de observaes. corpo - Conjunto de linhas e colunas que contm informaes sobre a varivel em estudo ; cabealho - parte superior da tabela que especica o contedo das colunas; coluna indicadora - parte da tabela que especica o contedo das linhas; linhas - retas imaginrias que facilitam a leitura, no sentido horizontal, de dados que se inscrevem nos seus cruzamentos com as colunas. casa ou clula - espao destinado a um s nmero. ttulo - conjunto de informaes, as mais completas possveis, respondendo a perguntas: O qu?. Quando?, Onde?, localizado no topo da tabela.

Distribuio de Frequncia Introduo a Amostragem

Tabela
Mdia de Anos de Estudo das Pessoas de 10 anos ou mais de idade Brasil 2003-2007. Ano 2003 2004 2005 2006 2007 Mdia de Anos de Estudos 7,2 7,3 7,4 7,7 7,8
Fonte:IBGE

Distribuio de Frequncia Introduo a Amostragem

De acordo com as normas do IBGE, nas casas ou clulas devemos colocar: um trao na horizontal (-) quando o valor zero (0); trs pontos (...) quando o no temos os dados; um ponto de interrogao quando temos dvida quanto exatido de determinado valor; zero quando o valor muito pequeno para ser expresso pela unidade utilizada.

Distribuio de Frequncia Tipos de Tabelas Estatstica

Tabelas Histricas
Descrevem os valores da varivel, em determinado local, discriminados segundo intervalos de tempo variveis. Preo Mdio do Frango em So Paulo. 2003-2008 Ano 2003 2004 2005 2006 2007 2008 Preo Mdia 2,56 2,64 2,67 2,53 3,20 3,64

Fonte: Associao Paulista de Avicultura

Distribuio de Frequncia Tipos de Tabelas Estatstica

Tabelas Geogrcas
Descrevem os valores da varivel, em determinado instante, discriminados segundo regies. Durao Mdia dos Estudos Superiores - 1994 Pases Itlia Alemanha Frana Holanda Inglaterra Nmero de Anos 7,5 7,0 7,0 5,9 menos de 4

Fonte: Revista Veja

Distribuio de Frequncia Tipos de Tabelas Estatstica

Tabelas Especcas
Descrevem valores, em determinado tempo e local, discriminados segundo especicaes. Rebanhos Brasileiros - Efetivo nos Estabelecimentos Agropecurios 2006 Espcies Bovinos Bubalinos Aves Sunos Ovinos Caprinos Quantidade 205.886.244 1.156.870 821.541.630 35.173.824 16.019.170 10.401.449

Fonte: IBGE

Distribuio de Frequncia Tipos de Tabelas Estatstica

Tabelas Conjugadas
Terminais Telefnicos em Servio Regies Norte Nordeste Sudeste Sul Centro Oeste 1991 342.938 1.287.813 6.234.501 1.497.315 713.357 1992 375.658 1.379.101 6.729.467 1.608.989 778.925 1993 403.494 1486649 7.231.634 1.746.232 884.822

Distribuio de Frequncia Tipos de Tabelas Estatstica

Distribuio de Frequncia
Quando se estuda uma varivel (qualitativa ou quantitativa), o maior interesse do pesquisador conhecer a distribuio dessa varivel atravs das possveis realizaes (valores) da mesma. Iremos, ver uma maneira de se dispor um conjunto de valores, de modo a se ter uma boa idia global sobre esses valores, ou seja, de sua distribuio.

Você também pode gostar