Estatstica descritiva
Conceitos bsicos
A Estatstica envolve tcnicas para coletar, organizar, descrever, analisar e interpretar dados, ou provenientes de experimentos, ou vindos de estudos observacionais.
Dados Informaes Decises
Estatstica
Conceitos bsicos
Amostras e populaes Medidas de tendncia central Tcnicas grficas para descrever os dados Distribuio normal Medidas de variabilidade
Amostras e populaes
Populao: se refere a grupos distintos de pessoas, animais, objetos.
Como em geral as populaes so muito grandes, se faz necessrio o uso de amostras para represent-las. Estas so formadas por uma frao da populao em estudo.
Populao e amostra
Amostra: seleo de elementos de uma populao
So mais baratas, mais rpidas de obter e mais convenientes.
Empregamos estatstica para generalizarmos os resultados obtidos de amostras para toda a populao. Portanto, preciso estar seguro de que qualquer amostra utilizada verdadeiramente representativa da populao alvo.
Populao e amostra
Estatsticas descrevem amostras e so representadas por letras latinas (x, s).
Parmetros descrevem populaes representados por letras gregas ( , ). Empregamos estatsticas amostrais para estimar parmetros populacionais.
Mediana
Moda
Mdia
calculada pela soma de todos os valores da amostra dividindo pelo nmero total de valores.
Dificilmente conseguimos utilizar a mdia de uma amostra como uma estimativa da mdia de uma populao.
Mediana
o valor que est no meio da amostra, isto , apresenta o mesmo nmero de valores acima e abaixo dela.
calculada com a ordenao de todos os valores e com a tomada do valor que est no meio
Mediana
Moda
o valor mais repetido.
Erro amostral
Sempre que selecionarmos uma amostra de alguma populao, ir existir incerteza sobre quo representativa a amostra realmente.
Se calcularmos uma estatstica amostral, nunca estaremos seguros sobre o quanto ela poder diferir do parmetro populacional. Erro amostral: no utilizamos todos os membros da populao. Em geral, quanto maior o tamanho da amostra mais prxima a sua mdia da mdia populacional.
Histograma de frequncia
uma boa forma de inspecionarmos os nossos dados visualmente, por exemplo, observamos o valor modal apenas procurando a coluna mais alta, ou observamos se os dados apresentam uma distribuio normal.
5 4 3 2 1 0
Histograma de frequncia
40 35
30
25 20 15 10 5 0 0-4 5-9 Escores de depresso 10-14 15-19 20-24 25-59 60-64
Diagrama de disperso
empregado para examinar o relacionamento entre duas variveis.
Distribuio normal
til conhecer a forma como os dados se distribuem, pois muitos testes estatsticos fazem suposies sobre como os dados so distribudos.
Ou seja, os testes so vlidos apenas se os dados se distribuem de certa forma. Uma das mais importantes distribuies a normal.
Distribuio normal
Para que uma populao seja classificada como normal, deve apresentar as seguintes caractersticas: A populao deve ter a forma de sino. As caudas encontram o eixo x no infinito.
Distribuio normal
tambm uma funo da sua mdia e desvio padro, ou seja, uma vez conhecido esses dois valores podemos desenhar a curva por meio de sua frmula.
Desvio padro: fornece uma indicao do que ocorre entre os dois extremos, ele nos informa o quanto os valores variam em torno da mdia.
Cada valores varia em torno da mdia para mais ou para menos
Isso indica que a maioria dos resultados esto 3,27 unidades acima ou abaixo da mdia
Verificamos que aproximadamente 70% dos dados esto situados em um intervalor de desvio padro a contar da mdia
Distribuies
Curtose: grau de achatamento ou afunilamento de uma distribuio.
Distribuies no-normais
Muitas vezes nossos dados no se distribuem normalmente;
s vezes, os desvios da normalidade so consequncia de erros amostrais.
importante verificar o formato da distribuio, j que muitas tcnicas estatsticas partem do pressuposto de que os dados analisados so distribudos normalmente.
Teste Kolmogorov-Smirnov Teste de Shapiro-Wilk
Distribuies no-normais
Distribuio assimtrica: a distribuio que apresenta caudas acentuadamente maiores em uma direo.
Nesses casos recomendvel utilizar a mediana e a moda, ao invs da mdia.
Distribuies no-normais
Distribuio bimodal: o tipo de distribuio na qual encontramos duas modas acentuadas
Em geral os dados so provenientes de duas populaes distintas (p. ex. torcerdores e no torcedores de futebol).
Probabilidade
Para aprendermos estatstica necessrio que tenhamos um bom entendimento do conceito de probabilidade.
Probabilidade = n de resultados desejados n de resultados possveis
As probabilidades so geralmente expressas em forma de percentagens e em nmeros decimais (0 a 1). A probabilidade de jogarmos um dado e obtermos um nmero par?
Probabilidade
A probabilidade condicionada envolve um evento que depende de outro.
Ex: contrair cncer caso voc seja fumante.
As tcnicas probabilidades;
estatsticas
so
fundamentadas
em
Comparando populaes
Tambm podemos utilizar a distribuio normal padro para comparar populaes. Nesse caso devemos comparar o que desejamos com outros grupos.
P. ex.: Seu desempenho em uma prova de psicologia social foi de 64% e em uma de psicometria foi de 45%. Em qual voc foi melhor se comparado aos dois grupos?
Suponhamos que Psicologia Social apresentou mdia 55% e desvio padro de 9%;
J Psicometria apresentou mdia de 40% e desvio padro de 4%.
PS: 64-55 = 1 9
Assim voc est 1 DP acima da mdia em Psicologia Social e 1,25 DP acima da mdia em Psicometria, portanto, est melhor em Psicometria.
Probabilidade e pesquisa
Em pesquisa, geralmente generalizamos resultados de amostras para populaes.
Isso significa que no sabemos se o padro de resultados que obtivemos em nossas amostras realmente reflete a realidade nas populaes ou se resultado do erro amostral. Deste modo, seria vantajoso calcularmos a probabilidade dos valores amostrais resultarem de erro da amostragem Logo, uma das maneiras mais simples de aplicar probabilidade pesquisa estimar parmetros populacionais a partir de estatsticas amostrais e calcular intervalos de confiana.
Distribuies amostrais
Se calcularmos a mdia de muitas amostras de uma populao especfica, teremos traado a distribuio amostral da mdia.
Teorema Central do Limite um teorema que afirma que quando o tamanho da amostra aumenta, a distribuio amostral da sua mdia aproxima-se cada vez mais de uma distribuio normal. Este resultado fundamental na teoria da inferncia estatstica
Intervalos de confiana
Embora saibamos que a mdia de nossa amostra uma aproximao da mdia da populao, geralmente no temos muita certeza da preciso desta aproximao.
Os intervalos de confiana podem nos ajudar a estimar a preciso da mdia de nossa amostra. Como trabalhamos com estimativas, no temos garantia de que o intervalo, de fato, envolve a mdia da populao. Este intervalo depende do tamanho da amostra utilizada. Os intervalos de confiana nos do um conjunto de valores no qual podemos ter 95% de confiana de que a mdia amostral contenha a mdia populacional.
Erro padro
O desvio-padro da distribuio amostral da mdia um conceito importante e denominado de erro padro. Ele fornece uma medida do grau com que as medias amostrais se desviam da mdia populacional (mdia da mdias). Ento se sabemos o erro padro, podemos estimar a preciso da nossa estimativa da mdia populacional. importante lembrar que a medida do grau de variao da mdia o desvio-padro e que o desvio-padro das mdias amostrais chamado de erro padro
Tamanho da amostra Erro padro
Objetivo
Explicar como podemos aplicar nosso conhecimento de probabilidades e distribuies amostrais para testar hipteses estabelecidas em nossas pesquisas.
Hiptese nula
H0 no existe relacionamento entre as variveis. H1 existe relacionamento entre as variveis. H0 no existe diferena entre os dois grupos. H1 existe diferena entre os dois grupos. Se voc ler que o pesquisador rejeitou a hiptese nula, significa que a probabilidade de obter os resultados encontrados se a hiptese nula fosse verdadeira to pequena que se torna mais sensato acreditar na hiptese de pesquisa (alternativa).
Se existe uma relao, h que se descartar a hiptese de que essa relao seja por erro amostral (ou seja, que H0 seja verdadeira).
Medir as variveis envolvidas e examinar o relacionamento entre elas; Calcular a probabilidade de obter tal relacionamento se no existir relao alguma na populao (se H0 verdadeira); Se esta probabilidade calculada suficientemente pequena, sugere que o padro encontrado improvvel de ter sido originado por acaso e, desta forma, provavelmente reflete um relacionamento genuno na populao.
Nvel de significncia
Como decidimos que a probabilidade que calculamos no teste de hipteses suficientemente pequena para que rejeitemos a hiptese nula?
0,05
A probabilidade associada com cada teste estatstico chamada de valor p ou alfa (). Resultados so relatados como significativos ou nosignificativos. Significncia estatstica versus significncia psicolgica.
Testes estatsticos
Uma vez que se tenha uma medida da fora de um relacionamento, precisamos encontrar a probabilidade de encontrar tal relacionamento unicamente devido ao erro amostral. Se pudermos converter a informao que temos sobre a intensidade do relacionamento em um valor de distribuio de probabilidade, poderemos determinar a probabilidade de que tal valor seja obtido por acaso. Deve-se enfatizar que as probabilidades calculadas se baseiam na hiptese de que as nossas amostras so selecionadas aleatoriamente da populao.
Testes estatsticos
Se os valores esto tanto em uma ou outra das regies indicadas, podemos concluir que tal relacionamento improvvel de ter ocorrido por acaso, isto , no poderia ser resultado do erro amostral.
Erro do Tipo I
Suponha que avaliando a relao entre duas variveis, voc conclua que h relao entre elas, rejeitando a hiptese nula. Suponhamos agora que, na verdade, no existe tal relao entre as variveis na populao e tenhamos encontrado um efeito ocorrido apenas por acaso.
Cometemos o erro do Tipo I (rejeitar H0 quando ela verdadeira).
Se a significncia do teste () 5%, temos uma chance de 1 em 20 de cometer este erro, caso a hiptese nula seja rejeitada.
Replicao se voc observa um fenmeno uma vez, ento pode ter sido por acaso; se o observa duas, trs ou mais vezes, pode estar certo de que um resultado autntico.
Erro do Tipo II
Este erro consiste em no rejeitar H0 quando ela , de fato, falsa.
Suponha que pretendamos averiguar se existe relacionamento entre a quantidade de lcool consumido e a coordenao de uma pessoa. Um estudo realizado, e verifica-se que existe uma grande probabilidade, digamos 0,8 (80%), de que a relao observada na amostra tenha ocorrido por acaso. Voc concluir, portanto, que no existe relacionamento entre quantidade ingerida de lcool e coordenao.
Essa ser uma concluso correta? Obviamente ela incorreta, pois todas as evidncias apontam o contrrio. Esse o motivo de existirem leis que probem dirigir aps beber. Nesse caso, podemos ter cometido um erro do Tipo II, isto , rejeitamos a hiptese de pesquisa quando ela de fato verdadeira.
Erro do Tipo II
Se voc cometeu um erro do Tipo II, convm se perguntar por que , se existe relao entre as variveis na populao, o seu estudo falhou na sua deteco.
Existem vrios motivos para a ocorrncia deste tipo de problema:
1. 2. 3. Por puro acaso, voc pode ter selecionado pessoas com alta tolerncia ao lcool; Um estudo mal projetado; Tamanhos amostrais muito pequenos.
Esses fatores afetam a capacidade da pesquisa em detectar relaes ou diferenas reais na populao.
2. As varincias amostrais devem ser aproximadamente iguais (geralmente esta violao no to catastrfica se voc
tem o mesmo nmero de participantes em cada uma das condies).
Obrigado!