Medidas de tendncia central: Mdia, moda e mediana BIOESTATSTICA Dentre as medidas resumo habitualmente apresentadas na anlise estatstica descritiva, as medidas do centro de uma distribuio ou tendncia central distribuio ou tendncia central so muito importantes. As mais utilizadas so: Mdia (aritmtica): Soma dos valores dividida pelo nmero de observaes. BIOESTATSTICA A mdia aritmtica um conceito facilmente compreendido, como por exemplo quando um grupo de pessoas vai a um restaurante e a conta dividida igualmente por todos. No entanto, se algumas pessoas comeram muito mais que as outras (ou consumiram alimentos ou mais que as outras (ou consumiram alimentos ou bebidas mais caros) ser justo utilizar a mdia? E quando o empregador afirma que o salrio mdio dos funcionrios de uma categoria em greve alto, essa medida no pode estar sendo distorcida pelos salrios extremamente elevados de uma pequena porcentagem de empregados? BIOESTATSTICA Como pode-se perceber, a mdia afetada por valores extremos (outliers), s devendo ser utilizada se a distribuio for simtrica. impossvel calcular a mdia de variveis categricas (mesmo que elas impossvel calcular a mdia de variveis categricas (mesmo que elas sejam representadas por nmeros, como no caso de algumas variveis categricas ordinais, como o estadiamento clnico do cncer de mama, que varia de 1 a 4), pois o resultado no teria nenhum significado. BIOESTATSTICA Pode-se, no entanto, calcular a mdia de variveis numricas discretas, inclusive com decimal (o conceito de que no se poderia calcular mdia para variveis discretas foi muito difundido no passado, mas hoje considerado passado, mas hoje considerado ultrapassado). Assim, pode-se dizer que a mdia de filhos por mulher no Estado de So Paulo em 1999 era 2,38 (embora nenhuma mulher tenha 0,38 filho). BIOESTATSTICA Qual a vantagem de descrever a mdia de variveis numricas discretas com decimais? Por exemplo, um demgrafo pode constatar que a mdia de filhos das famlias brasileiras caiu de 2,6 para 2,1. famlias brasileiras caiu de 2,6 para 2,1. Se no fossem utilizadas as casas decimais, poder-se-ia concluir que o nmero mdio de filhos da famlia brasileira manteve-se estvel em 2! BIOESTATSTICA Moda: Valor mais freqentemente observado. Quando algum pergunta: Qual a cor da moda neste vero? A resposta pode ser obtida observando-se qual a cor das obtida observando-se qual a cor das roupas da maioria das pessoas. Uma distribuio pode apresentar mais de uma moda, quando existem, por exemplo, duas categorias ou valores igualmente mais freqentes (distribuio bimodal). BIOESTATSTICA Mediana: Valor que divide as observaes, ordenadas de forma crescente, em igual nmero acima e abaixo. Quando o nmero de observaes for par, calcula-se a mdia dos dois valores centrais. Embora seja um conceito mais difcil de ser assimilado, fundamental para identificar o centro de uma distribuio assimtrica, pois pouco afetada por valores muito discrepantes. BIOESTATSTICA Exemplo: na seqncia de 9 medidas de uma varivel numrica (idade), dispostas em ordem crescente: 20 22 22 25 28 35 37 41 65 Mdia: Mdia: (20+22+22+25+28+35+37+41+65)/9 = 295/9 = 32,8 Moda: 22 anos Mediana: 28 anos BIOESTATSTICA Mdia e mediana so parmetros aplicveis apenas para variveis numricas (tanto discretas numricas (tanto discretas como contnuas). A moda pode ser identificada tanto para variveis numricas quanto para categricas. BIOESTATSTICA A mdia no uma medida resistente do centro da distribuio, sendo muito afetada por valores discrepantes (outliers). A mediana mais (outliers). A mediana mais resistente. Quando a distribuio simtrica, mdia, moda e mediana so equivalentes. Quando existe assimetria, no entanto, mdia e mediana desviam-se na direo dos valores extremos. BIOESTATSTICA BIOESTATSTICA A seguir, podemos observar histogramas de uma distribuio simtrica e outra desviada para a direita. BIOESTATSTICA BIOESTATSTICA Quartis e percentis Quartis so valores que dividem a amostra em quatro partes: - Primeiro quartil: valor abaixo do qual encontram-se 25% das observaes. encontram-se 25% das observaes. - Segundo quartil (mediana): valor abaixo do qual encontram-se 50% das observaes. - Terceiro quartil: valor abaixo do qual encontram-se 75% das observaes. BIOESTATSTICA Os percentis dividem a amostra em 100 partes. O percentil 95, por exemplo, o valor abaixo do qual encontram-se 95% das abaixo do qual encontram-se 95% das observaes. BIOESTATSTICA Medidas de variabilidade: amplitude, varincia, desvio padro e coeficiente de variao. BIOESTATSTICA Podemos ter duas amostras com distribuio simtrica, mdias iguais porm variabilidade diferente. Por exemplo, ao se afirmar que a Por exemplo, ao se afirmar que a idade mdia 40 anos, podemos ter uma amostra contendo indivduos com idades de 35 a 45 anos e outra com pessoas de 10 a 70 anos. BIOESTATSTICA Amplitude: a medida de variabilidade mais simples, descrevendo a diferena entre o menor e o maior valor. Na primeira amostra do exemplo Na primeira amostra do exemplo anterior, a amplitude de 10 anos, e na segunda de 60 anos. Como pode-se perceber, uma medida pouco resistente, pois baseia-se apenas nos valores de duas observaes. BIOESTATSTICA Varincia e Desvio Padro: So medidas de variabilidade individual, ou seja, indicam individual, ou seja, indicam como os valores variam de um indivduo para outro, atravs do afastamento dos valores em relao mdia. BIOESTATSTICA A seguir temos as frmulas da varincia e do desvio padro: BIOESTATSTICA Vamos agora procurar entender estas frmulas, que podem parecer assustadoras a princpio. Primeiro vamos identificar cada um dos smbolos: : somatria X: o valor de cada uma das observaes _ X : a mdia da amostra n: o nmero de observaes (tamanho da amostra) BIOESTATSTICA Para o clculo do desvio padro, inicialmente temos que calcular as diferenas entre cada um dos valores e a mdia. Se simplesmente somssemos todas as diferenas, o total seria zero, pois alguns valores so maiores do que a mdia (diferena valores so maiores do que a mdia (diferena positiva) e outros menores (diferena negativa). Utiliza-se ento um artifcio comum em estatstica, que consiste em elevar os valores ao quadrado, tornando-os assim todos positivos (-2 ao quadrado quatro, assim como 2 ao quadrado). BIOESTATSTICA O passo seguinte calcular o valor mdio, dividindo pelo nmero de observaes; no entanto, ao invs de se utilizar n (tamanho da amostra) utiliza-se n-1 devido ao amostra) utiliza-se n-1 devido ao conceito de graus de liberdade (se soubermos a mdia e todos os valores menos um, podemos calcular o ltimo valor). A medida obtida denominada varincia. BIOESTATSTICA Finalmente, extramos a raiz quadrada para voltar escala original (pois havamos elevado as diferenas ao elevado as diferenas ao quadrado). BIOESTATSTICA Coeficiente de Variao: Medida de variabilidade dos valores individuais em torno da mdia amostral, calculada dividindo-se o desvio padro pela mdia. BIOESTATSTICA Erro padro e erro amostral. BIOESTATSTICA Erro Padro: Medida de variabilidade da mdia amostral (como a mdia varia de uma amostra para outra). Como j foi citado anteriormente, a mdia da populao estimada atravs de uma amostra apresenta sempre uma mdia da populao estimada atravs de uma amostra apresenta sempre uma margem de erro, que estimada pelo erro padro. No se trata de uma medida de variabilidade individual (como o desvio padro), mas sim de uma estimativa da variabilidade da mdia obtida, em funo do tamanho da amostra. BIOESTATSTICA BIOESTATSTICA Pode-se perceber que quanto maior a amostra, menor o erro padro. Erro Amostral: Medida de afastamento da mdia amostral afastamento da mdia amostral em relao mdia real da populao, associada sempre a uma confiana (O conceito de confiana ser discutido mais adiante). BIOESTATSTICA BIOESTATSTICA Vamos ver um exemplo: Foram medidos os pesos de 1200 recm- nascidos em uma maternidade. Os dados foram analisados em um Os dados foram analisados em um programa de computador (vide a seguir representao impressa), que apresentou os seguintes resultados: BIOESTATSTICA BIOESTATSTICA BIOESTATSTICA Foi referido o intervalo de confiana de 95 % para a mdia, que calculado a partir do erro amostral, representando tambm uma medida de afastamento da mdia amostral em relao mdia real da populao, associada sempre a uma confiana. A interpretao que temos confiana de 95% A interpretao que temos confiana de 95% de que a mdia real da populao encontra-se dentro dos limites do intervalo, ou seja, a probabilidade da mdia real ser menor que 3276,0 gramas ou maior que 3342,6 gramas de apenas 5%. O limite inferior do intervalo de confiana para a mdia calculado atravs da mdia menos o erro amostral e o limite superior pela mdia somada ao erro amostral. BIOESTATSTICA Intervalo de confiana de 95% para a mdia = mdia erro amostral BIOESTATSTICA Podemos concluir a partir destas medidas- resumo que: - a distribuio simtrica (pois a mdia e a mediana so praticamente iguais); - a variabilidade pequena (pois o desvio padro 18% do valor da mdia); padro 18% do valor da mdia); - 75% dos bebs pesam mais de 2.908,0 g (primeiro quartil). - 75% dos bebs pesam menos de 3.704,5 g (terceiro quartil). - a margem de erro da mdia calculada pequena (pois a amostra grande); - o intervalo de confiana de 95% para a mdia pequeno (pois a amostra grande). BIOESTATSTICA Tabelas BIOESTATSTICA Os resultados devem ser apresentados sob a forma de tabelas e grficos, que resumem os dados obtidos, devendo ser auto-explicativos, ou seja, deve auto-explicativos, ou seja, deve ser possvel entender o grfico ou a tabela sem ler o restante do texto. Todos os itens devem constar na mesma pgina. BIOESTATSTICA - As tabelas so compostas de linha e colunas, incluindo sempre uma barra de ttulo e a descrio dos resultados. - Ao final, podem conter uma barra - Ao final, podem conter uma barra com o total ou a mdia. - As bordas das tabelas devem conter apenas traos horizontais acima e abaixo da primeira linha e da ltima, quando esta contiver total ou mdia. BIOESTATSTICA - Quando a ltima linha no contiver total ou mdia, dever ter apenas uma linha horizontal ao final. horizontal ao final. - Nunca incluir traos verticais. BIOESTATSTICA Exemplos de Tabelas: BIOESTATSTICA BIOESTATSTICA Tabelas de contingncia so tambm compostas de linhas e colunas, e apresentam os dados de uma associao que se deseje pesquisar, confrontando os pesquisar, confrontando os resultados. Consideram-se o nmero de linhas e colunas que contm resultados, no computando as linhas e colunas com o ttulo e os totais. BIOESTATSTICA BIOESTATSTICA Grficos BIOESTATSTICA Os grficos facilitam muito a compreenso dos resultados. Os principais grficos utilizados para variveis utilizados para variveis numricas so os histogramas e grficos do tipo boxplot (tambm chamados de box- and-whisker plots). BIOESTATSTICA Para variveis categricas podemos construir grficos do tipo pizza, indicando a participao porcentual de cada categoria. Os grficos de barras podem ser Os grficos de barras podem ser utilizados tanto para representar variveis categricas (indicando a contagem ou porcentual de cada categoria) como para comparar mdias de grupos (ou tempos diferentes para o mesmo grupo). BIOESTATSTICA Vejamos um histograma ou grfico de freqncia. No eixo x consta o peso em gramas e no eixo y o nmero de bebs para cada faixa de peso. BIOESTATSTICA Analisando o histograma, podemos confirmar que a distribuio simtrica (a maioria dos valores maioria dos valores encontram -se no centro). BIOESTATSTICA Foi construdo tambm um grfico do tipo boxplot. Este segundo grfico tambm mostra que a distribuio simtrica, pois a "caixa" do grfico formada pelo primeiro "caixa" do grfico formada pelo primeiro quartil, mediana e terceiro quartil simtrica. O asterisco dentro da caixa identifica a mdia. Os asteriscos nas extremidades representam os valores que so muito discrepantes (outliers), como podemos ver no modelo a seguir: BIOESTATSTICA BIOESTATSTICA BIOESTATSTICA O que "outlier"? Procuramos no utilizar termos em Ingls, mas este inevitvel, pois no tem traduo adequada. Outlier significa "aquele que est Outlier significa "aquele que est fora", podendo ser traduzido como "valor discrepante". A maioria dos programas de anlise estatstica define os outliers da seguinte forma: BIOESTATSTICA 1. Calcula a amplitude interquartis (terceiro quartil - primeiro quartil) 2. Calcula o limite inferior do boxplot atravs da frmula: [primeiro quartil - (1,5 X amplitude interquartis)] interquartis)] 3. Calcula o limite superior do boxplot atravs da frmula: [terceiro quartil + (1,5 X amplitude interquartis)] 4. Os valores abaixo do limite inferior ou acima do limite superior so considerados outliers. BIOESTATSTICA O que fazer com outliers? A primeira reao de muitos pesquisadores desprezar os valores discrepantes. No entanto, isto no correto. Inicialmente, deve-se verificar se no houve erro de digitao. verificar se no houve erro de digitao. Em segundo lugar, analisar se no ocorreu erro na mensurao da varivel. Finalmente, se o valor extremo est correto, deve-se avaliar se aquele indivduo apresenta alguma condio que o caracterize como os diferentes dos demais. Caso contrrio, o valor no deve ser desprezado. BIOESTATSTICA Se quisermos apresentar os resultados da varivel sexo dos recm-nascidos (categrica nominal), (categrica nominal), podemos fazer um grfico de pizza: BIOESTATSTICA BIOESTATSTICA Finalmente, um exemplo de grfico de barras, publicado no jornal O Estado de So Paulo em 28 de Julho de 2003. BIOESTATSTICA Observando apenas o grfico podemos compreender o assunto sem ter que ler o texto da matria. texto da matria.