Você está na página 1de 7

Tipos de dados estatsticos Por Jos Machado Moita Neto A descrio e interpretao de dados uma parte essencial da estatstica.

. Os dados podem ser de diferentes tipos e, portanto, necessitam ser tratados com mtodos estatsticos diferentes. Em qumica fcil perceber isto a partir destas perguntas que podem ser feitas: Qual o teor de alumnio que existe na gua do rio Parnaba? Existe chumbo na cera de carnaba que exportada? A anlise quantitativa do alumnio na gua resulta em um dado numrico. A anlise qualitativa de chumbo na cera resulta em um dado categrico, ou seja, do tipo sim ou no; presena ou ausncia, etc. Os dados numricos podem ser transformados em dados categricos atravs de outra pergunta: o teor de alumnio encontrado nocivo sade humana? A comparao com o teor mximo indicado por alguma norma poder fornecer uma resposta categrica sem ter que fazer uma nova anlise. Os dados qualitativos, no entanto, no podem ser posteriormente transformado em dados quantitativos. O mesmo acontece numa pesquisa sobre renda familiar. Por exemplo: Qual a sua renda familiar? Esta pergunta retorna um nmero. Qual a faixa de renda familiar que voc se situa? (e ento apresenta-se algumas alternativas). Esta segunda pergunta retorna categorias de renda. A primeira pergunta mais completa pois a partir da mesma se pode construir categorias, enquanto que na segunda questo as categorias sequer podem ser refeitas. Um dia vi um questionrio que me colocava na mesma faixa de renda do Joo Claudino: a) 0 a 1 salrio; b) 1 a 2 salrios; c) 2 a 3 salrios e d) 3 a 4 salrios e e) mais de 4 salrios. Os dados quantitativos permitem uma avaliao estatstica mais rica e podem ser sempre transformados em dados qualitativos. Os dados qualitativos podem ser de dois tipos ordinal e nominal. Os dados ordinais podem ser transformados em dados nominais mas o inverso no verdadeiro. Portanto, uma pergunta sobre renda pode ser apresentada como dado numrico (valor da renda), dado ordinal (faixa de renda) ou dado nominal (p.ex. rico ou pobre). Os dados ordinais podem ser transformados em dados nominais. Um pergunta sobre o desempenho do governo estadual, pode ser posta de duas maneiras: 1) Voc aprova a atual administrao estadual? 2) Como voc classifica a atual administrao estadual? (pssima, ruim, regular, boa, tima). A primeira questo admite respostas do tipo sim ou no. A segunda resposta mais rica e permite uma gradao do desempenho, que pode ser ordenado (dado ordinal). Alm disso, os resultados da segunda pergunta podem ser convertidos em resultados da primeira. Uma das metodologias utilizadas nesta classificao categorial a escala de Likert de sete pontos, sendo 7 o maior grau de concordncia com uma idia e, inversamente, 1 representa o maior grau de discordncia. No caso mencionado acima, poderia ser construda uma escala de 5 categorias (1=pssima; 2=ruim; 3=regular; 4=boa e 5=tima). claro que tem perguntas que s admitem respostas nominais: sexo, estado civil, etc. Portanto, quando existe possibilidade, sempre prefervel colher dados numricos do que categricos. E, quando s for possvel colher dados categricos, melhor colher dados ordinais do que nominais.

Estatstica Univariada por Jos Machado Moita Neto Em qualquer deciso que tomamos em nossas vidas, sempre levamos em conta um grande nmero de fatores. Obviamente nem todos estes pesam da mesma maneira na hora de uma escolha. s vezes, por tomarmos uma deciso usando a intuio, no identificamos de maneira sistemtica estes fatores. Ou seja, no identificamos quais as variveis que afetaram a nossa deciso. Quando analisamos o mundo que nos cerca, identificamos que todos os acontecimentos, sejam eles culturais ou naturais, envolvem um grande nmero de variveis. As diversas cincias tm a pretenso, de conhecer a realidade e de interpretar os acontecimentos (cincias humanas) e os fenmenos (cincias naturais), baseadas no conhecimento das variveis intervenientes consideradas importantes nestes eventos. Estabelecer relaes, encontrar ou propor leis explicativas o papel prprio da cincia. Para isso necessrio controlar, manipular, medir as variveis que so consideradas relevantes ao entendimento do fenmeno analisado. Muitas so as dificuldades em traduzir as informaes obtidas em conhecimento. A maior delas de natureza epistemolgica: a cincia no conhece a realidade, apenas a representa atravs de modelos e teorias dos diversos ramos do conhecimento. Outra dificuldade a aspirao de universalidade das explicaes cientficas. Ora, isto implica e condiciona a pesquisa a uma padronizao metodolgica. Um aspecto essencial desta padronizao a avaliao estatstica das informaes. A maneira prpria de fazer cincia, procurando reduzir a poucas variveis, desenvolveu muito um ramo da estatstica que olha as variveis de maneira isolada a estatstica univariada. Somos cientificamente treinados a analisar as variveis isoladamente e a partir desta anlise fazer inferncias sobre a realidade. Esta simplificao tem vantagens e desvantagens. Quando um fenmeno depende de muitas variveis, geralmente este tipo de anlise falha, pois no basta conhecer informaes estatsticas isoladas, mas necessrio tambm conhecer a totalidade destas informaes fornecida pelo conjunto das variveis. As relaes existentes entre as variveis no so percebidas e assim efeitos antagnicos ou sinergticos de efeito mtuo entre variveis complicam a interpretao do fenmeno a partir das variveis consideradas. Porm, no caso restrito de variveis independentes entre si possvel, com razovel segurana, interpretar um fenmeno complexo usando as informaes estatsticas de poucas variveis. As informaes estatsticas mais relevantes neste tipo de anlise so as medidas de tendncia central e de disperso dos dados. O desenvolvimento tecnolgico oriundo das descobertas cientficas tem alavancado o prprio desenvolvimento cientfico, ampliando em vrias ordens de grandeza a capacidade de obter informaes de acontecimentos e fenmenos que esto sendo analisados. Uma grande massa de informao deve ser processada antes de ser transformada em conhecimento. Portanto, cada vez mais estamos necessitando de ferramentas estatsticas que apresentem uma viso mais global do fenmeno que aquela possvel numa abordagem univariada.

Estatstica Multivariada por Jos Machado Moita Neto A denominao Anlise Multivariada corresponde a um grande nmero de mtodos e tcnicas que utilizam simultaneamente todas as variveis na interpretao terica do conjunto de dados obtidos. Distingue-se da estatstica tradicional que anlise cada varivel ou cada amostra separadamente. Para que no haja qualquer mistificao dos mtodos de anlise multivariada convm lembrar que estes mtodos padecem dos mesmos problemas de toda a estatstica. A escolha inadequada das variveis e das amostras afetam a interpretao dos resultados e, portanto, o conhecimento gerado a partir da interpretao estatstica. A estatstica tem uma quasi-circularidade pouco explorada nos textos: pesquisamos para dizer algo significativo sobre o universo que elegemos, porm a pesquisa s ser significativa se conhecermos suficientemente o universo para escolhermos adequadamente as variveis e as condies de amostragem. A objetividade da pesquisa cientfica s comea depois da escolha das variveis e das metodologias de anlise, antes disto atividade cientfica completamente subjetiva. Obviamente, o resultado de toda pesquisa cientifica est contaminada por este vis de nossa subjetividade. Para entender melhor, vamos exemplificar com a anlise de gua de um rio. O pesquisador piauiense no tem motivos para analisar mercrio nos rios Poti ou Parnaba pois no h atividade de garimpo nas proximidades destes rios. No havendo registro conhecido de curtume ou de outra atividade industrial especfica muito dos ons metlicos no sero pesquisados. A matria orgnica ser determinada de forma global e no se investiga substncias especficas, a no ser que haja indcios de alguma contaminao. Considerando que aquilo que no se investiga jamais ser descoberto, entende-se a subjetividade de um resultado de uma anlise de gua pelo que se deixou de dizer e a sua objetividade pelo que foi dito no laudo tcnico de anlise. O mesmo acontece com as pesquisas de opinio que pretendem medir tendncias do pblico diante de determinadas questes. A escolha das variveis (no caso as perguntas) inteiramente subjetiva e iro influenciar as possibilidades de anlise dos resultados. Quando o interesse primeiro transformar as informaes colhidas em conhecimento sobre o sistema em estudo, possvel minimizar alguns aspectos subjetivos da questo. Ou seja, h metodologias estatsticas que devem ser seguidas criteriosamente. Nenhuma pesquisa se faz sem expectativas provenientes do senso comum, da formao terica do pesquisador e de sua viso de mundo. Portanto, na pesquisa esto embutidos tambm os prprios preconceitos do pesquisador. Contudo, uma pesquisa feita de modo a confirmar ou negar tais expectativas. Da o papel primordial da anlise estatstica. A realidade que nos cerca complexa e multivariada, necessitando de uma abordagem estatstica adequada. A estatstica multivariada permite uma viso global das variveis e amostras analisadas sendo um instrumento valioso numa pesquisa complexa.

Humor na estatstica por Jos Machado Moita Neto Algumas formulaes pseudo-estatsticas fazem parte do humor desta cincia. Mas necessrio ter um olhar crtico para identificar onde termina a estatstica e comea o humor. Vamos comentar algumas frases famosas do anedotrio. 1) A taxa de natalidade o dobro da de mortalidade, portanto uma em cada duas pessoas imortal!. Apenas pela concluso jocosa, podemos rechaar a afirmao baseada na experincia cotidiana. Quantas pessoas que esto acima dos 100 anos voc conhece?. Mas, em estatstica, preciso ir mais adiante. Por exemplo, confirmar as informaes sobre a taxa de natalidade e taxa de mortalidade nos indicadores demogrficos do IBGE (http://www.ibge.gov.br) e, principalmente, encontrar a definio destes indicadores para saber se suportam tal concluso. Uma concluso estatstica vlida que esta anedota no brasileira. Por que? 2) 33% do acidentes de trnsito envolvem pessoas embriagadas. Portanto 67% esto completamente sbrias, a concluso que devemos dirigir totalmente bbados. Na pgina do Detran (http://www.detran.pi.gov.br) existe as estatsticas de acidentes, mas no consta a varivel indicada na anedota. A estatstica de acidentes de trnsito nas rodovias federais do Ministrio dos Transportes (http://www.transportes.gov.br/) traz a ingesto de lcool como causa presumvel de acidentes, porm numa porcentagem bem inferior a indicada (<1%). Independente da porcentagem de acidentes com pessoas embriagadas, que pode ultrapassar 50%, h um erro de natureza estatstica na concluso da frase. H um pressuposto implcito na anedota: o tamanho da populao de sbrios e embriagados a mesma, portanto bastaria comparar, sem ponderao, as porcentagens de acidentes para chegar naquela concluso lgica. Mas supondo que a populao de embriagados no nosso pas fosse de 5%, como seria uma concluso lgica e estatstica da frase? Depois de conhecer a estatstica, voc pode realmente se divertir comentando as frases obtidas do site http://www.humornaciencia.hpg.ig.com.br/miscelanea/curtami.htm como as que seguem: 3) Um homem com um relgio sabe a hora certa. Um homem com dois relgios s sabe a mdia. 4) Lamento de um estudante:"Se eu tivesse somente um dia de vida, gostaria de ficar em uma aula de estatstica. Assim o tempo passaria mais vagarosamente." 5) Voc viu que o estatstico foi preso?Agora ele tem zero graus de liberdade. 6) "A morte de uma pessoa uma tragdia; a de milhes, uma estatstica." Joseph Stalin (1879-1953) 7) Torture os dados por um tempo suficiente, e eles contam tudo! 8) Est provado que fazer aniversrio saudvel. Estatsticas mostram que pessoas que fazem mais aniversrios vivem mais. 9) "H trs espcies de mentiras: mentiras, mentiras deslavadas e estatsticas." 10) Estatstica um mtodo sistemtico para se ter uma concluso errada com 95% de confidncia. 11) Estatstica a arte de nunca ter que dizer que voc est errado. 12) 97,3% das estatsticas so forjadas. 13) Um estatstico aquele que, se est com a cabea em um forno e os ps enterrados no gelo, ainda diz que na mdia est tudo bem. 14) Tudo tem uma probabilidade de 50%. Acontece ou no. 15) Voc sabia que 87,186145% de todas as estatsticas dizem ter uma preciso que no se justifica pelo mtodo empregado? 16) (...) o que as estatsticas revelam sugestivo, mas o que elas escondem essencial. 17) Fatos so teimosos, mas estatsticas so mais flexveis.

O ltimo tiro na macaca por Jos Machado Moita Neto e Rejane Fontes de Sousa Longe do que os ecologistas podem pensar hoje, "dar o ltimo tiro na macaca" significava, antigamente, que a mulher estava ficando solteira sem mais esperana de casar. H controvrsias sobre a idade do ltimo tiro, talvez 30 anos de idade fosse um marco perigoso. Afinal de contas, Balzac, ao escrever o livro A mulher de 30 anos sagrou uma expresso pejorativa de balzaquiana para as mulheres solteiras nesta faixa de idade. O primeiro tiro na macaca podia ser 20 ou 25 anos, pois no existia um marco estabelecido para o costume popular de fazer gozao da mulher que ainda no havia assumido seu papel de esposa e dona de casa. Numa sociedade tradicional, toda a realizao do papel feminino dependia do casamento. Atravs do casamento, ela podia ter sexo, ser me e ter, talvez, o afeto do marido. Cuidar dos filhos e da casa, coroavam o ideal feminino de participao numa sociedade profundamente machista. Num olhar para a sociedade moderna, mesmo pegando os rinces mais conservadores, constata-se que a mulher tem si atribudo diferentes papis na sociedade contrastando com o ideal tradicional que lhe foi conferido. Deste modo, o prprio casamento deixa de ser uma obrigao imposta como nica possibilidade de realizao humana. Isto repercute na idade que a mulher casa ou mesmo se ela precisa casar para se realizar. Portanto, a expresso dar o ltimo tiro na macaca, to prpria do Piau e Maranho, j totalmente esquecida desta gerao. Os dados estatsticos da idade das mulheres que casaram no Brasil no ano de 2003 esto disponveis, por faixa etria, no site do IBGE. Entre as mulheres que casam, cerca de 25% tm mais de trinta anos de idade. Talvez um contingente grande sejam tambm daquelas que no casaram por opo. Os dados permitem saber qual a moda em se tratando do casamento. A moda, no sentido estatstico, indica que a maior freqncia de casamentos situa-se na faixa de 20 a 24 anos para as mulheres (32,7%). A mediana, outro parmetro estatstico, indica a faixa etria que divide o conjunto das mulheres casadas ao meio. No nosso exemplo, a mediana localiza-se no inicio da faixa de 25 a 29 anos, pois 49,9% das mulheres que casam o fazem at 24 anos. Os dados estatsticos apontam casamentos na faixa de 65 anos ou mais (0,45%), mas para a mulher que pretende casar, convm no esperar muito, pois menos que 5% das mulheres casam aps os 45 anos de idade. A realidade do homem assemelha-se a da mulher, pois a maior freqncia de casamentos ocorre entre 20 a 24 anos de idade (31,7%). A mediana ocorre no centro da faixa de 25 a 29 anos. Para os solteires que ainda esto pensando em casamento, um aviso: menos que 4% dos homens casam aps 54 anos. Para quem quer ficar ainda com as expresses antiquadas, mas adaptadas para a realidade estatstica de hoje, um bom marco referencial para o ltimo tiro de 45 anos para as mulheres e 54 anos para os homens.

Caixa de fsforos Por Jos Machado Moita Neto Numa roda de samba possvel encontrar artistas que batucam numa caixa de fsforos, tirando dali todo o ritmo que precisam para gerar a animao nos acompanhantes. A caixa de fsforos encontra ento uma utilidade que ultrapassa a funo planejada de atender primeira necessidade tecnolgica primitiva do homem: o fogo. O Qumico, do mesmo modo que o sambista, pode tambm encontrar outra funo para a caixa de fsforos. Mas o acompanhamento ideal no a msica e a cerveja e sim uma balana analtica. A balana marca o incio da qumica moderna e alicera todas as determinaes quantitativas feitas por esta cincia. No existe medida cientfica sem uma avaliao criteriosa do erro envolvido nesta mesma medida. Portanto, o Qumico e, mais especificamente, o Qumico analtico deve dominar as ferramentas bsicas das Cincias Estatsticas. A caixa de fsforos, na mo de um Qumico, pode ser o elemento didtico adequado para explicar os principais conceitos elementares de estatstica que os futuros Qumicos tero a necessidade de dominar para o seu futuro profissional. Diferente do que se pensa habitualmente, os palitos de fsforo no so idnticos. Portanto, a simples pergunta qual a massa de um palito de fsforo? s pode ser respondida com a ajuda da balana e da estatstica. A massa mdia dos palitos numa caixa e a disperso dos resultados individuais em relao a esta mdia (desvio padro), podem ser obtidos pesando todos os palitos de uma caixa de fsforos, aproximadamente quarenta, e usando uma planilha de clculo estatstico, como o SPSS, o Origin, etc. Uma alternativa para achar a mdia da massa, porm sem conhecer a disperso dos valores, pesar juntos os quarenta palitos e depois dividir o resultado por quarenta. O valor mdio da massa de um palito tambm pode ser obtido de maneira mais sofisticada, por regresso linear. Neste caso, pesam-se diferentes quantidades de palito a cada vez e depois se faz uma relao linear entre a massa e o nmero de palitos. Os programas grficos e estatsticos constroem esta relao e com ela possvel obter mdia e desvio padro da massa dos palitos. A comparao de procedimentos uma tarefa corriqueira na qumica analtica. Quem desenvolve um mtodo de anlise novo quer comparar com o mtodo convencional. A hiptese bsica, em tais casos, que o mtodo novo no difere significativamente do mtodo convencional. Somente a estatstica pode afirmar se a diferena significativa ou no, dentro do limite de confiana imposto (geralmente 95%). O teste t pareado ou independente pode ser utilizado nestas comparaes dependendo de cada situao. H uma diferena significativa de massa ao queimar apenas a cabea de um fsforo? A resposta pode ser construda atravs do teste t pareado quando cada palito pesado antes e depois da queima. O teste chamado pareado porque sobre a mesma amostra (cada palito individual) obtida a medida da mesma varivel (massa) aps diferente procedimento (normal e queimado). Dez palitos so suficientes para responder a pergunta inicial. Mas fica outra pergunta: possvel distinguir palitos queimados de palitos normais apenas pela massa, sem a inspeo visual? Para responder a pergunta anterior, necessrio admitir que a populao dos palitos queimados independente da populao dos palitos normais, inclusive podem ter diferentes nmeros de palitos. Neste caso, o teste estatstico apropriado o teste t para duas populaes independentes. Queimando e pesando metade de palitos de uma caixa de fsforos tem-se uma populao que pode ser caracterizada por sua mdia, desvio padro e nmero de palitos. A outra metade da caixa de fsforos no queimada constitui a outra populao. Somente se houver uma diferena estatisticamente significativa entre estas populaes que se pode responder afirmativamente a questo proposta. O batuque estatstico na caixa de fsforos poderia ainda prosseguir discutindo amostragem, distribuio normal, etc. mas agora fica por conta e arte dos meus leitores.

As aparncias enganam por Jos Machado Moita Neto Querer ter dezoito anos ou mais, para entrar em filme proibido para adolescentes, querer ter mais de 65 anos, para usufruir do atendimento preferencial a idosos, ou, simplesmente, teimar em no passar dos 30 ou 40 anos, so exemplos que expressam a nsia da sociedade atual diante do tempo que passa. Estimamos a idade das pessoas e tambm temos a nossa idade estimada pelos outros. Muitas so as variveis que usamos para identificar a idade, inclusive a aparncia fsica de quem avaliamos. A frase as aparncias enganam adquire neste incio de milnio um significado particular pois homens e mulheres tm usado diversos artifcios para driblar os sinais de envelhecimento que compem a aparncia. As aparncias enganam uma frase bem conhecida e pode ser usada em diversos contextos. Aqui trataremos como fundamentar matematicamente esta frase a partir da avaliao da idade de duas pessoas. Numa sala de aula, o professor o mais conhecido de todos. Alm da aparncia fsica, os alunos podem contar com outras variveis para estimar sua idade, como o tempo de magistrio, por exemplo. Deste modo, a capacidade dos alunos em estimar a idade de pessoas pode ser comparado se tambm for estimada a idade de um aluno desconhecido por todos. Nesta situao resta apenas a aparncia fsica como varivel determinante desta estimativa. Neste momento temos os objetos de estudo definidos, faltando ainda estabelecer uma metodologia adequada para a coleta de dados. A idade estimada do aluno desconhecido foi escrita num papel por cada um dos demais alunos. A estimativa da idade do professor foi dita em voz alta por cada aluno, de tal modo que uma resposta anterior poderia afetar uma resposta posterior. A hiptese bsica deste trabalho que as aparncias enganam. O sistema de estudo a aparncia do professor e do aluno. A varivel medida a idade estimada. A coleta de dados foi executada de duas formas diferentes. As idades verdadeiras foram reveladas aps a coleta. Este o resumo dos fatos. Agora vem a interpretao estatstica dos dados e a concluso que confirma, rechaa ou refaz a hiptese. A aplicao do teste t para uma populao pode dizer se a idade verdadeira do professor ou do aluno esto dentro do intervalo de confiana de 95% traado pelas estimativas. O resultado foi o seguinte: em ambos os casos, a idade verdadeira ficou fora do intervalo das estimativas. A idade mdia estimada para o professor foi superior verdadeira. O inverso aconteceu para o aluno. Quando se amplia o intervalo para 99%, a idade do professor fica dentro da estimativa. Neste ponto j temos subsdios suficientes para dizer que, de fato, as aparncias enganam. Por que? A mdia de idade estimada do professor foi mais prxima da idade verdadeira que a mdia do aluno, por isso ficou dentro do intervalo de estimativa de 99% de confiana. Ou seja, a estimativa da idade do professor teve mais exatido que a do aluno. O motivo provvel que maior nmero de aspectos ou variveis foram considerados para o professor, alm da simples aparncia. A frase de Nelson Rodrigues toda unanimidade burra, pode ser entendida, estatisticamente, como grande preciso no significa grande exatido pois a disperso das idades em torno da mdia (desvio-padro) do professor foi maior que a do aluno. Ou seja, houve maior preciso nas estimativas para a idade do aluno porm longe do valor verdadeiro. O motivo provvel que apenas a aparncia do aluno foi considerada gerando uma uniformidade maior na avaliao. Portanto, fundamentamos matematicamente que as aparncias enganam.

Você também pode gostar