Escolar Documentos
Profissional Documentos
Cultura Documentos
Outliers
Outliers
DEPARTAMENTO DE MATEMTICA
LICENCIATURA EM MATEMTICA APLICADA
NDICE
INTRODUO............................................................................................................................................. 2
1- IMPORTNCIA DOS INQURITOS ....................................................................................................... 3
2- ETAPAS DA INVESTIGAO POR INQURITO .................................................................................. 5
3- ETAPA 1: PLANEAMENTO E DESENHO DO INQURITO ................................................................. 7
3.1- AMOSTRAGEM.............................................................................................................................. 7
3.1.1- TCNICAS DE AMOSTRAGEM ........................................................................................... 8
3.1.1.1- Amostragem Aleatria: ................................................................................................... 10
3.1.1.2- Amostragem No Aleatria............................................................................................. 12
3.1.2- DIMENSO DA AMOSTRA ................................................................................................ 17
3.2- MTODOS DE RECOLHA DOS DADOS ................................................................................... 23
3.3- CONCEPO DAS QUESTES.................................................................................................. 24
3.4- DESENHO DO QUESTIONRIO ........................................................................................... 28
3.5- PR-TESTE DO QUESTIONRIO ......................................................................................... 29
3.6- O PLANO DO QUESTIONRIO............................................................................................. 29
4- ETAPA 2: RECOLHA DOS DADOS ...................................................................................................... 32
5- ETAPA 3: ACESSO AOS DADOS.......................................................................................................... 32
6- ETAPA 4: PREPARAO DOS DADOS............................................................................................... 32
7- ETAPA 5: ANLISE DOS DADOS ........................................................................................................ 37
7.1- ESTATSTICA DESCRITIVA versus ESTATSTICA INDUTIVA............................................. 39
7.1.1- ESTATSTICA DESCRITIVA............................................................................................... 40
7.1.2- ESTATSTICA INDUTIVA................................................................................................... 41
7.1.2.1- Intervalos de Confiana................................................................................................... 41
7.1.2.2- Testes de Hipteses ......................................................................................................... 43
7.1.2.3- Relao entre Testes de Hipteses e Intervalos de Confiana......................................... 48
7.2- MTODOS PARAMTRICOS versus MTODOS NO-PARAMTRICOS ........................... 48
7.2.1- MTODOS NO-PARAMTRICOS ................................................................................... 49
7.2.1.1- Testes de Ajustamento .................................................................................................... 49
7.2.1.2- Testes de Aleatoriedade .................................................................................................. 51
7.2.1.3- Testes de Simetria ........................................................................................................... 52
7.2.1.4- Tabelas de Contingncia ................................................................................................. 53
7.2.1.5- Testes de Localizao ..................................................................................................... 55
7.2.1.6- Testes de escala e outros problemas de duas amostras.................................................... 60
7.2.1.7- Testes de Associano..................................................................................................... 61
7.3- MTODOS QUE ANALISAM DIFERENAS
versus MTODOS QUE ANALISAM
RELAES........................................................................................................................................... 65
7.3.1- MTODOS QUE ANALISAM DIFERENAS .................................................................... 65
7.3.2- MTODOS QUE ANALISAM RELAES ........................................................................ 66
7.4- TCNICAS UNIVARIADAS, BIVARIADAS E MULTIVARIADAS ........................................ 68
7.4.1- TCNICAS MULTIVARIADAS........................................................................................... 68
7.4.1.1- Regresso mltipla .......................................................................................................... 71
7.4.1.2- Regresso logstica.......................................................................................................... 76
7.4.1.3- Anlise discriminante...................................................................................................... 77
7.4.1.4- rvores discriminantes (de deciso) ............................................................................... 79
7.4.1.5- Anlise de varincia multivariada ................................................................................... 81
7.4.1.6- Anlise em componentes principais (ACP)..................................................................... 83
7.4.1.7- Anlise factorial .............................................................................................................. 86
7.4.1.8- Anlise de clusters .......................................................................................................... 88
7.4.1.9- Anlise loglinear ............................................................................................................. 91
7.4.1.10- Anlise de correspondncias ......................................................................................... 91
7.4.1.11- Anlise conjunta............................................................................................................ 93
7.4.1.12- Correlao cannica ...................................................................................................... 93
7.4.1.13- Escalonamento multidimensional ................................................................................. 94
7.4.1.14- Modelos de equaes estruturais................................................................................... 95
7.4.1.15- Tcnicas emergentes ..................................................................................................... 96
7.5- REPRESENTAES GRFICAS ................................................................................................ 97
8- ETAPA 6: PRODUO DO RELATRIO .......................................................................................... 101
9- ETAPA 7: DIVULGAO DOS RESULTADOS.................................................................................. 102
10- CONCLUSO..................................................................................................................................... 103
BIBLIOGRAFIA........................................................................................................................................ 105
1
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INTRODUO
Este trabalho foi elaborado no mbito do Trabalho Final de Curso da Licenciatura em
Matemtica Aplicada.
Tentou-se abordar o assunto da investigao por inqurito de uma forma equilibrada em
relao complexidade e abrangncia/profundidade para que pudesse ser um instrumento
til a alunos interessados nestas temticas.
De modo que, medida que as tcnicas estatsticas aqui apresentadas se vo tornando mais
complexas (nomeadamente nas tcnicas de anlise multivariada), os aspectos matemticos
das mesmas vo sendo omitidos apresentando-se apenas a aplicabilidade e os fundamentos
gerais de cada um dos mtodos.
Inicia-se por elucidar a importncia dos inquritos na sociedade actual, sintetizando-se
depois, as etapas de uma investigao por inqurito.
Desenvolve-se especialmente a etapas referentes ao planeamento e desenho do
questionrio, preparao dos dados e, de anlise dos dados.
No captulo do planeamento e desenho do questionrio, abordam-se, entre outros, assuntos
como a amostragem, mtodos de recolha de dados, concepo das questes e desenho do
questionrio.
No captulo referente anlise dos dados apresentam-se diversas tcnicas de anlise
(descritivas, indutivas, paramtricas, no-paramtricas, para analisar diferenas, para
analisar relaes: univariadas, bivariadas, multivariadas e ainda representaes grficas).
2
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
necessrio ter em considerao que fazer um inqurito muito mais que construir
um questionrio. um processo com mltiplos passos e em que cada etapa est claramente
definida para se ter sucesso deve-se planear cuidadosamente todas estas etapas desde a
forma de recolha da informao at apresentao dos resultados.
De modo a aumentar a sua eficincia, qualquer inqurito deve ter as seguintes
caractersticas: ser claro os seus objectivos devem ser precisos; fceis os inquiridos
devem perceber facilmente o seu contedo; fiveis os dados recolhidos devem traduzir a
opinio do inquirido sem erros; analisado os dados devem ser sujeitos a anlise
estatstica para se poder inferir resultados e tomar decises e, atempado o tempo entre o
seu planeamento e a obteno de resultados deve ser o menor possvel para que seja til
deciso.
Quem promove um inqurito procura conhecer caractersticas, comportamentos ou
opinies de uma populao usando um processo de amostragem.
Deste modo, um inqurito ajuda o decisor a:
Criar mais valor indo de encontro s expectativas do mercado, ou seja, ajuda o decisor
a conhecer o mercado;
questes colocadas; com os erros cometidos na entrada de dados ou com o tempo entre o
lanamento do inqurito e a tomada de deciso.
5
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Distribuir rapidamente
6
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
3.1- AMOSTRAGEM
Se se tivesse a possibilidade de estudar todos os membros da populao, estar-se-ia
na presena de um censo. Contudo promover um censo extremamente caro e moroso,
assim, faz-se uma sondagem que, segundo FERRO (2001) a resposta ao conhecimento
de uma populao tomando por base uma fraco da populao a amostra.
Os maiores esforos neste processo esto relacionados com a determinao de uma
amostra da populao, para a qual so utilizados mtodos probabilsticos. A amostra deve
ter a dimenso adequada para obter a preciso pretendida e no deve ser superior, pois
medida que cresce a dimenso da amostra os custos do processo aumentam e os ganhos de
preciso so mnimos.
Uma vez seleccionada a amostra, necessrio verificar que a amostra
representativa da populao, ou seja, que os indivduos que no respondem so similares
7
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
aos que respondem. Caso contrrio, os resultados sero enviesados. Uma amostra
representativa aquela que reflecte os aspectos tpicos da populao.
Pode-se discriminar as etapas do plano amostral do seguinte modo:
1 Definir o Universo;
2 Se possvel, identificar a base de sondagem (listagem dos elementos da qual se vai
seleccionar a amostra);
3 Escolher uma tcnica amostral;
O sub captulo 2.1.1 abordar as diversas tcnicas de amostragem com base em
FERRO (2001).
So
igualmente
vantagens
possibilidade
de
se
determinar
No
Aleatrias
Por
Bola de Neve
Intencional
Por quotas
Random route
Multi-etapas
Outras
convenincia
Aleatrias
Simples
Estratificada
Por Clusters
9
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Estratificada
Esta tcnica de amostragem usa informao existente sobre a populao para que o
processo de amostragem seja mais eficiente.
A lgica que assiste estratificao de uma populao a da identificao de grupos
que variam muito entre si, no que diz respeito ao parmetro em estudo, mas muito pouco
dentro de si, ou seja, cada um homogneo e com pouca variabilidade.
As trs etapas para se definir uma amostra estratificada so:
1. Definir os estratos;
2. Seleccionar os elementos dentro de cada estrato mediante um processo aleatrio
simples;
3. Conjugar os elementos seleccionados em cada estrato, que na sua totalidade
constituem a amostra.
Pode ser particularmente eficaz quando na populao existem valores extremos para
a caracterstica em estudo, sendo possvel agreg-los num estrato separado.
Por clusters
Requer menos informao a priori, sendo til na ausncia duma base de amostragem,
o que sucede muitas vezes. especialmente til quando o universo estatstico formado
por populaes de grande dimenso, dispersas por vastas reas geogrficas. A amostragem
por clusters usa agrupamentos naturais de elementos da populao, nos quais cada
elemento da populao pertence a um s grupo.
S exige que se disponha de uma listagem completa das unidades amostrais primrias
(por exemplo, as turmas de uma escola). Os clusters so escolhidos aleatoriamente e dentro
de cada cluster todos os elementos so seleccionados, ou seja, s existe uma etapa de
amostragem. Est orientada para a seleco de grupos de elementos e no de elementos
individuais.
As etapas da amostragem por clusters so:
4. Especificar os clusters;
5. Seleccionar uma amostra.
Muitas vezes a nica possvel de obter porque s existem disponveis bases de
sondagem que listam clusters de elementos da populao.
A amostragem por clusters frequentemente usada na prtica porque muitas
populaes esto j agrupadas em subgrupos naturais. Uma grande vantagem econmica
o baixo custo deste mtodo.
11
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Multi-etapas
Selecciona-se em primeiro lugar, aleatoriamente uma amostra por clusters repare-se
que muito mais fcil obter uma lista de clusters (por exemplo de escolas) do que uma
lista exaustiva dos elementos que compem a populao (por exemplo, todos os alunos).
Em seguida, pode-se realizar ou no uma segunda etapa, na qual so escolhidos
aleatoriamente alguns elementos dos clusters seleccionados na fase anterior ou ento,
continuando com a seleco de clusters at se chegar s unidades elementares.
Ou seja: Definir os clusters; e seleccionar a amostra. Este tipo de amostragem
apresenta as mesmas vantagens que a amostragem por clusters.
outros
elementos
da
mesma
12
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Convenincia
No representativa da populao. Ocorre quando a participao voluntria ou os
elementos da amostra so escolhidos por uma questo de convenincia, por isso, o
processo amostral no garante partida que a amostra seja representativa. Pode ser usada
com xito em situaes nas quais seja mais importante captar ideias gerais, identificar
aspectos crticos do que propriamente a objectividade cientfica, como o caso na maioria
dos inquritos disponibilizados na web.
Quotas
uma amostragem semi-aleatria.
Justifica-se fundamentalmente pela inexistncia de listagens da populao. O
pressuposto o de que as variveis de controlo, que definem as quotas, justificam toda a
variao sistemtica na populao relativamente caracterstica em estudo.
Os dois passos fundamentais para a sua execuo so:
1. Definir as quotas as quotas so identificadas dividindo a populao em
categorias, usando variveis de controlo pr-definidas;
2. Seleccionar os elementos.
Podem-se utilizar quotas independentes que facilitam o trabalho aos entrevistadores,
ou quotas interrelacionadas que so mais fiveis uma vez que os entrevistadores tm de
cumprir uma amostra especfica, distribuda por diversos factores de estratificao. Nas
tabelas 1 e 2 apresenta-se um exemplo muito simples de quotas independentes e de quotas
interrelacionadas.
Sexo
Idade
Sexo
Masculino 15 15-24
Idade
Masculino
Feminino
Feminino
15-24
35-44 12
25-34
45-64
35-44
12
33
45-64
15
18
33
TOTAL
18 25-34
33
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
2.
aleatrio relativo ao percurso do entrevistador entre esses dois pontos (inquirir o terceiro
alojamento de seis em seis edifcios, alternando o lado da rua, por exemplo).
Custo, pois recolher mais inquritos pode ter um aumento de custo muito elevado;
18
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
DESIGNAO
POPULAO
AMOSTRA
Nmero de elementos
i-sima observao
Xi
Xi
Mdia
= Xi / N
i =1
Total
= Xi
i =1
Proporo
(variveis dicotmicas)
X = Xi /n
i =1
N X = N Xi /n
i =1
p = Xi / N
p = X i / n
Nmero de estratos
Nmero de elementos
N = N1 + N 2 + ... + N L
n = n1 + n2 + ... + n L
Nmero de elementos no
estrato i
j-sima observao no
estrato i
Ni
ni
X ij
X ij
Mdia do estrato i
i = X ij / N i
i =1
i =1
ESTRATIFICADA
Ni
i =1
Mdia
= N i i / N
i =1
L
Total
= N i i
i =1
Proporo no estrato i
(variveis dicotmicas)
Ni
pi = X ij / N i
i =1
Proporo
p = N i pi / N
i =1
ni
X i = X ij / ni
i =1
X st = N i X i / N
i =1
NX st = N i X i
i =1
ni
p i = X ij / ni
i =1
p st = N i p i / N
i =1
19
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
POR CLUSTERS
Nmero de clusters
Nmero de elementos no
cluster i
Ni
ni = N i
Nmero de elementos
N = Ni
n = ni
N = N /M
n = n/m
X ij
X ij
i =1
Ni
. = X ij / M
i =1 j =1
Ni
Mdia global
= X ij / N
i =1 j =1
Ni
= X ij
Total
i =1 j =1
Proporo
(variveis dicotmicas)
Ni
i =1
ni
X cl = X ij / m
i =1 j =1
m
ni
X cl = X ij / ni
i =1 j =1
i =1
ni
N X cl = N X ij / ni
i =1 j =1
ni
i =1
p = X ij / N
p cl = X ij / ni
Nmero de clusters
Nmero de elementos no
cluster i
Nmero de elementos por
cluster
Ni
ni
Nmero de elementos
N =MN
n = mn
j-sima observao do
cluster i
X ij
X ij
Mdia no cluster i
i = X ij / N
i =1 j =1
i =1 j =1
i =1
MULTI-ETAPAS
i =1
Mdia global
= i / N
i =1
= X ij
Total
i =1 j =1
N
Proporo no cluster i
(variveis dicotmicas)
pi = X ij / N
Proporo
p = pi / N
j =1
i =1
X ime = X ij / n
i =1
m
X me = X ij / mn
i =1 j =1
N X me = N X ime / m
i =1
p i = X ij / n
j =1
p me = X ij / mn
i =1 j =1
20
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
21
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
22
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Entrevista pessoal;
Entrevista telefnica;
Representatividade da amostra;
Tipo de questes;
Segundo GOODE (1979), a adequao de um questionrio remetido, ou seja, autoadministrado, depender das exigncias do problema da pesquisa em relao:
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
partida pensa-se que o questionrio mais barato e leva menos tempo que a
entrevista, mas nem sempre assim, pois, por exemplo, o tempo de espera para
as respostas aos questionrios pode ser muito elevado; a questo do custo
depende de quo dispersa est a amostra. As despesas no devem ser
calculadas na base do nmero de entrevistas ou questionrios a serem obtidos,
mas na base da quantidade de informao til a ser obtida. GOODE (1979).
preciso da hiptese.
24
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
O investigador deve pensar bem se quer informao do tipo geral ou especfico. Pois
no possvel fazer inferncias correctas sobre atitudes, opinies, satisfaes ou gostos
especficos a partir das respostas dadas s perguntas gerais.
preciso tambm analisar cuidadosamente o objectivo geral (o tipo de informao
que se quer solicitar factos, opinies, atitudes, preferncias, valores, satisfaes) de cada
uma das perguntas que se est a inserir no questionrio.
Em relao s perguntas para solicitar factos preciso ter especial ateno se se est
a pedir factos sensveis demais, ou seja, informao que o inquirido no est interessado
em fornecer; detalhes desconhecidos pelos inquiridos ou, detalhes que obrigam os
respondentes a gastar muito tempo na recolha de informao para preencher o
questionrio.
Pode-se tambm colocar a questo se sero preferveis perguntas de resposta aberta
ou perguntas fechadas.
As perguntas abertas tm a vantagem de poderem dar mais informao e, muitas
vezes informao mais rica e detalhada ou at inesperada. No entanto, tambm
apresentam as seguintes desvantagens:
analisar as respostas, sendo muitas vezes possvel analisar os dados de maneira sofisticada.
Outro facto a ter em conta quando se formulam perguntas est relacionado com a
extenso e clareza das perguntas. Note-se que a clareza est inversamente relacionada com
a extenso de uma pergunta. Devem-se escrever perguntas curtas, com palavras e sintaxe
simples e evitando, sempre que possvel, o uso de termos tcnicos.
PINTO (1986) defende que, dado o elevado nmero de inquritos exigido pela
representatividade estatstica, as vantagens das perguntas fechadas acabam por vingar
sobre as possveis desvantagens.
Algumas das falhas mais comuns na construo das perguntas que se devem evitar
so: perguntas mltiplas (uma pergunta que contm duas ou mais perguntas); perguntas
25
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
que usam uma mistura de conjunes e disjunes; perguntas no-neutras (as perguntas
para medir opinies, atitudes ou satisfaes devem ter uma forma neutra, ou seja, no
devem ter uma forma que convide apenas a uma resposta positiva ou negativa) e, perguntas
indefinidas (pergunta vaga, o respondente tem a responsabilidade de definir o significado
da pergunta podendo utilizar critrios diferentes).
Em relao ao nmero de respostas alternativas a usar, quando o objectivo da
pergunta solicitar factos quantitativos e no se conhece a provvel gama (e distribuio)
dos valores, til usar uma das seguintes opes:
Escrever uma pergunta aberta para a qual a resposta seja um valor exacto escrito pelo
respondente. Caso seja conveniente categorizar as respostas aps a recolha dos dados,
fcil olhar para a gama de valores e sua distribuio para decidir quantas categorias
usar para classificar as respostas.
Quando o pedido de um valor exacto for sensvel demais convm usar uma pergunta
fechada. til consultar pessoalmente alguns potenciais respondentes para obter
conselho prtico sobre a provvel gama de valores, bem como sobre o nmero ptimo
de respostas alternativas (categorias) associadas pergunta.
Outra questo que muitas vezes se pe se se deve utilizar um nmero par ou mpar
de respostas alternativas.
Perante um nmero mpar de respostas alternativas, muitos inquiridos tm tendncia
para dar a resposta de uma maneira conservadora e reponderem no meio da escala,
pensando que mais seguro no dar uma opinio forte (nem positiva nem negativa)
mas provavelmente tm uma opinio mais forte do que mostram. Portanto, um nmero de
respostas alternativas mpar pode ajudar obteno de respostas erradas. As respostas
so erradas porque no so representativas das verdadeiras opinies (ou atitudes ou
satisfaes) de uma grande parte dos inquiridos.
Esta tendncia est especialmente ligada a perguntas sensveis sobre atitudes,
opinies ou satisfaes, ou seja, perguntas que tratam de assuntos potencialmente
embaraosos, ou perguntas em que o respondente pensa que pode estar a correr um risco se
responder de forma clara portanto prefere evitar o risco por meio de uma resposta mais
ou menos neutra. Por outro lado, um nmero par de respostas alternativas, tal como j se
disse anteriormente, de evitar pois obriga todos os inquiridos a dar uma opinio (ou
atitude) definitivamente positiva ou negativa. No possvel dar uma opinio neutra
26
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
As instrues.
Por fim h que analisar a aparncia esttica do questionrio e fazer uma verificao
final do questionrio.
28
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
6. Decidir, com base na informao anterior, o tipo de resposta desejvel para cada
pergunta associada com a hiptese geral (respostas qualitativas descritas por
palavras pelo respondente; qualitativas escolhidas pelo respondente a partir de um
conjunto de respostas alternativas fornecido pelo autor do questionrio ou,
quantitativas escolhidas pelo respondente a partir de um conjunto de respostas
alternativas fornecido pelo autor do questionrio);
7. Com base na informao dos ltimos 3 passos escrever a hiptese operacional;
8. Considerar as perguntas iniciais (e os tipos de respostas) associadas com a
primeira hiptese operacional e, caso necessrio, limar arestas (polimento) de
forma a chegar s verses finais para incorporar no questionrio;
9. Verificar se as verses finais das perguntas e das respostas ainda so adequadas
para testar a hiptese operacional;
10. Repetir os passos 3-9 para as outras hipteses gerais;
11. Escrever as instrues associadas com as perguntas para informar o respondente
como deve responder;
12. Planear as seces do questionrio.
Em suma, um questionrio para ser eficiente na recolha de informao deve: manter a
cooperao e motivao do respondente sendo para isso determinante o comprimento do
questionrio e o tema em estudo; comunicar com o respondente ou seja, utilizar palavras
que ele conhea, no fazer perguntas ambguas e empregar conceitos abstractos ou vagos;
ajudar o respondente a formular as suas respostas explicando sem induzir a resposta ou,
utilizando auxlios visuais para recordar situaes ou ainda, nas perguntas abertas, se a
resposta no atingir os objectivos pode-se estimular a dar mais informao atravs de
frases como e mais alguma coisa?, e que outras razes?; evitar enviesamentos atravs
do modo como a questo escrita; facilitar o trabalho do entrevistador ou do respondente
elaborando um questionrio bem organizado, com as perguntas devidamente numeradas,
com indicaes, com espao suficiente para as respostas, e com tamanho de fonte
adequado, boa impresso, etc; facilitar o processamento da informao codificando
previamente as categorias de resposta das perguntas que a isso se adequam.
Conseguir uma taxa de respostas aceitvel exige um acompanhamento sistemtico do
estudo, podendo ser adoptadas diversas prticas. Pode-se, por exemplo, fazer acompanhar
o questionrio de uma carta de apresentao personalizada, honesta, interessante,
30
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
persuasiva mas curta dando resposta a potenciais questes que podem surgir ao inquirido
como a natureza do estudo, porque foi o inquirido escolhido, quem est a fazer o estudo,
porque importante a colaborao do inquirido, o que se pretende que faa, que uso ter a
informao fornecida e se o respondente ser ou no mantido no anonimato. Esta carta
deve, preferencialmente, ser assinada mo por um responsvel do estudo. Pode-se
tambm incluir com o questionrio um envelope com porte pago para devoluo do
questionrio respondido.
A oferta de pequenas recompensas, monetrias ou de outro tipo, pode igualmente ser
uma estratgia a adoptar, embora se coloquem algumas ressalvas nesta tcnica de induo
de respostas. Existem situaes em que o inquirido no sabe de todo o que responder, mas
como est a ser aliciado com uma recompensa se responder, esfora-se por faz-lo,
expressando opinies que no traduzem o seu sentimento real.
Uma tctica tambm utilizada consiste em contactar o respondente antes de este
receber o questionrio. A promessa de confidencialidade pode tambm surtir efeito em
alguns respondentes, bem como o compromisso em comunicar os resultados do estudo.
Alguns princpios essenciais para maximizar o envolvimento e valor de um inqurito
postal so: despertar a curiosidade; transmitir com clareza a importncia do estudo; fazer
sentir ao respondente a sua importncia no estudo; ser interessante; ser de fcil
compreenso, resposta e devoluo.
As questes abertas devem ser evitadas, especialmente em questionrios por correio,
pois elas tendem a causar alguma ansiedade ao inquirido o que pode resultar na rejeio de
todo o questionrio.
O desenho do questionrio influencia em muito a validade da informao.
A prpria forma como a pergunta feita pode enviesar a resposta. As perguntas
devem ser expressas da forma mais neutral possvel, no devem ser ambguas e devem ser
escritas numa linguagem que seja simples o bastante para ser entendida por respondentes
de todos os nveis de inteligncia. Devem-se evitar perguntas vagas, ambguas, com dupla
negaes, com fortes apelos memria e perguntas que deixem o inquirido responder sua
maneira.
Muitas pessoas pensam que fcil desenhar um questionrio porque comum no dia
a dia fazer perguntas. Contudo, na conversao as perguntas seguem-se de formas
diferentes conforme as respostas que vo sendo dadas enquanto que nos questionrios
31
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
interessa ter sempre as mesmas perguntas e ordem para cada membro da amostra,
desviando apenas se as instrues o permitirem.
Desenhar um questionrio de sucesso uma arte que no pode ser aprendida sem
prtica. Note-se que com maus dados s se podem obter maus resultados, por mais
malabarismos matemticos que possam ser utilizados.
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Por falsificao, por exemplo, no caso de se forjar uma entrevista, sem nunca se
ter tido contacto com o inquirido).
Como parte do processo de preparao dos dados pode-se fazer uma variedade de
aces com a matria-prima, como por exemplo nomear de forma consistente e no
ambgua. Estes procedimentos de rotina ajudam a assegurar que os dados so de boa
qualidade e integridade.
Antes de se efectuar qualquer tipo de anlise necessrio examinar os dados, de
modo a identificar outliers, missing values e verificar se os dados cumprem os
pressupostos do mtodo de anlise que se pretende utilizar.
As representaes grficas (assunto desenvolvido no sub-captulo 3.5) so
extremamente teis nesta etapa, pois permitem:
Examinar a forma da distribuio: atravs, por exemplo, de um histograma podese ganhar uma perspectiva da forma da distribuio da varivel;
Um dos problemas dos dados a tratar nesta etapa so os missing values (dados em
falta).
Os dados em falta podem ser causados por factor externo ao inquirido (erro na
introduo dos dados ou na recolha dos dados) ou ento, podem dever-se ao inquirido
(recusa resposta).
Quando os missing values se devem ao inquirido, o investigador deve tentar
encontrar padres que possam caracterizar o processo de dados em falta, ou seja, descobrir
o grau de aleatoriedade presente nos missing values.
necessrio entender o impacto que os dados em falta podem ter na anlise e
encontrar alternativas para resolver o problema.
Antes de implementar uma soluo para os dados em falta, o investigador deve
entender o que est subjacente ao processo de dados em falta.
LEVY (1999) aponta alguns mtodos para lidar com os dados em falta disponveis
em diversos packages estatsticos, nomeadamente:
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
36
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Tcnicas que tratam de diferenas entre amostras de casos, e tcnicas que tratam
da relao entre variveis (para uma s amostra de casos);
Note-se que uma tcnica pode ser, por exemplo, simultaneamente uma estatstica
indutiva e um mtodo no-paramtrico. Neste captulo, cada tcnica ser apresentada
apenas no sub-captulo correspondente classificao mais comum, podendo ser
apresentada como exemplo em outro sub-captulo onde tambm se enquadra.
Tal como j foi referido, o tipo de tcnica escolhida depende muito da escala de
medida das variveis. Deste modo, os diversos tipos de escalas existentes so:
Escalas no mtricas
Escala ordinal se existir uma ordenao natural das categorias (e.g., classes
etrias, habilitaes literrias). No tratamento estatstico deste tipo de dados
podem ser usadas metodologias destinadas a anlise de ordens (ranks), assim
como metodologias para dados nominais.
Escalas mtricas
37
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Escala de intervalo
legtimo aplicar todos os mtodos paramtricos e no-paramtricos a variveis
medidas neste tipo de escala. Mas prefervel, sempre que os pressupostos o permitam,
utilizar mtodos paramtricos porque so mais potentes.
Escala de razes
possvel utilizar todos os mtodos paramtricos mas, como sempre, na aplicao
destes mtodos preciso verificar que os dados satisfazem razoavelmente bem os
pressupostos dos mtodos aplicados.
Mdia (assume um valor que central em relao aos dados que constituem a
amostra);
Moda (valor mais frequente, ou seja, o que aparece mais vezes no conjunto dos
valores observados).
Medidas de ordem
Quartis (Qk quartil da ordem k, o valor da varivel que precedido por kN/4 das
observaes);
Decis (Dk decil da ordem k, o valor da varivel que precedido por kN/10 das
observaes);
Medidas de disperso
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Medidas de assimetria
Medidas de achatamento
relatrio de anlises clnicas traz valores de referncia que mais no so do que intervalos
de confiana respeitantes populao saudvel.
bvio que o ideal construir intervalos de confiana com elevada probabilidade de
conter o parmetro, mas que tenham simultaneamente amplitudes bastante pequenas.
Apresentam-se de seguida as frmulas para clculos dos intervalos de confiana mais
comuns.
Intervalo de confiana para o valor esperado
, X + z / 2
X z / 2
N
N
, X + t N 1; / 2
X t N 1; / 2
N
N
Y
Y (N Y )
Y (N Y ) Y
+
,
z
z / 2
/
2
N
N3
N3
N
Intervalo de confiana para a varincia de uma populao gaussiana
( N 1) S 2 ( N 1) S 2
, 2
2
N 1; / 2 N 1;1 / 2
Intervalo de confiana para a razo entre varincias de populaes normais
S A2
S A2
1
1
,
2
2
FN A 1, N B 1; / 2 S B FN A 1, N B 1;1 / 2 S B
Intervalo de confiana para a diferena entre os valores esperados de duas
populaes
S A2 S B2
S A2 S B2
+
+
, ( X A X B ) + z / 2
( X A X B ) z / 2
NA NB
N A N B
1
1
1
1
+
+
, ( X A X B ) + z / 2 S
( X A X B ) z / 2 S
N A NB
N A NB
42
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
(Neste caso, a varincia comum das populaes A e B, 2, pode ser estimada por S2 =
S A2 S B2
S A2 S B2
, (X A X B ) + t GL; / 2
+
+
( X A X B ) t GL; / 2
NA NB
N A N B
S A2
S2
+ B
.
(Graus de liberdade da t-Student calculados por:
NB
NA
GL =
( S A2 / N A ) 2 ( S B2 / N B ) 2
+
N A 1
N B 1
NA
NB
N A NB
Um imperativo de qualidade;
43
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Realidade
H0 verdadeira
No rejeitar H0
Deciso correcta
Rejeitar H0
Deciso correcta
Como se compreende o erro tipo I muito importante, no sentido que merece mais
ateno, mais preocupao que o erro tipo II.
Define-se nvel de significncia e simboliza-se por , a probabilidade de se rejeitar
H0 sendo H0 verdadeira. O nvel de significncia corresponde a um risco do produtor ver o
seu produto rejeitado, apesar de estar bom.
Define-se nvel de confiana e simboliza-se por a probabilidade de no se rejeitar
H0 sendo H1 verdadeira ou 1 P {rejeitar H0/H1}.
De igual modo, ao nvel de confiana associa-se o termo risco do consumidor, pois
corresponde ao facto de um consumidor no rejeitar o produto, estando este estragado.
Em face do exposto, conclui-se que a regio R dever ser uma regio tal que
minimize os valores das probabilidades de ocorrncias dos erros tipo I e tipo II; tal no
possvel porque por vezes at variam em sentido contrrio. No entanto, dada a importncia
do erro tipo I, risco do produtor, usual atribuir um valor reduzido para (0,10; 0,05 ou
0,01) escolhendo-se R que minimize o valor de , probabilidade do erro tipo II.
Nos quadros seguintes apresentam-se os critrios de rejeio para os parmetros de
populaes gaussianas, para um teste t para duas amostras independentes e para um teste
F. (As demonstraes relativas a estes critrios de rejeio podem ser encontradas, por
exemplo, em CABRAL (1997) ou LARSEN (1982)).
44
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
No ltimo quadro apresenta-se ainda um sumrio dos testes mais comuns e em que
circunstncias devem ser utilizados.
H0
H1
Critrio de Rejeio
x 0 + z1
conhecido
= 0
= 1
x 0 + t n 1;1
desconhecido
x 0 + z
> 0
x 0 + t n1;
( 1 > 0)
( 1 < 0)
n
s
( 1 > 0)
n
s
( 1 < 0)
n
x 0 + z1
conhecido
< 0
x 0 + z
> 0
x 0 + t n 1;1
desconhecido
< 0
conhecido
= 0
0
desconhecido
X > Y
X = Y
X < Y X e Y conhecidos
X Y
x 0 + t n1;
x o
/ n
x o
n
s
n
s
n
z1 / 2
t n1;1 / 2
s/ n
xm y n
z1
X2
Y2
X2
Y2
+
m
n
xm y n
+
m
n
xm y n
X2
m
Y2
z1 / 2
45
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
H0
H1
Critrio de Rejeio
n
(x
i =1
n
conhecido
(x
i =1
= 0 = 1
) 02 n2;1
( 1 > 0)
) 02 n2;
( 1 < 0)
(n 1) s 2
desconhecido
n21;1 ( 1 > 0)
2
0
(n 1) s 2
n21; ( 1 < 0)
2
0
(x
0 > 0
i =1
n
conhecido
) 02 n2;1
2
(x
0 < 0
i =1
) 02 n2;
2
(n 1) s 2
0 > 0
desconhecido
2
0
n21;1
(n 1) s 2
0 < 0
2
0
n21;
n
2
2
(xi ) 02 n2; / 2 ou (xi ) 02 n2;1 / 2
conhecido
i =1
= 0 0
i =1
(n 1) s
desconhecido
2
0
n21; / 2 ou
(n 1) s 2
2
0
n21;1 / 2
H0
X Y d
H1
Critrio de Rejeio
X Y > d
x yd
t m+ n2;1
1 1
SP
+
m n
X Y d X Y < d
x yd
tm + n 2;
1 1
SP
+
m n
X Y = d X Y d
x yd
t m+ n2;1 / 2
1 1
SP
+
m n
s P2 =
(m 1) s X2 + (n 1) sY2
m+n2
46
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
H0
H1
Critrio de Rejeio
X2 Y2
X2 > Y2
s X2
Fm1,n1;1
sY2
X2 Y2
X2 < Y2
s X2
Fm1,n1;
sY2
X2 = Y2
X2 Y2
s X2
s X2
F
Fm1,n1;1 / 2
ou
m 1, n 1; / 2
sY2
sY2
Uma amostra
Disperso
(varincia)
Populao gaussiana
Amostra de qualquer dimenso
Duas amostras
Populaes normais
independentes
Uma amostra
Localizao
Duas amostras
(valor esperado)
independentes
Populaes normais
Amostras de pequenas dimenses
Populaes quaisquer
Duas amostras
emparelhadas
Populaes normais
Amostras de pequenas dimenses
Uma amostra
Localizao
(proporo binomial)
Populao dicotmica
Amostra de grande dimenso
Duas amostras
Populaes dicotmicas
independentes
Teste do 2
Teste F
Teste Z
Teste t
Teste Z
Teste t
Teste Z
Teste t
Teste Z
Teste Z
47
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
48
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Teste do Qui-Quadrado
k
(O j E j ) 2
j =1
Ej
que, sob a validade de (O1, , Ok) ~ Multinomial (n; p1, , pk) tem distribuio
aproximada do qui-quadrado com k-1 graus de liberdade (se existirem s parmetros
desconhecidos ter uma distribuio aproximada do qui-quadrado com k-1-s graus de
liberdade).
Rejeita-se
k
(o j e j ) 2
j =1
ej
X (obs ) =
2
hiptese
nula
um
nvel
*100%
se
k21;1 .
Seja (X1, , Xn) uma amostra aleatria de uma populao com funo de distribuio
F.
49
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Defina-se:
I1 = {x: X a1}
I2 = {x: a1 < X a2}
#{ X i : X i x}
. A funo de distribuio emprica F*n uma
n
Teste de Lilliefors
O teste de K.S pode ser aplicado a pequenas amostras mas no o teste do qui-quadrado;
O teste do qui-quadrado pode ser aplicado a dados discretos e o teste de K-S no;
O teste de K-S avalia o ajustamento de cada uma das observaes e o teste do quiquadrado o ajustamento de classes ou categorias.
Dada uma sequncia de dois ou mais smbolos distintos, define-se run sequncia de
um ou mais smbolos do mesmo tipo precedida e seguida de nenhum smbolo ou de um
smbolo diferente.
A funo de probabilidade de R, nmero total de runs para N objectos dos quais m
so do tipo 1 e n do tipo 2,
P (R = r) =
m 1 n 1
2
r / 2 1 r / 2 1
N
m
m 1
n 1
( r 1) / 2 ( r 3 ) / 2
, se r par
m 1
(r 3) / 2
n 1
( r 1) / 2
, se r mpar
para r = 2, 3, , N = m+n
A regio crtica de nvel para um teste de aleatoriedade bilateral R r1 ou R r2
(r1 e r2 so pontos crticos da tabela estatstica correspondente).
Sob a hiptese de aleatoriedade, R = 1+
2mn
2mn(2mn N )
e R2 =
com N = m+n.
N
N 2 ( N 1)
51
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Se = M, a distribuio simtrica
Xi + X j + Xk
Terno esquerdo se
> mediana{ X i , X j , X k };
Xi + X j + Xk
3
< mediana{ X i , X j , X k };
Xi + X j + Xk
3
= mediana{ X i , X j , X k }.
T2 =
(n 3)(n 4)
n3
n(n 1)(n 2) (n 3)(n 4)(n 5) 2
Bi2 +
B 2jk +
T
1
(n 1)(n 2) i
n 4 1 j < k n
6
n(n 1)(n 2)
X =
2
i =1 j =1
(O
ij
eij )
eij
~ (2r 1)( c 1)
A tabela de contingncia possui a priori uma margem fixa, pois consideram-se dois
grupos (amostras) independentes, e cada indivduo classificado dentro do seu grupo
segundo a varivel em estudo.
r
i =1 j =1
(O
ij
eij )
eij
~ (2r 1)( c 1) ,
B1
B2
A1
a+b
A2
c+d
a+c b+d
Prova-se que sob a hiptese de a tabela anterior ter margens fixas, a probabilidade
exacta de se observar um particular conjunto de frequncias dado pela distribuio
hipergeomtrica. Representando por Pa a probabilidade de se observar a tabela anterior,
a + c b + d
a b
a + b
A fim de facilitar o clculo das probabilidades das diversas tabelas, pode-se usar uma
das frmulas de recorrncia Pa 1 =
(b + 1)(c + 1)
ad
Pa ou Pa +1 =
Pa 1 .
(b + 1)(c + 1)
ad
Teste de McNemar
54
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
X =
2
(O
ij
Ei )
Ei
i =1
b+c
b+c
b
(b c) 2
2
2
=
~ 12
+
=
b+c
b+c
b+c
2
2
(| b c | 1) 2
b+c
Teste Q de Cochran
i =1
i =1
i =1
i =1
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Teste de Mann-Whitney-Wilcoxon
T2 =
n( N + 1)
e
2
mn( N + 1)
em que N = m + n.
12
No caso de haver observaes empatadas a varincia de T sofre uma alterao
T2 =
r
mn( N + 1)
mn
Ki ,
12
12 N ( N 1) i =1
onde:
56
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
1, seY j > X i
, i = 1,..., m; j = 1,..., n.
Seja U ij =
0, seY j < X i
m
mn
mn( N + 1)
e U2 =
= T2
2
2
1, seY j > X i
0, seY j < X i
n(n + 1)
.
2
j =1
i =1
m
n
1 m
1 n
2
P
Q
=
Q
V
=
(
P
P
)
;
V
=
(Q j Q ) 2 e,
;
;
2
1
i
i
i
m i =1
n i =1
j =1
i =1
Q j Pi
2 V1 + V2 + P Q
57
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
W2 =
n(n + 1)(2n + 1)
.
6
No caso de haver diferenas empatadas, h que proceder a uma correco na
varincia, nomeadamente, W2 =
n(n + 1)(2n + 1) 1 r
Ki ,
6
12 i =1
em que:
Note-se que existe uma tabela estatstica para alguns valores deste teste.
O teste dos sinais um teste alternativo ao teste de Wilcoxon mas menos exigente,
pois no requer que as diferenas Zi provenham de populaes contnuas simtricas, apenas
contnuas em torno de uma mediana comum .
Para testar H0: = 0, considere-se S o nmero de diferenas + (positivas), ou ento
o nmero de diferenas (negativas). Ento sob H0, S ~ Binomial (n, ).
58
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
k
Ri2
12
3( N + 1) .
N ( N + 1) i =1 ni
H* =
i=1 K i
r
N3 N
onde:
Teste de Friedman
k
12
R 2j 3 N (k + 1) .
Nk (k + 1) j =1
59
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
12(k 1) S
N
gi
Nk (k 1) t
2
i =1 j =1
,
3
i. j
onde:
kN 2 (k + 1) 2
S = R
;
4
j =1
2
j
i-simo grupo.
Teste de Moses
for tal que fique de fora algumas observaes, estas devem ser descartadas da anlise. A
dimenso dos subconjuntos deve ser escolhida de forma a minimizar o nmero de
observaes a descartar. importante que a diviso de cada amostra em subconjuntos seja
aleatria.
Para cada subconjunto calcula-se a soma dos quadrados dos desvios em relao
mdia que d a disperso do subconjunto. Sob a hiptese de homogeneidade de escala, os
ndices de disperso podem ser considerados provenientes de populaes idnticas pelo
que se pode usar a estatstica do teste de Mann-Whitney.
Sejam (X1, , Xm) e (Y1, , Yn) duas amostras aleatrias independentes. Supondo que
se pretende testar H0: Fx(x) = Fy(x) para todo o x.
O teste de Kolmogorov-Smirnov para duas amostras permite detectar diferenas na
localizao, na escala ou na forma das distribuies, sendo por isso menos especfico que
os testes de localizao ou escala anteriores.
A estatstica do teste de Kolmogorov-Smirnov : Dm,n = supx|F*m(x) F*n(x)| e o
critrio de rejeio a um nvel mnDm,n c. A distribuio amostral desta estatstica
encontra-se tabelada.
Como se pode verificar, o teste anterior avalia a concordncia entre as duas
distribuies empricas.
2
i
n(n 2 1)
d
i =1
2
i
2
i
= 0;
61
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
O coeficiente de Kendall pode ser usado como medida de correlao para o mesmo
tipo de dados para o qual o coeficiente de correlao ordinal de Spearman, rS, usado.
A distribuio amostral de sob a hiptese nula de independncia tambm
conhecida pelo que pode ser usada para testar a significncia do coeficiente. Normalmente
recorre-se aproximao pela gaussiana.
O grau de concordncia entre os dois conjuntos de ordenaes o quociente da soma
obtida e a maior soma possvel (ou o nmero total de pares), isto ,
n. de concordncias - n. de discordncias
n. total de pares
n n(n 1)
, pelo que
De um modo geral o nmero total de pares igual a =
2
2
2S
onde S representa a soma total dos scores.
n(n 1)
No caso de X e Y serem independentes, o coeficiente tau de Kendall tem E ( ) = 0 e
Var ( ) =
2(2n + 5)
, n 2.
9n(n 1)
Quando existem duas ou mais observaes empatadas quer para a varivel X quer
para a varivel Y aplica-se o mtodo usual de atribuio de ranks. Neste caso h quer
proceder seguinte correco =
2S
n(n 1) x n(n 1) y
rx
, onde: x = t i (t i 1) ,
i =1
62
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
observaes empatadas para a varivel Y e ti o nmero de observaes empatadas no isimo conjunto de empate.
A relao entre o coeficiente tau de Kendall e o coeficiente de correlao ordinal de
Spearman dada por: -1 3 - 2 rS 1.
Coeficiente de Cramr
X2
, onde X2 a estatstica do teste
N ( L 1)
XY XZ . YZ
2
2
(1 XZ
)(1 YZ
)
2(2n + 5)
9n(n 1)
No quadro seguinte apresenta-se, segundo CABRAL (1997), uma sntese dos testes
no-paramtricos mais comuns e as condies em que so utilizados.
63
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Populao qualquer
Frequncias observadas
Populao contnua conhecida
Uma amostra
Teste do Qui-Quadrado
Teste de Kolmogorov-
Observaes quantitativas
Smirnov
Ajustamento
estimados)
Teste de Lilliefors
Observaes quantitativas
Populaes quaisquer
Duas amostras
Frequncias observadas
independentes
Populao contnua
Teste do Qui-Quadrado
Teste de Kolmogorov-
Observaes quantitativas
Smirnov
Uma amostra
abaixo de 0
Populao contnua e simtrica
Observaes quantitativas
Localizao
Duas amostras
independentes
Observaes quantitativas
Teste de Wilcoxon
Teste de MannWhitney-Wilcoxon
Populao contnua
Duas amostras
emparelhadas
Aleatoriedade
Uma amostra
Populao qualquer
ordinal
descendentes
Duas amostras
Teste de Wilcoxon
Populaes contnuas
Associao
ordinal
Populaes quaisquer
Frequncias observadas
Teste da correlao
ordinal de Spearman
Teste do Qui-Quadrado
64
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Tcnicas Paramtricas
65
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Correlaes Paramtricas
O tipo de correlao a usar depende da natureza das variveis, contudo todos os tipos
requerem que pelo menos uma das variveis seja mtrica.
Coeficiente de correlao de Pearson: o mais vulgar. aplicvel quando as duas
variveis so medidas por uma escala de intervalo ou de razes (variveis mtricas), e a
relao entre as variveis linear (ou, pelo menos, no claramente no-linear). Tambm
possvel aplic-lo aos valores medidos por uma escala de avaliao se a relao parecer
linear. Existem outros pressupostos ligados com o coeficiente de Pearson (distribuio
bivariada gaussiana e homogeneidade de varincias) mas esses so de menos importncia.
66
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
67
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
69
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
70
Cov ( X , Y )
XY
com -1 1
O coeficiente de correlao pode ser estimado a partir das observaes. Neste caso
pelo coeficiente de correlao de Pearson: r =
S XY
S X SY
SE = [ yi (a + bxi )] .
2
i =1
SE = 0 [ y (a + bx )]x = 0
i
i
i
b
i =1
As equaes anteriores so conhecidas por equaes normais e a soluo do sistema
a = y bx
x i y i nx y
i =1
b = n 2
x i nx 2
i =1
Uma estatstica usada para medir a qualidade do ajustamento linear aos dados o
coeficiente de determinao que mais no que o quadrado do coeficiente de correlao de
Pearson. Este coeficiente d a proporo da variabilidade total que explicada pelo modelo
de regresso, e quanto mais prximo estiver do valor 1 melhor ser a qualidade do
ajustamento.
Vejam-se agora os diversos intervalos de confiana para os parmetros do modelo e
os intervalos de predio.
72
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
X2
X2
1
1
,
t
S
+
+
+
t n2;1 / 2 S
n 2;1 / 2
n (n 1) S X2
n (n 1) S X2
S
S
, + t n2;1 / 2
t n2;1 / 2
S X n 1
S X n 1
1 (X 0 X )
1 (X 0 X )
Y0 t n2;1 / 2 S
+
+
, Y0 + t n2;1 / 2 S
n (n 1) S X2
n (n 1) S X2
1 (X 0 X )
1 (X 0 X )
Y0 t n2;1 / 2 S 1 + +
, Y0 + t n2;1 / 2 S 1 + +
n (n 1) S X2
n (n 1) S X2
Aps efectuar uma regresso h que validar o modelo fazendo uma anlise dos
resduos, principalmente no que respeita independncia e gaussianidade dos resduos.
Pode-se, por exemplo, fazer um grfico dos resduos da regresso linear (grfico de
disperso) e se estes apresentarem um comportamento aleatrio em torno de zero, ento
esse um indicador de ausncia de correlao entre os resduos.
Para um problema de regresso usual desenvolver testes de hipteses sobre:
1. Os parmetros do modelo ( e );
2. A capacidade explicativa do modelo.
H0: = 0
Critrio de rejeio:
0
S / S X n 1
t n2;1 / 2
H0: = 0
Critrio de rejeio:
0
X2
1
S
+
n (n 1) S X2
t n2;1 / 2
(Y Y ) = [(Y Y )+ (Y Y )] = (Y Y ) + (Y Y )
n
i =1
i =1
i =1
i =1
73
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Representando por:
n
i =1
SR
~ F1,n 2 com critrio de rejeio: F F1,n-2;1-
SE /(n 2)
usual dispor a informao relativa a uma regresso linear numa tabela ANOVA;
Fonte de
Soma de
Graus de
Mdia de
variao
quadrados
liberdade
quadrados
Regresso
SR
MR = SR
Residual
SE
n2
ME = SE/(n-2)
Total
ST
n1
Valor de F
F = MR/ME
Y = + /X
Z = 1/X
Y = + Z
W = lnY
Y = X
' = ln
W = + Z
Z = lnX
W = lnY
Y = X
' = ln
W = + X
= ln
Y = eX
Y = e+X
Y = e+/X
W = lnY
' = ln
W = lnY
W = lnY
Z = 1/X
W = + X
W = + X
W = + Z
74
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
, = , = 2
Y=
,X =
M
M
M
M
1
1 X
n
Yn
n
Ento Y = X +.
b
As equaes normais escrevem-se da forma XTY = XTXb onde b = = 0
b1
Soma de
Graus de
variao
quadrados
liberdade
Regresso
bTXTY 1TYYT1/n
Erro
YTY bTXTY
n2
Total
n1
Y Y 1 YY 1/n
Mdia de quadrados
Valor de F
F = MSR/MSE
75
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
1 X 11
1 X
21
Considerando agora X =
M
M
1 X n1
X 12 L X 1 p
0
X 22 L X 2 p
1
, =
M
M L
M
X n 2 L X np
p
Soma de
Graus de
variao
quadrados
liberdade
Regresso
bTXTY 1TYYT1/n
Erro
YTY bTXTY
np1
Total
YTY 1TYYT1/n
N1
Mdia de quadrados
Valor de F
F=MSR/MSE
Vantagens:
Desvantagens:
77
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
A escolha da funo discriminante feita de modo a maximizar a varincia intergrupos relativamente varincia intra-grupo.
Para testar a validade das funes discriminantes classifica-se o conjunto de casos
originais e comparam-se os agrupamentos conseguidos com os grupos pr-definidos e,
assim, estima-se a percentagem de casos correctamente classificados a partir das variveis
utilizadas.
Frequentemente recorre-se rotao dos eixos das funes discriminantes, pois os
valores dos coeficientes depois da rotao tendero a aproximar-se de zero ou de um,
melhorando a interpretao das funes discriminantes e das diferenas entre os grupos;
tambm, a rotao dos eixos mantm o poder discriminatrio total do modelo, mantm a
posio relativa dos grupos e, o poder discriminatrio de cada funo tornar-se-, em geral,
melhor distribudo pelas vrias variveis.
Para dois grupos uma s funo discriminante suficiente, mas para p grupos poder
ser necessrio mais do que uma combinao linear para assegurar uma boa separao entre
grupos, de modo que ser necessrio determinar o nmero de funes discriminantes. Para
isso, pode-se utilizar, por exemplo, o teste de Wilks.
Quando se tem mais variveis do que o necessrio, utilizam-se mtodos Stepwise, ou
seja, seleccionam-se as variveis que mais contribuem para a distino entre grupos, e em
seguida vo-se incluindo e/ou retirando variveis nas funes discriminantes, uma a uma,
de acordo com um critrio que pode ser definido pelo prprio analista.
O critrio de seleco uma medida discriminatria, por exemplo: estatstica de
Wilks, estatstica V de Rao, quadrado da distncia de Mahalanobis para os 2 grupos mais
idnticos, estatstica F, varincia residual.
Veja-se agora a metodologia de um mtodo de estimao de Stepwise. Os passos a
seguir, segundo ANDERSON (1998), so:
1. Seleccionar uma varivel independente inicial (a que tiver a maior correlao
com a varivel dependente);
2. A percentagem de variao explicada estatisticamente significativa?
(se no): no possvel efectuar previso com a regresso mltipla
(se sim): passar ao passo 3
3. Existem outras variveis independentes disponveis?
(se no): avaliar a equao de previso final
(se sim): seleccionar outra varivel independente
78
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Desvantagens:
De seguida abordam-se alguns dos tipos de rvores mais comuns (CART, CHAID,
QUEST, C4.5 e C5.0).
CART (classification and regression tree) adaptada ao estudo de todo o tipo de
variveis.
Este mtodo utiliza medidas como ndice de Gini para medir a diversidade no n para
variveis dependentes nominais. De forma simples, este ndice contabiliza a proporo de
observaes em cada classe da varivel dependente num n relativamente ao total, isto ,
ao n raiz.
80
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
O ndice de Gini toma o seu valor mnimo quando num n correspondente a uma
partio da varivel dependente, ou seja, quando apenas existem observaes pertencentes
a uma classe.
A diferena entre o ndice Gini para o n pai e a soma dos valores para o n filho
(ponderada pela proporo de casos em cada filho) apresentada na rvore como
improvement. A varivel escolhida aquela que garante um maior valor de improvement.
CHAID (chi-square automation interaction detection) reservada ao estudo de
anlise de varincia univariada (ANOVA) testa a hiptese nula de que os valores mdios
da varivel dependente em cada uma das amostras so iguais. Como se tem duas ou mais
variveis dependentes, tem-se para cada amostra, um vector de valores mdios das
variveis dependentes, logo, a MANOVA testa a hiptese nula de que os valores mdios
dos vectores das amostras so iguais. A MANOVA pressupe que os dados em cada grupo
tm distribuio gaussiana multivariada e ainda que as matrizes de varincia-covarincia
das variveis dependentes sejam iguais em todos os grupos (amostras).
A anlise de varincia simples classificada como tcnica univariada no por causa
do nmero de variveis independentes, mas sim pelo nmero de variveis dependentes.
O procedimento univariado inclui o teste t para situaes de dois grupos e a ANOVA
para situaes com trs ou mais grupos definidos por duas ou mais variveis
independentes.
O teste t d a significncia estatstica entre duas mdias amostrais independentes.
Utiliza a estatstica t = (1 2) / SE12, onde 1 = mdia do grupo 1; 2 = mdia do
grupo 2; SE12 = erro padro das diferenas entre as mdias dos grupos.
Se o valor de t for suficientemente grande ento a diferena deve-se no
variabilidade amostral, mas a uma verdadeira diferena.
Se t > t
N1+N22;
MANOVA
H0: 1 = 2 = = k
1k
11 12
2k
21
22
= ... =
H0 =
=
...
... ...
p1 p 2
pk
82
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
83
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Na procura de outliers, uma vez que um histograma de cada uma das c.p.s
permite identificar indivduos a que correspondem valores demasiado elevados ou
demasiado baixos;
O primeiro novo eixo resulta numa nova varivel tal que esta nova varivel explica o
mximo da varincia total. Depois disso, o segundo eixo, ortogonal ao primeiro,
identificado tal que a correspondente nova varivel explica o mximo da varincia que no
foi explicada pela primeira nova varivel. O procedimento repete-se at que todos os p
novos eixos tenham sido identificados tal que as novas variveis explicam sucessivas
varincias mximas e as variveis sejam no correlacionadas.
As c.p.s devem reflectir, tanto quanto possvel, as caractersticas dos dados, que
eram expressas pela diferenciao que as variveis originais permitiam estabelecer; isto ,
devem explicar uma grande parte da variao associada s variveis iniciais.
A varincia de uma c.p. uma medida da quantidade de informao explicada por
essa c.p.. A reduo de dimensionalidade atinge-se considerando apenas algumas das c.p.s
(as de maior varincia).
84
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Reter tantas c.p.s quantas as necessrias para que a percentagem de varincia por
elas explicada seja superior a um dado valor fixado a priori;
Quartimax:
rotao
ortogonal.
Objectivo:
maximizar
varincia
dos
86
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Pearson, mas, em cincias sociais, muito utilizada para analisar correlaes entre
variveis medidas por meio de escalas de avaliao.
O investigador pode identificar as dimenses da estrutura e ento determinar o
quanto cada varivel explicada por cada dimenso. Depois de isto estar feito pode-se
alcanar as grandes utilidades da anlise factorial, que so: resumir e reduzir os dados.
Resumir porque as dimenses quando interpretadas e entendidas descrevem os dados num
nmero muito mais pequeno de conceitos do que as variveis originais. Reduzir porque se
calculam os scores para cada dimenso subjacente e substituem-se as variveis originais.
Existem diversos critrios para decidir o nmero de factores a extrair, tais como:
valores prprios superiores a 1; a priori por conhecimento do investigador; percentagem de
varincia (percentagem cumulativa do total de varincia explicada pelos factores
sucessivos: cincias naturais (95%), cincias sociais (60%)); scree plot.
A interpretao dos factores feita atravs dos loadings dos factores, que so um
meio de interpretar o papel que cada varivel tem na definio de cada factor, ou seja, so
a correlao de cada varivel e factor. Indicam o grau de correspondncia entre a varivel e
o factor (loadings elevados tornam a varivel representativa do factor). Tal como nas
tcnicas vistas anteriormente, a rotao simplifica a estrutura dos factores e torna mais fcil
saber se um factor significativo ou no.
De modo a verificar se adequada utilizao uma anlise factorial, comum o
clculo do ndice KMO (Kaiser-Meyer-Olkin). Segundo COELHO (2005), se este ndice
for inferior a 0,5 ento inaceitvel a utilizao de uma anlise factorial, se for superior a
0,8 a adequao boa.
Primeiro h que ver se a anlise confirmatria ou exploratria. Se for confirmatria
utiliza-se um modelo de equaes estruturais (sub-captulo 3.4.1.14). Se for exploratria
aplica-se a anlise factorial (por variveis ou por indivduos).
Na anlise factorial exploratria no existe qualquer ideia prvia sobre a estrutura dos
dados, isto , sobre o nmero de factores comuns, sobre se os factores so ortogonais ou
oblquos, sobre o nmero de indicadores de cada factor e, sobre os indicadores que
representam cada factor.
Na anlise factorial confirmatria, pelo contrrio, existe j alguma ideia ou teoria
sobre a estrutura dos dados: sobre o nmero de factores, se so ortogonais ou no, sobre o
nmero de indicadores de cada factor, sobre os indicadores que representam cada factor,
etc.
87
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
88
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
dever ser o grupo onde cada caso ser includo, pressupondo que todos os casos
pertencem a um nmero k predeterminado de grupos;
Apresentam duas desvantagens, nomeadamente: no existe nenhuma garantia de que
o algoritmo fornea um ptimo global e no apenas um ptimo local e, requer uma
quantidade considervel de tempo de computao, uma vez que o modo mais lgico de o
fazer seria considerar todas as possveis parties [k = 2, 3, 4, ] e escolher a melhor de
todas elas; a sua aplicabilidade s ser torna possvel com a definio, a priori, do nmero
de grupos pretendido.
Tcnicas de densidade: os grupos so formados atravs da procura de regies que
encontrar apenas um grupo que incluir a totalidade dos n indivduos) e, divisivas (parte-se
de um grupo que inclui todos os indivduos em estudo e por um processo sistemtico de
divises sucessivas obtm-se n grupos de um elemento cada; so muito pesados em termos
de capacidade informtica); ambas partem de uma matriz de semelhanas ou
dissemelhanas (distncias) entre os casos; conduzem a uma hierarquia de parties P1, P2,
, Pn do conjunto de n objectos em 1, 2, , n grupos. Os mtodos dizem-se hierrquicos
porque, para cada par de parties, Pi e Pi+1, cada grupo da partio Pi+1 est includo num
grupo da partio Pi.
Tcnicas no hierrquicas: os mtodos no-hierrquicos baseiam-se na obteno de
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Limiar
paralelo
(parallel
threshold):
selecciona
diversas
sementes
grupos (fuzzy clusters) e todas as restantes que no foram includas nas anteriormente
definidas. Os mtodos fuzzy associam a cada objecto um vector cujas componentes
representam o grau de ligao do objecto a cada um dos grupos fuzzy. Em consequncia,
cada grupo fica identificado por um vector de coeficientes que representam o grau de
pertena de cada um dos objectos a esse mesmo grupo
Os principais critrios de comparao entre classes so:
Single linkage ou critrio do vizinho mais prximo
Semelhana entre dois grupos a semelhana mxima entre quaisquer dois casos
pertencentes a esses grupos. Qualquer grupo definido como o conjunto de casos em que
qualquer elemento mais semelhante a pelo menos um outro elemento do mesmo grupo do
que a qualquer elemento de outro grupo. A distncia entre os dois grupos a menor das
distncias entre os elementos dos dois grupos.
Complete linkage ou critrio do vizinho mais afastado
A distncia entre dois grupos a mdia das distncias entre todos os pares de
indivduos constitudos por elementos dos dois grupos.
Critrio do centride
A distncia entre dois grupos definida como a distncia entre os seus centrides,
pontos definidos pelas mdias das variveis caracterizadoras dos indivduos de cada grupo,
isto , calcula a distncia entre dois grupos como a diferena entre as suas mdias, para
todas as variveis. Apresenta a desvantagem de que se os dois grupos forem muito
90
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
92
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
95
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
uma nova perspectiva da anlise de dados mais voltada para o modo exploratrio
do que o confirmatrio. Dado o vasto conjunto de dados disponveis (provenientes de bases
de dados e data warehouses), a perspectiva do investigador torna-se mais direccionada
para as caractersticas dos dados e no tanto para a generalizao para outras situaes. O
investigador segue uma estratgia de descoberta atravs da examinao dos dados para
todos os tipos de relaes.
Redes Neuronais
Foi introduzido por McCarthy em 1966 como uma tcnica para a estimao da
varincia, mas foi originalmente desenvolvido por Quenouille em 1956 para a reduo do
vis de um estimador.
O processo o seguinte: retira-se uma observao, conduz-se a anlise com as
restantes observaes (diga-se v-1) e ento usa-se o vector a1 para calcular o valor de Y1
96
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
para a observao particular que se retirou para teste. Repete-se o processo v vezes,
conduzindo uma anlise diferente para cada subconjunto de v-1 observaes. Pode-se ento
comparar a varincia dos valores de Jackknife com a varincia de quando se fez a anlise
usando todas as observaes.
Bootstrap
Foi introduzido por Efron em 1982 como uma metodologia no-paramtrica geral
para diversos problemas estatsticos (vis, varincia e erros comuns de medio). Desde
ento a tcnica foi aplicada a muitas reas usando simulao computacional para uma
variedade de varincias no comuns e problemas de aproximao de intervalos de
confiana quando a trabalhar com observaes independentes. S recentemente foi
aplicada para estimao de varincia de estimadores no lineares em inquritos complexos.
Na ausncia de uma amostra de teste, pode-se obter um conjunto novo de
observaes por reamostragem dos dados. Se se assumir que os dados da amostra so
representativos da populao em questo, ento tomando n amostras (com reposio, o que
significa que algumas amostras vo aparecer mais do que uma vez e algumas nenhuma
vez) estas devem reproduzir a variabilidade introduzida pela amostragem da populao
como um todo.
Forma-se uma combinao linear dos dados bootstrapped usando o vector a1 do
conjunto de dados inicial. Pode-se ento comparar a varincia desta combinao com a
varincia da primeira componente da amostra bootstrapped. Se a comparao for prxima
por exemplo, se o rcio for prximo de 1 conclui-se que a variao comum
populao em estudo. Se o rcio for pequeno, ento conclui-se que no se pode generalizar
a descoberta para fora da amostra.
97
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
sujeito a erros de medio), da que, para anlises mais cuidadas, torna-se necessrio a
apresentao das estatsticas calculadas a partir da amostra.
No entanto, no h ferramenta estatstica que seja to poderosa como um grfico bem
escolhido. Os grficos tm muitas vantagens em relao s apresentaes tabulares de
dados numricos por criarem interesse e atrarem a ateno das pessoas. A anlise grfica
um meio para descobrir o inesperado.
A representao grfica decisiva para a anlise de dados. a linha da frente de
ataque, revelando estruturas intrincadas nos dados que no podem ser absorvidas de
qualquer outra forma.
Os instrumentos e tcnicas de representao de dados ajudam a criar imagens de duas
ou trs dimenses de dados que podem assim ser interpretados mais facilmente de modo a
se ganhar conhecimento e compreenso sobre eles. Com a representao dos dados, podese identificar e compreender a informao que interessa e os padres no conjunto de dados
ajudando assim na tomada de deciso e na previso de novas oportunidades de negcio.
Os padres observados na prospeco e descoberta de informao podem at no
elucidar muito o fenmeno sob investigao; contudo, descobrir anomalias e deficincias
nos dados pode ser realmente valioso.
A representao grfica uma chave para a descobrir novos padres e tendncias e
para comunicar estas descobertas a quem ir tomar as decises. As representaes grficas
de dados enviam mensagens poderosas s pessoas. O uso de imagens tem um impacto
muito mais vvido dos que um conjunto de nmeros, tal como diz o ditado, uma imagem
vale mais do que mil palavras.
Quando se escolhe a representao grfica adequada para o conjunto de dados devese ter em considerao a legibilidade do tipo de grfico escolhido e o pblico-alvo.
No h um nico mtodo de representao de dados multivariados que seja uma
soluo universal. Alguns so melhores para mostrar clusters ou outliers, enquanto outros
podem mostrar dois ou trs tipos de correlao. Alguns suportam conjuntos de dados
maiores enquanto que outros so melhores para conjuntos mais pequenos. Isto implica que
os pacotes de anlise estatstica contenham um arsenal de diferentes tipos de
representaes.
O primeiro passo para escolher a representao adequada descobrir quais as que
esto em condies de responder questo, e o segundo passo determinar que
representao especfica se aplica melhor situao em particular. H muitas tcnicas que
98
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
fazem a mesma funo usando diferentes processos e cada uma tem os seus pontos fortes e
fracos. A escolha depende do que est sob investigao e de como os resultados sero
usados.
A melhor representao deve responder positivamente s seguintes questes:
nominais nas abcissas que so ordenadas segundo o valor das frequncias; normalmente
contm um grfico de linhas combinado apresentando o polgono de frequncias
cumulativas.
Grficos de caule e folhas: So uma variante do histograma; apresenta a mesma
imagem que o histograma mas tambm prov uma enumerao dos reais valores dos
dados.
Grficos de disperso: Representam pelo menos uma varivel quantitativa nas
ordenadas e outra nas abcissas. So teis para ilustrar a relao casustica ou de mera
associao. Permitem descobrir clusters, outliers, tendncias e correlaes. Podem-se
adicionar linhas de regresso de y em x para indicar se existe uma relao no linear e
identificar possveis outliers.
Matriz de grficos de disperso: Para um conjunto de dados multivariados com
mais do que duas variveis. til para examinar relaes entre todos os pares de variveis.
Consiste numa grelha quadrada simtrica de grficos de disperso bivariados. Pode-se
tornar demasiado confuso se o nmero de variveis for elevado.
99
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
contnuas associando um eixo radial a cada uma; permitem ver simetria ou uniformidade
de dimenses de dados contnuos, pois pode-se ver quanto os dados flutuam observando se
a espiral suave ou tem picos. So teis para procurar e avaliar tendncias sazonais ou
outras tendncias no conjunto de dados como um todo.
Grficos de extremos e quartis: Permitem resumir um conjunto de estatstica
relativo a vrias variveis quantitativas ou ordinais ou uma varivel cruzada com outra no
quantitativa.
Barras de erro: So semelhantes ao grfico de extremos e quartis mas utilizam
A figura seguinte apresenta uma sntese dos diversos tipos de grficos aqui
apresentados classificados segundo o tipo e nmero de variveis que representam.
Tipologia
de grficos
Variveis
quantitativas
1 var.
Histograma
Pareto
Caule e folhas
Extremos e
quartis
Barras de erro
2 var.
Disperso
Variveis
qualitativas
> 2 var.
Bolhas
Superfcie
Radar
1 var.
Circular
Anel
Variveis quantitativas
e qualitativas
1 v. quant.
/1 v. qualit.
ordinal
Linhas
Pontos
reas
Controlo
1 v. quant./
1 v. qualit.
Barras
Colunas
Extremos e
quartis
Barras de erro
Outros
Mapas
Grafos
Estrelas
Perfis
Faces de
Chernoff
Esta uma rea em franco desenvolvimento, esperando-se: cada vez mais tipos de
representaes; a mudana de representaes estticas para dinmicas e interactivas e, a
capacidade de representar cada vez mais dados e cada vez mais complexos.
102
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
10- CONCLUSO
Como concluso apresenta-se neste captulo um resumo de cada uma das etapas de
uma pesquisa por inqurito discutidas nos captulos anteriores.
Em relao etapa 1 (Planeamento e desenho do inqurito) os passos a seguir
devero ser: definir objectivos e hipteses a testar; determinar o oramento, calendrio e
recursos; definir a populao; determinar objectivamente a dimenso apropriada da
amostra e a tcnica amostral a utilizar; escolher o mtodo de recolha de dados; elaborar o
questionrio de forma adequada e, testar o questionrio.
Na etapa 2 (Recolha dos dados) necessrio, se possvel, eliminar a entrada manual
dos dados escolhendo mtodos automticos; tentar obter dados no enviesados; tentar
maximizar a taxa de resposta e, evitar que o processo de recolha de dados leve demasiado
tempo.
Na etapa 3 (Acesso a dados) deve-se ter em ateno os seguintes aspectos: evitar a
dupla entrada de dados utilizando software de recolha e de anlise compatvel e, utilizar as
definies dos dados feitas no desenho do questionrio no caso de se utilizar mtodos
automticos de recolha de dados.
Em relao preparao e gesto dos dados (Etapa 4), os aspectos fundamentais so:
a obteno de dados limpos para anlise utilizando regras de validao na construo do
questionrio; a deteco e correco de possveis erros e, se necessrio a criao de novos
dados a partir dos originais atravs de operaes de transformao para executar
determinadas anlises. A fase de preparao dos dados fundamental, pois o principal
objectivo de uma investigao por inqurito o apoio deciso e, segundo JURAN (1998)
as decises nunca podem ser melhores do que os dados em que se baseiam.
Na quinta etapa (Anlise dos dados) os objectivos so: produzir estatsticas
descritivas para obter uma fotografia dos dados; retirar o mximo possvel de
conhecimento dos dados e, construir modelos de suporte deciso.
necessrio saber escolher, de entre os muitos mtodos existentes, o mtodo de
anlise de dados mais adequado a cada situao.
Algumas consideraes a ter em conta para escolher a tcnica estatstica adequada
so: considerar cuidadosamente a hiptese geral (decidir entre uma anlise de diferenas
entre amostras ou uma anlise de relao entre variveis); considerar a natureza das
variveis; considerar a escala de medida da varivel dependente (decidir entre tcnicas
103
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
paramtricas e no-paramtricas; se a tcnica for uma tcnica para analisar a relao entre
variveis preciso considerar a escala de medida de todas as variveis na anlise);
examinar os dados, ou seja, verificar se os dados recolhidos cumprem os pressupostos da
tcnica estatstica que se quer aplicar (caso no verifiquem os pressupostos h duas
alternativas: abandonar a tcnica escolhida e escolher uma outra para a qual os dados
cumpram os pressupostos; transformar os dados de forma a cumprirem os pressupostos da
tcnica escolhida).
Na etapa 6 (Produo do relatrio) necessrio personalizar os quadros e grficos
para melhor evidenciar os resultados e, produzir um relatrio simples e de fcil
interpretao.
Na stima e ltima etapa, referente divulgao dos resultados, deve-se ter em
ateno os seguintes aspectos: distribuir os resultados rapidamente; permitir aos decisores
a interaco com os quadros de resultados e, controlar a segurana de acesso e a
confidencialidade determinando o que cada pessoa pode ver e at onde.
Uma investigao por inqurito, para ser eficaz, necessita que todas as etapas sejam
bem executadas. Uma falha em qualquer uma das etapas, (seja na elaborao do
questionrio, na preparao dos dados, na anlise dos resultados, ) pode pr em causa a
validade de toda a investigao.
104
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
BIBLIOGRAFIA
AMARAL, I., FERREIRA, M.A. (2001). Probabilidades e Estatstica Formulrio, 5
105
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
DAVIDSON, I., SOUKUP, T. (2002). Visual Data Mining: Techniques and tools for
data visualization and mining. Danvers, USA: John Wiley & Sons.
DUNN, G., EVERITT, B.S. (2001). Applied Multivariate Data Analysis. London, UK:
Edward Arnold.
EVERITT, B.S., LANDAU, S., LEESE, M. (2001). Cluster Analysis. London, UK:
Edward Arnold.
FERRO, F., REIS, E., VICENTE, P. (2001). Sondagens A amostragem como factor
USA: Allyn&Bacon.
GOODE, W., HATT, P. (1979). Mtodos em Pesquisa Social (pp. 171-235), 7 Edio.
Pearson Education.
JOHNSON, R.A., WICHERN, D.W. (2002). Applied Multivariate Statistical Analysis.
McGraw Hill.
106
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
Radius Press.
LARSON, H. J. (1982). Introduction to Probability Theory and Statistical Inference.
Slabo.
MELLO, F. G. (1993). Probabilidades e Estatsticas: Conceitos e Mtodos
McGraw-Hill.
PINDYCK, R.S., RUBINFELD, D.L. (1991). Econometric Models and Economic
107
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
DEPARTAMENTO DE MATEMTICA
Seco de Estatstica e Investigao Operacional
Nisa vila do Couto Alves Cabral
Cabral, Nisa A.C.A. (2006) Investigao por Inqurito
Monografias da SEIO. Depto. Matemtica da Univ. dos
Aores: Ponta Delgada, www.uac.pt/~amendes (ID 54.499)
O trabalho apresentado da exclusiva responsabilidade da aluna que o assina. O Departamento
de Matemtica e a Universidade dos Aores no se responsabilizam por eventuais erros
existentes no mesmo.
Os textos podem ser descarregados livremente, impressos e utilizados para ensino ou estudo
dos temas a que se referem. No entanto, no podem ser copiados ou includos noutros trabalhos
acadmicos ou de qualquer outra natureza, sem o consentimento do autor e a devida referncia
completa. Para autorizao de cpia parcial ou integral, utilize o endereo de correio electrnico:
seio@notes.uac.pt
108
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006