Você está na página 1de 0

UNIVERSIDADE DOS AORES

DEPARTAMENTO DE MATEMTICA
LICENCIATURA EM MATEMTICA APLICADA







Investigao por Inqurito






Trabalho elaborado por:
Nisa vila do Couto Alves





Ponta Delgada, ano lectivo 2005/2006
INVESTIGAO POR INQURITO
NDICE
INTRODUO............................................................................................................................................. 2
1- IMPORTNCIA DOS INQURITOS....................................................................................................... 3
2- ETAPAS DA INVESTIGAO POR INQURITO.................................................................................. 5
3- ETAPA 1: PLANEAMENTO E DESENHO DO INQURITO................................................................. 7
3.1- AMOSTRAGEM.............................................................................................................................. 7
3.1.1- TCNICAS DE AMOSTRAGEM........................................................................................... 8
3.1.1.1- Amostragem Aleatria: ................................................................................................... 10
3.1.1.2- Amostragem No Aleatria............................................................................................. 12
3.1.2- DIMENSO DA AMOSTRA................................................................................................ 17
3.2- MTODOS DE RECOLHA DOS DADOS................................................................................... 23
3.3- CONCEPO DAS QUESTES.................................................................................................. 24
3.4- DESENHO DO QUESTIONRIO ........................................................................................... 28
3.5- PR-TESTE DO QUESTIONRIO ......................................................................................... 29
3.6- O PLANO DO QUESTIONRIO............................................................................................. 29
4- ETAPA 2: RECOLHA DOS DADOS...................................................................................................... 32
5- ETAPA 3: ACESSO AOS DADOS.......................................................................................................... 32
6- ETAPA 4: PREPARAO DOS DADOS............................................................................................... 32
7- ETAPA 5: ANLISE DOS DADOS ........................................................................................................ 37
7.1- ESTATSTICA DESCRITIVA versus ESTATSTICA INDUTIVA............................................. 39
7.1.1- ESTATSTICA DESCRITIVA............................................................................................... 40
7.1.2- ESTATSTICA INDUTIVA................................................................................................... 41
7.1.2.1- Intervalos de Confiana................................................................................................... 41
7.1.2.2- Testes de Hipteses......................................................................................................... 43
7.1.2.3- Relao entre Testes de Hipteses e Intervalos de Confiana......................................... 48
7.2- MTODOS PARAMTRICOS versus MTODOS NO-PARAMTRICOS ........................... 48
7.2.1- MTODOS NO-PARAMTRICOS ................................................................................... 49
7.2.1.1- Testes de Ajustamento .................................................................................................... 49
7.2.1.2- Testes de Aleatoriedade .................................................................................................. 51
7.2.1.3- Testes de Simetria ........................................................................................................... 52
7.2.1.4- Tabelas de Contingncia ................................................................................................. 53
7.2.1.5- Testes de Localizao ..................................................................................................... 55
7.2.1.6- Testes de escala e outros problemas de duas amostras.................................................... 60
7.2.1.7- Testes de Associano..................................................................................................... 61
7.3- MTODOS QUE ANALISAM DIFERENAS versus MTODOS QUE ANALISAM
RELAES........................................................................................................................................... 65
7.3.1- MTODOS QUE ANALISAM DIFERENAS .................................................................... 65
7.3.2- MTODOS QUE ANALISAM RELAES ........................................................................ 66
7.4- TCNICAS UNIVARIADAS, BIVARIADAS E MULTIVARIADAS........................................ 68
7.4.1- TCNICAS MULTIVARIADAS........................................................................................... 68
7.4.1.1- Regresso mltipla.......................................................................................................... 71
7.4.1.2- Regresso logstica.......................................................................................................... 76
7.4.1.3- Anlise discriminante...................................................................................................... 77
7.4.1.4- rvores discriminantes (de deciso) ............................................................................... 79
7.4.1.5- Anlise de varincia multivariada................................................................................... 81
7.4.1.6- Anlise em componentes principais (ACP)..................................................................... 83
7.4.1.7- Anlise factorial .............................................................................................................. 86
7.4.1.8- Anlise de clusters .......................................................................................................... 88
7.4.1.9- Anlise loglinear ............................................................................................................. 91
7.4.1.10- Anlise de correspondncias ......................................................................................... 91
7.4.1.11- Anlise conjunta............................................................................................................ 93
7.4.1.12- Correlao cannica...................................................................................................... 93
7.4.1.13- Escalonamento multidimensional ................................................................................. 94
7.4.1.14- Modelos de equaes estruturais................................................................................... 95
7.4.1.15- Tcnicas emergentes ..................................................................................................... 96
7.5- REPRESENTAES GRFICAS................................................................................................ 97
8- ETAPA 6: PRODUO DO RELATRIO.......................................................................................... 101
9- ETAPA 7: DIVULGAO DOS RESULTADOS.................................................................................. 102
10- CONCLUSO..................................................................................................................................... 103
BIBLIOGRAFIA........................................................................................................................................ 105

1
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
INTRODUO
Este trabalho foi elaborado no mbito do Trabalho Final de Curso da Licenciatura em
Matemtica Aplicada.
Tentou-se abordar o assunto da investigao por inqurito de uma forma equilibrada em
relao complexidade e abrangncia/profundidade para que pudesse ser um instrumento
til a alunos interessados nestas temticas.
De modo que, medida que as tcnicas estatsticas aqui apresentadas se vo tornando mais
complexas (nomeadamente nas tcnicas de anlise multivariada), os aspectos matemticos
das mesmas vo sendo omitidos apresentando-se apenas a aplicabilidade e os fundamentos
gerais de cada um dos mtodos.
Inicia-se por elucidar a importncia dos inquritos na sociedade actual, sintetizando-se
depois, as etapas de uma investigao por inqurito.
Desenvolve-se especialmente a etapas referentes ao planeamento e desenho do
questionrio, preparao dos dados e, de anlise dos dados.
No captulo do planeamento e desenho do questionrio, abordam-se, entre outros, assuntos
como a amostragem, mtodos de recolha de dados, concepo das questes e desenho do
questionrio.
No captulo referente anlise dos dados apresentam-se diversas tcnicas de anlise
(descritivas, indutivas, paramtricas, no-paramtricas, para analisar diferenas, para
analisar relaes: univariadas, bivariadas, multivariadas e ainda representaes grficas).





2
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
1- IMPORTNCIA DOS INQURITOS
Os inquritos estatsticos so usados para recolher informao quantitativa nos campos de
marketing, sondagens polticas, e pesquisa nas cincias sociais, entre outros. Um inqurito
pode incidir sobre opinies ou informao factual, dependendo do seu objectivo, mas todos
os inquritos envolvem a administrao de perguntas a indivduos. Quando as perguntas
so colocadas por um pesquisador, o inqurito chamado entrevista ou inqurito
ministrado por um pesquisador. Quando as questes so administradas pelo inquirido, o
inqurito referido por questionrio ou inqurito auto-administrado.
Nos processos de tomada de deciso de qualquer organizao essencial obter o
mximo de informao sobre o meio que a envolve. Deste modo, os inquritos, se
correctamente utilizados so meios eficazes de obter a informao necessria.
Contudo, os inquritos estatsticos apresentam vantagens e desvantagens. De seguida
apresentam-se algumas dessas vantagens e desvantagens.
As vantagens dos inquritos estatsticos incluem:
So uma forma eficiente de recolher informao de um grande nmero de
inquiridos. Podem ser usadas tcnicas estatsticas para determinar a validade, a
fiabilidade e a significncia estatstica.
So flexveis no sentido em que pode ser recolhida uma grande variedade de
informao. Podem ser usados para estudar atitudes, valores, crenas e
comportamentos passados.
So relativamente fceis de administrar.
H uma economia da recolha dos dados devido focalizao providenciada por
questes padronizadas, ou seja, no h um gasto de tempo e dinheiro em questes
tangenciais.
As desvantagens dos inquritos incluem:
Dependem da motivao, honestidade, memria e capacidade de resposta dos
sujeitos.
No so apropriados para estudar fenmenos sociais complexos.
Se a amostra no for representativa da populao ento as caractersticas da
populao no podem ser inferidas.
3
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
necessrio ter em considerao que fazer um inqurito muito mais que construir
um questionrio. um processo com mltiplos passos e em que cada etapa est claramente
definida para se ter sucesso deve-se planear cuidadosamente todas estas etapas desde a
forma de recolha da informao at apresentao dos resultados.
De modo a aumentar a sua eficincia, qualquer inqurito deve ter as seguintes
caractersticas: ser claro os seus objectivos devem ser precisos; fceis os inquiridos
devem perceber facilmente o seu contedo; fiveis os dados recolhidos devem traduzir a
opinio do inquirido sem erros; analisado os dados devem ser sujeitos a anlise
estatstica para se poder inferir resultados e tomar decises e, atempado o tempo entre o
seu planeamento e a obteno de resultados deve ser o menor possvel para que seja til
deciso.
Quem promove um inqurito procura conhecer caractersticas, comportamentos ou
opinies de uma populao usando um processo de amostragem.
Deste modo, um inqurito ajuda o decisor a:
Obter informao adicional sobre o que pensam os clientes ou os utilizadores dos
servios, os empregados ou, em ltima instncia, a populao em geral sobre
determinado assunto;
Criar mais valor indo de encontro s expectativas do mercado, ou seja, ajuda o decisor
a conhecer o mercado;
Enfrentar maior concorrncia conhecendo as expectativas dos clientes e a avaliao
que fazem dos produtos tanto da prpria empresa como das concorrentes com o
objectivo de inovar, fidelizar e diferenciar-se;
Identificar oportunidades de, por exemplo, criao de novos produtos;
Aumentar o retorno do investimento confrontando o conhecimento das relaes entre a
empresa e as pessoas ou instituies que com ela se relacionam com a opinio que
estes expressam nos inquritos que se promove, ou seja, quanto mais satisfeitos
estiverem os melhores clientes, maior a fidelizao e mais seguro ser o futuro da
empresa.
Algumas pessoas pensam que fazer um inqurito somente colocar questes. Mas
isso no verdade, actualmente deve-se encar-lo como um processo. Quando
correctamente executado obtm-se dados de boa qualidade sobre os quais se pode agir.
O processo de inquirio pode falhar se incorrectamente implementado em qualquer
das suas etapas. Alguns dos erros mais frequentes relacionam-se com a qualidade das
4
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
questes colocadas; com os erros cometidos na entrada de dados ou com o tempo entre o
lanamento do inqurito e a tomada de deciso.

2- ETAPAS DA INVESTIGAO POR INQURITO
A pesquisa por inqurito, de acordo com o site do PSE (Produtos e Servios de
Estatstica, Lda.), pode ser dividida em sete etapas, como se mostra abaixo. Para que se
obtenha sucesso, qualquer uma delas deve ser correctamente implementada.
1. Planeamento e desenho do inqurito
2. Recolha dos dados
3. Acesso aos dados
4. Preparao dos dados
5. Anlise dos dados
6. Produo do relatrio
7. Divulgao dos resultados
A Figura 1 esquematiza as etapas de realizao de uma pesquisa por inqurito.















5
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Definir objectivos e hipteses a testar
Determinar oramento, calendrio e recursos
Definir a populao
Determinar dimenso da amostra e tcnica amostral a utilizar
Escolher mtodo de recolha de dados
Elaborar o questionrio
Testar o questionrio
Obter dados claros, no enviesados e actualizados
Mtodo de recolha atractivo para obter uma boa taxa de resposta
Acelerar o processo (mtodos automticos de entrada de dados)
Passar dados para o software de anlise
Compatibilidade entre software de anlise e de recolha de dados
Examinar os dados
Identificar outliers e missing values. Encontrar soluo adequada
Verificar pressupostos dos mtodos de anlise
Clculo de variveis transformadas
Definir a escala das variveis
Escolher um software analtico
Produzir estatsticas descritivas e representaes grficas
Construir modelos explicativos
Registar anlises executadas
Interpretar resultados
Personalizar quadros e grficos
Tornar relatrio simples e de fcil interpretao
Preparar apresentao dos resultados em software adequado
Distribuir rapidamente
Permitir interaco dos decisores
Controlar segurana e confidencialidade




Planeamento e desenho do inqurito


6








Acesso aos dados
Recolha dos dados






Preparao dos dados








Anlise dos dados







Preparao do relatrio final





Divulgao dos resultados


FIGURA 1. ETAPAS DE REALIZAO DE UMA PESQUISA POR INQURITO

Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
3- ETAPA 1: PLANEAMENTO E DESENHO DO INQURITO
Antes de se iniciar o processo necessrio determinar os objectivos, oramento e
recursos do projecto, bem como planificar o calendrio. Nenhum inqurito deve prosseguir
sem que os seus propsitos sejam claros e aceites para que no se esteja a coleccionar
informao desnecessria e cara.
Um bom formulrio comea com uma boa hiptese cuidadosamente estudada.
GOODE (1979).
Para que se possa testar correctamente as hipteses operacionais convm que estas
sejam especificadas antes da recolha de dados. essencial saber quais as relaes e
padres que se pensa poder vir a encontrar e quais as anlises estatsticas a efectuar, pois
estas dependero do tipo de dados recolhidos. Deve-se pensar para que servem os
resultados a obter. Ou seja, as anlises desejadas, os relatrios a escrever e a forma como
a informao resultante ser utilizada.
Antes de se criar as questes e o formato do questionrio a utilizar, preciso ter em
ateno o tipo de populao a inquirir por exemplo, idade, nvel educacional ou
motivao. ainda necessrio determinar o mtodo de recolha de dados a utilizar.
Depois ento ser necessrio estimar a dimenso da amostra requerida. A
amostragem um assunto bastante complexo e ser abordado no sub captulo 2.1.

3.1- AMOSTRAGEM
Se se tivesse a possibilidade de estudar todos os membros da populao, estar-se-ia
na presena de um censo. Contudo promover um censo extremamente caro e moroso,
assim, faz-se uma sondagem que, segundo FERRO (2001) a resposta ao conhecimento
de uma populao tomando por base uma fraco da populao a amostra.
Os maiores esforos neste processo esto relacionados com a determinao de uma
amostra da populao, para a qual so utilizados mtodos probabilsticos. A amostra deve
ter a dimenso adequada para obter a preciso pretendida e no deve ser superior, pois
medida que cresce a dimenso da amostra os custos do processo aumentam e os ganhos de
preciso so mnimos.
Uma vez seleccionada a amostra, necessrio verificar que a amostra
representativa da populao, ou seja, que os indivduos que no respondem so similares
7
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
aos que respondem. Caso contrrio, os resultados sero enviesados. Uma amostra
representativa aquela que reflecte os aspectos tpicos da populao.
Pode-se discriminar as etapas do plano amostral do seguinte modo:
1 Definir o Universo;
2 Se possvel, identificar a base de sondagem (listagem dos elementos da qual se vai
seleccionar a amostra);
3 Escolher uma tcnica amostral;
O sub captulo 2.1.1 abordar as diversas tcnicas de amostragem com base em
FERRO (2001).

3.1.1- TCNICAS DE AMOSTRAGEM
Segundo BACELAR (1999), as tcnicas de amostragem so utilizadas para
seleccionar os elementos da populao de forma a obter uma amostra representativa.
Podem-se dividir as tcnicas de amostragem em amostragem aleatria e no
aleatrias sub dividindo-se cada uma delas em diversas sub categorias.
Cada um dos mtodos apresenta vantagens e desvantagens que devem ser tidas em
considerao aquando da escolha de uma ou outra tcnica.
Deste modo, a amostragem aleatria apresenta algumas vantagens como o facto de os
critrios de seleco dos elementos estarem rigorosamente definidos, no permitindo que a
subjectividade dos investigadores ou do entrevistador intervenham na escolha dos
elementos e minimizando assim o enviesamento muitas vezes introduzido pelos
entrevistadores. So igualmente vantagens a possibilidade de se determinar
matematicamente a dimenso da amostra em funo da preciso e grau de confiana
desejados para os resultados.
Contudo, tambm apresenta desvantagens, nomeadamente: dificuldade em obter
listagens ou registos actuais e completos da populao (base de amostragem); a seleco
aleatria pode originar uma amostra muito dispersa geograficamente aumentando o tempo
e os custos dos estudos e, pode haver dificuldade em estabelecer contacto com os
potenciais inquiridos.
Note-se que a desactualizao ou dados em falta nas bases de amostragem (lista dos
elementos que compem a populao), das quais se extrai a amostra, leva a que nem todos
os elementos da populao tenham a mesma probabilidade de seleco (os que fazem parte
8
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
da populao, mas no da base de amostragem, tm uma probabilidade nula de serem
seleccionados).
Em relao s tcnicas de amostragem no aleatria, estas tm a vantagem de
permitir que se obtenha a informao com custos mais reduzidos, mais rapidamente e com
menores necessidades de pessoal. Como desvantagens, de referir que h unidades do
universo que no tm possibilidade de ser escolhidas; pode ser introduzido enviesamento
pela opinio pessoal e, no se sabe com que grau de confiana as concluses obtidas so
generalizveis populao.
As tcnicas de amostragem no aleatria tm em comum o facto de no utilizarem o
mtodo de seleco aleatria para os elementos da amostra. Isto significa que no h
garantia estatstica de que a amostra seleccionada seja representativa. Note-se que a
aleatoriedade no garante que a amostra a obter seja representativa, garante apenas que
existe uma probabilidade significativamente elevada de que a amostra possua esse
qualificativo. BACELAR (1999).
As vantagens e desvantagens de cada tipo de amostragem devem ser ponderadas em
cada estudo. O caminho a percorrer deve ser o que permita que o erro nos resultados
derivado de questes amostrais seja o mais pequeno possvel.
A figura seguinte apresenta algumas das tcnicas de amostragem categorizadas em
no aleatrias ou aleatrias.

T T c cn ni i c ca as s d de e
a am mo os st t r ra ag ge em m
No
Aleatrias

Por
Bola de Neve Intencional Por quotas Random route
convenincia
Aleatrias

9


Simples Estratificada Por Clusters Multi-etapas Outras
FIGURA 2. TCNICAS DE AMOSTRAGEM.
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Nos prximos dois sub-captulos sumariam-se as etapas, desvantagens, vantagens ou
conceitos associados a diversos tipos de tcnicas de amostragem aleatria e no aleatria,
respectivamente.

3.1.1.1- Amostragem Aleatria:
Simples
Corresponde a um mtodo de seleco dos elementos da amostra, em que cada um
deles tem uma probabilidade igual (e no nula) de ser seleccionado.
Consiste em:
1. Numerar consecutivamente os elementos da populao de 1 a N;
2. Escolher n elementos mediante o uso de um procedimento aleatrio;
3. Uma vez escolhidos os nmeros, os elementos da populao que lhes
correspondem constituem a amostra.
Esta tcnica raramente adoptada, pois para alm de ser cara muitas vezes
impraticvel por exigir que todos os elementos da populao sejam enumerados.
Sistemtica
Segundo BACELAR (1999), a amostragem sistemtica uma variante da
amostragem aleatria simples que se usa quando os elementos da populao esto
organizados de forma sequencial. O primeiro elemento seleccionado aleatoriamente;
calcula-se em seguida o intervalo de amostragem (i = dimenso da populao / dimenso
da amostra). Sendo i o intervalo da amostragem, cada i-simo elemento, a partir do
primeiro j seleccionado, ir constituir a amostra. O resultado duma tiragem sistemtica ,
na maior parte das vezes, equivalente ao duma amostra aleatria simples. A excepo
ocorre quando a sequncia dos elementos da populao afectada pela periodicidade. Se
aquela apresentar uma regularidade, um padro peridico, pode-se correr o risco de um
vis sistemtico.
Sumaria-se em:
1. Calcular o intervalo da amostra (k) obtido pelo quociente N/n, que dever ser
arredondado ao inteiro mais prximo por defeito;
2. Escolher aleatoriamente um nmero j entre 1 e k;
3. Partindo desse nmero, adicionar sucessivamente o valor k, ficando assim
seleccionados os elementos j, j+k, j+2k, j+3k, , j+ (n-1)k, perfazendo n.
10
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Estratificada
Esta tcnica de amostragem usa informao existente sobre a populao para que o
processo de amostragem seja mais eficiente.
A lgica que assiste estratificao de uma populao a da identificao de grupos
que variam muito entre si, no que diz respeito ao parmetro em estudo, mas muito pouco
dentro de si, ou seja, cada um homogneo e com pouca variabilidade.
As trs etapas para se definir uma amostra estratificada so:
1. Definir os estratos;
2. Seleccionar os elementos dentro de cada estrato mediante um processo aleatrio
simples;
3. Conjugar os elementos seleccionados em cada estrato, que na sua totalidade
constituem a amostra.
Pode ser particularmente eficaz quando na populao existem valores extremos para
a caracterstica em estudo, sendo possvel agreg-los num estrato separado.
Por clusters
Requer menos informao a priori, sendo til na ausncia duma base de amostragem,
o que sucede muitas vezes. especialmente til quando o universo estatstico formado
por populaes de grande dimenso, dispersas por vastas reas geogrficas. A amostragem
por clusters usa agrupamentos naturais de elementos da populao, nos quais cada
elemento da populao pertence a um s grupo.
S exige que se disponha de uma listagem completa das unidades amostrais primrias
(por exemplo, as turmas de uma escola). Os clusters so escolhidos aleatoriamente e dentro
de cada cluster todos os elementos so seleccionados, ou seja, s existe uma etapa de
amostragem. Est orientada para a seleco de grupos de elementos e no de elementos
individuais.
As etapas da amostragem por clusters so:
4. Especificar os clusters;
5. Seleccionar uma amostra.
Muitas vezes a nica possvel de obter porque s existem disponveis bases de
sondagem que listam clusters de elementos da populao.
A amostragem por clusters frequentemente usada na prtica porque muitas
populaes esto j agrupadas em subgrupos naturais. Uma grande vantagem econmica
o baixo custo deste mtodo.
11
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Multi-etapas
Selecciona-se em primeiro lugar, aleatoriamente uma amostra por clusters repare-se
que muito mais fcil obter uma lista de clusters (por exemplo de escolas) do que uma
lista exaustiva dos elementos que compem a populao (por exemplo, todos os alunos).
Em seguida, pode-se realizar ou no uma segunda etapa, na qual so escolhidos
aleatoriamente alguns elementos dos clusters seleccionados na fase anterior ou ento,
continuando com a seleco de clusters at se chegar s unidades elementares.
Ou seja: Definir os clusters; e seleccionar a amostra. Este tipo de amostragem
apresenta as mesmas vantagens que a amostragem por clusters.

3.1.1.2- Amostragem No Aleatria
Intencional
Resulta em elementos seleccionados deliberadamente pelo investigador, geralmente
por este considerar que possuem caractersticas que so tpicas ou representativas da
populao. Isso no significa que a amostra assim obtida seja necessariamente
representativa da populao ainda que o investigador possa ter essa opinio.
Pode ser aplicada com sucesso nas seguintes situaes: estudos exploratrios,
amostras de dimenso reduzida, impossibilidade de conseguir uma amostra aleatria,
pretende-se deliberadamente uma amostra enviesada.
Contudo, frequentemente surgem enviesamentos difceis de avaliar.
Snowball bola de neve
Identificam-se um ou mais indivduos da populao a estudar e pede-se-lhes para que
identifiquem outros elementos da mesma populao. Este processo repete-se
sucessivamente, sendo a amostra final composta por todos os elementos identificados.
normalmente utilizada quando os elementos da populao so de difcil acesso ou
identificao e esto inter-relacionados por redes de conhecimento.
Um dos inconvenientes que os inquiridos tendem a indicar o nome de amigos ou
pessoas de relao mais prxima, o que pode originar uma amostra de pessoas que pensam
e se comportam de modo similar quele que as indica. Da mesma forma so aqueles
socialmente mais visveis os que tm mais possibilidade de serem seleccionados.


12
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Convenincia
No representativa da populao. Ocorre quando a participao voluntria ou os
elementos da amostra so escolhidos por uma questo de convenincia, por isso, o
processo amostral no garante partida que a amostra seja representativa. Pode ser usada
com xito em situaes nas quais seja mais importante captar ideias gerais, identificar
aspectos crticos do que propriamente a objectividade cientfica, como o caso na maioria
dos inquritos disponibilizados na web.
Quotas
uma amostragem semi-aleatria.
Justifica-se fundamentalmente pela inexistncia de listagens da populao. O
pressuposto o de que as variveis de controlo, que definem as quotas, justificam toda a
variao sistemtica na populao relativamente caracterstica em estudo.
Os dois passos fundamentais para a sua execuo so:
1. Definir as quotas as quotas so identificadas dividindo a populao em
categorias, usando variveis de controlo pr-definidas;
2. Seleccionar os elementos.
Podem-se utilizar quotas independentes que facilitam o trabalho aos entrevistadores,
ou quotas interrelacionadas que so mais fiveis uma vez que os entrevistadores tm de
cumprir uma amostra especfica, distribuda por diversos factores de estratificao. Nas
tabelas 1 e 2 apresenta-se um exemplo muito simples de quotas independentes e de quotas
interrelacionadas.
Sexo Idade
Masculino 15 15-24 6
Feminino 18 25-34 8
35-44 12
45-64 7
TOTAL 33 33

13
TABELA 1: QUOTAS INDEPENDENTES

Sexo
Idade Masculino Feminino
15-24 3 3 6
25-34 4 4 8
35-44 5 7 12
45-64 3 4 7
15 18 33
TABELA 2: QUOTAS INTERRELACIONADAS
Como vantagens pode-se referir a rapidez, economia e facilidade de administrao.
Nem sempre garante partida a representatividade da amostra, pois:
A amostra pode estar longe de reflectir alguns aspectos importantes capazes de
influenciar os resultados, por estes no serem tomados como quotas. O
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
estabelecimento de quotas para todas as caractersticas potencialmente
importantes seria uma soluo por um lado, mas uma dificuldade por outro,
uma vez que, quantos mais critrios forem identificados mais difcil se torna
encontrar indivduos que os preencham a todos;
Como a seleco est a cargo do livre arbtrio dos entrevistadores, estes tm
tendncia a seguirem certas prticas sistemticas como escolher determinado
tipo de inquiridos e evitar outros.

Segundo BACELAR (1999), aparentemente, esta tcnica semelhante amostragem
estratificada, mas de facto bastante diferente, uma vez que a seleco dos elementos da
populao no aleatria. O objectivo desta tcnica o de tentar compensar as notrias
insuficincias da amostragem acidental. Normalmente procura-se combinar a tcnica de
amostragem por quotas com outras tcnicas (por exemplo random route) complementares
e sistemticas que possibilitem gerar alguma diversidade na amostra e controlar os
enviesamentos sistemticos mais gritantes. Para efectuar a amostragem estratificada
necessrio possuir uma base de amostragem na qual so conhecidas para cada elemento da
populao as caractersticas que forem usadas como critrios de estratificao. De cada um
destes estratos populacionais ser seleccionada uma amostra. Na amostragem por quotas
no necessria qualquer base de amostragem. Basta conhecer, na populao, a
distribuio das caractersticas a utilizar. Tambm os elementos da amostra no so
seleccionados aleatoriamente: so apenas encontrados segundo um acaso que no
corresponde s regras do acaso estatstico, isto , no garante a equiprobabilidade de
seleco dos elementos da populao.
Random route percurso aleatrio
utilizado para definir critrios de movimentao do entrevistador no terreno.
Consiste em:
1. Seleccionar aleatoriamente a partir de uma lista/mapa um endereo ou ponto
de referncia esta escolha servir de ponto de partida para o entrevistador;
2. Definir as regras de orientao para o entrevistador o entrevistador
instrudo para realizar o seu trabalho circunscrevendo-se a determinada rea ou
seguindo um itinerrio aleatrio na escolha das unidades a inquirir.
Ou seja, atribudo ao entrevistador um ponto de partida e um ponto de chegada no
espao geogrfico no qual se vai desenrolar o inqurito, e um critrio sistemtico e
16
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
aleatrio relativo ao percurso do entrevistador entre esses dois pontos (inquirir o terceiro
alojamento de seis em seis edifcios, alternando o lado da rua, por exemplo).

3.1.2- DIMENSO DA AMOSTRA
Factores determinantes na dimenso da amostra
Existem seis factores que se podem considerar determinantes na escolha da dimenso
da amostra, nomeadamente:
Caractersticas da populao, ou seja, a varincia da caracterstica em estudo e o
nmero de elementos (a sua dimenso N);
Distribuio amostral do estimador a utilizar;
Preciso e confiana requeridas para os resultados, sendo necessrio especificar a
diferena mxima entre a estimativa e o parmetro ou o nvel de confiana;
Custo, pois recolher mais inquritos pode ter um aumento de custo muito elevado;
Consequncias para os erros de no amostragem
O grande dilema que o investigador enfrenta na realizao de um estudo por
sondagem se deve seleccionar uma amostra maior para reduzir o erro amostral,
ou se deve concentrar os recursos e esforos numa amostra de dimenso mais
reduzida, para garantir um melhor controlo do trabalho dos entrevistadores, uma
taxa de respostas mais alta, respostas mais exactas, melhor trabalho de
processamento da informao, etc., ou seja, uma reduo dos outros erros.
Idealmente os esforos so concentrados na reduo simultnea dos erros
relacionados com amostragem e no relacionados com amostragem, apesar das
restries financeiras e de tempo tornarem este ideal difcil de concretizar;
As tcnicas estatsticas que sero utilizadas.
Note-se que, para que se obtenham resultados com um grau de exactido
aceitvel, algumas tcnicas estatsticas exigem uma amostra de dimenso maior
do que outras.
Determinao da dimenso da amostra
1. Fixar os limites de erro aceitveis;
2. Encontrar uma equao que relacione n com a preciso e confiana desejadas
para os resultados;
3. Determinar parmetros desconhecidos;
17
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
4. Estimar caractersticas para sub-domnios;
5. Estimar mais do que uma caracterstica;
6. Avaliar o n encontrado (custo, tempo, pessoal e material necessrio).
O clculo da dimenso da amostra em amostras aleatrias pode ser efectuado com
base em frmulas relativamente complexas, nas quais entra o nmero de elementos da
populao (nmero de clusters, nmero de elementos por cluster, nmero de estratos,
nmero de elementos por estrato, etc.), a varincia, o erro associado e o valor retirado da
distribuio Gaussiana correspondente ao grau de confiana imposto para a estimativa.
De seguida apresentam-se estas frmulas sumariadas na tabela 4 com base em
FERRO (2001).
A tabela 3 apresenta a notao que ser utilizada nas frmulas posteriores.
A tabela 4 apresenta uma sntese das frmulas que se devem utilizar quando se
pretender calcular o nmero de observaes necessrio para estimar uma mdia, proporo
ou total, com uma amplitude mxima de erro igual a B para cada tipo de amostra aleatria.

18
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO



DESIGNAO POPULAO AMOSTRA
Nmero de elementos N n
i-sima observao
i
X
i
X
Mdia
N X
N
i
i
/
1

=
= n X X
n
i
i
/
1

=
=
Total

=
=
N
i
i
X
1
n X N X N
n
i
i
/
1

=
=
Proporo
(variveis dicotmicas)
N X p
N
i
i
/
1

=
= n X p
n
i
i
/
1

=
=
ESTRATIFICADA
Nmero de estratos L L
Nmero de elementos
L
N N N N + + + = ...
2 1

L
n n n n + + + = ...
2 1

Nmero de elementos no
estrato i
i
N
i
n
j-sima observao no
estrato i
ij
X
ij
X
Mdia do estrato i
i
N
i
ij i
N X
i
/
1

=
=
i
n
i
ij i
n X X
i
/
1

=
=
Mdia
N N
L
i
i i
/
1

=
= N X N X
L
i
i
i st
/
1

=
=
1

Total

=
=
L
i
i i
N
1

=
=
L
i
i
i st
X N X N
1

Proporo no estrato i
(variveis dicotmicas)
i
N
i
ij i
N X p
i
/
1

=
=
i
n
i
ij i
n X p
i
/
1

=
=
Proporo
N p N p
L
i
i i
/
1

=
= N p N p
L
i
i i st
/
1

=
=









1
st significa que se est a utilizar uma amostra estratificada.
19
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
POR CLUSTERS
Nmero de clusters M
m
Nmero de elementos no
cluster i
i
N
i i
N n =
Nmero de elementos

=
=
M
i
i
N N
1

=
=
M
i
i
n n
1

Dimenso mdia dos
clusters
M N N / = m n n / =
j-sima observao no
cluster i
ij
X
ij
X
Mdia por cluster

= =
=
M
i
N
j
ij
i
M X
1 1
/ .

= =
=
m
i
n
j
ij
cl
i
m X X
1 1
/
Mdia global

= =
=
M
i
N
j
ij
i
N X
1 1
/

= = =
=
m
i
n
j
m
i
i ij
cl
i
n X X
1 1 1
/
Total

= =
=
M
i
N
j
ij
i
X
1 1


= = =
=
m
i
n
j
m
i
i ij
cl
i
n X N X N
1 1 1
/
Proporo
(variveis dicotmicas)

= =
=
M
i
N
j
ij
i
N X p
1 1
/

= = =
=
m
i
n
j
m
i
i ij cl
i
n X p
1 1 1
/
MULTI-ETAPAS
Nmero de clusters M
m
Nmero de elementos no
cluster i
i
N
i
n
Nmero de elementos por
cluster
N n
Nmero de elementos
N M N = n m n =
j-sima observao do
cluster i
ij
X
ij
X
Mdia no cluster i N X
N
i
ij i
/
1

=
= n X X
n
i
ij i
me
/
1

=
=
Mdia global
N
M
i
i
/
1

=
= n m X X
m
i
n
j
ij me
/
1 1

= =
=
Total

= =
=
M
i
N
j
ij
X
1 1

=
=
m
i
i me m X N X N
me
1
/
Proporo no cluster i
(variveis dicotmicas)
N X p
N
j
ij i
/
1

=
= n X p
n
j
ij i
/
1

=
=
Proporo
N p p
M
i
i
/
1

=
=

= =
=
m
i
n
j
ij me
n m X p
1 1
/
TABELA 3. NOTAO UTILIZADA NAS FRMULAS DA TABELA 4. FONTE: FERRO (2001).
20
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO

21
INVESTIGAO POR INQURITO

Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
21
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO

22
INVESTIGAO POR INQURITO

Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
22
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Determinao de n em amostras no aleatrias
Nas amostras no aleatrias determina-se a dimenso da amostra que possvel
custear ou ento adopta-se a dimenso j utilizada, com sucesso, em estudos anteriores das
mesmas caractersticas. Tambm possvel utilizar as expresses da tabela 4 para o caso
das amostras aleatrias, ou seja, determinar qual a dimenso que seria necessria se a
amostra fosse aleatria, sendo que o valor encontrado meramente indicativo.

3.2- MTODOS DE RECOLHA DOS DADOS
Os fundamentos dos vrios mtodos de recolha dados num inqurito so praticamente
os mesmos.
Contudo, j na altura do planeamento se deve decidir qual o mtodo de recolha de
informao que se ir utilizar, pois a construo do questionrio depende muito do mtodo
escolhido.
No existe um mtodo ptimo de recolha de dados. Cada um tem as suas virtudes e
os seus defeitos. Por exemplo, enviar os inquritos por correio tem custos relativamente
baixos, mas tem baixas taxas de resposta se no houver um esforo de acompanhamento.
Os inquritos por correio electrnico podem ter custos ainda mais baixos, mas no se
podem utilizar em universos genricos porque apenas so aplicveis a pessoas com acesso
ao correio electrnico. As entrevistas pessoais so caras, mas permitem a utilizao de
questionrios mais longos.
Normalmente definem-se trs mtodos de recolha da informao:
Entrevista pessoal;
Entrevista telefnica;
Questionrio por correio.
A escolha do mtodo a utilizar deve depender dos seguintes factores:
Tipo de populao, ou seja, o universo;
Representatividade da amostra;
Tipo de questes;
Custo e pessoal disponvel.
Segundo GOODE (1979), a adequao de um questionrio remetido, ou seja, auto-
administrado, depender das exigncias do problema da pesquisa em relao:
Ao tipo de informao necessria;
23
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Uma quantidade muito extensa de dados no pode ser obtida com o
questionrio. O questionrio eficaz somente quando o inquirido capaz ou
quer expressar as suas reaces claramente. A diferena entre um questionrio e
uma entrevista no est na questo da franqueza, mas na dimenso e
profundidade, pois tanto um bom questionrio como uma boa entrevista pode
obter respostas francas sobre quase todos os assuntos.
Ao tipo de inquirido alcanado;
O questionrio auto-administrado no pode ser usado para uma amostra
representativa de toda a populao porque, por exemplo, necessrio saber ler e
escrever.
acessibilidade dos inquiridos;
partida pensa-se que o questionrio mais barato e leva menos tempo que a
entrevista, mas nem sempre assim, pois, por exemplo, o tempo de espera para
as respostas aos questionrios pode ser muito elevado; a questo do custo
depende de quo dispersa est a amostra. As despesas no devem ser
calculadas na base do nmero de entrevistas ou questionrios a serem obtidos,
mas na base da quantidade de informao til a ser obtida. GOODE (1979).
preciso da hiptese.
Quanto mais claramente focalizada a hiptese, mais eficaz o questionrio
auto-administrado.
Analisando os prs e contras de cada mtodo de recolha de dados pode-se escolher
aquele que ser mais vantajoso para a situao particular em estudo.

3.3- CONCEPO DAS QUESTES
Um dos caminhos para o sucesso de um inqurito reside na incluso de questes
concisas e de fcil compreenso. Por muito atractivo que seja o questionrio, no servir de
muito se as questes forem pobres, pois o valor dos dados a obter ser reduzido.
De seguida apresentam-se alguns conselhos prticos sobre a concepo das questes
de um questionrio de sucesso com base em HILL (2000).
Devem-se utilizar questes bem escritas e testadas, tanto quanto possvel.
24
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
O investigador deve pensar bem se quer informao do tipo geral ou especfico. Pois
no possvel fazer inferncias correctas sobre atitudes, opinies, satisfaes ou gostos
especficos a partir das respostas dadas s perguntas gerais.
preciso tambm analisar cuidadosamente o objectivo geral (o tipo de informao
que se quer solicitar factos, opinies, atitudes, preferncias, valores, satisfaes) de cada
uma das perguntas que se est a inserir no questionrio.
Em relao s perguntas para solicitar factos preciso ter especial ateno se se est
a pedir factos sensveis demais, ou seja, informao que o inquirido no est interessado
em fornecer; detalhes desconhecidos pelos inquiridos ou, detalhes que obrigam os
respondentes a gastar muito tempo na recolha de informao para preencher o
questionrio.
Pode-se tambm colocar a questo se sero preferveis perguntas de resposta aberta
ou perguntas fechadas.
As perguntas abertas tm a vantagem de poderem dar mais informao e, muitas
vezes informao mais rica e detalhada ou at inesperada. No entanto, tambm
apresentam as seguintes desvantagens:
Muitas vezes as respostas necessitam de ser interpretadas;
preciso muito tempo para codificar as respostas;
Normalmente preciso utilizar pelo menos dois avaliadores na interpretao e
codificao das respostas;
As respostas so mais difceis de analisar estatisticamente;
A anlise requer muito tempo.
As perguntas fechadas tm a vantagem de ser fcil aplicar anlises estatsticas para
analisar as respostas, sendo muitas vezes possvel analisar os dados de maneira sofisticada.
Outro facto a ter em conta quando se formulam perguntas est relacionado com a
extenso e clareza das perguntas. Note-se que a clareza est inversamente relacionada com
a extenso de uma pergunta. Devem-se escrever perguntas curtas, com palavras e sintaxe
simples e evitando, sempre que possvel, o uso de termos tcnicos.
PINTO (1986) defende que, dado o elevado nmero de inquritos exigido pela
representatividade estatstica, as vantagens das perguntas fechadas acabam por vingar
sobre as possveis desvantagens.
Algumas das falhas mais comuns na construo das perguntas que se devem evitar
so: perguntas mltiplas (uma pergunta que contm duas ou mais perguntas); perguntas
25
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
que usam uma mistura de conjunes e disjunes; perguntas no-neutras (as perguntas
para medir opinies, atitudes ou satisfaes devem ter uma forma neutra, ou seja, no
devem ter uma forma que convide apenas a uma resposta positiva ou negativa) e, perguntas
indefinidas (pergunta vaga, o respondente tem a responsabilidade de definir o significado
da pergunta podendo utilizar critrios diferentes).
Em relao ao nmero de respostas alternativas a usar, quando o objectivo da
pergunta solicitar factos quantitativos e no se conhece a provvel gama (e distribuio)
dos valores, til usar uma das seguintes opes:
Escrever uma pergunta aberta para a qual a resposta seja um valor exacto escrito pelo
respondente. Caso seja conveniente categorizar as respostas aps a recolha dos dados,
fcil olhar para a gama de valores e sua distribuio para decidir quantas categorias
usar para classificar as respostas.
Quando o pedido de um valor exacto for sensvel demais convm usar uma pergunta
fechada. til consultar pessoalmente alguns potenciais respondentes para obter
conselho prtico sobre a provvel gama de valores, bem como sobre o nmero ptimo
de respostas alternativas (categorias) associadas pergunta.
Outra questo que muitas vezes se pe se se deve utilizar um nmero par ou mpar
de respostas alternativas.
Perante um nmero mpar de respostas alternativas, muitos inquiridos tm tendncia
para dar a resposta de uma maneira conservadora e reponderem no meio da escala,
pensando que mais seguro no dar uma opinio forte (nem positiva nem negativa)
mas provavelmente tm uma opinio mais forte do que mostram. Portanto, um nmero de
respostas alternativas mpar pode ajudar obteno de respostas erradas. As respostas
so erradas porque no so representativas das verdadeiras opinies (ou atitudes ou
satisfaes) de uma grande parte dos inquiridos.
Esta tendncia est especialmente ligada a perguntas sensveis sobre atitudes,
opinies ou satisfaes, ou seja, perguntas que tratam de assuntos potencialmente
embaraosos, ou perguntas em que o respondente pensa que pode estar a correr um risco se
responder de forma clara portanto prefere evitar o risco por meio de uma resposta mais
ou menos neutra. Por outro lado, um nmero par de respostas alternativas, tal como j se
disse anteriormente, de evitar pois obriga todos os inquiridos a dar uma opinio (ou
atitude) definitivamente positiva ou negativa. No possvel dar uma opinio neutra
26
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
mesmo no caso em que a opinio do inquirido seja verdadeiramente neutra. Portanto, um
nmero par de respostas alternativas pode forar a respostas erradas.
No h uma regra de ouro para decidir se melhor utilizar um nmero par ou mpar
de respostas alternativas. Contudo, se o investigador pensar que uma varivel sensvel,
pode ser til utilizar um nmero par de respostas alternativas. Se o questionrio for
annimo e no contiver perguntas sensveis geralmente recomendado que se utilize um
nmero mpar de respostas alternativas.
Podem surgir problemas com escalas ordinais quando:
H confuso nos tipos de resposta alternativa (alternativas de frequncia e misturadas
com alternativas de quantidade);
A gama de respostas alternativas demasiado restrita;
As respostas alternativas no tm descries e necessrio interpretar os valores da
escala, pois a interpretao no nica (ordem crescente ou decrescente);
As respostas alternativas so apenas parcialmente descritas (por exemplo, com
descries s nos extremos).
Quando as perguntas para solicitar opinies ou atitudes sobre assuntos precisam de
conhecimento especfico, prefervel escrever duas perguntas: uma primeira para
investigar sobre o conhecimento do respondente e uma segunda (s para aqueles que tm
conhecimento adequado) para investigar as suas opinies ou atitudes.
Normalmente a primeira ou ltima seco do questionrio referem-se s
caractersticas socioeconmicas dos respondentes ao questionrio. O motivo pelo qual por
vezes se coloca esta seco no final deve-se ao facto de serem perguntas simples de
responder o que poder motivar o respondente a terminar o questionrio.
muito importante recolher apenas as caractersticas estritamente relevantes
investigao porque perguntas sobre caractersticas no necessrias e que no vo ser
includas nas anlises dos dados, aumentam o cumprimento do questionrio e, portanto,
aumentam o risco de falta de cooperao dos respondentes. Para escolher as caractersticas
relevantes preciso considerar os dois aspectos seguintes: todas as hipteses da
investigao e os detalhes dos casos requeridos para descrever a amostra e replicar a
investigao.
As questes de um inqurito devem estar normalmente estruturadas e padronizadas. A
estrutura pretende reduzir o enviesamento. Por exemplo, as questes devem ser ordenadas
27
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
de tal forma que uma questo no influencie a resposta s questes subsequentes. Os
inquritos so padronizados para assegurar a confiana, a generalidade e a validade.
fundamental ter em mente que a formulao de perguntas no pode perder de vista
as caractersticas da populao a inquirir. PINTO (1986).

3.4- DESENHO DO QUESTIONRIO
Um questionrio pouco atractivo pode levar a que as pessoas no o preencham, por
isso, este tambm um tpico muito importante.
Ao se desenhar um questionrio deve-se ter presente dois objectivos reduzir a no
resposta e minimizar o erro de medida.
O questionrio deve ser construdo de modo a:
Motivar os inquiridos a preench-lo;
Permitir a correcta leitura das questes;
Instruir os inquiridos a responder a cada questo, com instrues claras de
sequncia no preenchimento do questionrio;
Garantir a sua correcta devoluo depois de preenchido.
Os questionrios devem ter uma introduo que contenha os seguintes aspectos:
Um pedido de cooperao no preenchimento do questionrio;
A razo da aplicao do questionrio;
Uma apresentao curta da natureza geral do questionrio;
O nome da instituio (faculdade, centro de investigao);
Uma declarao formal da confidencialidade das respostas;
Uma declarao formal da natureza annima do questionrio.
Outra questo que se deve ter em considerao o layout do questionrio,
nomeadamente:
A clareza e o tamanho do questionrio;
As seces e as perguntas do questionrio;
As instrues.
Por fim h que analisar a aparncia esttica do questionrio e fazer uma verificao
final do questionrio.

28
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
3.5- PR-TESTE DO QUESTIONRIO
Um pr-teste no mais que uma reviso formal do questionrio e da metodologia de
recolha de dados que lhe est associada. O que por vezes se faz aplicar o questionrio a
uma sub amostra pedindo colaborao para identificar possveis problemas.
Deste modo, deve-se, sempre que possvel, realizar um estudo preliminar para
verificar a relevncia, clareza e compreenso das perguntas aplicadas aos respondentes.
Por exemplo, quando se procede traduo do questionrio para diversas lnguas,
deve-se fazer um estudo preliminar para testar a traduo do questionrio tendo em
considerao: o significado pessoal e o significado comum de uma palavra; o problema da
polissmia (uma palavra que tem vrios significados comuns); o problema de verses
diferentes de uma lngua (por exemplo: portugus de Portugal e do Brasil) e o problema da
linguagem idiomtica e da linguagem coloquial. Uma tcnica que se poder utilizar a do
traduz retraduz, ou seja traduzir e verificar a traduo do questionrio voltando a
traduzir para a lngua original e ento comparar o original com a retraduo.

3.6- O PLANO DO QUESTIONRIO
Segundo HILL (2000) os passos a seguir na construo de um questionrio so:
1. Listar todas as variveis da investigao, incluindo as caractersticas dos casos;
2. Especificar o nmero de perguntas para medir cada uma das variveis, com
especial ateno a quando se tem variveis latentes, ou seja, variveis que no
podem ser observadas nem medidas directamente, mas que podem ser definidas a
partir de um conjunto de outras variveis (possveis de serem observadas ou
medidas) que medem qualquer coisa em comum (nomeadamente, a varivel
latente);
3. Escrever uma verso inicial para cada pergunta;
4. Pensar cuidadosamente na natureza da primeira hiptese geral e nas variveis e
perguntas iniciais com ela associadas. Identificar em seguida que tipo de hiptese
se tem (hiptese que trata de diferenas entre grupos de casos ou hiptese que
trata de relaes entre variveis);
5. Consoante o tipo de hiptese geral, decidir quais as tcnicas estatsticas
adequadas para testar a hiptese e ter em ateno os pressupostos destas tcnicas;
29
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
6. Decidir, com base na informao anterior, o tipo de resposta desejvel para cada
pergunta associada com a hiptese geral (respostas qualitativas descritas por
palavras pelo respondente; qualitativas escolhidas pelo respondente a partir de um
conjunto de respostas alternativas fornecido pelo autor do questionrio ou,
quantitativas escolhidas pelo respondente a partir de um conjunto de respostas
alternativas fornecido pelo autor do questionrio);
7. Com base na informao dos ltimos 3 passos escrever a hiptese operacional;
8. Considerar as perguntas iniciais (e os tipos de respostas) associadas com a
primeira hiptese operacional e, caso necessrio, limar arestas (polimento) de
forma a chegar s verses finais para incorporar no questionrio;
9. Verificar se as verses finais das perguntas e das respostas ainda so adequadas
para testar a hiptese operacional;
10. Repetir os passos 3-9 para as outras hipteses gerais;
11. Escrever as instrues associadas com as perguntas para informar o respondente
como deve responder;
12. Planear as seces do questionrio.

Em suma, um questionrio para ser eficiente na recolha de informao deve: manter a
cooperao e motivao do respondente sendo para isso determinante o comprimento do
questionrio e o tema em estudo; comunicar com o respondente ou seja, utilizar palavras
que ele conhea, no fazer perguntas ambguas e empregar conceitos abstractos ou vagos;
ajudar o respondente a formular as suas respostas explicando sem induzir a resposta ou,
utilizando auxlios visuais para recordar situaes ou ainda, nas perguntas abertas, se a
resposta no atingir os objectivos pode-se estimular a dar mais informao atravs de
frases como e mais alguma coisa?, e que outras razes?; evitar enviesamentos atravs
do modo como a questo escrita; facilitar o trabalho do entrevistador ou do respondente
elaborando um questionrio bem organizado, com as perguntas devidamente numeradas,
com indicaes, com espao suficiente para as respostas, e com tamanho de fonte
adequado, boa impresso, etc; facilitar o processamento da informao codificando
previamente as categorias de resposta das perguntas que a isso se adequam.
Conseguir uma taxa de respostas aceitvel exige um acompanhamento sistemtico do
estudo, podendo ser adoptadas diversas prticas. Pode-se, por exemplo, fazer acompanhar
o questionrio de uma carta de apresentao personalizada, honesta, interessante,
30
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
persuasiva mas curta dando resposta a potenciais questes que podem surgir ao inquirido
como a natureza do estudo, porque foi o inquirido escolhido, quem est a fazer o estudo,
porque importante a colaborao do inquirido, o que se pretende que faa, que uso ter a
informao fornecida e se o respondente ser ou no mantido no anonimato. Esta carta
deve, preferencialmente, ser assinada mo por um responsvel do estudo. Pode-se
tambm incluir com o questionrio um envelope com porte pago para devoluo do
questionrio respondido.
A oferta de pequenas recompensas, monetrias ou de outro tipo, pode igualmente ser
uma estratgia a adoptar, embora se coloquem algumas ressalvas nesta tcnica de induo
de respostas. Existem situaes em que o inquirido no sabe de todo o que responder, mas
como est a ser aliciado com uma recompensa se responder, esfora-se por faz-lo,
expressando opinies que no traduzem o seu sentimento real.
Uma tctica tambm utilizada consiste em contactar o respondente antes de este
receber o questionrio. A promessa de confidencialidade pode tambm surtir efeito em
alguns respondentes, bem como o compromisso em comunicar os resultados do estudo.
Alguns princpios essenciais para maximizar o envolvimento e valor de um inqurito
postal so: despertar a curiosidade; transmitir com clareza a importncia do estudo; fazer
sentir ao respondente a sua importncia no estudo; ser interessante; ser de fcil
compreenso, resposta e devoluo.
As questes abertas devem ser evitadas, especialmente em questionrios por correio,
pois elas tendem a causar alguma ansiedade ao inquirido o que pode resultar na rejeio de
todo o questionrio.
O desenho do questionrio influencia em muito a validade da informao.
A prpria forma como a pergunta feita pode enviesar a resposta. As perguntas
devem ser expressas da forma mais neutral possvel, no devem ser ambguas e devem ser
escritas numa linguagem que seja simples o bastante para ser entendida por respondentes
de todos os nveis de inteligncia. Devem-se evitar perguntas vagas, ambguas, com dupla
negaes, com fortes apelos memria e perguntas que deixem o inquirido responder sua
maneira.
Muitas pessoas pensam que fcil desenhar um questionrio porque comum no dia
a dia fazer perguntas. Contudo, na conversao as perguntas seguem-se de formas
diferentes conforme as respostas que vo sendo dadas enquanto que nos questionrios
31
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
interessa ter sempre as mesmas perguntas e ordem para cada membro da amostra,
desviando apenas se as instrues o permitirem.
Desenhar um questionrio de sucesso uma arte que no pode ser aprendida sem
prtica. Note-se que com maus dados s se podem obter maus resultados, por mais
malabarismos matemticos que possam ser utilizados.

4- ETAPA 2: RECOLHA DOS DADOS
Uma vez planeado e desenhado o inqurito, pode-se comear a recolher os dados. De
modo a ter sucesso nesta etapa, devem-se recolher dados claros, no enviesados e
actualizados de um modo eficiente.

5- ETAPA 3: ACESSO AOS DADOS
Nesta etapa pretende-se ler os dados obtidos pelo mtodo de recolha para o
software analtico onde proceder anlise. As fontes podem ser as mais variadas,
dependendo do mtodo de recolha utilizado.

6- ETAPA 4: PREPARAO DOS DADOS
O objectivo desta etapa garantir que os dados esto prontos para anlise. Para isto
ser necessrio identificar e corrigir erros.
Ao se comear a usar um conjunto de dados inevitavelmente encontrar-se-o
problemas. Os dados podem ter elementos inconsistentes, incompletos ou errados.
Segundo DAVIDSON (2002), estima-se que 80% do tempo associado ao processo de
prospeco e descoberta de informao ser gasto a lidar com esses problemas.
Numa investigao por questionrio podem surgir diversos erros, sejam motivados
pela amostragem ou no.
Os erros motivados pela amostragem podem ser de vrias tipos:
Variabilidade amostral ou erro amostral que decorre da prpria noo de
amostra, pois uma amostra nem sempre representativa da populao;
32
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Enviesamento amostral resultante de um erro sistemtico que desvia o ponto
central da distribuio do estimador; representa uma tendncia para deslocar
esse ponto para a direita ou esquerda do verdadeiro valor do parmetro. O
enviesamento amostral pode ser causado:
Por se utilizar uma listagem de elementos da populao para fazer a seleco da
amostra base de sondagem incompleta ou imperfeitamente definida,
levando a considerar indivduos que no deveriam ser considerados ou a omitir
outros que deveriam ser considerados;
Por uma incompleta ou incorrecta execuo do processo de amostragem,
frequentemente motivada pelas no respostas ou missing values;
Por se utilizarem maus estimadores.
Os erros no motivados pela amostragem podem ser:
Erros na recolha da informao (exemplo: em entrevistas pessoais):
Por factores comportamentais tanto do entrevistador como do entrevistado, ou
seja, a impresso que o entrevistador e o entrevistado tm um do outro;
Por caractersticas intrnsecas;
Por factores psicolgicos;
Por caractersticas visveis (idade, educao, sexo, );
Por atitudes, percepes, expectativas, motivaes;
Pela forma como se colocam as questes (por exemplo, se as questes no
forem lidas da forma como esto redigidas);
Ao se prestar esclarecimentos, caso se induza a resposta do inquirido;
No registo das respostas, principalmente quando so perguntas abertas;
Por uma resposta inadequada ou inexacta seja por incapacidade ou por
relutncia de responder com exactido;
Por falsificao, por exemplo, no caso de se forjar uma entrevista, sem nunca se
ter tido contacto com o inquirido).
Erros no processamento da informao (erro de compilao ou codificao).

Os diferentes tipos de erros no so independentes uns dos outros, mas para motivos
prticos razovel considerar diferentes tipos de erros separadamente e procurar
estratgias para reduzi-los um por um, ento de esperar que o total do erro do
questionrio seja menor.
33
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Como parte do processo de preparao dos dados pode-se fazer uma variedade de
aces com a matria-prima, como por exemplo nomear de forma consistente e no
ambgua. Estes procedimentos de rotina ajudam a assegurar que os dados so de boa
qualidade e integridade.
Antes de se efectuar qualquer tipo de anlise necessrio examinar os dados, de
modo a identificar outliers, missing values e verificar se os dados cumprem os
pressupostos do mtodo de anlise que se pretende utilizar.
As representaes grficas (assunto desenvolvido no sub-captulo 3.5) so
extremamente teis nesta etapa, pois permitem:
Examinar a forma da distribuio: atravs, por exemplo, de um histograma pode-
se ganhar uma perspectiva da forma da distribuio da varivel;
Examinar as relaes entre as variveis: atravs, por exemplo, de um grfico de
disperso (ou de uma matriz de grficos de disperso) pode-se examinar as
relaes entre duas ou mais variveis;
Identificar outliers: atravs, por exemplo, de um grfico de bigodes.
Um dos problemas dos dados a tratar nesta etapa so os missing values (dados em
falta).
Os dados em falta podem ser causados por factor externo ao inquirido (erro na
introduo dos dados ou na recolha dos dados) ou ento, podem dever-se ao inquirido
(recusa resposta).
Quando os missing values se devem ao inquirido, o investigador deve tentar
encontrar padres que possam caracterizar o processo de dados em falta, ou seja, descobrir
o grau de aleatoriedade presente nos missing values.
necessrio entender o impacto que os dados em falta podem ter na anlise e
encontrar alternativas para resolver o problema.
Antes de implementar uma soluo para os dados em falta, o investigador deve
entender o que est subjacente ao processo de dados em falta.
LEVY (1999) aponta alguns mtodos para lidar com os dados em falta disponveis
em diversos packages estatsticos, nomeadamente:
Complete case aproach: mtodo a utilizar apenas se houverem poucos dados em
falta e se a amostra for suficientemente grande para permitir a eliminao de
todos os indivduos (casos) com missing values;
34
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Delete case(s) and/or Variable(s): o investigador determina a extenso dos dados
em falta para cada indivduo (caso) e varivel e ento elimina os indivduos ou
variveis com nmero excessivo de dados em falta.
Mtodos de introduo: (por exemplo: replace with mean) estimar o missing
value baseando-se em valores de outras variveis ou de outros casos na amostra.
Utilizar um destes mtodos pode ser til porque fica-se com os dados completos e
com as relaes que foram identificadas nos restantes dados, mas pode ser
perigoso porque se est a falsificar os dados. necessrio analisar o impacto
que essa falsificao ter na anlise.
A escolha certa depende de: dimenso da amostra completa; natureza da anlise
estatstica que o investigador pretende efectuar; varivel com maior nmero de valores
missing nessa anlise; distribuio dos indivduos (casos) com missing values no conjunto
de variveis na anlise.
Outra questo de realce nesta etapa a identificao de outliers.
Outliers so observaes com uma combinao nica de caractersticas identificada
como distintamente diferente das outras observaes; so casos que podem distorcer as
relaes por serem nicos numa ou mais das variveis em estudo. Podem ser benficos ou
problemticos, mas devem ser examinados no contexto da anlise e devem ser avaliados
pelo tipo de informao que fornecem. Quando benficos, embora diferentes da maioria da
amostra, podem dar indicaes das caractersticas da populao que no seriam
descobertas no curso normal da anlise.
Os outliers podem resultar de:
Erros na entrada dos dados ou na codificao (devem ser eliminados na fase de
limpeza dos dados);
Observao devida a um evento extraordinrio (neste caso o investigador deve
decidir se esse evento deve ser representado ou eliminado);
Observaes atpicas para as quais o investigador no tem explicao (se o
investigador achar que eles representam um segmento da populao devem ser
retidos);
Observaes normais em cada varivel individualmente, mas com uma
combinao nica de valores nas diversas variveis, ou seja, outliers
multivariados (devem ser retidos, a no ser que haja informao suficientemente
evidente que descarte a observao de ser um membro vlido da populao).
35
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Os outliers podem ser identificados de forma univariada (por exemplo, atravs de um
histograma), bivariada (identificando pontos isolados no grfico de disperso, por
exemplo) ou, de forma multivariada (atravs, por exemplo, de uma distncia de
Mahalanobis).
Outro passo importante desta etapa de preparao dos dados verificar se os dados
cumprem os pressupostos das tcnicas de anlise que se pretende utilizar. Alguns dos
pressupostos mais comuns so a normalidade, a homocedasticidade e a linearidade. Veja-
se ento, para cada um destes pressupostos, as formas de identificao.
Normalidade: Pode-se identificar graficamente atravs de um histograma ou,
aplicando testes estatsticos como kurtose e swewness (ver sub-captulo 3.1.1).
z
skewness
= skewness / (6/N)
1/2

z
kurtosis
= kurtosis / (24/N)
1/2

Se o valor z for superior ao valor crtico ento a distribuio no gaussiana.
Homocedasticidade (relacionada com a varincia dos desvios no constante): Pode-se
identificar graficamente atravs de um grfico de disperso dos resduos, pois se houver
correlao ento h homocedasticidade. Tambm se podem aplicar os testes estatsticos de
Levene e de Boxs M. (ver PINDYCK (1991))
Linearidade: Pode-se identificar atravs de um grfico de disperso ou fazendo uma
anlise de regresso.
Como forma de resoluo no caso de um dos pressuposto no ser cumprido, podem-
se aplicar transformaes aos dados (no sub-captulo 3.4.1.1, aquando da abordagem
anlise de regresso mltipla so dados alguns exemplos de transformaes).

36
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
7- ETAPA 5: ANLISE DOS DADOS
O objectivo desta etapa extrair informao til dos dados recolhidos para suporte ao
processo de tomada de deciso. Qualquer informao obtida tem um valor intrnseco. A
chave extrair esse valor.
Existem inmeros procedimentos estatsticos para anlise de dados, dependendo do
que se deseja saber e do tipo de medida das variveis (dados).
As tcnicas estatsticas podem ser classificadas de vrias maneiras, por exemplo:
Tcnicas paramtricas e no-paramtricas;
Tcnicas que tratam de diferenas entre amostras de casos, e tcnicas que tratam
da relao entre variveis (para uma s amostra de casos);
Tcnicas univariadas, tcnicas bivariadas e tcnicas multivariadas.
Note-se que uma tcnica pode ser, por exemplo, simultaneamente uma estatstica
indutiva e um mtodo no-paramtrico. Neste captulo, cada tcnica ser apresentada
apenas no sub-captulo correspondente classificao mais comum, podendo ser
apresentada como exemplo em outro sub-captulo onde tambm se enquadra.
Tal como j foi referido, o tipo de tcnica escolhida depende muito da escala de
medida das variveis. Deste modo, os diversos tipos de escalas existentes so:
Escalas no mtricas
Escala nominal se se estiver a falar de categorias cuja sequncia arbitrria,
pois os nmeros codificam apenas nomes, so rtulos (e.g., sexo, cor dos
olhos). As metodologias que podem ser utilizadas no tratamento estatstico deste
tipo de dados so aquelas que envolvem contagens de efectivos em cada categoria
(ou propores). No lcito fazer operaes aritmticas com dados nominais.
Escala ordinal se existir uma ordenao natural das categorias (e.g., classes
etrias, habilitaes literrias). No tratamento estatstico deste tipo de dados
podem ser usadas metodologias destinadas a anlise de ordens (ranks), assim
como metodologias para dados nominais.
Escalas mtricas
Escala intervalar se o zero da escala for arbitrrio, isto , no corresponder
anulao da caracterstica em estudo (e.g., temperatura), pelo que as comparaes
37
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
ordinais e as operaes de adio e subtraco fazem sentido, mas a diviso
uma operao ilegtima.
Escala de razes se o zero da escala corresponder de facto anulao da
caracterstica em estudo (e.g., peso, velocidade), pelo que quer ordenaes quer
operaes aritmticas, sejam elas de adio e subtraco, sejam elas de
comparao atravs de quocientes, so legtimas.
Segundo HILL (2000), os dois tipos de escala mais frequentemente utilizados em
questionrios so as escalas nominais e ordinais. No entanto, para medir algumas
caractersticas dos casos, tambm se usam escalas mtricas (escalas de intervalo e escalas
de razes).
Veja-se de seguida, segundo HILL (2000), as tcnicas estatsticas mais adequadas
para analisar respostas dadas em cada um dos tipos de escala.
Escala nominal
As escalas nominais fornecem dados na forma de frequncias. Isto significa que o
que se tem o nmero de respostas em cada categoria da escala. As anlises estatsticas
adequadas so principalmente as tcnicas no-paramtricas.
Escala ordinal
As perguntas que originam respostas numa escala ordinal podem ser de dois tipos.
Sendo o tipo 1 um conjunto de itens que o inquirido tem de avaliar uns em relao aos
outros. Ou seja, o inquirido tem de dar uma ordenao aos itens. O tipo 2 consiste em
avaliar um s item em termos de uma varivel (por exemplo, perguntas para avaliar a
satisfao).
Para analisar as respostas a uma pergunta do tipo 1 comum utilizar-se uma anlise
de varincia de Friedman (ver sub-captulo 3.2.1.5).
Em relao ao tipo 2, embora essas perguntas usem escalas ordinais, quando a
distribuio das respostas unimodal e mais ou menos gaussiana, vulgar tratar os valores
numricos ligados com as respostas como tendo sido obtidos atravs de uma escala
mtrica. Usam-se normalmente mtodos paramtricos (por exemplo: teste t, ANOVA,
correlaes do tipo Pearson e mesmo anlises multivariadas anlise factorial, anlise
discriminante, etc.) (ver sub-captulos correspondentes aos mtodos paramtricos e
anlise multivariada). Antes de se utilizar um destes mtodos muito importante verificar
se os dados esto mais ou menos de acordo com os pressupostos da respectiva tcnica.

38
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Escala de intervalo
legtimo aplicar todos os mtodos paramtricos e no-paramtricos a variveis
medidas neste tipo de escala. Mas prefervel, sempre que os pressupostos o permitam,
utilizar mtodos paramtricos porque so mais potentes.
Escala de razes
possvel utilizar todos os mtodos paramtricos mas, como sempre, na aplicao
destes mtodos preciso verificar que os dados satisfazem razoavelmente bem os
pressupostos dos mtodos aplicados.

7.1- ESTATSTICA DESCRITIVA versus ESTATSTICA INDUTIVA
Uma estatstica descritiva descreve, de forma sumria, alguma caracterstica de uma
ou mais variveis fornecidas por uma amostra de dados.
As estatsticas indutivas permitem avaliar o papel de factores ligados ao acaso
quando se est a tirar concluses a partir de uma ou mais amostra de dados.
Antes de se avanar para a construo de modelos explicativos deve-se conhecer os
dados, ou seja, realizar uma anlise descritiva que d uma viso sobre os dados.
Os objectivos de uma anlise descritiva so: sintetizar os dados, descrever as
variveis de interesse.
H quem defina a anlise descritiva como a forma de conhecer o passado ou o
presente. Para estes tericos, inferir conhecer o futuro. A anlise inferencial dos dados
ajuda a prever futuros desenvolvimentos.
Na estatstica descritiva no se assume qualquer forma para a distribuio aparente,
apenas se descreve numrica e graficamente uma coleco de dados. Quando se pretende
inferir algo sobre a distribuio da populao subjacente aos dados, entra-se no domnio da
inferncia estatstica.
Inferir criar um modelo explicativo (por exemplo um modelo de regresso) para um
comportamento ou atitude futura. O modelo mostrar quais as variveis importantes e
atribuir a cada uma um nvel de importncia.
A inferncia estatstica preocupa-se essencialmente com dois tipos de problemas:
estimao de parmetros populacionais e teste de hipteses. A diferena fundamental entre
estatstica descritiva e inferncia estatstica reside no facto de nesta ltima haver avaliaes
probabilistas sobre a preciso das estimaes ou sobre a fiabilidade das decises tomadas.
39
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
7.1.1- ESTATSTICA DESCRITIVA
Como forma de apresentao das estatsticas descritivas, comum utilizarem-se
representaes tabulares ou grficas, nomeadamente: tabelas com frequncias absolutas e
relativas ou relativas acumuladas, histogramas e polgonos de frequncias ou polgono de
frequncias acumuladas, grficos de barras, grficos circulares, entre outros. As
representaes grficas sero abordadas em maior profundidade no sub-captulo 3.5.
Sendo:
N n total de valores observados
F
i
frequncia absoluta de um valor X
i
da varivel X. O nmero de vezes que esse
valor foi observado.
f
i
frequncia relativa de um valor X
i
da varivel X. Dado pelo quociente F
i
/N.
Estas estatsticas podem ser divididas em:
Medidas de tendncia central
Mdia (assume um valor que central em relao aos dados que constituem a
amostra);
Mediana (valor da varivel estatstica precedido por 50% das observaes);
Moda (valor mais frequente, ou seja, o que aparece mais vezes no conjunto dos
valores observados).
Medidas de ordem
Quartis (Q
k
quartil da ordem k, o valor da varivel que precedido por kN/4 das
observaes);
Decis (D
k
decil da ordem k, o valor da varivel que precedido por kN/10 das
observaes);
Percentis (P
p
percentil da ordem p, o valor da varivel que precedido por p%
do total dos valores observados).
Medidas de disperso
Amplitude do intervalo de variao (diferena entre o valor mximo e o valor
mnimo dos dados. No muito fivel porque pode ser afectada por valores
atpicos dos dados extremos);
Amplitude do intervalo de variao inter-quartis (intervalo cujos extremos so o
primeiro e o terceiro quartis);
40
Desvio-padro (raiz quadrada da varincia. Valor absoluto de um erro tpico
dos dados em relao mdia amostral);

Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Varincia (descreve a disperso de uma amostra ou populao permite fazer
uma inferncia acerca da variabilidade de uma populao de grandes dimenses a
partir de uma amostra aleatria limitada);
Coeficiente de variao (indica que percentagem da mdia representa o desvio-
padro).
Medidas de assimetria
Skewness (indica se a curva que representa os dados assimtrica negativa,
simtrica ou assimtrica positiva).
Medidas de achatamento
Kurtose (indica se h uma maior ou menor concentrao dos dados em torno
da mdia).
As frmulas destas estatsticas podem ser encontradas em qualquer livro bsico de
estatstica, por exemplo, CABRAL (1997) ou LARSON (1982), entre outros.

7.1.2- ESTATSTICA INDUTIVA
Neste sub-captulo sero abordados apenas os intervalos de confiana e os testes de
hipteses, pois outras tcnicas da estatstica indutiva (como por exemplo os testes de
hipteses relativos anlise das tabelas de contingncia) sero abordadas em captulos
posteriores.

7.1.2.1- Intervalos de Confiana
Numa grande variedade de problemas de inferncia o interesse no estimar um
parmetro, mas sim estabelecer um limite inferior ou superior, ou ambos, para o parmetro
que toma valores em IR; ou seja, construir uma famlia de intervalos de confiana de tal
forma que uma elevada proporo destes possa conter o parmetro. Este o caso, se por
exemplo, X o tempo de vida de um equipamento e se pretende encontrar um limite
inferior para o valor mdio de X, ou se X mede a toxicidade de uma droga, o interesse
encontrar um limite superior para o valor mdio.
Os intervalos de confiana so hoje rotineiramente usados na comunicao social e
na divulgao de resultados. Qualquer sondagem indica, para alm das estimativas
pontuais, uma ficha tcnica em que os intervalos de confiana so indicados. Qualquer
41
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
relatrio de anlises clnicas traz valores de referncia que mais no so do que intervalos
de confiana respeitantes populao saudvel.
bvio que o ideal construir intervalos de confiana com elevada probabilidade de
conter o parmetro, mas que tenham simultaneamente amplitudes bastante pequenas.
Apresentam-se de seguida as frmulas para clculos dos intervalos de confiana mais
comuns.
Intervalo de confiana para o valor esperado
Amostra de grande dimenso, populao qualquer

+
N
S
z X
N
S
z X
2 / 2 /
,


Amostra de pequena dimenso, populao gaussiana

+

N
S
t X
N
S
t X
N N 2 / ; 1 2 / ; 1
,


Intervalo de confiana da proporo binomial (amostras de grande dimenso)

3
2 /
3
2 /
) (
,
) (
N
Y N Y
z
N
Y
N
Y N Y
z
N
Y


Intervalo de confiana para a varincia de uma populao gaussiana



2
2 / 1 ; 1
2
2
2 / ; 1
2
) 1 (
,
) 1 (


N N
S N S N

Intervalo de confiana para a razo entre varincias de populaes normais


2
2
2 / 1 ; 1 , 1
2
2
2 / ; 1 , 1
1
,
1
B
A
N N B
A
N N
S
S
F S
S
F
B A B A


Intervalo de confiana para a diferena entre os valores esperados de duas
populaes
Amostras independentes de grandes dimenses, populaes quaisquer
Varincias das duas populaes so diferentes
( ) ( )

+ + +
B
B
A
A
B A
B
B
A
A
B A
N
S
N
S
z X X
N
S
N
S
z X X
2 2
2 /
2 2
2 /
,


Varincias das duas populaes so iguais
( ) ( )

+ + +
B A
B A
B A
B A
N N
S z X X
N N
S z X X
1 1
,
1 1
2 / 2 /

42
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
(Neste caso, a varincia comum das populaes A e B,
2
, pode ser estimada por
2
) 1 ( ) 1 (
2 2
2
+
+
=
B A
B B A A
N N
S N S N
S )
Amostras independentes de pequenas dimenses, populaes normais
( ) ( )

+ + +
B
B
A
A
GL B A
B
B
A
A
GL B A
N
S
N
S
t X X
N
S
N
S
t X X
2 2
2 / ;
2 2
2 / ;
,


(Graus de liberdade da t-Student calculados por:
1
) / (
1
) / (
2 2 2 2
2
2 2

+
=
B
B B
A
A A
B
B
A
A
N
N S
N
N S
N
S
N
S
GL
.
Se as estimativas das varincias no diferirem muito GL ser prximo de N
A
+N
B
-2)
Intervalo de confiana para a diferena entre propores binomiais (amostras
independentes de grandes dimenses)
3 3
2 /
) ( ) (
B
B
A
A A A
B
B
A
A
N
Y N Y
N
Y N Y
z
N
Y
N
Y
B B

+




7.1.2.2- Testes de Hipteses
Objectivo fundamental dos testes de hipteses verificar se dados amostrais (ou
estimativas obtidas a partir deles) so ou no compatveis com determinadas populaes
(ou com valores previamente fixados dos correspondentes parmetros populacionais).
Um teste de hipteses consiste em verificar se existe algum motivo para no
continuar a aceitar como correcta a estimativa de um parmetro (ou parmetros) devido a:
Um imperativo de qualidade;
Uma teoria que se pretende comprovar;
Uma suspeita provocada por observaes aleatrias;
Outro qualquer motivo.
Para efectuar um teste de hipteses, h que definir as hipteses em causa, as quais so
designadas por:
H
0
: hiptese inicial ou nula
H
1
: hiptese alternativa
Sendo H
0
a hiptese aceite at ao momento, e se no houver razes para rejeit-la,
continuar a ser aceite.
43
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
De um modo geral, a hiptese alternativa exprime as convices do investigador, isto
, a hiptese de trabalho, enquanto a hiptese nula exprime o que ele pretende descartar
com o seu estudo.
A rejeio de H
0
no implica a aceitao de H
1
, o que acontece que a rejeio de H
0

implica a no rejeio de H
1
.
Para rejeitar ou no H
0
, h que definir critrios, isto , h que definir as regies de
rejeio e no rejeio da hiptese inicial.
O subconjunto do espao amostral para o qual H
0
rejeitada chama-se regio de
rejeio ou regio crtica (R). regio complementar chama-se regio de aceitao.
Pense-se agora no erro inerente deciso de rejeitar ou no rejeitar a hiptese nula ou
inicial; para se compreender melhor a origem de tais erros, observe-se o seguinte quadro:
Realidade
Deciso
H
0
verdadeira H
1
verdadeira (H
0
falsa)
No rejeitar H
0
Deciso correcta Deciso errada P(erro tipo II) =
Rejeitar H
0
Deciso errada P(erro tipo I) = Deciso correcta
Como se compreende o erro tipo I muito importante, no sentido que merece mais
ateno, mais preocupao que o erro tipo II.
Define-se nvel de significncia e simboliza-se por , a probabilidade de se rejeitar
H
0
sendo H
0
verdadeira. O nvel de significncia corresponde a um risco do produtor ver o
seu produto rejeitado, apesar de estar bom.
Define-se nvel de confiana e simboliza-se por a probabilidade de no se rejeitar
H
0
sendo H
1
verdadeira ou 1 P {rejeitar H
0
/H
1
}.
De igual modo, ao nvel de confiana associa-se o termo risco do consumidor, pois
corresponde ao facto de um consumidor no rejeitar o produto, estando este estragado.
Em face do exposto, conclui-se que a regio R dever ser uma regio tal que
minimize os valores das probabilidades de ocorrncias dos erros tipo I e tipo II; tal no
possvel porque por vezes at variam em sentido contrrio. No entanto, dada a importncia
do erro tipo I, risco do produtor, usual atribuir um valor reduzido para (0,10; 0,05 ou
0,01) escolhendo-se R que minimize o valor de , probabilidade do erro tipo II.
Nos quadros seguintes apresentam-se os critrios de rejeio para os parmetros de
populaes gaussianas, para um teste t para duas amostras independentes e para um teste
F. (As demonstraes relativas a estes critrios de rejeio podem ser encontradas, por
exemplo, em CABRAL (1997) ou LARSEN (1982)).
44
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
No ltimo quadro apresenta-se ainda um sumrio dos testes mais comuns e em que
circunstncias devem ser utilizados.


H
0
H
1
Critrio de Rejeio
conhecido
n
z x


+
1 0
(
1
>
0
)
n
z x


+
0
(
1
<
0
)
=
0
=
1

desconhecido
n
s
t x
n


+
1 ; 1 0
(
1
>
0
)
n
s
t x
n

; 1 0
+ (
1
<
0
)

0



0

>
0


<
0

conhecido
n
z x


+
1 0

n
z x


+
0


0



0

>
0


<
0

desconhecido
n
s
t x
n


+
1 ; 1 0

n
s
t x
n

; 1 0
+
conhecido
2 / 1
/

z
n
x
o

=
0

0

desconhecido
2 / 1 ; 1
/

n
o
t
n s
x

X
>
Y

1
2 2
z
n m
y x
Y X
n m

X
<
Y


z
n m
y x
Y X
n m

2 2

X
=
Y

X

Y

X
e
Y
conhecidos
2 / 1
2 2


z
n m
y x
Y X
n m






45
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
H
0
H
1
Critrio de Rejeio
conhecido
( )

=


n
i
n i
x
1
2
1 ;
2
0
2

(
1
>
0
)
( )

=

n
i
n i
x
1
2
;
2
0
2

(
1
<
0
)
=
0
=
1

desconhecido
2
1 ; 1
2
0
2
) 1 (

n
s n
(
1
>
0
)
2
; 1
2
0
2
) 1 (

n
s n
(
1
<
0
)

0



0
>
0


<
0

conhecido
( )

=


n
i
n i
x
1
2
1 ;
2
0
2


( )

=

n
i
n i
x
1
2
;
2
0
2



0



0

>
0


<
0

desconhecido
2
1 ; 1
2
0
2
) 1 (

n
s n

2
; 1
2
0
2
) 1 (

n
s n

conhecido
( )

=

n
i
n i
x
1
2
2 / ;
2
0
2

ou ( )

=


n
i
n i
x
1
2
2 / 1 ;
2
0
2


=
0

0

desconhecido
2
2 / ; 1
2
0
2
) 1 (

n
s n
ou
2
2 / 1 ; 1
2
0
2
) 1 (

n
s n


QUADRO 1. CRITRIOS DE REJEIO PARA OS PARMETROS DE POPULAES GAUSSIANAS.

H
0
H
1
Critrio de Rejeio

X

Y
d
X

Y
> d
+

+

1 ; 2
1 1
n m
P
t
n m
S
d y x

X

Y
d
X

Y
< d
; 2
1 1
+

+

n m
P
t
n m
S
d y x

X

Y
= d
X

Y
d
2 / 1 ; 2
1 1
+

+

n m
P
t
n m
S
d y x

2
) 1 ( ) 1 (
2 2
2
+
+
=
n m
s n s m
s
Y X
P

QUADRO 2. CRITRIOS DE REJEIO PARA UM TESTE T PARA DUAS AMOSTRAS INDEPENDENTES.
46
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO

H
0
H
1
Critrio de Rejeio
2 2
Y X

2 2
Y X
>

1 ; 1 , 1
2
2
n m
Y
X
F
s
s

2 2
Y X

2 2
Y X
<
; 1 , 1
2
2

n m
Y
X
F
s
s

2 2
Y X
=
2 2
Y X

2 / ; 1 , 1
2
2

n m
Y
X
F
s
s
ou
2 / 1 ; 1 , 1
2
2

n m
Y
X
F
s
s

QUADRO 3. CRITRIOS DE REJEIO PARA UM TESTE F.


Uma amostra
Populao gaussiana
Amostra de qualquer dimenso
Teste do
2
Disperso
(varincia) Duas amostras
independentes
Populaes normais
Amostras de quaisquer dimenses
Teste F
Populao qualquer
Amostra de grande dimenso
Teste Z
Uma amostra
Populaes normais
Amostra de pequena dimenso
Teste t
Populaes quaisquer
Amostras de grandes dimenses
Teste Z
Duas amostras
independentes Populaes normais
Amostras de pequenas dimenses
Teste t
Populaes quaisquer
Amostras de grandes dimenses
Teste Z
Localizao
(valor esperado)
Duas amostras
emparelhadas Populaes normais
Amostras de pequenas dimenses
Teste t
Uma amostra
Populao dicotmica
Amostra de grande dimenso
Teste Z
Localizao
(proporo binomial) Duas amostras
independentes
Populaes dicotmicas
Amostras de grandes dimenses
Teste Z
QUADRO 4. TESTES MAIS COMUNS ABORDADOS NESTE CAPTULO.
47
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
7.1.2.3- Relao entre Testes de Hipteses e Intervalos de Confiana
A relao fundamental que existe entre os testes de hipteses e os intervalos de
confiana pode ser enunciada nos termos seguintes: uma hiptese nula (H
0
: =
0
) pode
ser rejeitada a um nvel de significncia se, e s se, o intervalo de confiana de a
(1-)*100% no incluir o valor de
0
. Note-se que esta condio impe que o intervalo de
confiana seja compatvel com a natureza de H
1
, ou seja, que para testes bilaterais se
construam intervalos de confiana bilaterais e para testes unilaterais (num sentido) se
construam intervalos de confiana unilaterais (no mesmo sentido).

7.2- MTODOS PARAMTRICOS
versus MTODOS NO-PARAMTRICOS
Muitos mtodos de inferncia estatstica clssica partem de uma srie de pressupostos
quanto natureza da populao parente, geralmente a gaussianidade dos dados, razo pela
qual so denominados mtodos paramtricos. Por exemplo, a anlise de varincia simples
(ANOVA) permite comparar simultaneamente k mdias populacionais mas pressupe a
priori que as amostras so de populaes gaussianas independentes com varincias iguais
(embora desconhecidas). O que fazer quando uma das condies violada?
A partir da segunda metade do sculo XX assistiu-se ao aparecimento de um grande
nmero de mtodos estatsticos menos exigentes quanto aos pressupostos de aplicao,
sendo que na maioria dos casos a nica exigncia feita a continuidade da distribuio da
populao parente. Os mtodos em questo so chamados mtodos no-paramtricos.
A grande popularidade dos mtodos no-paramtricos advm fundamentalmente de
serem raras as ocasies em que h conhecimento preciso sobre a forma da distribuio da
populao parente sob estudo e serem menos sensveis a observaes dspares, pois
utilizam na sua maioria os ranks e no as magnitudes das observaes.
As tcnicas paramtricas so estatsticas que lidam com parmetros (caractersticas
de um Universo, por exemplo, o valor mdio de uma varivel). As variveis tm de estar
num escala intervalar ou de razes. Alguns exemplos de tcnicas estatsticas do tipo
paramtrico so: o teste t, a anlise de varincia (ANOVA), a correlao (do tipo Pearson)
e a regresso linear. (ver sub-captulos 3.3.2, 3.4.1.1 e 3.4.1.5)
48
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
As tcnicas no-paramtricas no lidam com parmetros e no assumem que os
valores de uma varivel tm uma distribuio gaussiana. Estas estatsticas permitem
analisar variveis com valores numa escala ordinal ou numa escala nominal.

7.2.1- MTODOS NO-PARAMTRICOS
Todo este sub-captulo referente aos mtodos no-paramtricos ser desenvolvido
com base em BRILHANTE (2004).

7.2.1.1- Testes de Ajustamento
Os testes de ajustamento analisam a compatibilidade de um conjunto de valores
observados com a distribuio gaussiana ou com qualquer outra distribuio.
frequente dar-se o caso de se querer testar hipteses sobre a forma da populao e
no propriamente sobre os parmetros populacionais. Por exemplo, o teste t para uma
amostra (ou para duas amostras independentes ou ainda para duas amostras emparelhadas)
assenta no pressuposto de que as observaes so gaussianas, razo pela qual se deve
verificar antes de o aplicar que de facto a populao parente gaussiana.
Preferencialmente a distribuio que se prope em H
0
deve estar completamente
especificada, incluindo todos os parmetros. Se apenas for especificada uma famlia de
distribuies, deve estimar-se primeiro os parmetros desconhecidos.

Teste do Qui-Quadrado
Usa-se a estatstica de teste:

=
k
j j
j j
E
E O
X
1
2
2
) (

que, sob a validade de (O1, , O
k
) ~ Multinomial (n; p
1
, , p
k
) tem distribuio
aproximada do qui-quadrado com k-1 graus de liberdade (se existirem s parmetros
desconhecidos ter uma distribuio aproximada do qui-quadrado com k-1-s graus de
liberdade). Rejeita-se a hiptese nula a um nvel *100% se
2
1 ; 1
1
2
2
) (
) (

=
k
k
j j
j j
e
e o
obs X .
Seja (X
1
, , X
n
) uma amostra aleatria de uma populao com funo de distribuio
F.
49
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Defina-se:
I
1
= {x: X a
1
}
I
2
= {x: a
1
< X a
2
}

I
k-1
= {x: a
k-2
< X a
k-1
}
I
k
= {x: X > a
k
}
Se Y
j
for o nmero de valores da amostra pertencentes a I
j
, j=1, , k, ento
(Y1, , Y
k
) ~ Multinomial (n; p
1
, p
k
) onde p
j
= P(XI
j
), j=1, , k.

Teste de Kolmogorov-Smirnov (para uma amostra)
Defina-se funo de distribuio emprica da amostra (X
1
, , X
n
) a funo real de
varivel real
n
x X X
x F
i i
n
} : { #
) (
*

= . A funo de distribuio emprica F
*
n
uma
estimativa da funo de distribuio F.
Suponha-se que (X
1
, , X
n
) uma amostra aleatria proveniente de uma populao
com funo de distribuio contnua F, desconhecida, e que se desconfia que F=F
0
,
estando F
0
completamente especificada, isto , pretende-se testar H
0
: F(x) = F
0
(x) para
todo x contra a alternativa H
1
: F(x) F
0
(x) para algum x.
A estatstica de teste do teste de Kolmogorov-Smirnov ) ( ) ( sup
*
0
x F x F D
n x n
= . O
critrio de rejeio a um nvel de significncia D
n
D
n,
, onde P (D
n
D
n,
) = sob a
validade de H
0
.
Os valores deste teste encontram-se tabelados (a tabela estatstica correspondente
pode ser encontrada em diversos livros de estatstica).

Teste de Lilliefors
a verso dos teste de Kolmogorov-Smirnov para o caso de se querer testar a
hiptese de a distribuio parente ser gaussiana com os parmetros desconhecidos. Neste
caso tem-se que estimar os parmetros pelo mtodo de mxima verosimilhana e
considerar como estatstica de teste ) (

) ( sup
* *
z z F D
n z n
= onde a funo de
distribuio da gaussiana standard. O critrio de rejeio a um nvel D
*
n
D
*
n,
onde
P(D
*
n
D
*
n,
)=.

Os valores deste teste tambm se encontram tabelados.


50
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Comparao entre o teste do Qui-Quadrado e o teste de Kolmogorov-Smirnov
(K-S)
O teste do qui-quadrado especfico de dados categorizados, enquanto o teste de K-S
de amostras de populaes contnuas;
O teste de K-S no pode ser aplicado se houver parmetros populacionais a estimar, ao
contrrio do teste do qui-quadrado;
O teste de K.S pode ser aplicado a pequenas amostras mas no o teste do qui-quadrado;
O teste do qui-quadrado pode ser aplicado a dados discretos e o teste de K-S no;
O teste de K-S avalia o ajustamento de cada uma das observaes e o teste do qui-
quadrado o ajustamento de classes ou categorias.

7.2.1.2- Testes de Aleatoriedade
A maioria dos mtodos estatsticos baseia-se no pressuposto da aleatoriedade da
amostra ou exigem que as observaes tal como so recolhidas sejam independentes.
Existem vrios tipos de testes de aleatoriedade mas ser abordado aqui apenas o teste dos
runs.
Teste dos runs
Dada uma sequncia de dois ou mais smbolos distintos, define-se run sequncia de
um ou mais smbolos do mesmo tipo precedida e seguida de nenhum smbolo ou de um
smbolo diferente.
A funo de probabilidade de R, nmero total de runs para N objectos dos quais m
so do tipo 1 e n do tipo 2,

= =
m
N
r
n
r
m
r
n
r
m
m
N
r
n
r
m
r R P
2 / ) 1 (
1
2 / ) 3 (
1
2 / ) 3 (
1
2 / ) 1 (
1
1 2 /
1
1 2 /
1
2
) (

, se r par
, se r mpar
para r = 2, 3, , N = m+n
A regio crtica de nvel para um teste de aleatoriedade bilateral R r
1
ou R r
2

(r
1
e r
2
so pontos crticos da tabela estatstica correspondente).
Sob a hiptese de aleatoriedade,
N
mn
R
2
1+ = e
) 1 (
) 2 ( 2
2
2

=
N N
N mn mn
R
com N = m+n.
51
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Quando m, n 20 pode-se utilizar os resultados anteriores relativos ao valor mdio e
varincia para se aproximar a distribuio gaussiana distribuio de R.

7.2.1.3- Testes de Simetria
A simetria uma propriedade estatstica bastante importante, pelo que se pode estar
interessado em testar a hiptese
H
0
: A amostra provm de uma populao com distribuio simtrica em torno da
mediana.
Se se conhecesse os parmetros populacionais (valor mdio) e M (mediana) da
distribuio, no haveriam problemas em classificar a distribuio com simtrica,
assimtrica positiva (direita) ou assimtrica negativa (esquerda), pois
Se > M, a distribuio assimtrica positiva;
Se < M, a distribuio assimtrica negativa;
Se = M, a distribuio simtrica

Teste de Simetria (Randles, Fligner, Pollicello, Wolfe)
A partir da amostra de dimenso n (X
1
, , X
n
) podem-se formar combinaes desses
elementos em ternos. Cada terno (X
i
, X
j
, X
k
) pode ser classificado em:
Terno direito se }; , , {
3
k j i
k j i
X X X mediana
X X X
>
+ +

Terno esquerdo se }; , , {
3
k j i
k j i
X X X mediana
X X X
<
+ +

Terno no direito e no esquerdo se }. , , {
3
k j i
k j i
X X X mediana
X X X
=
+ +

Considere-se a estatstica T = # {ternos direitos} - # {ternos esquerdos}.
Sejam B
i
= # {ternos direitos envolvendo X
i
} # {ternos esquerdos envolvendo X
i
} e
B
jk
= #{ternos direitos envolvendo(X
j
, X
k
)} #{ternos esquerdos envolvendo(X
j
, X
k
)}.
A estatstica de teste Z = T/
T
onde
2
1
2 2 2
) 2 )( 1 (
) 5 )( 4 )( 3 (
1
6
) 2 )( 1 (
4
3
) 2 )( 1 (
) 4 )( 3 (
T
n n n
n n n n n n
B
n
n
B
n n
n n
n k j
jk
i
i T

+


=

<


Sob H
0
a estatstica Z tem distribuio assinttica gaussiana standard.
O teste possui potncia razovel para n > 20.
52
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
7.2.1.4- Tabelas de Contingncia
Uma tabela de contingncia uma tabela de frequncias que representa um conjunto
de dados que foram classificados simultaneamente por vrias caractersticas. Considere-se
classificaes exaustivas e cujas categorias so mutuamente exclusivas. Se a classificao
feita segundo duas variveis (diga-se A e B) obtm-se uma tabela de contingncia
bidimensional (r x c) e se ela for feita segundo mais de duas variveis obtm-se uma tabela
de contingncia multidimensional. Independentemente do mtodo de amostragem usado
pretende-se, habitualmente, verificar a existncia de uma eventual relao entre as
variveis qualitativas A e B.

Teste de independncia em tabelas de contingncia
Em 1900 Karl Pearson sugeriu que se usasse a seguinte estatstica de teste:
( )

=

=

=
r
i
c r
c
j ij
ij ij
e
e O
X
1
2
) 1 )( 1 (
1
2
2
~
A hiptese de independncia ser rejeitada ao nvel se .
2
1 ); 1 )( 1 (
2

c r
X
Tm havido muitas sugestes no que respeita quo grande deve ser a dimenso da
amostra para se obter uma boa aproximao da qui-quadrado distribuio exacta de X
2
.
Uma regra generalizada consiste em no a aplicar se existirem mais de 20% de frequncias
esperadas inferiores a 5, sendo que todas estas devem ser superiores a 1. Para contornar
esta situao, h quem prefira agrupar categorias adjacentes, mas tal procedimento
frequentemente desnecessrio e inadequado. Quando se trata de uma tabela de
contingncia 2 x 2 a alternativa a X
2
o teste exacto de Fisher que considera uma
amostragem hipergeomtrica (sem reposio).

Teste de homogeneidade de propores
A tabela de contingncia possui a priori uma margem fixa, pois consideram-se dois
grupos (amostras) independentes, e cada indivduo classificado dentro do seu grupo
segundo a varivel em estudo.
A estatstica de teste a usar a do qui-quadrado,
( )

=

=

=
r
i
c r
c
j ij
ij ij
e
e O
X
1
2
) 1 )( 1 (
1
2
2
~ ,
rejeitando-se H
0
a um nvel se .

2
1 ); 1 )( 1 (
2

c r
X

53
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Teste exacto de Fisher
O teste exacto de Fisher permite analisar dados em tabelas de contingncia
bidimensionais, 2 x 2, quando existem frequncias esperadas inferiores a 5.
Considere-se ento a tabela de contingncia 2 x 2
A\B B
1
B
2

A
1
a B a+b
A
2
c D c+d
a+c b+d n
Prova-se que sob a hiptese de a tabela anterior ter margens fixas, a probabilidade
exacta de se observar um particular conjunto de frequncias dado pela distribuio
hipergeomtrica. Representando por P
a
a probabilidade de se observar a tabela anterior,
tem-se
! ! ! ! !
)! ( )! ( )! ( )! (
d c b a n
d b c a d c b a
b a
n
b
d b
a
c a
P
a
+ + + +
=

+
= .
A fim de facilitar o clculo das probabilidades das diversas tabelas, pode-se usar uma
das frmulas de recorrncia
a a
P
c b
ad
P
) 1 )( 1 (
1
+ +
=

ou
1 1
) 1 )( 1 (
+
+ +
=
a a
P
ad
c b
P .

Teste de McNemar
O teste de McNemar til quando se pretende testar mudanas significativas antes e
depois de uma determinada ocorrncia ou situao envolvendo duas amostras
correlacionadas.
Est-se perante uma tabela de contingncia 2 x 2 do tipo
Depois
Antes -

+
-

a b
+

c d
Em que agora o universo de interesse constitudo pelos b+c indivduos que
mudaram de opinio.
Sob a validade de H
0
de esperar que (b+c)/2 indivduos mudem de opinio. Pelo
que se pode usar a estatstica do teste do qui-quadrado
54
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
( )

=
+

=
+

+
+

=
2
1
2
1
2
2 2
2
2
~
) (
2
2
2
2
i i
i ij
c b
c b
c b
c b
c
c b
c b
b
E
E O
X
Se se incorporar um factor de correco (de Yates) na estatstica anterior, vem
c b
c b
X
cor
+

=
2
2
) 1 | (|

Se (b+c)/2 for inferior a 5, no se pode usar a estatstica do qui-quadrado, devendo-se
usar o teste exacto dado por X ~ Binomial(b+c,1/2) podendo-se ento determinar o p-value
(probabilidade de significncia) associado ao teste.

Teste Q de Cochran
O teste Q de Cochran generaliza o teste de McNemar no sentido em que permite
testar a hiptese de trs ou mais conjuntos emparelhados (correlacionados) de frequncias
ou propores diferirem significativamente entre eles.
A estatstica do teste Q de Cochran


= =
= =
= =
=


=
N
i
N
i
i i
k
j
k
j
j j
N
i
N
i
i i
k
j
j
L L k
G G k k
L L k
G G k k
Q
1 1
2
1
2
1
2
1 1
2
1
2 ) 1 (
) ( ) 1 (
.
Que tem distribuio aproximada do qui-quadrado com k-1 graus de liberdade e em
que: G
j
= n total de sucessos na j-sima coluna; G = mdia dos G
j
s; L
i
= n de sucessos
na i-sima linha.

7.2.1.5- Testes de Localizao
Teste da Mediana
Pretende-se testar uma hiptese do tipo H
0
:
x
=
y
= . O processo consiste em:
calcular a mediana (M) da amostra combinada e preencher a seguinte tabela:



e fazer um teste de homogeneidade de propores.
Amostra X Amostra Y total
M
< M
total
55
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Teste de Mann-Whitney-Wilcoxon
Mann-Whitney e Wilcoxon desenvolveram separadamente dois testes equivalentes
para o problema da localizao para duas amostras independentes. O teste de Mann-
Whitney-Wilcoxon permite testar a hiptese de duas amostras independentes provirem de
populaes com a mesma localizao (mediana). O teste pressupe partida que a forma
das duas populaes igual.
A verso do teste que aqui abordada deve-se a Wilcoxon.
Considere-se duas amostras independentes A e B com m e n observaes, com m n.
O procedimento a seguir :
1. Combinar as duas amostras e registar as observaes em ordem ascendente de
magnitude;
2. Comeando da esquerda, atribuir ordem 1 observao mnima, ordem 2
segunda observao mnima, etc., e ordem N = m + n observao mxima;
3. Obter a soma das ordens, T, das observaes da menor amostra.
Sob a hiptese de identidade distribucional a estatstica T de Mann-Whitney-
Wilcoxon tem valor mdio e varincia dados respectivamente por:
2
) 1 ( +
=
N n
T
e
12
) 1 (
2
+
=
N mn
T
em que N = m + n.
No caso de haver observaes empatadas a varincia de T sofre uma alterao
(correco), passando a ser:
,
) 1 ( 12 12
) 1 (
1
2

+
=
r
i
i T
K
N N
mn N mn

onde:
r o nmero de conjuntos com observaes empatadas;
K
i
= (
i
1)
i
(
i
+ 1);

i
o nmero de observaes empatadas no i-simo conjunto de empate.
Alguns valores deste teste encontram-se tabelados, mas no caso de o valor no
pertencer tabela, pode-se utilizar uma aproximao pela distribuio normal (ou
gaussiana).
A maioria dos packages estatsticos calcula a estatstica U de Mann-Whitney e no a
estatstica T que se deve a Wilcoxon (as estatstica U e T so equivalentes).
56
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Seja . ,..., 1 ; ,..., 1 ,
, 0
, 1
n j m i
X seY
X seY
U
i j
i j
ij
= =

<
>
=
A estatstica proposta por Mann-Whitney :

= =
=
m
i
n
j
ij
U U
1 1
que d o nmero de Y
j
que excedem X
i
.
Sob a validade de identidade distribucional,
2
mn
U
= e
2 2
2
) 1 (
T U
N mn
=
+
=
No caso de existirem observaes empatadas

<
= = <
>
=
i j
i j
i j
ij
X seY
n j m i X seY
X seY
U
, 0
. ,... 1 ; ,... 1 , , 2 / 1
, 1
As estatsticas T e U esto relacionadas da forma .
2
) 1 ( +
=
n n
T U

Teste de ordens robusto para o problema de Behrens-Fisher
Este teste, ao contrrio do teste de Mann-Whitney, no exige que as populaes
tenham a mesma forma distribucional, nem varincias iguais.
Sejam P
i
o nmero de observaes da amostra Y inferiores a X
i
, i=1, , m e Q
i
o
nmero de observaes da amostra X inferiores a Y
j
, j=1, , n, com m n.
Sejam ainda:

=
=
m
i
i
P
m
P
1
1
;

=
=
n
i
i
Q
n
Q
1
1
;

=
=
m
i
i
P P V
1
2
1
) ( ;

=
=
n
j
j
Q Q V
1
2
2
) ( e,
Q P V V
P Q

n
j
m
i
i j
+ +

=

= =
2 1
1 1
2
.
Sob H
0
a estatstica tem distribuio assinttica guassiana standard (alguns valores
deste teste tambm se encontram tabelados).
No caso de haver empates entre as observaes considera-se
P
i
= n. de Ys inferiores a X
i
+ {n. de Ys iguais a X
i
} e
Q
j
= n. de Xs inferiores a Y
j
+ {n. de Xs iguais a Y
j
}.

Teste das ordens afectadas de sinal de Wilcoxon
Sejam (X
1
, Y
1
), , (X
n
,Y
n
) n pares de observaes e seja Z
i
= Y
i
X
i
, i = 1, 2, , n.
57
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Admita-se que as diferenas Z
1
, Z
2
, , Z
n
so mutuamente independentes e que cada
Z
i
provm de uma populao contnua (no necessariamente a mesma) e simtrica em
torno de uma mediana comum . O parmetro chamado o efeito tratamento.
A estatstica de Wilcoxon, W, obtm-se do seguinte modo:
1. Atribuir ordens aos valores absolutos de Z
i
, |Z
i
|, i = 1, 2, , n;
2. Afectar ordem da i-sima diferena absoluta o sinal de Z
i
e denot-la por R
i
;
3. Calcular a soma das ordens afectadas de sinal W = R
1
+ R
2
+ + R
n
.
Dada uma amostra de dimenso n de uma distribuio contnua e simtrica em torno
de zero, se W denotar a soma das ordens afectadas de sinais, ento
W
= 0 e
6
) 1 2 )( 1 (
2
+ +
=
n n n
W
.
No caso de haver diferenas empatadas, h que proceder a uma correco na
varincia, nomeadamente,

+ +
=
r
i
i W
K
n n n
1
2
12
1
6
) 1 2 )( 1 (
,
em que:
r o nmero de conjuntos com observaes empatadas;
K
i
= (
i
1)
i
(
i
+ 1);

i
o nmero de observaes empatadas no i-simo conjunto de empate.
Note-se que existe uma tabela estatstica para alguns valores deste teste.

Teste dos Sinais
O teste dos sinais um teste alternativo ao teste de Wilcoxon mas menos exigente,
pois no requer que as diferenas Z
i
provenham de populaes contnuas simtricas, apenas
contnuas em torno de uma mediana comum .
Para testar H
0
: = 0, considere-se S o nmero de diferenas + (positivas), ou ento
o nmero de diferenas (negativas). Ento sob H
0
, S ~ Binomial (n, ).

Teste de Kruskal-Wallis (ANOVA em ordens)
O teste de Kruskal-Wallis generaliza o teste de Mann-Whitney pois permite testar a
hiptese de k amostras independentes provirem de populaes idnticas, isto , com a
mesma localizao (mediana).
O procedimento o seguinte:
58
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
1. Combinar as k amostras de dimenses n
1
, n
2
, , n
k
e registar as observaes em
ordem ascendente de magnitude;
2. Comeando da esquerda, atribuir ordem 1 observao mnima, ordem 2
segunda observao mnima, , e ordem N=n
1
+n
2
++n
k
observao mxima;
3. Obter R
i
, a soma das ordens das observaes da amostra i, i = 1, , k.
A estatstica de Kruskal-Wallis toma o aspecto: ) 1 ( 3
) 1 (
12
1
2
+
+
=

=
N
n
R
N N
H
k
i i
i
.
Se k amostras de dimenses n
1
, n
2
, ,n
k
forem extradas ao acaso de populaes
idnticas, e se os valores de n
i
forem grandes, ento a estatstica H de Kruskal-Wallis tem
distribuio aproximada do qui-quadrado com k-1 graus de liberdade.
Note-se que quando todos os n
i
s so maiores ou iguais a 3 e k > 2, a aproximao
anterior considerada boa.
O tratamento a dar a observaes empatadas o mesmo do teste de Mann-Whitney,
mas h que proceder a uma correco da estatstica H, nomeadamente:

N N
K
H
H
r
i
i

=
3
1
*
1
,
onde:
r o nmero de conjuntos com observaes empatadas;
K
i
= (
i
1)
i
(
i
+ 1);

i
o nmero de observaes empatadas no i-simo conjunto de empate.
Porm, s faz sentido usar o factor de correco para a estatstica de Kruskal-Wallis
quando h um elevado nmero de observaes empatadas (30% de observaes
empatadas).

Teste de Friedman
O teste de Friedman testa a hiptese de k amostras emparelhadas provirem da mesma
populao ou de populaes com a mesma localizao (mediana).
A estatstica de Friedman dada por:

=
+
+
=
k
j
j r
k N R
k Nk
F
1
2
) 1 ( 3
) 1 (
12
.
Onde N o nmero de sujeitos, k o nmero de condies ou tratamentos e R
j
a soma
dos ranks da j-sima coluna.
59
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
A distribuio amostral da estatstica de Friedman encontra-se tabelada para alguns
valores de N e k. Para valores de N e k elevados, a distribuio bem aproximada pela
distribuio do qui-quadrado com k-1 graus de liberdade.
O tratamento de observaes empatadas no teste de Friedman idntico ao dos testes
anteriores. Neste caso h que incorporar um factor de correco na estatstica,
nomeadamente

= =

=
N
i
g
j
j i
r
i
t k Nk
S k
F
1 1
3
.
2
) 1 (
) 1 ( 12
,
onde:

=
+
=
k
j
j
k kN
R S
1
2 2
2
4
) 1 (
;
g
i
o nmero de conjuntos de observaes empatadas no i-simo grupo
(incluindo os de dimenso 1) e t
i.j
o tamanho do j-simo conjunto de empates no
i-simo grupo.

7.2.1.6- Testes de escala e outros problemas de duas amostras
Teste de Siegal-Tukey
Este teste s se pode aplicar a testes unilaterais.
As medianas tm que ser iguais, contudo, se forem conhecidas mas diferentes pode-
se centrar uma delas de modo a se tornarem iguais.
Sejam (X
1
, , X
m
) e (Y
1
, , Y
n
) duas amostras aleatrias independentes provenientes
de populaes com localizao
x
=
y
= e escalas
x
e
y
(ndice de disperso da escala).
O teste de Siegel-Tukey permite testar a hiptese H
0
:
x
=
y.

A estatstica de teste a do teste de Mann-Whitney, sendo que a atribuio das
ordens feita das caudas para o interior.

Teste de Moses
Permite considerar testes bilaterais e com medianas diferentes.
O teste de Moses permite testar a hiptese H
0
:
x
=
y
em situaes bilaterais e
mesmo quando as medianas das populaes no so iguais.
Para aplicar o teste necessrio primeiro dividir cada amostra em subconjuntos de
igual dimenso. Cada subconjunto deve conter pelo menos duas observaes e se a diviso
60
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
for tal que fique de fora algumas observaes, estas devem ser descartadas da anlise. A
dimenso dos subconjuntos deve ser escolhida de forma a minimizar o nmero de
observaes a descartar. importante que a diviso de cada amostra em subconjuntos seja
aleatria.
Para cada subconjunto calcula-se a soma dos quadrados dos desvios em relao
mdia que d a disperso do subconjunto. Sob a hiptese de homogeneidade de escala, os
ndices de disperso podem ser considerados provenientes de populaes idnticas pelo
que se pode usar a estatstica do teste de Mann-Whitney.


Teste de Kolmogorov-Smirnov para duas amostras
Sejam (X
1
, , X
m
) e (Y
1
, , Y
n
) duas amostras aleatrias independentes. Supondo que
se pretende testar H
0
: F
x
(x) = F
y
(x) para todo o x.
O teste de Kolmogorov-Smirnov para duas amostras permite detectar diferenas na
localizao, na escala ou na forma das distribuies, sendo por isso menos especfico que
os testes de localizao ou escala anteriores.
A estatstica do teste de Kolmogorov-Smirnov : D
m,n
= sup
x
|F
*
m
(x) F
*
n
(x)| e o
critrio de rejeio a um nvel mnD
m,n
c

. A distribuio amostral desta estatstica


encontra-se tabelada.

Como se pode verificar, o teste anterior avalia a concordncia entre as duas
distribuies empricas.

7.2.1.7- Testes de Associao
Coeficiente de correlao ordinal de Spearman
O coeficiente de correlao ordinal de Spearman uma medida de concordncia
ordinal e baseia-se em , a soma dos quadrados das diferenas das ordens
emparelhadas, sendo dado pela expresso

2
i
d

=
n
i
i s
d
n n
r
1
2
2
) 1 (
6
1 .
O coeficiente de correlao ordinal de Spearman verifica as seguintes propriedades:
r
S
toma valores entre -1 e 1 (pode no assumir o valor zero);
r
S
= 1 quando h concordncia total nas ordenaes, isto , quando ; 0
2
=
i
d
61
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
r
S
= -1 quando h discordncia total nas ordenaes, o que ocorre
quando atinge o seu valor mximo.

2
i
d
No caso de X e Y serem independentes, o coeficiente de correlao ordinal de
Spearman, r
S
, tem E(r
S
) = 0 e Var(r
S
) = 1/(n-1), n 2.
Nota: existem tabelas que fornecem a distribuio exacta de r
S
para valores pequenos
de n, usualmente n 11. Para amostras de dimenso superior recorre-se aproximao
pela distribuio gaussiana.

Coeficiente (tau) de Kendall
O coeficiente de Kendall pode ser usado como medida de correlao para o mesmo
tipo de dados para o qual o coeficiente de correlao ordinal de Spearman, r
S
, usado.
A distribuio amostral de sob a hiptese nula de independncia tambm
conhecida pelo que pode ser usada para testar a significncia do coeficiente. Normalmente
recorre-se aproximao pela gaussiana.
O grau de concordncia entre os dois conjuntos de ordenaes o quociente da soma
obtida e a maior soma possvel (ou o nmero total de pares), isto ,
pares de total n.
ias discordnc de n. - ias concordnc de n.
=
De um modo geral o nmero total de pares igual a ,
2
) 1 (
2

=

n n
n
pelo que
) 1 (
2

=
n n
S
onde S representa a soma total dos scores.
No caso de X e Y serem independentes, o coeficiente tau de Kendall tem 0 ) ( = E e
. 2 ,
) 1 ( 9
) 5 2 ( 2
) (

+
= n
n n
n
Var
Quando existem duas ou mais observaes empatadas quer para a varivel X quer
para a varivel Y aplica-se o mtodo usual de atribuio de ranks. Neste caso h quer
proceder seguinte correco
y x
n n n n
S


=
) 1 ( ) 1 (
2
, onde: ,
com r
x
o nmero de observaes empatadas para a varivel X e t
i
o nmero de observaes
no i-simo conjunto de empate; , sendo r
y
o nmero de conjuntos de

=
=
x
r
i
i i x
t t
1
) 1 (

=
=
y
r
i
i i y
t t
1
) 1 (
62
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
observaes empatadas para a varivel Y e t
i
o nmero de observaes empatadas no i-
simo conjunto de empate.
A relao entre o coeficiente tau de Kendall e o coeficiente de correlao ordinal de
Spearman dada por: -1 3 - 2 r
S
1.

Coeficiente de Cramr
O coeficiente de Cramr um de entre muitos coeficientes de associao para dois
conjuntos de atributos e essencialmente til quando se dispe apenas de informao
categorizada. Para calcular o coeficiente de Cramr entre os scores de duas variveis A e B
com categorias A
1
,...,A
r
e B
1
,...,B
c
dispe-se a informao numa tabela de contingncia rxc.
O coeficiente de Cramr dado por
) 1 (
2

=
L N
X
C , onde X
2
a estatstica do teste
do qui-quadrado e L = min{r, c}. Este coeficiente varia entre 0 e 1.
A significncia de C avaliada em funo da estatstica de teste do qui-quadrado.

Coeficiente de correlao parcial de Kendall
Permite avaliar a independncia parcial entre X e Y mantendo Z constante. A hiptese
a testar do tipo H
0
: 0
.
=
Z XY
.
O coeficiente de correlao parcial de Kendall dado por:
) 1 )( 1 (
.
2 2
.
YZ XZ
YZ XZ XY
Z XY



= .
Sob a hiptese de independncia parcial 0 ) (
.
=
Z XY
E e
) 1 ( 9
) 5 2 ( 2
) (
.

+
=
n n
n
Var
Z XY

No quadro seguinte apresenta-se, segundo CABRAL (1997), uma sntese dos testes
no-paramtricos mais comuns e as condies em que so utilizados.








63
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO

Populao qualquer
Frequncias observadas
Teste do Qui-Quadrado
Populao contnua conhecida
Observaes quantitativas
Teste de Kolmogorov-
Smirnov Uma amostra
Populao gaussiana (parmetros
estimados)
Observaes quantitativas
Teste de Lilliefors
Populaes quaisquer
Frequncias observadas
Teste do Qui-Quadrado
Ajustamento
Duas amostras
independentes Populao contnua
Observaes quantitativas
Teste de Kolmogorov-
Smirnov
Populao contnua qualquer
Frequncia de observaes acima ou
abaixo de
0

Teste dos sinais
Uma amostra
Populao contnua e simtrica
Observaes quantitativas
Teste de Wilcoxon
Duas amostras
independentes
Populaes contnuas com forma igual
Observaes quantitativas
Teste de Mann-
Whitney-Wilcoxon
Populao contnua
Diferena entre as observaes e
0

Teste dos sinais
Localizao
Duas amostras
emparelhadas Populao contnua e simtrica
Diferena entre as observaes e
0

Teste de Wilcoxon
Populao qualquer
Observaes numa escala qualquer
Teste das sequncias
Aleatoriedade Uma amostra Populao qualquer
Observaes numa escala pelo menos
ordinal
Teste das sequncias
ascendentes e
descendentes
Populaes contnuas
Observaes numa escala pelo menos
ordinal
Teste da correlao
ordinal de Spearman
Associao Duas amostras
Populaes quaisquer
Frequncias observadas
Teste do Qui-Quadrado
QUADRO 5. SNTESE DE DIVERSOS TESTES NO-PARAMTRICOS.
64
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
7.3- MTODOS QUE ANALISAM DIFERENAS
versus MTODOS QUE ANALISAM RELAES
7.3.1- MTODOS QUE ANALISAM DIFERENAS
Dentro das tcnicas que avaliam diferenas entre amostras, podem-se utilizar tcnicas
paramtricas para diferenas entre: duas amostras independentes; trs (ou mais) amostras
independentes; duas ou mais amostras independentes; utilizando duas ou mais variveis
independentes; duas amostras dependentes. Tambm se podem utilizar tcnicas no-
paramtricas para k amostras dependentes e, para k amostras independentes.
Vejam-se ento, de seguida os tipos de testes a utilizar em cada um dos casos acima
referidos.

Tcnicas Paramtricas
Diferena entre duas amostras independentes
Exemplo: Teste t. (ver sub-captulo 3.4.1.5)
O teste t para duas amostras independentes um teste paramtrico que testa a
hiptese nula de que, no universo, a diferena entre os dois valores mdios da varivel
dependente igual a zero, ou seja, que as duas amostras so amostras do mesmo Universo
e, portanto, tm valores mdios iguais ao valor do parmetro .
Diferena entre 3 (ou mais) amostras independentes
Exemplo: Anlise de varincia univariada (ANOVA). (ver sub-captulo 3.4.1.1)
A anlise de varincia univariada diz se h diferenas significativas entre os valores
mdios da varivel dependente de entre pelo menos duas das amostras (ou talvez mais),
mas no diz que amostras que diferem entre si, sendo para isso necessrio aplicar um
teste post-hoc.
Diferenas entre duas ou mais amostras independentes, utilizando duas ou mais
variveis independentes
Exemplo: Anlise de varincia factorial. (ver sub-captulo 3.4.1.7)
Diferenas entre duas amostras dependentes
Exemplo: Teste t para duas amostras dependentes (emparelhadas).



65
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Tcnicas No-paramtricas (escala ordinal) (ver sub-captulo 3.2.1)
Diferenas entre duas amostras independentes
Exemplo: Teste da mediana, teste U de Mann-Whitney, teste de Kolmogorov-
Smirnov para duas amostras, teste de Moses para reaces extremas.
Diferenas entre k amostras independentes
Exemplo: Extenso do teste da mediana, teste de Kruskal-Wallis.
Diferenas entre duas amostras dependentes
Exemplo: Teste dos sinais, teste de Wilcoxon.
Diferenas entre k amostras dependentes
Exemplo: Teste de Friedman.

7.3.2- MTODOS QUE ANALISAM RELAES
Para analisar relaes existe, hoje em dia, quase uma infinidade de coeficientes
diferentes. Ver-se- aqui apenas alguns deles.
Um coeficiente de correlao uma estatstica descritiva que indica a natureza da
relao entre os valores de duas variveis. Os valores vm de um s grupo de casos mas
fornecem duas amostras.
O coeficiente de determinao (quadrado do coeficiente de correlao de Pearson)
um dos mais utilizados. Este coeficiente indica a proporo de varincia dos valores de
uma varivel partilhada ou explicada pela varincia dos valores da outra varivel. D
uma indicao da importncia da correlao, mas claro que no vale a pena calcul-lo
quando o coeficiente de correlao no significativo segundo um teste indutivo.

Correlaes Paramtricas
O tipo de correlao a usar depende da natureza das variveis, contudo todos os tipos
requerem que pelo menos uma das variveis seja mtrica.
Coeficiente de correlao de Pearson: o mais vulgar. aplicvel quando as duas
variveis so medidas por uma escala de intervalo ou de razes (variveis mtricas), e a
relao entre as variveis linear (ou, pelo menos, no claramente no-linear). Tambm
possvel aplic-lo aos valores medidos por uma escala de avaliao se a relao parecer
linear. Existem outros pressupostos ligados com o coeficiente de Pearson (distribuio
bivariada gaussiana e homogeneidade de varincias) mas esses so de menos importncia.
66
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Coeficiente de correlao Bi-serial: aplica-se quando uma das variveis mtrica
mas os seus valores esto artificialmente dicotomizados de modo a dar apenas duas
categorias (variveis dummy).
Coeficiente de correlao Point bi-serial: usado quando uma das variveis nominal
com apenas duas categorias.
Coeficiente de correlao Tetrachoric: utilizado quando as duas variveis so
mtricas mas foram ambas dicotomizadas artificialmente de modo a que cada uma tenha
apenas duas categorias.
Coeficiente de correlao Eta: pode ser aplicado quando uma das variveis mtrica
mas a outra est medida numa escala nominal com trs ou mais categorias.

Correlaes e Associaes No-Paramtricas
Os coeficientes de associao medem a relao entre duas variveis nominais,
enquanto que os coeficientes de correlao medem a relao entre duas variveis ordinais.
COEFICIENTES DE ASSOCIAO
Coeficiente Phi: utiliza-se quando cada uma das variveis s tem dois valores, ou seja
quando os dados so frequncias que resultam de um cruzamento do tipo 2 x 2
Coeficiente de Cramr: usado quando uma varivel (ou as duas variveis) tem mais
do que dois valores, ou seja, quando os dados so frequncias que resultam de um
cruzamento do tipo r x k. (ver sub-captulo 3.2.1.7)
Coeficiente de contingncia C: pode ser aplicado a qualquer cruzamento do tipo r x k.
Mas o seu valor mximo sempre inferior a 1; pior ainda, o valor mximo depende do
nmero de categorias das variveis. Esta limitao faz com que seja prefervel calcular o
coeficiente de Cramr.
Estes coeficientes baseiam-se na estatstica do qui-quadrado. O teste do qui-quadrado
testa a hiptese nula que as duas variveis no esto relacionadas uma com a outra. Um
valor significativo para o qui-quadrado indica que as duas variveis no so independentes,
mas no indica o grau de relacionamento entre elas. Para se encontrar o grau de
relacionamento preciso calcular um coeficiente de associao.
COEFICIENTES DE CORRELAO: por exemplo, coeficiente rho de Spearman e
coeficiente tau-b de Kendall. (ver sub-captulo 3.2.1.7).


67
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
7.4- TCNICAS UNIVARIADAS, BIVARIADAS E MULTIVARIADAS
As tcnicas da estatstica indutiva que tratam de diferenas entre amostras e que
utilizam apenas uma varivel, so tcnicas univariadas.
As tcnicas bivariadas, por sua vez, tratam de relaes entre duas variveis. As
tcnicas de correlao e as tcnicas ligadas com os coeficientes de associao so tcnicas
bivariadas. A regresso linear simples tambm uma tcnica bivariada.
As tcnicas multivariadas analisam simultaneamente relaes entre trs ou mais
variveis. Outros autores consideram que a designao uni, bi e multivariada apenas se
deve aplicar s variveis dependentes, pelo que, neste sentido a regresso mltipla seria
uma tcnica univariada e apenas tcnicas como a anlise factorial seriam multivariadas.
No se dedicou um sub-captulo exclusivamente s tcnicas univariadas ou
bivariadas, por estas j terem sido abordadas em captulos anteriores ou ento surgirem
como introduo tcnica multivariada que a generaliza.

7.4.1- TCNICAS MULTIVARIADAS
De acordo com COELHO (2005), os mtodos multivariados podem ser divididos em
dois grandes grupos: os mtodos descritivos que procuram explorar relaes ou
interdependncia e os mtodos explicativos que se destinam a determinar dependncia.
Os mtodos descritivos preocupam-se com a forma como as vrias variveis/atributos
esto relacionados, no estabelecendo no entanto qualquer tipo de relaes de causalidade.
O seu principal objectivo assim o de descrever e reduzir os dados recolhidos, atravs da
explorao de relaes de interdependncia.
Os mtodos explicativos preocupam-se com o estabelecimento de relaes de
causalidade, isto , de como uma ou mais variveis (explicativas) podem explicar o nvel
de uma ou mais variveis (de resposta). Esta explicao parte da especificao de um
modelo baseado num conjunto de hipteses em que est baseado.
So exemplos de mtodos descritivos de anlise multivariada a anlise em
componentes principais, a anlise factorial, a anlise de clusters e a anlise de
correspondncias, entre outros. Como exemplo de mtodos explicativos tem-se a regresso
linear e logstica, a anlise conjunta e os modelos de equaes estruturais, entre outros.
Segundo ANDERSON (1998), existem seis passos fundamentais na construo de
modelos multivariados, a saber:
68
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
1. Definir o problema em estudo, objectivos e tcnica multivariada a ser utilizada;
2. Desenvolver o plano de anlise;
3. Avaliar os pressupostos subjacentes tcnica escolhida;
4. Estimar o modelo multivariado e aceder aos resultados;
5. Interpretar a sensibilidade aos parmetros (pesos, loadings, utilidades, );
6. Validar o modelo.

O esquema seguinte mostra o tipo de tcnica multivariada adequada a cada tipo de
situao e pode ser muito til aquando da escolha da tcnica a utilizar.
69
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO

Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
70
FIGURA 3. ESQUEMA DE DIVERSAS TCNICAS MULTIVARIADAS. ADAPTADO DE ANDERSON (1998).

INVESTIGAO POR INQURITO
7.4.1.1- Regresso mltipla
O objectivo principal da regresso mltipla prever valores de uma varivel
dependente a partir de uma combinao ponderada de duas ou mais variveis
independentes. A tcnica permite tambm o clculo de um coeficiente de correlao
mltipla (coeficiente de correlao de Pearson) entre a varivel dependente e o conjunto de
variveis independentes. A regresso mltipla requer uma varivel dependente mtrica e
variveis independentes mtricas (embora seja possvel utilizar algumas variveis no-
mtricas como variveis independentes, que se designam por variveis mudas ou
dummies). A tcnica pressupe que existe linearidade na relao entre as variveis e que
o erro (diferena entre os valores da varivel dependente e os valores previstos dessa
varivel) tem uma distribuio gaussiana e apresenta homogeneidade de varincia,
pressupe ainda a no existncia de multicolinearidade.
Desenvolver-se- primeiro a regresso linear simples (tcnica bivariada) para depois
se generalizar os resultados para a regresso linear mltipla.

Regresso Linear Simples
A regresso um mtodo estatstico que permite estabelecer relaes entre variveis
procurando estimar (ou prever) uma delas, a varivel resposta (ou dependente), quando se
supe conhecidas outras variveis ditas explicativas (ou independentes).
Pode-se ajustar aos dados o modelo linear Y = + X + .
Em que e so constantes desconhecidas e exprime o erro (ou desvio, ou resduo
ou rudo) de caractersticas eminentemente imprevisveis e, portanto aleatrias.
A qualidade do ajustamento linear ser tanto melhor quanto menor for a magnitude
dos erros ou desvios, e essa magnitude est relacionada com o coeficiente de correlao .
Y X
Y X Cov

) , (
= com -1 1
Se = 0, as duas variveis so linearmente independentes, isto , o conhecimento de
X irrelevante para prever Y (ou vice-versa).
Se = 1, existe uma associao linear perfeita entre X e Y, de modo que possvel
prever com exactido o valor de Y se o valor de X for conhecido.
A interpretao que se d quando 0 < | | < 1 que a varivel X contm alguma
informao sobre Y, de modo que possvel fazer previses para Y.
71
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
O coeficiente de correlao pode ser estimado a partir das observaes. Neste caso
pelo coeficiente de correlao de Pearson:
Y X
XY
S S
S
r =
Sobre o resduo aleatrio habitual supor trs hipteses:
1. O seu valor mdio nulo, isto , E() = 0;
2. Os resduos no esto correlacionados e a sua varincia no depende de X, ou
seja, constante;
2 2

=
3. O resduo segue uma distribuio gaussiana.
O mtodo dos mnimos quadrados permite estimar e sem que seja necessria
alguma referncia distribuio dos resduos. O objectivo do mtodo dos mnimos
quadrados ajustar uma recta de equao bx a y + = aos dados, onde a = e ,
minimizando a soma dos quadrados dos erros (ou desvios) definida por:
b =

( ) [ ]

=
+ =
n
i
i i
bx a y SE
1
2
.
Assim sendo, as estimativas dos mnimos quadrados dos parmetros do modelo
obtm-se resolvendo o sistema
( ) [ ]
( ) [ ]

= +
= +

=
=
0
0
0
0
1
1
i
n
i
i i
n
i
i i
x bx a y
bx a y
b
SE
a
SE

As equaes anteriores so conhecidas por equaes normais e a soluo do sistema

=
=

=
=
n
i
i
n
i
i i
x n x
y x n y x
b
x b y a
1
2 2
1

Uma estatstica usada para medir a qualidade do ajustamento linear aos dados o
coeficiente de determinao que mais no que o quadrado do coeficiente de correlao de
Pearson. Este coeficiente d a proporo da variabilidade total que explicada pelo modelo
de regresso, e quanto mais prximo estiver do valor 1 melhor ser a qualidade do
ajustamento.
Vejam-se agora os diversos intervalos de confiana para os parmetros do modelo e
os intervalos de predio.
72
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Intervalo de Confiana a (1 )*100% para

+ +

+

2
2
2 / 1 ; 2
2
2
2 / 1 ; 2
) 1 (
1
,
) 1 (
1

X
n
X
n
S n
X
n
S t
S n
X
n
S t


Intervalo de Confiana a (1 )*100% para

,
1

2 / 1 ; 2 2 / 1 ; 2
n S
S
t
n S
S
t
X
n
X
n

Intervalo de Predio a (1 )*100% para E(Y
0
)
( ) ( )

+ +

+
2
2
0
2 / 1 ; 2 0 2
2
0
2 / 1 ; 2 0
) 1 (
1

,
) 1 (
1

X
n
X
n
S n
X X
n
S t Y
S n
X X
n
S t Y


Intervalo de Predio a (1 )*100% para o (novo valor) Y
0

( ) ( )

+ + +

+ +
2
2
0
2 / 1 ; 2 0 2
2
0
2 / 1 ; 2 0
) 1 (
1
1

,
) 1 (
1
1

X
n
X
n
S n
X X
n
S t Y
S n
X X
n
S t Y


Aps efectuar uma regresso h que validar o modelo fazendo uma anlise dos
resduos, principalmente no que respeita independncia e gaussianidade dos resduos.
Pode-se, por exemplo, fazer um grfico dos resduos da regresso linear (grfico de
disperso) e se estes apresentarem um comportamento aleatrio em torno de zero, ento
esse um indicador de ausncia de correlao entre os resduos.
Para um problema de regresso usual desenvolver testes de hipteses sobre:
1. Os parmetros do modelo ( e );
2. A capacidade explicativa do modelo.
H
0
: =
0
Critrio de rejeio:
2 / 1 ; 2
0
1 /

n
X
t
n S S

H
0
: =
0
Critrio de rejeio:
2 / 1 ; 2
2
2
0
) 1 (
1

n
X
t
S n
X
n
S

Capacidade explicativa do modelo
( ) ( ) ( ) [ ] ( ) ( )

= = = =
+ = + =
n
i
i
n
i
i i
n
i
i i i
n
i
i
Y Y Y Y Y Y Y Y Y Y
1
2
1
2
1
2
1
2



73
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Representando por:
Variabilidade total: ( )

=
=
n
i
i
Y Y ST
1
2

Variabilidade no explicada pela regresso: ( )

=
=
n
i
i i
Y Y SE
1
2


Variabilidade explicada pela regresso: ( )

=
=
n
i
i
Y Y SR
1
2


Vem que: ST = SE + SR e r
2
= SR/ST o que permite a interpretao do coeficiente de
determinao como a fraco da variabilidade total explicada pelo modelo de regresso.
Prova-se que:
2 , 1
~
) 2 /(

=
n
F
n SE
SR
F com critrio de rejeio: F F
1,n-2;1-
usual dispor a informao relativa a uma regresso linear numa tabela ANOVA;
Fonte de
variao
Soma de
quadrados
Graus de
liberdade
Mdia de
quadrados
Valor de F
Regresso SR 1 MR = SR
Residual SE n 2 ME = SE/(n-2) F = MR/ME
Total ST n 1
No quadro abaixo apresentam-se alguns tipos de relaes (no lineares) que so
linearizveis atravs de transformaes adequadas.
Relao original Transformaes de variveis e parmetros Modelo linear transformado
Y = + /X Z = 1/X Y = + Z
Y = X

W = lnY
' = ln
Z = lnX
W = + Z
Y =
X
W = lnY
' = ln
= ln
W = + X
Y = e
X
W = lnY
' = ln
W = + X
Y = e
+X
W = lnY W = + X
Y = e
+/X
W = lnY
Z = 1/X
W = + Z
74
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Face existncia de vrios modelos lineares transformados com uma varivel
explicativa, a escolha do melhor modelo recai sobre o que apresentar maior coeficiente de
determinao.

Regresso Linear Mltipla
A generalizao do modelo de regresso linear simples Y = + X + ao modelo de
regresso linear mltiplo Y =
0
+
1
X
1
+
2
X
2
++
p
X
p
+ imediata se se escrever o
modelo na forma matricial.
Considere-se no modelo de regresso linear simples =
0
e =
1
, ou seja,
Y =
0
+
1
X+, ou ainda, Y
i
=
0
+
1
X
i
+
i
, i = 1, , n.
Sejam as matrizes

=
n
n
n
X
X
X
X
Y
Y
Y
Y

M
M M
M
2
1
1
0
2
1
2
1
, ,
1
1
1
,
Ento Y = X +.
As equaes normais escrevem-se da forma X
T
Y = X
T
Xb onde b =

=
1
0

b
b

Resolvendo as equaes normais em ordem a b vem b=(X


T
X)
-1
X
T
Y pelo que . Xb Y =

A soma dos quadrados dos resduos toma o aspecto


T
= Y
T
Y -
T
X
T
Y.
A matriz das covarincias dos estimadores dos parmetros do modelo :
= Cov( ) =
2
(X
T
X)
-1
.

Quanto ao quadro ANOVA na sua forma matricial tem-se


Fonte de
variao
Soma de
quadrados
Graus de
liberdade
Mdia de quadrados Valor de F
Regresso b
T
X
T
Y 1
T
YY
T
1/n 1 MSR = (b
T
X
T
Y 1
T
YY
T
1/n)/1
Erro Y
T
Y b
T
X
T
Y n 2 MSE = (Y
T
Y b
T
X
T
Y)/(n-2) F = MSR/MSE
Total Y
T
Y 1
T
YY
T
1/n n 1
Todos os resultados anteriores so vlidos para o modelo de regresso linear mltiplo
Y
i
=
0
+
1
X
i1
+
2
X
i2
++
p
X
ip
+, i = 1, , n.
75
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Considerando agora

=
p np n n
p
p
X X X
X X X
X X X
X

M
L
M L M M M
L
L
1
0
2 1
2 22 21
1 12 11
,
1
1
1
O quadro ANOVA correspondente hiptese H
0
:
1
=
2

= =
p
= 0, isto , que
no existe regresso linear,
Fonte de
variao
Soma de
quadrados
Graus de
liberdade
Mdia de quadrados Valor de F
Regresso b
T
X
T
Y 1
T
YY
T
1/n p MSR = (b
T
X
T
Y 1
T
YY
T
1/n)/p
Erro Y
T
Y b
T
X
T
Y n p 1 MSE = (Y
T
Y b
T
X
T
Y)/(n-p-1) F=MSR/MSE
Total Y
T
Y 1
T
YY
T
1/n N 1
onde F ~ F
p,n-p-1
sob a validade de H
0
. H
0
rejeitada ao nvel se F F
p,n-p-1;1-
.

7.4.1.2- Regresso logstica
A regresso logstica uma forma especializada de regresso que formulada para
prever e explicar uma varivel binria qualitativa.
O objectivo principal desta tcnica perceber o que diferencia dois grupos de casos,
ou seja, o que diferencia os dois nveis de uma varivel dependente dicotmica, com base
num conjunto de variveis independentes (geralmente quantitativas). possvel usar esta
tcnica para classificar os casos com base no conjunto de variveis independentes e, para
calcular a probabilidade de cada caso pertencer a cada um dos grupos. Tambm possvel
utilizar esta tcnica para situaes em que a varivel dependente tem mais do que duas
categorias mas, nesse caso, o mtodo normalmente designado por regresso logstica
multinomial.
A regresso logstica equivalente a uma anlise discriminante com dois grupos.
Contudo, em relao anlise discriminante tem a vantagem de no exigir pressupostos to
rgidos; ser menos afectada quando os pressupostos bsicos (nomeadamente a
gaussianaidade das variveis) no so cumpridos e, de poder incorporar variveis
qualitativas atravs de variveis dummy.
Vejam-se de seguida, de acordo com CARROLL (2003), algumas outras vantagens e
desvantagens deste mtodo.

76
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Vantagens:
fcil estimar usando mtodos de mxima verosimilhana;
Detecta certos fenmenos no lineares;
Detecta os fenmenos de forma global;
uma tcnica implementada em muitos softwares;
Os coeficientes das combinaes lineares do um resultado relativamente
explcito;
Rpida de calcular e modelar.
Desvantagens:
As variveis explicativas tm que ser independentes (inexistncia de
multicolinearidade);
No se aplica naturalmente a variveis explicativas quantitativas; tem-se que
passar para variveis qualitativas;
sensvel aos indivduos fora da norma (outliers);
No trata os indivduos com dados em falta;
Sensvel a flutuaes aleatrias das variveis explicativas; no se aplica a
populaes homogneas.

7.4.1.3- Anlise discriminante
O objectivo desta tcnica semelhante ao da regresso logstica (compreender
diferenas entre grupos e prever a que classe um novo elemento com determinadas
caractersticas vai pertencer), com a diferena de poder lidar com dois ou mais grupos de
casos. Tem pressupostos mais rgidos do que a regresso logstica, por exemplo, as
variveis independentes devem ser mtricas, os dados em cada grupo devem apresentar
distribuio gaussiana multivariada e pressupe que as matrizes de varincia-covarincia
sejam iguais para os diferentes grupos de casos.
Testa a hiptese de as mdias de grupo de um conjunto de variveis independentes
para dois ou mais grupos serem iguais. Esta mdia de grupo chamada de centride.
Os critrios mais comuns para testar a significncia estatstica se se utilizar o mtodo
Stepwise so a distncia de Mahalanobis e o critrio V de Raos. Existem ainda outros
critrios como: de Wilks, Hotellings trace, Pillais.
77
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
A escolha da funo discriminante feita de modo a maximizar a varincia inter-
grupos relativamente varincia intra-grupo.
Para testar a validade das funes discriminantes classifica-se o conjunto de casos
originais e comparam-se os agrupamentos conseguidos com os grupos pr-definidos e,
assim, estima-se a percentagem de casos correctamente classificados a partir das variveis
utilizadas.
Frequentemente recorre-se rotao dos eixos das funes discriminantes, pois os
valores dos coeficientes depois da rotao tendero a aproximar-se de zero ou de um,
melhorando a interpretao das funes discriminantes e das diferenas entre os grupos;
tambm, a rotao dos eixos mantm o poder discriminatrio total do modelo, mantm a
posio relativa dos grupos e, o poder discriminatrio de cada funo tornar-se-, em geral,
melhor distribudo pelas vrias variveis.
Para dois grupos uma s funo discriminante suficiente, mas para p grupos poder
ser necessrio mais do que uma combinao linear para assegurar uma boa separao entre
grupos, de modo que ser necessrio determinar o nmero de funes discriminantes. Para
isso, pode-se utilizar, por exemplo, o teste de Wilks.
Quando se tem mais variveis do que o necessrio, utilizam-se mtodos Stepwise, ou
seja, seleccionam-se as variveis que mais contribuem para a distino entre grupos, e em
seguida vo-se incluindo e/ou retirando variveis nas funes discriminantes, uma a uma,
de acordo com um critrio que pode ser definido pelo prprio analista.
O critrio de seleco uma medida discriminatria, por exemplo: estatstica de
Wilks, estatstica V de Rao, quadrado da distncia de Mahalanobis para os 2 grupos mais
idnticos, estatstica F, varincia residual.
Veja-se agora a metodologia de um mtodo de estimao de Stepwise. Os passos a
seguir, segundo ANDERSON (1998), so:
1. Seleccionar uma varivel independente inicial (a que tiver a maior correlao
com a varivel dependente);
2. A percentagem de variao explicada estatisticamente significativa?
(se no): no possvel efectuar previso com a regresso mltipla
(se sim): passar ao passo 3
3. Existem outras variveis independentes disponveis?
(se no): avaliar a equao de previso final
(se sim): seleccionar outra varivel independente
78
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
A varincia explicada, por todas as variveis, significativa? (testar atravs de
testes F parciais para cada varivel no modelo de regresso)
(se no): eliminar as variveis no significativas e retornar ao passo 3
(se sim): retornar ao passo 3
Em suma, a anlise discriminante um mtodo estatstico para classificar indivduos
ou objectos de modo exaustivo em grupos mutuamente exclusivos, com base num conjunto
de variveis independentes. Para isso, so determinadas combinaes lineares dessas
variveis que discriminam entre grupos definidos a priori, de tal modo que seja
minimizada a probabilidade de erro de incorrecta classificao a posteriori.

7.4.1.4- rvores discriminantes (de deciso)
uma tcnica exploratria para descobrir estruturas nos dados. Uma srie de regras
classificatrias derivam dos dados por um procedimento conhecido como partio
recursiva e o resultado uma rvore classificatria que a reunio de muitas dessas regras.
A tcnica da rvore de deciso consiste em classificar para detectar os critrios
permanentes de repartio dos indivduos de uma populao em n classes predefinidas.
Etapas da construo de uma rvore discriminante:
Definies
Repartir os indivduos de uma populao em n classes;
Escolher a varivel que melhor separa os indivduos da classe depende do tipo
de rvore;
Escolher o critrio de separao depende do tipo de rvore.
Repartir os indivduos pelos ns;
Podar (parar o crescimento da rvore mais cedo (pr-poda) ou construir uma
rvore completa e podar depois (ps-poda)).
Segundo CARROLL (2003), esta tcnica apresenta as seguintes vantagens e
desvantagens.
Vantagens:
Os resultados so expressos na forma de condies explcitas;
So pouco perturbadas pela presena de outliers;
So pouco sensveis a flutuaes das variveis no discriminantes;
Algumas geram judiciosamente dados em falta;
79
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Algumas permitem estudar um conjunto de variveis de qualquer tipo;
Algumas permitem tratar um nmero muito grande de variveis explicativas.
Desvantagens:
Leva algum tempo de clculo;
Detecta os fenmenos de forma local;
A definio dos ns no nvel n+1 depende extremamente dos ns do nvel n;
No d uma classificao estvel ao se efectuarem flutuaes aleatrias nos dados
mais discriminantes;
Necessita de um nmero grande de indivduos por n (20 a 30);
A representao grfica d regies rectangulares, o que no corresponde
forosamente distribuio dos indivduos;
Os valores dos scores obtidos no so uniformemente distribudos.
Uma rvore de deciso utiliza uma estratgia de dividir-para-conquistar, ou seja, um
problema complexo decomposto em sub-problemas mais simples e, recursivamente a
mesma estratgia aplicada a cada sub-problema.
O mtodo adoptado por estes algoritmos consiste na diviso recursiva do conjunto de
observaes em subgrupos filhos construindo uma rvore da raiz para as folhas.
Em cada passo, o algoritmo determina uma regra de classificao, seleccionando uma
varivel e um ponto de corte nos valores dessa varivel que:
Maximize uma medida de entropia dos ns filhos relativamente ao n pai
(C4.5 e ID3);
Minimize uma medida de impureza (CART);
Maximize a distino estatstica dos filhos relativamente varivel dependente
(CHAID e QUEST).
De seguida abordam-se alguns dos tipos de rvores mais comuns (CART, CHAID,
QUEST, C4.5 e C5.0).
CART (classification and regression tree) adaptada ao estudo de todo o tipo de
variveis.
Este mtodo utiliza medidas como ndice de Gini para medir a diversidade no n para
variveis dependentes nominais. De forma simples, este ndice contabiliza a proporo de
observaes em cada classe da varivel dependente num n relativamente ao total, isto ,
ao n raiz.
80
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
O ndice de Gini toma o seu valor mnimo quando num n correspondente a uma
partio da varivel dependente, ou seja, quando apenas existem observaes pertencentes
a uma classe.
A diferena entre o ndice Gini para o n pai e a soma dos valores para o n filho
(ponderada pela proporo de casos em cada filho) apresentada na rvore como
improvement. A varivel escolhida aquela que garante um maior valor de improvement.
CHAID (chi-square automation interaction detection) reservada ao estudo de
variveis discretas e de categorias.
Utiliza teste Qui-Quadrado de Pearson numa tabela de contingncia entre as
categorias da varivel dependente e as categorias das variveis independentes (as variveis
continuas so previamente discretizadas em classes).
Na verdade, faz-se um conjunto de testes agregando as classes da varivel explicativa
at s restarem duas, de modo a descobrir o melhor nmero de classes.
Este processo repete-se para a totalidade das variveis explicativas e a melhor
varivel explicativa com o melhor nmero de classes, isto , a melhor probabilidade de
significncia (p value) ajustada pelo mtodo Bonferroni, escolhido.
QUEST
Utiliza igualmente testes de Qui-Quadrado de Pearson para tabelas de contingncia,
tal como CHAID.
No entanto utiliza um maior conjunto de testes estatsticos para garantir a
independncia entre o processo de seleco da varivel explicativa e o ponto de diviso das
classes da mesma varivel.
Usa, por exemplo, a estatstica F da ANOVA e a estatstica F de Levene para
varincias diferentes na seleco de variveis mtricas.
C4.5 e C5.0 (de J.R. Quinlan) adaptada ao estudo de todas as variveis.
Utiliza como critrio de separao a entropia.
A C5.0 deriva da CART. Este tipo de rvore no binria, separa a populao em
mais do que duas sub-populaes.

7.4.1.5- Anlise de varincia multivariada
Esta uma tcnica de anlise de varincia que utiliza duas ou mais variveis
dependentes mtricas e duas ou mais variveis independentes nominais ou ordinais. A
81
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
anlise de varincia univariada (ANOVA) testa a hiptese nula de que os valores mdios
da varivel dependente em cada uma das amostras so iguais. Como se tem duas ou mais
variveis dependentes, tem-se para cada amostra, um vector de valores mdios das
variveis dependentes, logo, a MANOVA testa a hiptese nula de que os valores mdios
dos vectores das amostras so iguais. A MANOVA pressupe que os dados em cada grupo
tm distribuio gaussiana multivariada e ainda que as matrizes de varincia-covarincia
das variveis dependentes sejam iguais em todos os grupos (amostras).
A anlise de varincia simples classificada como tcnica univariada no por causa
do nmero de variveis independentes, mas sim pelo nmero de variveis dependentes.
O procedimento univariado inclui o teste t para situaes de dois grupos e a ANOVA
para situaes com trs ou mais grupos definidos por duas ou mais variveis
independentes.
O teste t d a significncia estatstica entre duas mdias amostrais independentes.
Utiliza a estatstica t = (
1

2
) / SE
1

2
, onde
1
= mdia do grupo 1;
2
= mdia do
grupo 2; SE
1

2
= erro padro das diferenas entre as mdias dos grupos.
Se o valor de t for suficientemente grande ento a diferena deve-se no
variabilidade amostral, mas a uma verdadeira diferena.
Se t > t
N1+N22;
ento rejeita-se a hiptese nula de que no h diferena entre os
grupos. (N
1
e N
2
so as dimenses das amostras)

A ANOVA utiliza o teste F (abordado na regresso linear simples) com k-1 e N-k
graus de liberdade para um dado nvel (onde N = N
1
+ + N
k
e k o nmero de grupos).
A lgica de uma ANOVA, tal como o nome reflecte (Anlise de Varincia) implica a
comparao de duas estimativas independentes da varincia para a varivel dependente,
uma que reflecte a variabilidade inter-grupos e outra a variabilidade intra-grupos. A
estatstica F precisamente o quociente entre essas duas varincias.

ANOVA
H
0
:
1
=
2
= =
k





MANOVA

= =

=
pk
k
k
p p
H

...
...
... ...
2
1
2
22
12
1
21
11
0

82
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
A extenso directa do teste t, para dois grupos, uma forma especializada da
MANOVA chamada Hotellings T
2
; para k grupos a MANOVA que, por sua vez uma
extenso do Hotellings T
2
.
Em conjunto com a MANOVA pode-se utilizar a MANCOVA (anlise multivariada
de covarincia) para remover o efeito de quaisquer variveis independentes quantitativas
fora de controlo nas variveis dependentes.

7.4.1.6- Anlise em componentes principais (ACP)
O objectivo desta tcnica a reduo da dimensionalidade de grandes matrizes de
dados; transformar os valores de um conjunto de p variveis (mtricas) em valores de k
componentes, com uma perda mnima de informao. As componentes so combinaes
lineares das variveis, e o nmero de componentes no pode ser maior que o nmero de
variveis. Isso quer dizer que k p. As componentes podem ser consideradas como novas
variveis, e cada caso tem um valor para cada uma das componentes. A tcnica pode ser
utilizada para reduzir o conjunto de dados inicial porque muitas vezes 2, 3, ou 4
componentes podem representar quase toda a informao de um grande conjunto de
variveis (por exemplo, 20 ou mais variveis).
A ACP permite analisar grandes conjuntos de dados envolvendo um elevado nmero
de variveis, sem exigir quaisquer pressupostos complicados.
O objectivo geomtrico identificar um conjunto de eixos ortogonais tais que, as
coordenadas das observaes do os valores das novas variveis e, cada nova varivel
uma combinao linear das variveis originais.
A ACP pode-se assim considerar uma tcnica de anlise exploratria de dados que
pode ser til para a melhor compreenso das relaes existentes entre as variveis em
estudo.
A ACP til
Na reduo da dimensionalidade, pois trabalhar com dimenses menores facilita a
visualizao dos dados e a identificao de padres de interesse;
Para identificar padres de associao entre as variveis, pois difcil somente
por inspeco de uma matriz de grande correlao identificar as variveis que
esto juntas devido a um elevado grau de covarincia mtua; esta tarefa
83
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
simplificada olhando para a relao entre as variveis originais e as componentes
principais (c.p.s);
Para testar a normalidade, porque se as c.p.s no forem normalmente
distribudas, ento as variveis originais tambm no o sero;
Na procura de outliers, uma vez que um histograma de cada uma das c.p.s
permite identificar indivduos a que correspondem valores demasiado elevados ou
demasiado baixos;
Na anlise de regresso para ultrapassar o problema da multicolinearidade, pois
as c.p.s so no correlacionadas (determinam-se as primeiras c.p.s relativamente
ao conjunto das variveis independentes, aplicando-se depois a regresso s
componentes seleccionadas);
Para detectar grupos ou efectuar a classificao dos objectos, porque se as duas
primeiras c.p.s explicarem uma boa parte da variabilidade total, pode-se
representar os scores dos indivduos no plano definido por estas duas c.p.s e
tentar visualizar agrupamentos dos pontos obtidos. Se houver necessidade de
utilizar mais do que duas c.p.s usam-se os scores dos indivduos para as c.p.s
mais importantes em vez dos valores iniciais das variveis, e constroem-se os
grupos a partir deles utilizando um dos mtodos de anlise classificatria.
Um conjunto de dados de p variveis pode ser representado graficamente num espao
p-dimensional em relao aos p eixos ou p novos eixos.
O primeiro novo eixo resulta numa nova varivel tal que esta nova varivel explica o
mximo da varincia total. Depois disso, o segundo eixo, ortogonal ao primeiro,
identificado tal que a correspondente nova varivel explica o mximo da varincia que no
foi explicada pela primeira nova varivel. O procedimento repete-se at que todos os p
novos eixos tenham sido identificados tal que as novas variveis explicam sucessivas
varincias mximas e as variveis sejam no correlacionadas.
As c.p.s devem reflectir, tanto quanto possvel, as caractersticas dos dados, que
eram expressas pela diferenciao que as variveis originais permitiam estabelecer; isto ,
devem explicar uma grande parte da variao associada s variveis iniciais.
A varincia de uma c.p. uma medida da quantidade de informao explicada por
essa c.p.. A reduo de dimensionalidade atinge-se considerando apenas algumas das c.p.s
(as de maior varincia).
84
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Em vez de se analisar um elevado nmero de variveis (as originais) com uma
estrutura inter-relacional complexa (pois dizem respeito ao mesmo indivduo), analisam-se
apenas algumas variveis no correlacionadas.
Poder-se- prosseguir a anlise aplicando porventura outras tcnicas estatsticas para
variveis no correlacionadas.
Os loadings das c.p.s (correlaes entre as variveis iniciais e as c.p.s) podem
ajudar na interpretao destas; so teis para dizer quanto da varincia de cada varivel
original X explicada pelas c.p.s.
O pesquisador deve decidir quantas componentes quer reter para futuras anlises,
pesando a simplicidade (um menor nmero de dimenses mais fcil de trabalhar) e a
inteireza (um nmero grande de dimenses capta mais informao disponvel).
Dado que as c.p.s se podem ordenar por ordem decrescente da sua varincia e que
quanto maior for a varincia, mais representativa dos dados originais ser a correspondente
c.p, devem-se reter as primeiras c.p.s.
H vrias regras para determinar o nmero de c.p.s a reter para futuras anlises:
Reter tantas c.p.s quantas as necessrias para que a percentagem de varincia por
elas explicada seja superior a um dado valor fixado a priori;
Reter apenas as c.p.s s quais correspondem valores prprios superiores mdia;
Reter apenas as c.p.s s quais correspondem valores prprios superiores a 1
(critrio de Kaiser);
Utilizar um grfico (Scree-Plot) onde se representam os pontos de abcissa j e
ordenada igual percentagem de varincia explicada pela j-sima c.p., ou seja, os
pontos de coordenadas (j,
j
/ p
j=1

j
), onde se distinguem as c.p.s que
contribuem muito das que contribuem pouco devem-se reter as r que mais
contribuem, destacando-se de forma acentuada das restantes.
De entre estes critrios, o de Kaiser e o scree-plot so os mais vulgarmente
utilizados. A prtica demonstrou j que estes critrios conduzem ambos a solues
credveis se se verificar pelo menos uma das seguintes condies: nmero de variveis
inferior a 30 ou nmero de casos (indivduos) superior a 250. Segundo alguns autores,
quando o nmero de variveis superior a 30 (sobretudo se superior a 50), deve-se
utilizar o scree-plot em detrimento do critrio de Kaiser.
Tal como na anlise discriminante, de modo a facilitar a interpretao, tambm se
procede rotao dos eixos.
85
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Vejam-se ento alguns dos tipos de rotao mais conhecidos.
Varimax: rotao ortogonal (eixos mantm o seu ngulo de 90). Objectivo:
maximizar a varincia dos quadrados dos ponderadores dos factores nas
varincias mantendo, todavia, constante a varincia comum de cada varivel.
Minimiza o nmero de variveis que tm um loading elevado para cada factor.
Simplifica a interpretao dos factores. a mais vulgarmente utilizada.
Quartimax: rotao ortogonal. Objectivo: maximizar a varincia dos
ponderadores dos factores nos factores mantendo, todavia, constante a varincia
comum de cada varivel. Minimiza o nmero de factores necessrios para
explicar cada varivel. Simplifica a interpretao das variveis observadas. Tende
a produzir solues com mais variveis bem correlacionadas com um factor do
que a varimax.
Equamax: combinao do mtodo varimax que simplifica os factores e do mtodo
quartimax que simplifica as variveis. Minimiza o nmero de variveis que tm
um loading elevado num factor e o nmero de factores necessrios para explicar a
varivel.
Direct Oblimin: rotao oblqua (no ortogonal, eixos no mantm o ngulo de
90).
Promax: rotao oblqua que permite que os factores sejam correlacionados.
til para conjuntos de dados grandes porque pode ser calculada mais rapidamente
do que uma rotao direct oblimin.

7.4.1.7- Anlise factorial
O objectivo da anlise factorial analisar a estrutura das correlaes entre um grande
nmero de variveis definindo um conjunto de dimenses comuns subjacentes (factores).
as correlaes de um conjunto de factores. Estes factores so novas variveis definidas
por combinaes lineares das variveis em anlise as quais, em teoria, vo explicar como
que as variveis iniciais esto correlacionadas. Grande parte do valor de cada uma das
correlaes entre as variveis pode ser explicado em termos das influncias dos factores. O
nmero de factores menor (normalmente muito menor) do que o nmero de variveis.
Em rigor, a anlise factorial requer variveis mtricas porque analisa correlaes de
86
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Pearson, mas, em cincias sociais, muito utilizada para analisar correlaes entre
variveis medidas por meio de escalas de avaliao.
O investigador pode identificar as dimenses da estrutura e ento determinar o
quanto cada varivel explicada por cada dimenso. Depois de isto estar feito pode-se
alcanar as grandes utilidades da anlise factorial, que so: resumir e reduzir os dados.
Resumir porque as dimenses quando interpretadas e entendidas descrevem os dados num
nmero muito mais pequeno de conceitos do que as variveis originais. Reduzir porque se
calculam os scores para cada dimenso subjacente e substituem-se as variveis originais.
Existem diversos critrios para decidir o nmero de factores a extrair, tais como:
valores prprios superiores a 1; a priori por conhecimento do investigador; percentagem de
varincia (percentagem cumulativa do total de varincia explicada pelos factores
sucessivos: cincias naturais (95%), cincias sociais (60%)); scree plot.
A interpretao dos factores feita atravs dos loadings dos factores, que so um
meio de interpretar o papel que cada varivel tem na definio de cada factor, ou seja, so
a correlao de cada varivel e factor. Indicam o grau de correspondncia entre a varivel e
o factor (loadings elevados tornam a varivel representativa do factor). Tal como nas
tcnicas vistas anteriormente, a rotao simplifica a estrutura dos factores e torna mais fcil
saber se um factor significativo ou no.
De modo a verificar se adequada utilizao uma anlise factorial, comum o
clculo do ndice KMO (Kaiser-Meyer-Olkin). Segundo COELHO (2005), se este ndice
for inferior a 0,5 ento inaceitvel a utilizao de uma anlise factorial, se for superior a
0,8 a adequao boa.
Primeiro h que ver se a anlise confirmatria ou exploratria. Se for confirmatria
utiliza-se um modelo de equaes estruturais (sub-captulo 3.4.1.14). Se for exploratria
aplica-se a anlise factorial (por variveis ou por indivduos).
Na anlise factorial exploratria no existe qualquer ideia prvia sobre a estrutura dos
dados, isto , sobre o nmero de factores comuns, sobre se os factores so ortogonais ou
oblquos, sobre o nmero de indicadores de cada factor e, sobre os indicadores que
representam cada factor.
Na anlise factorial confirmatria, pelo contrrio, existe j alguma ideia ou teoria
sobre a estrutura dos dados: sobre o nmero de factores, se so ortogonais ou no, sobre o
nmero de indicadores de cada factor, sobre os indicadores que representam cada factor,
etc.
87
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
A anlise factorial pode parecer muito semelhante anlise em componentes
principais, contudo apresentam algumas diferenas fundamentais nos seus objectivos.
Ambas as tcnicas podem ser usadas como mtodos de reduo de dados, mas a anlise
factorial no foi desenhada para isso. O objectivo da ACP a reduo do nmero de
variveis para que cada componente explique o mximo da varincia dos dados (no h
modelo estatstico, apenas uma transformao geomtrica). O objectivo da anlise factorial
exploratria a identificao dos factores subjacentes aos dados que explicam a estrutura
de correlaes dos dados (h modelo estatstico). Tambm, as componentes so
observveis, enquanto que os factores no (so variveis latentes).

7.4.1.8- Anlise de clusters
Esta tcnica tem como objectivo principal o agrupamento de casos com base num
conjunto de variveis. Por outras palavras, a tcnica tenta formar grupos de casos
(chamados clusters). O nmero de clusters (k) no pode ser maior do que o nmero de
variveis (p), e normalmente k muito menor do que p. Os casos dentro de um cluster so
semelhantes entre si em termos dos seus valores num conjunto de variveis, e so mais
semelhantes do que com qualquer um dos casos pertencente a outro cluster.
A dificuldade inicial que no existe uma nica via de definio de grupos, isto ,
um nico critrio de partio e/ou agrupamento dos indivduos ou casos com base numa
nica medida de (dis)semelhana.
As principais etapas de uma anlise de clusters so:
1. A seleco de indivduos ou de uma amostra de indivduos a serem agrupados;
2. A definio de um conjunto de variveis a partir das quais ser obtida a
informao necessria ao agrupamento dos indivduos;
3. A definio de uma medida de semelhana ou dissemelhana entre cada dois
indivduos;
4. A escolha de um critrio de agregao ou desagregao dos indivduos, isto , a
definio de um algoritmo de partio/classificao;
5. A validao dos resultados encontrados.
De seguida apresentam-se os diferentes mtodos de anlise de clusters.
88
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Tcnicas de optimizao: critrio de agrupamento. A sua optimizao indica qual
dever ser o grupo onde cada caso ser includo, pressupondo que todos os casos
pertencem a um nmero k predeterminado de grupos;
Apresentam duas desvantagens, nomeadamente: no existe nenhuma garantia de que
o algoritmo fornea um ptimo global e no apenas um ptimo local e, requer uma
quantidade considervel de tempo de computao, uma vez que o modo mais lgico de o
fazer seria considerar todas as possveis parties [k = 2, 3, 4, ] e escolher a melhor de
todas elas; a sua aplicabilidade s ser torna possvel com a definio, a priori, do nmero
de grupos pretendido.
Tcnicas de densidade: os grupos so formados atravs da procura de regies que
contenham uma concentrao relativamente densa de casos.
Tcnicas hierrquicas: podem-se subdividir em tcnicas aglomerativas (parte-se de
n grupos de apenas um indivduo cada, que vo sendo agrupados sucessivamente at se
encontrar apenas um grupo que incluir a totalidade dos n indivduos) e, divisivas (parte-se
de um grupo que inclui todos os indivduos em estudo e por um processo sistemtico de
divises sucessivas obtm-se n grupos de um elemento cada; so muito pesados em termos
de capacidade informtica); ambas partem de uma matriz de semelhanas ou
dissemelhanas (distncias) entre os casos; conduzem a uma hierarquia de parties P
1
, P
2
,
, P
n
do conjunto de n objectos em 1, 2, , n grupos. Os mtodos dizem-se hierrquicos
porque, para cada par de parties, P
i
e P
i+1
, cada grupo da partio P
i+1
est includo num
grupo da partio P
i
.
Tcnicas no hierrquicas: os mtodos no-hierrquicos baseiam-se na obteno de
um nmero predefinido de clusters, k, que contero todos os casos observados.
Procura-se encontrar os k clusters que melhor solucionam o problema segundo a
minimizao ou maximizao de uma medida de heterogeneidade ou homogeneidade.
Podem-se referir trs diferentes procedimentos, nomeadamente:
Limiar sequencial (sequential threshold): comea por seleccionar uma semente
para um cluster e incluir todos os objectos dentro de uma distncia pr
especificada. Depois uma segunda semente seleccionada e todos os objectos
dentro de uma distncia pr especificada so seleccionados e o processo continua.
Quando um objecto agrupado com uma semente, no mais considerado nas
sementes seguintes.
89
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Limiar paralelo (parallel threshold): selecciona diversas sementes
simultaneamente no incio e distribui os objectos dentro da distncia limiar pela
semente mais prxima. Com o desenrolar do processo, as distncias podem ser
ajustadas para incluir mais ou menos objectos nos clusters.
Optimizao: semelhante aos outros, mas permite a redistribuio dos objectos.
Se durante o processo, um objecto se torna mais prximo de outro cluster do que
daquele em que est designado no presente momento, ento o procedimento de
optimizao muda o objecto para o cluster mais semelhante.
Outras tcnicas: incluem aquelas em que se permite que haja sobreposio de
grupos (fuzzy clusters) e todas as restantes que no foram includas nas anteriormente
definidas. Os mtodos fuzzy associam a cada objecto um vector cujas componentes
representam o grau de ligao do objecto a cada um dos grupos fuzzy. Em consequncia,
cada grupo fica identificado por um vector de coeficientes que representam o grau de
pertena de cada um dos objectos a esse mesmo grupo
Os principais critrios de comparao entre classes so:
Single linkage ou critrio do vizinho mais prximo
Semelhana entre dois grupos a semelhana mxima entre quaisquer dois casos
pertencentes a esses grupos. Qualquer grupo definido como o conjunto de casos em que
qualquer elemento mais semelhante a pelo menos um outro elemento do mesmo grupo do
que a qualquer elemento de outro grupo. A distncia entre os dois grupos a menor das
distncias entre os elementos dos dois grupos.
Complete linkage ou critrio do vizinho mais afastado
Procedimento inverso ao anterior; a distncia entre dois grupos a distncia entre os
seus elementos mais afastados ou menos semelhantes.
Critrio da mdia dos grupos
A distncia entre dois grupos a mdia das distncias entre todos os pares de
indivduos constitudos por elementos dos dois grupos.
Critrio do centride
A distncia entre dois grupos definida como a distncia entre os seus centrides,
pontos definidos pelas mdias das variveis caracterizadoras dos indivduos de cada grupo,
isto , calcula a distncia entre dois grupos como a diferena entre as suas mdias, para
todas as variveis. Apresenta a desvantagem de que se os dois grupos forem muito
90
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
diferentes em termos de dimenso, o centride do novo agrupamento estar mais prximo
daquele que for maior e as caractersticas do grupo menor tendero a perder-se.
Critrio de Ward
Baseia-se na perda de informao resultante do agrupamento dos indivduos.
medida atravs da soma dos quadrados dos desvios das observaes individuais
relativamente s mdias dos grupos em que so classificadas. Os passos para calcular o
critrio de Ward so: 1 calcular as mdias das variveis para cada grupo; 2 calcular o
quadrado da distncia Euclideana entre essas mdias e os valores das variveis para cada
indivduo; 3 somar as distncias para todos os indivduos; 4 minimizar a varincia dentro
dos grupos (soma dos quadrados dos erros ESS)
Uma ferramenta muito utilizada em Anlise de Clusters o dendrograma. O
dendrograma uma rvore de agrupamento que possibilita visualizao, ao longo do
processo de agrupamento, de quais os grupos que se vo subdividindo e do correspondente
nmero de indivduos. D uma ideia do nmero de classes existentes efectivamente na
populao.

7.4.1.9- Anlise loglinear
Esta tcnica uma tcnica no-paramtrica que analisa as relaes entre duas ou mais
variveis nominais. possvel considerar as variveis sem as distinguir entre variveis
dependentes e variveis independentes. Mas tambm possvel designar uma varivel (ou
mais) como varivel dependente e considerar as outras variveis como variveis
independentes.

7.4.1.10- Anlise de correspondncias
A anlise de correspondncias foi desenvolvida por estatsticos franceses e uma
tcnica de interdependncia que permite a utilizao de dados qualitativos e relaes no
lineares.
um mtodo adaptado a tabelas de contingncia (r x p) que permite estudar as
eventuais relaes existentes entre duas variveis nominais; uma tcnica para expor as
linhas e colunas de uma matriz de dados como pontos num espao vectorial de baixa
dimenso.
91
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
A utilidade de uma tcnica como a anlise de correspondncias que o ganho em
interpretao excede muito a perda de informao. A anlise de correspondncias deriva de
conjunto dos scores multidimensionais com uma interpretao geomtrica bem definida e
intencional. uma tcnica mais geomtrica do que estatstica.
De seguida apresenta-se o algoritmo da anlise de correspondncias.
1. Seleco do espao de menor dimenso (seja R
p
admite-se que h menos
propriedades do que indivduos);
2. Transformao da matriz de partida clculo dos perfis dos indivduos em R
p
:
f
ij
/ f
j
= K(i,j) / K(j)
3. Clculo da matriz de inrcia V (p x p) de termo geral v
jj
:
v
jj
=
n

i=1
f
i
((f
ij
/(f
j
f
i
)) - f
j
)(f
ij
/(f
j
f
i
) - f
j
)
ou da matriz simtrica equivalente T de termo geral
t
jj
: t
jj
=
n

i=1
((f
ij
f
ij
)/(f
i
(f
j
f
j
)))
4. Diagonalizao da matriz de inrcia T e obteno dos seus valores prprios

e
vectores prprios u

.
5. Anlise do histograma dos valores prprios e escolha da dimenso do espao cuja
inrcia acumulada explique uma percentagem significativa da inrcia inicial (em
geral 2 ou 3 eixos).
6. Projeco dos indivduos nos eixos de inrcia retidos:
f
i
=
p

j=1
(f
ij
/ (f
i
f
j
) u
j
)
7. Projeco das propriedades nos eixos de inrcia retidos:
f
j
= (1/

)
n

i=1
(f
ij
/ f
i
) f
i

8. Clculo eventual da projeco de elementos em suplementar.
9. Reconstituio eventual da matriz de partida e confirmao da aproximao
escolhida (nmero de valores prprios retidos).
10. Clculo das contribuies absolutas e relativas.
11. Interpretao com base em valores prprios, projeco dos indivduos e
propriedades nos eixos factoriais, contribuies absolutas e relativas, etc.
Para mais informaes sobre esta tcnica recomenda-se LEBART (1995) ou
COELHO (2005).


92
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
7.4.1.11- Anlise conjunta
Esta uma tcnica de dependncias emergente que trouxe sofisticao avaliao de
objectos, como por exemplo, novos produtos, servios ou ideias.
uma tcnica usada especificamente para entender como que os inquiridos
desenvolvem preferncias por produtos e servios. baseada na premissa simples de que
os consumidores avaliam o valor de um produto/servio/ideia (real ou hipottico)
combinando conjuntos separados de valor dados por cada atributo.
A Utilidade, que a base conceptual para medir o valor numa anlise conjunta, um
julgamento subjectivo de preferncia nica para cada indivduo. Assume-se que a Utilidade
baseada no valor colocado em cada um dos nveis dos atributos e expressa numa relao
que reflecte a forma como a Utilidade formulada para qualquer combinao de atributos.
Para que esta tcnica seja bem sucedida, o investigador deve ser capaz de descrever o
produto ou servio em termos tanto dos seus atributos como de todos os valores relevantes
para cada atributo. Usa-se o termo factor para descrever um atributo especfico ou outra
caracterstica do produto/servio. Os possveis valores para cada factor so chamados
nveis. Descreve-se um produto ou servio em termos do seu nvel no conjunto de factores
caracterizadores.
a nica entre todas as tcnicas multivariadas na qual o investigador primeiro
constri um conjunto de produtos ou servios reais ou hipotticos combinando nveis
seleccionados de cada atributo. Essas combinaes so ento apresentadas aos inquiridos
que, por sua vez, do apenas a sua avaliao global. O inquirido deve escolher entre um
conjunto de produtos. Os inquiridos no precisam dizer mais nada, como por exemplo
quo importante foi um determinado atributo para eles ou como o produto desempenha
determinado atributo; apenas tm que indicar a sua preferncia. Como o investigador
construiu os hipotticos produtos ou servios de uma forma especfica, a influncia de cada
atributo e do valor de cada atributo no julgamento de Utilidade do inquirido podem ser
determinados atravs da resposta global do inquirido.

7.4.1.12- Correlao cannica
uma extenso da anlise de regresso mltipla. O objectivo correlacionar
simultaneamente diversas variveis dependentes quantitativas e diversas variveis
independentes quantitativas.
93
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Facilita o estudo das inter-relaes entre conjuntos de diversas variveis dependentes
e diversas variveis independentes. Enquanto a regresso mltipla prev uma nica
varivel dependente atravs de um conjunto de variveis independentes, a correlao
cannica simultaneamente prev vrias variveis dependentes atravs de vrias variveis
independentes.
Segundo ANDERSON (1998) apresenta as seguintes desvantagens:
Reflecte a varincia partilhada pelas combinaes lineares de conjuntos de
variveis, no a varincia extrada das variveis;
Os pesos cannicos esto sujeitos a grande instabilidade;
Os pesos cannicos so derivados para maximizar a correlao entre as
combinaes lineares, no a varincia extrada.
A interpretao pode ser difcil (no existem mtodos de ajuda interpretao
como a rotao);
difcil identificar relaes significativas entre os conjuntos de variveis
dependentes e independentes porque ainda no foram desenvolvidos estatsticas
precisas para interpretar a anlise cannica (utilizando-se, at ao momento,
medidas inadequadas como os loadings ou os cross-loadings).

7.4.1.13- Escalonamento multidimensional
O objectivo desta tcnica transformar as opinies do consumidor sobre semelhanas
ou preferncias em distncias representadas num espao cartesiano. Quanto mais prximos
estiverem dois pontos, mais semelhantes so as opinies dos consumidores sobre os dois
objectos. O mapa perceptual mostra as posies relativas entre os objectos, mas so
necessrias outras anlises para descrever ou aceder a quais atributos determinam a posio
de cada objecto.
O investigador tem, partida, que tomar diversas decises, tais como: qual ser a
base de avaliao (preferncias ou semelhanas); se quer uma anlise de agregao
(poucos mapas perceptuais) ou desagregao (um mapa para cada sujeito); se os atributos
sero especificados pelo investigador (mtodos composicionais) ou apenas medidas de
preferncia globais (mtodos de decomposio), entre outros.
As tcnicas e procedimentos do mtodo esto bastante desenvolvidos em
ANDERSON (1998).
94
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Um caso particular do escalonamento multidimensional, com muita utilidade, a
anlise de correspondncias que foi desenvolvida no sub-captulo 3.3.1.10.

7.4.1.14- Modelos de equaes estruturais
Os modelos de equaes estruturais permitem separar as relaes para cada varivel
dependente de um conjunto de variveis dependentes. utilizada para uma srie de
regresses mltiplas separadas estimadas simultaneamente. caracterizada por duas
componentes bsicas: o modelo estrutural (relaciona as variveis independentes com as
dependentes) e o modelo de medida (permite que o investigador use diversas variveis
indicadores para uma nica varivel independente ou dependente variveis latentes).
As tcnicas de modelos de equaes estruturais so distintas por duas razes:
permitem estimar relaes de dependncia mltiplas e interrelacionadas e, permitem
representar conceitos no observveis nessas relaes, ou seja, incorporar variveis que
no so medidas directamente (variveis latentes).
Variveis observveis so caractersticas das unidades estatsticas que so passveis
de medio ou observao directa como, por exemplo, a nota num exame, as vendas de
uma empresa, etc.
Variveis latentes ou no observveis so conceitos que no so passveis de medida
directa e s indirectamente podem ser medidos atravs do recurso a variveis observveis
como, por exemplo, a inteligncia, a imagem de uma empresa, a atitude de um
consumidor, etc.
So utilizados em modelos confirmatrios, ou seja, o investigador especifica um
modelo e usa os modelos de equaes estruturais para aceder sua significncia estatstica.
Mesmo que o modelo tenha um ajustamento aceitvel, o investigador no prova o modelo,
apenas confirma que um entre outros possveis modelos, pois vrios modelos diferentes
podem ter a mesma qualidade de ajustamento. O investigador pode ento utilizar uma
estratgia de modelos competitivos, ou seja, comparar outros modelos diferentes e
encontrar o melhor.
Para mais informaes sobre os modelos de equaes estruturais, consultar, por
exemplo, COELHO (2005).

95
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
7.4.1.15- Tcnicas emergentes
A anlise de dados, especialmente a anlise multivariada, uma rea em grande
desenvolvimento e, nos ltimos anos, a par com o desenvolvimento tecnolgico, tm
surgido muitas tcnicas. Neste sub-captulo sero levemente abordadas tcnicas como:
Data Warehouse, Data Mining, Redes Neuronais e Reamostragem.
Data Warehouse
Procura combinar todas as fontes de dados e informao relevante de uma
organizao em apenas uma base de dados com uma estrutura favorvel ao processo de
tomada de deciso em todos os nveis da organizao.
Data Mining
uma nova perspectiva da anlise de dados mais voltada para o modo exploratrio
do que o confirmatrio. Dado o vasto conjunto de dados disponveis (provenientes de bases
de dados e data warehouses), a perspectiva do investigador torna-se mais direccionada
para as caractersticas dos dados e no tanto para a generalizao para outras situaes. O
investigador segue uma estratgia de descoberta atravs da examinao dos dados para
todos os tipos de relaes.
Redes Neuronais
uma ferramenta poderosa de explorao, descoberta e de previso baseando-se na
quantificao e replicao de padres complexos dos dados. No de fcil interpretao
devido s relaes complexas que so integradas invisivelmente pela metodologia. O
investigador deve utilizar estas tcnicas para explorar e prever, mas no tanto para
explicar.
So algoritmos computacionais de redes de elementos simples (como os neurnios do
crebro humano) fortemente conectados.
Reamostragem
Tcnicas especialmente teis para a validao de um modelo. As mais conhecidas
so: Jackknife e Bootstrap.
Jackknife (v-fold ou leave-one-out no caso de os grupos terem cardinal 1)
Foi introduzido por McCarthy em 1966 como uma tcnica para a estimao da
varincia, mas foi originalmente desenvolvido por Quenouille em 1956 para a reduo do
vis de um estimador.
O processo o seguinte: retira-se uma observao, conduz-se a anlise com as
restantes observaes (diga-se v-1) e ento usa-se o vector a
1
para calcular o valor de Y
1

96
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
para a observao particular que se retirou para teste. Repete-se o processo v vezes,
conduzindo uma anlise diferente para cada subconjunto de v-1 observaes. Pode-se ento
comparar a varincia dos valores de Jackknife com a varincia de quando se fez a anlise
usando todas as observaes.
Bootstrap
Foi introduzido por Efron em 1982 como uma metodologia no-paramtrica geral
para diversos problemas estatsticos (vis, varincia e erros comuns de medio). Desde
ento a tcnica foi aplicada a muitas reas usando simulao computacional para uma
variedade de varincias no comuns e problemas de aproximao de intervalos de
confiana quando a trabalhar com observaes independentes. S recentemente foi
aplicada para estimao de varincia de estimadores no lineares em inquritos complexos.
Na ausncia de uma amostra de teste, pode-se obter um conjunto novo de
observaes por reamostragem dos dados. Se se assumir que os dados da amostra so
representativos da populao em questo, ento tomando n amostras (com reposio, o que
significa que algumas amostras vo aparecer mais do que uma vez e algumas nenhuma
vez) estas devem reproduzir a variabilidade introduzida pela amostragem da populao
como um todo.
Forma-se uma combinao linear dos dados bootstrapped usando o vector a
1
do
conjunto de dados inicial. Pode-se ento comparar a varincia desta combinao com a
varincia da primeira componente da amostra bootstrapped. Se a comparao for prxima
por exemplo, se o rcio for prximo de 1 conclui-se que a variao comum
populao em estudo. Se o rcio for pequeno, ento conclui-se que no se pode generalizar
a descoberta para fora da amostra.

7.5- REPRESENTAES GRFICAS
A representao grfica de resultados tem como principal objectivo a visualizao de
caractersticas da varivel em estudo na amostra, ou seja de estatsticas amostrais, de forma
simples e de fcil aquisio mental.
Se bem que a representao grfica seja um auxiliar poderoso para a ilustrao das
variveis na amostra em estudo (desde que elaborados correctamente), a sua interpretao
exacta dificultada pela necessidade de interpolao de valores para os eixos (e por isso
97
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
sujeito a erros de medio), da que, para anlises mais cuidadas, torna-se necessrio a
apresentao das estatsticas calculadas a partir da amostra.
No entanto, no h ferramenta estatstica que seja to poderosa como um grfico bem
escolhido. Os grficos tm muitas vantagens em relao s apresentaes tabulares de
dados numricos por criarem interesse e atrarem a ateno das pessoas. A anlise grfica
um meio para descobrir o inesperado.
A representao grfica decisiva para a anlise de dados. a linha da frente de
ataque, revelando estruturas intrincadas nos dados que no podem ser absorvidas de
qualquer outra forma.
Os instrumentos e tcnicas de representao de dados ajudam a criar imagens de duas
ou trs dimenses de dados que podem assim ser interpretados mais facilmente de modo a
se ganhar conhecimento e compreenso sobre eles. Com a representao dos dados, pode-
se identificar e compreender a informao que interessa e os padres no conjunto de dados
ajudando assim na tomada de deciso e na previso de novas oportunidades de negcio.
Os padres observados na prospeco e descoberta de informao podem at no
elucidar muito o fenmeno sob investigao; contudo, descobrir anomalias e deficincias
nos dados pode ser realmente valioso.
A representao grfica uma chave para a descobrir novos padres e tendncias e
para comunicar estas descobertas a quem ir tomar as decises. As representaes grficas
de dados enviam mensagens poderosas s pessoas. O uso de imagens tem um impacto
muito mais vvido dos que um conjunto de nmeros, tal como diz o ditado, uma imagem
vale mais do que mil palavras.
Quando se escolhe a representao grfica adequada para o conjunto de dados deve-
se ter em considerao a legibilidade do tipo de grfico escolhido e o pblico-alvo.
No h um nico mtodo de representao de dados multivariados que seja uma
soluo universal. Alguns so melhores para mostrar clusters ou outliers, enquanto outros
podem mostrar dois ou trs tipos de correlao. Alguns suportam conjuntos de dados
maiores enquanto que outros so melhores para conjuntos mais pequenos. Isto implica que
os pacotes de anlise estatstica contenham um arsenal de diferentes tipos de
representaes.
O primeiro passo para escolher a representao adequada descobrir quais as que
esto em condies de responder questo, e o segundo passo determinar que
representao especfica se aplica melhor situao em particular. H muitas tcnicas que
98
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
fazem a mesma funo usando diferentes processos e cada uma tem os seus pontos fortes e
fracos. A escolha depende do que est sob investigao e de como os resultados sero
usados.
A melhor representao deve responder positivamente s seguintes questes:
Os resultados tm boa exactido?
Os resultados so interpretveis; os especialistas da rea, os analistas de dados e
os decisores podem entend-los?
A representao fornece resultados rapidamente?
fcil implementar os resultados numa situao real?
A representao suporta os dados que esto disponveis para explorar?
De seguida aborda-se muito sucintamente as representaes grficas mais comuns.
Estas representaes encontram-se disponveis na maioria dos packages estatsticos.
Histogramas: Grficos utilizados para determinadas funes estatsticas especficas;
permitem categorizar uma varivel quantitativa e obter um grfico de colunas com o
aspecto da distribuio da varivel, ou seja, uma representao grfica de uma nica
varivel que representa a frequncia das ocorrncias (valores dos dados) dentro de
categorias dos dados; permitem descobrir desequilbrios nos dados
Grficos de Pareto: So semelhantes aos histogramas mas utilizam variveis
nominais nas abcissas que so ordenadas segundo o valor das frequncias; normalmente
contm um grfico de linhas combinado apresentando o polgono de frequncias
cumulativas.
Grficos de caule e folhas: So uma variante do histograma; apresenta a mesma
imagem que o histograma mas tambm prov uma enumerao dos reais valores dos
dados.
Grficos de disperso: Representam pelo menos uma varivel quantitativa nas
ordenadas e outra nas abcissas. So teis para ilustrar a relao casustica ou de mera
associao. Permitem descobrir clusters, outliers, tendncias e correlaes. Podem-se
adicionar linhas de regresso de y em x para indicar se existe uma relao no linear e
identificar possveis outliers.
Matriz de grficos de disperso: Para um conjunto de dados multivariados com
mais do que duas variveis. til para examinar relaes entre todos os pares de variveis.
Consiste numa grelha quadrada simtrica de grficos de disperso bivariados. Pode-se
tornar demasiado confuso se o nmero de variveis for elevado.
99
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Grficos de barras e de colunas: Permitem comparaes entre grupos. Utilizados
para construir histogramas, pictogramas e pirmides etrias.
Grficos de linhas e de pontos: So teis para analisar, procurar e mostrar
tendncias temporais e padres de sries cronolgicas.
Grficos de controlo: Grfico de linhas com limites de controlo; permitem verificar
rapidamente se uma varivel crtica para um processo se encontra dentro de determinados
parmetros de segurana ou qualidade.
Grfico de reas: Representam vrias variveis quantitativas justapostas.
Grfico de superfcie: Representam variveis quantitativas em trs eixos; so muito
utilizados para construir cartogramas.
Grfico de bolhas: Semelhante ao grfico de disperso mas utiliza mais uma
varivel contnua para a dimenso da bolha.
Grficos circulares e em anel: Permitem resumir um conjunto de variveis;
visualizar fraces sobre um total; representar a informao em termos percentuais de
variveis nominais.
Grficos de radar ou teia: Permitem utilizar um nmero elevado de variveis
contnuas associando um eixo radial a cada uma; permitem ver simetria ou uniformidade
de dimenses de dados contnuos, pois pode-se ver quanto os dados flutuam observando se
a espiral suave ou tem picos. So teis para procurar e avaliar tendncias sazonais ou
outras tendncias no conjunto de dados como um todo.
Grficos de extremos e quartis: Permitem resumir um conjunto de estatstica
relativo a vrias variveis quantitativas ou ordinais ou uma varivel cruzada com outra no
quantitativa.
Barras de erro: So semelhantes ao grfico de extremos e quartis mas utilizam
estatsticas como mdias e desvios padro em vez da mediana e distncia interquantlica.
So teis para entender informao da estatstica descritiva e para analisar medidas de
tendncia central (tais como mediana, e moda) ou tambm varincia.
As representaes indicadas a seguir so bastante recentes e inovadoras. Exemplos
destas representaes podem ser encontrados, por exemplo em ANDERSON (1998) e
DAVIDSON (2002).
Glyphs: A posio do raio identifica a varivel que representa e o seu comprimento
indica a categoria da varivel que foi atribuda ao indivduo.
100
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Estrelas: Semelhantes aos glyphs, mas os raios so marcados a partir do centro do
crculo e as suas extremidades unem-se de modo a formar polgonos.
Faces de Chernoff: Cada indivduo representado por uma face e diferentes valores
da varivel produzem diferentes tamanhos ou formas das caractersticas da face.
Perfis: Um perfil pode representar cada indivduo ou um grupo de indivduos (perfis
de mdias) ou ainda cada varivel (unindo-se tantos pontos quantos os indivduos).
Mapas: Permitem explorar relaes geogrficas no conjunto de dados.
rvores: Permitem explorar relaes entre nveis hierrquicos.
A figura seguinte apresenta uma sntese dos diversos tipos de grficos aqui
apresentados classificados segundo o tipo e nmero de variveis que representam.

Tipologia
de grficos
Variveis
quantitativas
Variveis
qualitativas
Variveis quantitativas
e qualitativas




101

2 var.
> 2 var.
1 var. 1 var.
1 v. quant.
/1 v. qualit.
ordinal
1 v. quant./
1 v. qualit.
Outros





Esta uma rea em franco desenvolvimento, esperando-se: cada vez mais tipos de
representaes; a mudana de representaes estticas para dinmicas e interactivas e, a
capacidade de representar cada vez mais dados e cada vez mais complexos.

8- ETAPA 6: PRODUO DO RELATRIO
Uma vez analisados os dados, necessrio apresentar os resultados. Deve-se ento
resumir os resultados da anlise dos dados de modo a que os decisores os compreendam e
os usem como base de aco.
importante que a forma de apresentao realce a informao importante. Os
relatrios devem ser claros, fceis de entender, sintticos, bem organizados e correctos.
Histograma
Pareto
Caule e folhas
Extremos e
quartis
Barras de erro
Disperso
Mapas
Grafos
Estrelas
Perfis
Faces de
Chernoff
Barras
Colunas
Extremos e
quartis
Barras de erro
Linhas
Pontos
reas
Controlo
Bolhas
Superfcie
Radar
Circular
Anel
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
Ao produzir o relatrio sempre necessrio ter em ateno para quem que o
relatrio se dirige. Geralmente, o relatrio dirige-se ao decisor, que por norma ser uma
pessoa bastante ocupada e sem grande interesse pelos pormenores tcnicos da investigao,
mas sim pelos resultados prticos.
Assim, comum a utilizao de um sumrio executivo escrito em linguagem simples
e no tcnica mas com os principais resultados identificados no estudo e mesmo sugestes
de aces ou decises a tomar. No entanto, este sumrio deve ser sempre acompanhado de
um relatrio tcnico completo, fornecendo ao leitor dois nveis de informao que dever
utilizar em funo das necessidades e do seu grau de conhecimento das tcnicas utilizadas.

9- ETAPA 7: DIVULGAO DOS RESULTADOS
Ao se divulgar os resultados, coloca-se o relatrio nas mos de pessoas que os
utilizaro para marcar a diferena e aumentar o retorno do investimento feito.
O objectivo do processo de inqurito assegurar melhores decises. No se devem
realizar inquritos se no se vai produzir resultados ou actuar com base neles.
Um software de apresentao dos resultados deve permitir que quem os recebe possa
interagir com os quadros e os grficos produzidos; deve permitir que cada receptor do
relatrio tenha a possibilidade de visualizar os resultados pelo ngulo que pretender. Ou
seja, cada decisor pode criar uma viso particular dos resultados para melhor fundamentar
a sua deciso. O grau de interaco com os resultados depender do tipo de audincia
(decisores, empregados, clientes, ).










102
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
10- CONCLUSO
Como concluso apresenta-se neste captulo um resumo de cada uma das etapas de
uma pesquisa por inqurito discutidas nos captulos anteriores.
Em relao etapa 1 (Planeamento e desenho do inqurito) os passos a seguir
devero ser: definir objectivos e hipteses a testar; determinar o oramento, calendrio e
recursos; definir a populao; determinar objectivamente a dimenso apropriada da
amostra e a tcnica amostral a utilizar; escolher o mtodo de recolha de dados; elaborar o
questionrio de forma adequada e, testar o questionrio.
Na etapa 2 (Recolha dos dados) necessrio, se possvel, eliminar a entrada manual
dos dados escolhendo mtodos automticos; tentar obter dados no enviesados; tentar
maximizar a taxa de resposta e, evitar que o processo de recolha de dados leve demasiado
tempo.
Na etapa 3 (Acesso a dados) deve-se ter em ateno os seguintes aspectos: evitar a
dupla entrada de dados utilizando software de recolha e de anlise compatvel e, utilizar as
definies dos dados feitas no desenho do questionrio no caso de se utilizar mtodos
automticos de recolha de dados.
Em relao preparao e gesto dos dados (Etapa 4), os aspectos fundamentais so:
a obteno de dados limpos para anlise utilizando regras de validao na construo do
questionrio; a deteco e correco de possveis erros e, se necessrio a criao de novos
dados a partir dos originais atravs de operaes de transformao para executar
determinadas anlises. A fase de preparao dos dados fundamental, pois o principal
objectivo de uma investigao por inqurito o apoio deciso e, segundo JURAN (1998)
as decises nunca podem ser melhores do que os dados em que se baseiam.
Na quinta etapa (Anlise dos dados) os objectivos so: produzir estatsticas
descritivas para obter uma fotografia dos dados; retirar o mximo possvel de
conhecimento dos dados e, construir modelos de suporte deciso.
necessrio saber escolher, de entre os muitos mtodos existentes, o mtodo de
anlise de dados mais adequado a cada situao.
Algumas consideraes a ter em conta para escolher a tcnica estatstica adequada
so: considerar cuidadosamente a hiptese geral (decidir entre uma anlise de diferenas
entre amostras ou uma anlise de relao entre variveis); considerar a natureza das
variveis; considerar a escala de medida da varivel dependente (decidir entre tcnicas
103
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
paramtricas e no-paramtricas; se a tcnica for uma tcnica para analisar a relao entre
variveis preciso considerar a escala de medida de todas as variveis na anlise);
examinar os dados, ou seja, verificar se os dados recolhidos cumprem os pressupostos da
tcnica estatstica que se quer aplicar (caso no verifiquem os pressupostos h duas
alternativas: abandonar a tcnica escolhida e escolher uma outra para a qual os dados
cumpram os pressupostos; transformar os dados de forma a cumprirem os pressupostos da
tcnica escolhida).
Na etapa 6 (Produo do relatrio) necessrio personalizar os quadros e grficos
para melhor evidenciar os resultados e, produzir um relatrio simples e de fcil
interpretao.
Na stima e ltima etapa, referente divulgao dos resultados, deve-se ter em
ateno os seguintes aspectos: distribuir os resultados rapidamente; permitir aos decisores
a interaco com os quadros de resultados e, controlar a segurana de acesso e a
confidencialidade determinando o que cada pessoa pode ver e at onde.
Uma investigao por inqurito, para ser eficaz, necessita que todas as etapas sejam
bem executadas. Uma falha em qualquer uma das etapas, (seja na elaborao do
questionrio, na preparao dos dados, na anlise dos resultados, ) pode pr em causa a
validade de toda a investigao.















104
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
BIBLIOGRAFIA
AMARAL, I., FERREIRA, M.A. (2001). Probabilidades e Estatstica Formulrio, 5
Edio. Lisboa: Edies Slabo.

ANDERSON, R.E., BLACK, W.C., HAIR, J.F.Jr., TATHAM, R.L. (1998).
Multivariate Data Analysis. New Jersey, USA: Prentice Hall.

ANDRADE, R., CALAPEZ, T., MELO, P., REIS, E. (1997). Estatstica Aplicada.
Lisboa: Edies Slabo.

BACELAR, S. M. (1999). Amostragem nas Cincias Sociais Relatrio de aula
terico-prtica. Porto, Portugal: Faculdade de Economia, Universidade do Porto.

BIRN, R. J., HARRIS P., WOLF A. (2000). The International Handbook of Market
research Techniques (pp. 43-100), 2 Edio. Londres: Kogan Page.

BRILHANTE, F. (2002). Apontamentos da Disciplina de Probabilidades e Estatstica
I. Ponta Delgada: Departamento de Matemtica da Universidade dos Aores.

BRILHANTE, F. (2004). Apontamentos da Disciplina de Modelos Estatsticos I. Ponta
Delgada: Departamento de Matemtica da Universidade dos Aores.

CABRAL, J.A.S., GUIMARES, R.C. (1997). Estatstica. Lisboa: McGraw Hill.

CARDOSO, M. M. (2000). Segmentao: Uma Aplicao no Turismo. Lisboa: IST.

CARROLL, J.D., GREEN, P.E., LATTIN, J. (2003). Analysing Multivariate Data.
Pacific Grove, USA: Duxbury.

COELHO, P.S., VILARES, M.J. (2005). A Satisfao e Lealdade do Cliente
Metodologias de avaliao, gesto e anlise. Lisboa: Escolar Editora.

105
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
DAVIDSON, I., SOUKUP, T. (2002). Visual Data Mining: Techniques and tools for
data visualization and mining. Danvers, USA: John Wiley & Sons.

DUNN, G., EVERITT, B.S. (2001). Applied Multivariate Data Analysis. London, UK:
Edward Arnold.

EVERITT, B.S., LANDAU, S., LEESE, M. (2001). Cluster Analysis. London, UK:
Edward Arnold.

FERRO, F., REIS, E., VICENTE, P. (2001). Sondagens A amostragem como factor
decisivo de qualidade, 2 Edio. Lisboa: Edies Slabo.

FIDELL, L.S., TABACHNICK, B.G. (2001). Using Multivariate Statistic. Boston,
USA: Allyn&Bacon.

GOODE, W., HATT, P. (1979). Mtodos em Pesquisa Social (pp. 171-235), 7 Edio.
So Paulo, Brasil: Companhia Editora Nacional.

HAND, D., MANNILA, H., SMYTH, P. (s/d). Principles of Data Mining. London,
UK: MIT Press.

HILL, A., HILL M. M. (2000). Investigao por Questionrio. Lisboa: Edies Slabo.

HOLLOWAY, J. C. (2004). Marketing for Tourism (pp. 89-96), 4 Edio. Inglaterra:
Pearson Education.

JOHNSON, R.A., WICHERN, D.W. (2002). Applied Multivariate Statistical Analysis.
Upper Saddle River, USA: Prentice Hall.

JURAN, M.J., GODFREF, A.B. (1998). Jurans Quality Handbook. New York, USA:
McGraw Hill.

106
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO
KACKIGAN, S. (1991). Multivariate Statistical Analysis, 2 Edio. New York, USA:
Radius Press.

LARSON, H. J. (1982). Introduction to Probability Theory and Statistical Inference.
New York, USA: John Wiliey & Sons.

LEBART, L., MORINEAU, A., PIRON, M. (1995). Statistique Exploratoire
Mutimensionnelle. Paris, Frana: Dunod.

LEHTONEM, R., PAHKINEM, E. (2004). Practical Methods for Design and Analysis
of Complex Surveys. Inglaterra: John Wileyd Sons Ltd.

LEVY, P.S., LEMESHOW, S. (1999). Sampling of Populations: methods and
applications. New York, USA: John Wiley & Sons.

MAROCO, J. (2003). Anlise Estatstica com utilizao do SPSS. Lisboa: Edies
Slabo.

MELLO, F. G. (1993). Probabilidades e Estatsticas: Conceitos e Mtodos
Fundamentais, Volume II. Lisboa: Escolar Editora.

MURTEIRA, B. J. F. (1990). Probabilidades e Estatstica, Volume II. Lisboa:
McGraw-Hill.

PINDYCK, R.S., RUBINFELD, D.L. (1991). Econometric Models and Economic
Forecasts, 3 Edio. New York, USA: McGraw-Hill.

PINTO, J.M., SILVA, A. S. (1986). Metodologia das Cincias Sociais (pp. 165-195),
8edio. Porto, Portugal: Edies Afrontamento.

REIS, E. (2001). Estatstica Multivariada Aplicada. Lisboa: Edies Slabo.

107
Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
INVESTIGAO POR INQURITO

Nisa vila do Couto Alves Cabral Licenciatura em Matemtica Aplicada, U.A., Ano Lectivo 2005/2006
108
ROCHA, J . C. (1990). Tabelas de Contingncia. Ponta Delgada: Departamento de
Matemtica da Universidade dos Aores.

RODRGUEZ, P. G., BURGUETE, J . L. V., ESTEBAN, R. A., VALIO, P. C.
(2004). Estrategias de gestin medioambiental: Barreras y beneficios en el turismo
rural de Castilla y Len Em: (Eds.) Gerir a Competitividade Regional num Mundo
Globalizado, J ornadas Luso-Espanholas de Gesto Cientfica, 14 ed., Univ. dos
Aores.

www.pse.com, O Como e o Porqu da Pesquisa por Inqurito.














DEPARTAMENTO DE MATEMTICA
Seco de Estatstica e Investigao Operacional
Nisa vila do Couto Alves Cabral

Cabral, Nisa A.C.A. (2006) Investigao por Inqurito
Monografias da SEIO. Depto. Matemtica da Univ. dos
Aores: Ponta Delgada, www.uac.pt/~amendes (ID 54.499)
O trabalho apresentado da exclusiva responsabilidade da aluna que o assina. O Departamento
de Matemtica e a Universidade dos Aores no se responsabilizam por eventuais erros
existentes no mesmo.
Os textos podem ser descarregados livremente, impressos e utilizados para ensino ou estudo
dos temas a que se referem. No entanto, no podem ser copiados ou includos noutros trabalhos
acadmicos ou de qualquer outra natureza, sem o consentimento do autor e a devida referncia
completa. Para autorizao de cpia parcial ou integral, utilize o endereo de correio electrnico:
seio@notes.uac.pt