Você está na página 1de 27

Anlise quantitativa no estudo da variao lingustica: noes de estatstica e anlise comparativa entre Varbrul e SPSS

Quantitative analysis in the study of language variation: notions of statistical and comparative analysis Varbrul and SPSS
Alan Jardel de Oliveira
Universidade Federal de Minas Gerais - UFMG

Resumo
Este artigo apresenta um estudo do modelo estatstico utilizado nos estudos variacionistas e uma anlise das especificidades do software Varbrul em relao aos mtodos convencionais de estimao de parmetros. Alm disso, apresenta os aspectos tericos estatsticos mais relevantes que contribuem para a anlise da variao lingustica e uma anlise comparativa entre os resultados do Varbrul e do SPSS.

Palavras-chave
Sociolingustica variacionista, Mtodos quantitativos em lingustica, Softwares Varbrul e SPSS

94

OLIVEIRA

Abstract
This article presents a study of a statistical model used in the variational studies and an analysis of specifity of Varbrul compared to conventional methods of parameter estimation. It also presents the most relevant theoretical aspects of statistics that contribute to the analysis of language variation and a comparison between the results of Varbrul and SPSS.

Keywords
Variationist sociolinguistics, Quantitative methods in linguistics, Varbrul and SPSS softwares

Rev. Est. Ling., Belo Horizonte, v. 17, n. 2, p. 93-119, jul./dez. 2009

95

1. Introduo

anlise quantitativa est na base dos estudos sociolingusticos variacionistas. Desde os primeiros estudos em variao lingustica (FISHER (1974) [1958], LABOV (1963) e LABOV (1964)) tem-se adotado modelos quantitativos para dar suporte necessidade de se estudar a linguagem em uso e a variao lingustica na forma como ela ocorre na fala de uma comunidade lingustica. A identificao da variabilidade ocorrida nas lnguas como um fenmeno dependente de determinadas variveis, e no como uma variao livre como propunham os estruturalistas, foi possvel a partir do desenvolvimento de tcnicas eficazes de anlise de tal variabilidade. A homogeneidade do sistema lingustico e a ocorrncia da variao livre na perspectivas estruturalista deram lugar, nos estudos variacionistas, heterogeneidade, passvel de observao e de quantificao, e a uma variabilidade condicionada por fatores sociais e por fatores lingusticos. A partir de uma pesquisa bibliogrfica na rea da sociolingustica variacionista, possvel constatar que o aprofundamento no estudo dos mtodos estatsticos utilizados no estudo da variao lingustica no tem recebido, na maioria das vezes, a ateno merecida. No entanto, tal aprofundamento de fundamental importncia, na medida em que grande parte dos estudos variacionistas utiliza metodologias de anlise quantitativa. O software Varbrul, criado por David Sankoff em 1972, e aprimorado nos anos seguintes,1 permitiu aos linguistas interessados no estudo da variao o acesso a mtodos de anlise estatstica. Entretanto, a facilidade no acesso e na interpretao dos resultados gerados pelo Varbrul gerou tambm a possibilidade de utilizao de mtodos estatsticos sem que se tivesse necessariamente um conhecimento estatstico mais geral ou mesmo um conhecimento mais especfico dos procedimentos internos utilizados pelo prprio Varbrul. Guy (1988, p. 25), num texto intitulado Varbrul: anlise avanada, afirma que os mtodos e problemas associados anlise quantitativa, entre linguistas, (...) costumam passar de boca

96

OLIVEIRA

em boca, uma verso acadmica da tradio pr-letrada da histria oral. O autor afirma que escreve no como um desbravador ou inovador, mas como um mero compilador das histrias contadas por aqueles que sabem. As ideias expressas por Guy revelam uma realidade nos estudos variacionistas. Uma busca por referncias bibliogrficas mais aprofundadas do modelo estatstico utilizado pelo Varbrul e, consequentemente, do modelo mais utilizado pela sociolingustica, indica que todo o desenvolvimento terico do modelo estatstico implantado no Varbrul parece concentrar-se em uma pequena quantidade de textos. Alm disso, o Varbrul parece carregar consigo o mito de que somente ele capaz de analisar com eficincia os dados coletados nos estudos variacionistas e que o mtodo estatstico e os procedimentos realizados por ele so exclusivos e especficos para a anlise lingustica. Sobre esse aspecto, Guy e Zilles (2007, p. 106) afirmam que o Varbrul tem certas vantagens que fazem dele uma boa opo para o sociolinguista. Em primeiro lugar, ele dedicado estruturao dos dados que encontramos na linguagem natural. Esse artigo objetiva demonstrar que o Varbrul utiliza um modelo estatstico que amplamente difundido e utilizado nas mais diversas reas do conhecimento e est disponvel em outros softwares estatsticos, entretanto, ele diferencia-se por utilizar mtodos pouco convencionais de codificao2 das variveis independentes. Limitarmos o estudo da estatstica ao estudo dos procedimentos do Varbrul e de suas referncias bibliogrficas leva-nos a uma limitao no desenvolvimento metodolgico do estudo da variao lingustica, na medida em que a compreenso mais aprofundada de outros modelos e do prprio modelo de regresso logstica pode possibilitar anlises mais amplas dos fenmenos lingusticos. Neste artigo ser apresentado um aprofundamento do modelo estatstico utilizado nos estudos variacionistas, bem como uma interpretao mais clara das especificidades do Varbrul em relao aos mtodos convencionais de estimao de parmetros. Alm disso, sero apresentados os aspectos tericos mais relevantes da estatstica que contribuem para a anlise da variao lingustica e uma anlise comparativa entre o Varbrul e o SPSS. No caso de um interesse ainda mais aprofundado, podem-se consultar os livros de Pagano e Gauvreau (2004), Hosmer e Lemeshow (2000), Kleinbaum (1994), Johnson (2004), Paolillo (2002), entre outros. Para a anlise comparativa sero utilizados os softwares GoldVarbX (de agora em diante Varbrul) e o SPSS v.13.0 (de agora em diante SPSS). O banco de dados analisado nos exemplos foi criado a partir de dados reais de fala,

Rev. Est. Ling., Belo Horizonte, v. 17, n. 2, p. 93-119, jul./dez. 2009

97

coletados na cidade de Itana/MG. Anlises dos resultados referentes a tais dados podem ser encontradas em Oliveira (2006), Viegas e Oliveira (2008) e Viegas e Oliveira (2009). O fenmeno estudado em Itana foi a variao na slaba final tona /l/V (lateral alveolar seguida de vogal). No estudo foram identificadas as seguintes variantes: 1. Realizao plena da slaba /l/V. Ex.: quando no era [eli], era o padre (...) (ele), LM40. 2. Apagamento da vogal na slaba /l/V. Ex.: minha me nunca foi na [iskl] por minha causa. (escola), TH18. 3. Apagamento da vogal na slaba /l/V e velarizao de /l/. Ex.: eu acho at que a gente era mais [trakwi]. (tranquilo), RH17. 4. Apagamento da slaba /l/V. Ex.: a foi quando em oitenta e dois que teve [akE] virada. (aquela), EM39. Foram consideradas as seguintes variveis independentes: 1. Gnero: masculino e feminino. 2. Faixa etria: jovem e adulto. 3. Contexto seguinte: consoante, vogal e pausa (essa varivel refere-se ao som inicial da palavra imediatamente posterior palavra em anlise). Exemplos: ele caiu (consoante), ele entrou (vogal), falei com ele (pausa). 4. Contexto anterior: vogal alta, vogal baixa e vogal mdia (essa varivel refere-se vogal imediatamente posterior slaba /l/V). Exemplos: bula (alta), bala (baixa), bela (mdia). 5. Classe da palavra: nome, pronome e verbo (essa varivel refere-se classe da palavra em anlise). Exemplos: janela (nome), aquela (pronome), fala (verbo). 6. Classe da palavra seguinte: auxiliar, no auxiliar, nome e pausa (essa varivel refere-se classe da palavra imediatamente seguinte palavra em anlise). Exemplos: ela est cantando (auxiliar), ela canta (no auxiliar), janela grande (nome), falei com ele (pausa). 7. Vogal na varivel: [u], [i], [a] (essa varivel refere-se altura da vogal na slaba /l/V). Exemplos: aquilo (u), aquele (i), aquela (a).

98

OLIVEIRA

8. Tonicidade seguinte: tona, tnica, pausa (essa varivel refere-se tonicidade da slaba imediatamente seguinte palavra em anlise). Exemplos: ele cantou (tona), ele foi (tnica), falei com ele (pausa). 9. Tipo de informao no turno: nova, dada (essa varivel refere-se repetio ou no de uma mesma palavra num turno (sem falas intermitentes do entrevistador). A primeira ocorrncia da palavra no turno codificada como nova, as demais ocorrncias so codificadas como dada). 10.Presena de /S/: ausente, presente. (essa varivel refere-se presena ou ausncia de /S/ na slaba /l/V. Exemplos: ele (ausente), eles (presente).
2. A escolha do modelo estatstico

A seleo de um modelo3 estatstico a ser utilizado se d, primeiramente, a partir de quais perguntas se quer responder. Nos estudos em sociolingustica variacionista, relacionados variao sonora, por exemplo, tem-se que um som ora produzido de uma forma, ora produzido de outra forma, em uma mesma palavra. Nesse caso, a pergunta : o que poderia estar influenciando os indivduos de uma mesma comunidade a falarem uma mesma palavra ora de uma forma, ora de outra? Os modelos estatsticos que permitem responder a essa pergunta, ou seja, que permitem que se possa explicar a variabilidade de um fenmeno em relao a um conjunto de fatores, so chamados de modelos de regresso. Nos modelos de regresso temos sempre uma varivel, chamada varivel dependente ou varivel resposta, e uma ou mais variveis explicativas, chamadas covariveis ou variveis independentes, que podero ajudar a explicar a variabilidade na varivel dependente. A seleo do modelo estatstico a ser utilizado tambm depende do tipo de varivel dependente do estudo. Se a varivel dependente for contnua, por exemplo, poderamos optar por um modelo de regresso linear. Estudos utilizando tal modelo podem ser encontrados em Labov (1994) e Labov (2001). Esse modelo poderia ser utilizado caso a varivel dependente fosse, por exemplo, a durao de uma vogal, no qual teramos observaes localizadas em uma faixa contnua. Por outro lado, se a varivel dependente for categrica (0 ou 1), poderamos utilizar o modelo de regresso logstica. Esse modelo poderia ser utilizado caso a varivel dependente fosse composta de somente duas

Rev. Est. Ling., Belo Horizonte, v. 17, n. 2, p. 93-119, jul./dez. 2009

99

possibilidades, como a presena ou a ausncia da concordncia verbal. Se a varivel dependente fosse categrica e apresentasse mais de duas possibilidades, poderamos utilizar o modelo multinomial. Tal modelo poderia ser utilizado, por exemplo, no estudo do pronome voc, caso fossem consideradas as realizaes de mais de duas variantes, consideradas por hiptese como categricas, como voc, oc e c. Na maior parte dos estudos variacionistas tem-se utilizado o modelo de regresso logstica, j que esse o modelo implementado no Varbrul. Esse modelo utilizado quando se quer investigar, dado um conjunto de possveis variveis independentes, quais delas esto de fato associadas a uma varivel dependente binria (composta por duas variantes). Tomemos o conjunto de dados de fala no qual encontramos duas possibilidades para os itens lexicais terminados em slaba tona formada por /l/V, dadas por a) /l/V e b) . Assim, itens como aquele e tranquilo poderiam ocorrer tambm como aqu e tranqui. Nesse caso, temos uma varivel dependente binria /l/ V e . Suponhamos ter a hiptese de que o gnero influencia a produo de uma ou outra forma. Assim, temos uma varivel independente gnero, composta pelos fatores4 masculino e feminino. A varivel dependente apresenta duas possibilidades, ou ocorre /l/V ou ocorre . Podemos codific-la ento como 0 ou 1. Nesse caso, determina-se que a variante codificada como 0 seja a variante /l/V e a variante codificada como 1 seja a variante , j que o objetivo analisar o fenmeno de apagamento da slaba final /l/V. Em estatstica, normalmente a variante codificada como 1 recebe o nome de sucesso, em oposio denominao fracasso para a variante codificada como 0. Se utilizarmos o modelo de regresso logstica para a anlise da varivel /l/V (0) e (1), tendo como varivel independente o gnero (masculino ou feminino), poderemos determinar a influncia do gnero na probabilidade de sucesso da varivel dependente, ou seja, na probabilidade de utilizao da variante . Alm disso, o modelo permite que seja analisado simultaneamente o efeito de mltiplas variveis independentes. Nas sees seguintes, o modelo de regresso logstica ser aprofundado.

100

OLIVEIRA

3. Noes preliminares

Nesta seo sero apresentadas algumas noes estatsticas preliminares para que posteriormente se apresente o modelo de regresso logstica e a anlise comparativa entre os softwares Varbrul e SPSS.
3.1. Hiptese nula, nvel de significncia e p-valor

Uma hiptese levantada para explicar estatisticamente algum fenmeno vem associada a uma segunda hiptese que nega a primeira. Tais hipteses so chamadas, respectivamente, de hiptese alternativa e hiptese nula. Nos modelos de regresso, por exemplo, um teste estatstico poderia propor testar a hiptese nula de no haver efeito na varivel dependente associado a uma varivel independente. Assim, a suposio de que a variabilidade na slaba final tona /l/V possa ser explicada pelo gnero dos falantes vem acompanhada da hiptese nula que sugere que o gnero dos falantes no exerce influncia estatisticamente significativa sobre tal variabilidade. A hiptese efetivamente testada a hiptese nula. A probabilidade mxima aceitvel de rejeitarmos a hiptese nula, quando ela de fato verdadeira, chamada de nvel de significncia. No exemplo acima, o nvel de significncia seria a probabilidade mxima de cometermos um erro ao aceitarmos que o gnero do falante interfere na variabilidade, quando na realidade ele no interfere. O nvel de significncia um valor arbitrrio, definido segundo critrios do pesquisador. Convencionalmente, na sociolingustica variacionista, assim como em outras reas, utiliza-se um nvel de significncia de 0,05. Um teste estatstico pode fornecer a probabilidade de o efeito observado ser proveniente do acaso. Tal probabilidade chamada de p-valor. Uma maneira de conduzir um teste estatstico o de rejeitar a hiptese nula quando o p-valor menor que o nvel de significncia. Nesse caso, se encontramos um p-valor de 0,02 em um teste estatstico, podemos afirmar que a hiptese nula foi rejeitada, j que o p-valor foi menor do que o nvel de significncia de 0,05. Isso indica que os resultados obtidos so estatisticamente significativos.
3.2. Probabilidade, chance e razo de chances

A probabilidade pode ser definida como uma medida numrica da possibilidade de ocorrncia de um evento qualquer em uma populao. Na

Rev. Est. Ling., Belo Horizonte, v. 17, n. 2, p. 93-119, jul./dez. 2009

101

prtica, ela pode ser obtida pela razo entre o nmero de ocorrncias de um evento e o nmero total de ocorrncias da amostra. Vejamos a tabela de contingncia5 abaixo, obtida a partir da classificao de uma amostra de 2.280 observaes segundo o gnero e a varivel dependente /l/V ~ :
TABELA 1 Tabela de Contingncia para o gnero na varivel /l/V ~ /l/V Total Masculino 356 588 944 Feminino 715 621 1336 Total 1071 1209 2280

Com base nos dados acima, podemos calcular a probabilidade de um indivduo utilizar a variante , bem como a probabilidade associada aos gneros:
ptotal = pmasc = pfem =
1209 = 0,53 2280 588 944 621 1336

= 0,62

= 0,46

sendo ptotal a probabilidade total de ocorrncia de , pmasc a probabilidade de dado que o indivduo pertence ao gnero masculino e pfem a probabilidade de dado que o indivduo pertence ao gnero feminino. Como a probabilidade sempre um nmero entre 0 e 1, se temos a probabilidade de ocorrer um evento (p), a probabilidade de que tal evento no ocorra ser 1p. Assim, a probabilidade de ocorrer em um indivduo do gnero masculino 0,62 e a probabilidade de no ocorrer 10,62=0,38. Outra medida importante a chance, ou odds, definida como a razo entre a probabilidade de que um evento ocorra e a probabilidade de que ele no ocorra. Assim, a chance para as probabilidades acima dada por:

102

OLIVEIRA

0,53 oddstotal = 1 0,53 = 1,13

oddsmasc = oddsfem =

0,62 = 1,65 1 0,62 0,46 = 0,87 1 0,46

A interpretao de um resultado em termos de chance feita da seguinte forma: a probabilidade de ocorrer entre os homens 1,65 vezes a probabilidade de no ocorrer , ou seja, de ocorrer /l/V; e a probabilidade de ocorrer entre as mulheres 0,87 vezes a probabilidade de ocorrer /l/V. Com base nesses resultados, podemos inferir que a chance de ocorrer a variante entre os homens quase duas vezes a chance de ocorrer entre as mulheres (1,65 para 0,87). A comparao entre as chances de ocorrncia de um evento entre fatores de uma varivel chamada de razo de chances e bastante utilizada nos estudos que utilizam modelos de regresso logstica. A razo de chances, ou odds ratio, fornece uma medida do grau de associao entre fatores de uma varivel independente. No exemplo acima, a razo de chances entre o gnero masculino e o gnero feminino obtida atravs da razo entre as chances dos gneros,

OR =

oddsmasc 1,65 = = 1,9 odds fem 0,87

A razo de chances de 1,9 indica que a chance de sucesso (nesse caso, a variante ) para o gnero masculino 1,9 vezes a chance no gnero feminino. Isso indica que a chance de um homem, na cidade de Itana, utilizar a variante quase duas vezes a chance de uma mulher utilizar a mesma variante.
4. O modelo de regresso logstica

O modelo de regresso logstica utilizado quando temos uma varivel dependente binria, nos casos dos exemplos na seo anterior, /l/V ou , e variveis independentes que podem contribuir para explicarmos a variabilidade

Rev. Est. Ling., Belo Horizonte, v. 17, n. 2, p. 93-119, jul./dez. 2009

103

na varivel dependente. Matematicamente, o modelo de regresso logstica, considerando n variveis independentes, definido pela equao:
lo p = a + b1x1 + b2x2 +... + bnxn (1 p)

Na equao acima, p , ou simplesmente lo it(p), chamada de funo a funo lo de ligao; (1 p)


p a probabilidade de sucesso; a a constante que expressa o valor do lo it(p) quando todas as variveis independentes so iguais a 0; b (variando de 1 a n) um coeficiente que expressa o efeito das variveis independentes x (variando de 1 a n) na funo de ligao, quando a varivel x aumenta uma unidade.

Os valores de a e dos b s so estimados pelo mtodo da mxima verossimilhana e obtidos a partir de um algoritmo numrico computacional.6 Esse mtodo encontra, entre todos os valores possveis, os valores de a e dos b s que sejam mais provveis de terem gerado os dados observados. Tomando, por exemplo, como varivel dependente /l/V (codificada como 0) e (codificada como 1) e como varivel independente o gnero feminino (0) e masculino (1) a equao da regresso logstica estimada ser definida por:
lo

p ^ = a + b 1 gnero1 (1 p)

onde p a estimativa da probabilidade de ocorrncia de variante , a a ^ constante e b1 o efeito da varivel gnero no lo it(p), quando ela aumenta uma unidade, ou seja, passa de 0 (feminino) para 1 (masculino). Rodando no SPSS a regresso logstica, tendo como varivel dependente /l/V (0) e (1) e como varivel independente o gnero, teremos o seguinte valor para b: ^ b1 = 0,643 Portanto, temos um aumento de 0,643 no lo it(p), quando passamos do gnero feminino (0) para o gnero masculino (1).

104

OLIVEIRA

Utilizando-se propriedades do logaritmo e tomando-se a exponencial do coeficiente b , obtemos uma interpretaco da associao em termos de razo de chances: OR = exp(b) Assim, dado que b para a varivel gnero 0,643, a razo de chances entre os fatores da varivel gnero ser: R = exp (0,643) = 1,9 O valor 1,9 para a razo de chances corresponde ao mesmo valor encontrado na seo anterior. Entretanto, o modelo exemplificado aqui contm somente uma varivel independente. Em um modelo multivariado, a estimativa do efeito de uma varivel altera-se com a insero de outras variveis no modelo, o que no permite que a razo de chances seja obtida das chances calculadas por meio de uma tabela de contingncia, como na seo 3.2. Nesse caso, temos uma razo de chances que leva em considerao o efeito das demais variveis independentes.
Seleo das variveis independentes
^

Aps definirmos o conjunto de variveis independentes a serem includas no modelo de regresso logstica, precisamos identificar as variveis mais importantes para explicar a probabilidade de sucesso. Hosmer e Lemeshow (2000) afirmam que, tradicionalmente, a construo de um modelo estatstico implica a busca do modelo mais parcimonioso para a explicao dos dados.7 Assim, interessa-nos, entre todas as variveis independentes consideradas, identificar o conjunto de variveis que melhor contribui para explicarmos a variabilidade. O processo de seleo de variveis pode ser feito de maneiras diversas. Os mtodos utilizados no Varbrul, chamados step-up e step-down, so conhecidos em estatstica como mtodos stepwise, respectivamente como forward e backward, e so encontrados nos softwares estatsticos convencionais. No SPSS, eles recebem o nome de foward-lr e backward-lr. Os mtodos stepwise permitem que a seleo das variveis independentes mais importantes seja feita de forma automtica, segundo critrios predefinidos. Sobre os mtodos stepwise, Hosmer e Lemeshow (2000) afirmam:

Rev. Est. Ling., Belo Horizonte, v. 17, n. 2, p. 93-119, jul./dez. 2009

105

Qualquer procedimento stepwise para a seleo ou excluso de variveis de um modelo baseia-se em um algoritmo estatstico que verifica a importncia de variveis, e que inclui ou exclui com base em uma regra de deciso fixa. A importncia de uma varivel definida em termos de uma medida da significncia estatstica do coeficiente para a varivel.8 (HOSMER; LEMESHOW, 2000, p. 16).

O critrio de seleo utilizado nesses mtodos, em ambos os softwares, a razo da mxima verossimilhana. No mtodo forward (step-up), os programas inserem, passo a passo, cada uma das variveis independentes, uma a uma, e comparam o valor do logaritmo da verossimilhana9 ou log-likelihoods dos modelos com e sem a varivel independente adicionada. No passo 1, obtm-se o valor do log-likelihood sem a incluso de nenhum parmetro associado s variveis independentes, ou seja, considera-se somente o parmetro a. No passo seguinte, testam-se todas as variveis inseridas no modelo uma a uma e seleciona-se somente aquela que gera o maior valor no teste da razo da mxima verossimilhana. O procedimento se repete nos passos seguintes. As variveis selecionadas em cada passo vo sendo mantidas no modelo utilizado para seleo da prxima varivel. A seleo das variveis independentes interrompida quando a diferena entre o modelo sem a varivel e o modelo com a varivel no apresenta significncia estatstica (p-valor < 0,05).10 No mtodo backward (step-down) selecionam-se as variveis mais importantes tendo como referncia um modelo em que todas as variveis so includas. Em cada passo seguinte, testa-se cada uma das variveis e retira-se aquela que apresenta o menor valor no teste da razo da mxima verossimilhana, ou seja, que apresenta o maior p-valor. A retirada de variveis interrompida quando o teste apresenta resultado estatisticamente significativo. Os mtodos stepwise facilitam bastante o trabalho do pesquisador, entretanto a seleo baseia-se exclusivamente em critrios estatsticos. No SPSS, o mtodo padro de insero de variveis no modelo o mtodo manual, denominado enter. No Varbrul, esse procedimento chamado de onelevel. O mtodo enter ou one-level permite que a entrada das variveis independentes seja feita de forma manual, segundo critrios do pesquisador. Com base na comparao das sadas de modelos contendo conjuntos diferentes de variveis independentes, utilizando o teste da razo da mxima

106

OLIVEIRA

verossimilhana, pode-se determinar o melhor conjunto de variveis para explicar a probabilidade de sucesso. Esse mtodo mais interessante, pois pode partir de decises estatsticas e lingusticas, mas exige do pesquisador um maior domnio dos mtodos de comparao de modelos para que o melhor modelo possa ser eficientemente selecionado.
Varbrul 5. Comparando o Varbrul e o SPSS

Como veremos nessa seo, os efeitos estimados das variveis independentes apresentados pelo Varbrul diferem-se dos efeitos apresentados em uma sada padro do SPSS. Como ser mostrado, o resultado gerado pelo Varbrul diferencia-se pela maneira como so codificados os fatores que compem as variveis independentes. Essa diferena gera efeitos diferenciados para as variveis. No SPSS, assim como em outros softwares estatsticos, podemos definir o parmetro de codificao dos fatores de maneira semelhante codificao feita internamente pelo Varbrul e, assim, obtermos resultados semelhantes.
5.1. Diferentes formas de codificao de fatores
5.1.1. Fator de referncia

Numa regresso logstica convencional, utiliza-se uma codificao de fatores das variveis independentes em que se determina um fator de referncia. Tal codificao amplamente difundida e utilizada nas mais diversas reas do conhecimento. No SPSS, assim como em outros pacotes estatsticos, a codificao com fator de referncia dada como padro. Nela, os efeitos dos demais fatores de uma varivel independente e, consequentemente, a razo de chances, estaro em relao ao fator de referncia. No exemplo mostrado na seo 3.2, o fator de referncia11 para a varivel gnero foi o gnero feminino. Assim, a razo de chances obtida (1,9) refere-se chance do gnero masculino (1,9) em relao ao gnero feminino (1). A codificao dos fatores feita pelo software por meio de uma tabela, chamada matriz de desenho. Quando temos somente dois fatores, a matriz de desenho, tendo o primeiro fator como referncia, :

Rev. Est. Ling., Belo Horizonte, v. 17, n. 2, p. 93-119, jul./dez. 2009

107

TABELA 2 Matriz de desenho para a varivel gnero Gnero Feminino Masculino Cdigo 0 1

No caso de termos uma varivel com trs fatores, a matriz de desenho, tendo o primeiro fator como referncia, :
TABELA 3 Matriz de desenho para a varivel contexto seguinte Contexto Seguinte Consoante Vogal Pausa Cdigo do parmetro (1) 0 1 0 Cdigo do parmetro (2) 0 0 1

Nesse caso, a equao do modelo de regresso logstica dado por ^ p ^ ^ lo (1 p) = a + b1 vogal + b2 pausa Os efeitos estimados, obtidos por meio de uma anlise de regresso logstica no SPSS tendo como varivel dependente /l/V e e como varivel independente os contextos seguintes consoante, vogal e pausa, so: a = 0,546

b1 = -1,034 b2 = -2,187
A razo de chances entre os fatores, como mostrado na seo 3, o ^ exponencial do b. Assim, teremos as seguintes razes de chances para a varivel contexto seguinte, tendo o fator consoante como fator de referncia: ORvogal = exp(-1,034) = 0,36 ORpausa = exp(-2,187) = 0,11 Logo, a chance de um indivduo utilizar a variante antes de vogal 0,36 a chance de utiliz-la antes de consoante. Da mesma forma, a chance de um indivduo
^

108

OLIVEIRA

utilizar a variante antes de pausa 0,11 a chance de utiliz-la antes de consoante. As relaes entre as OR das categorias no definidas como referncia tambm podem ser feitas. Dessa forma, a chance de um indivduo utilizar a variante antes de vogal 3,27 (0,36/0,11) a chance de utiliz-la antes de pausa.
5.1.2. Desvio da mdia

O modelo de regresso logstica implementado no Varbrul idntico ao modelo implementado em outros pacotes estatsticos. Entretanto, o Varbrul difere-se pela maneira como os fatores das variveis independentes so codificados. Em vez de tomar um fator como referncia e, a partir dele, estimar o efeito dos demais fatores, o Varbrul utiliza uma codificao conhecida como desvio da mdia. No mtodo desvio da mdia, a varivel gnero codificada como (-1) feminino e (1) masculino, em vez de 0 e 1, respectivamente, como no mtodo fator de referncia. A diferena na codificao gera diferentes efeitos estimados, como pode ser visto a seguir. Tomando o conjunto de dados com varivel dependente /l/V e e varivel independente o contexto seguinte consoante, vogal e pausa, temos a seguinte tabela de contingncia:
TABELA 4 Tabela de contingncia para o contexto seguinte na varivel dependente /l/V ~ /l/V Total Consoante 603 1041 1644 Vogal 184 113 297 Pausa 284 55 339 Total 1071 1209 2280

Por meio da tabela 4, podemos obter a chance de cada fator. O mtodo desvio da mdia utiliza o logaritmo (ln) da chance dos fatores ( ), dado por:
cons

vog

= ln( 1041 )= 0,546 603 = ln( 113 )= 0,488 184


55 = ln( 284 )= 1,642

pausa

Rev. Est. Ling., Belo Horizonte, v. 17, n. 2, p. 93-119, jul./dez. 2009

109

Com base nesses valores, podemos calcular tambm um valor mdio ) dos fatores: media
media

cons

vog

pausa

3
^

= 0, 528

Os valores dos efeitos estimados ( b ) a serem includos na equao da regresso logstica, no mtodo desvio da mdia, so dados pelos s das categorias subtrados da mdia dos s, ou seja,

b1 = b2 = b3 =
^ ^

_
cons media

= (0,546) _ (_0,548) = 1,074

_
vog media

= (_0,488) _ (_0,528) = 0,040 = (_1,642) _ (_0,528) = _1,114

_
vogal media

Com base nos betas calculados acima, podemos calcular uma razo de chances em relao mdia (OR) para cada categoria: ORcons=exp(1,074)=2,926 ORvog=exp(0,040)=1,041 ORpausa=exp(-1,114)=0,328 A razo de chances proveniente do mtodo desvio da mdia no a mesma da razo de chances calculada pelo mtodo fator de referncia. Hosmer e Lemeshow (2000, p. 60) afirmam que tal razo de chances uma razo de chances do fator em relao mdia geomtrica das chances de todos os fatores da varivel independente.12 Diante dos resultados apresentados anteriormente, como obter o factor weights ou peso relativo, fornecido na sada do Varbrul? De acordo com Morrison (2005), o peso relativo dado por OR/(1+OR), ou seja, o peso relativo uma medida calculada a partir da razo de chances, calculada pelo mtodo desvio da mdia. Como a razo de chances um nmero entre 0 e infinito, o peso relativo ser sempre um nmero entre 0 e 1. Caso a OR seja

110

OLIVEIRA

igual a 1, teremos que o peso relativo ser igual a 0,50. Assim, os pesos relativos para as categorias da varivel contexto seguinte so:

PRcons = PRvog = PRpausa =

2,926 = 0,745 1+2,926 1,041 = 0,510 1+1,041 0,328 = 0,247 1+0,328

O valor do input corresponde ao peso relativo da mdia das chances, dado por:

input =

exp (

media

) )

1+exp (

exp ( 0,528) 1+exp ( 0,528)


_

=0,371

media

Os resultados acima podem ser comprovados pelos resultados obtidos por uma rodada com fatores centralizados no Varbrul: Run # 2, 3 cells: Convergence at Iteration 5 Input 0.371 Group # 1 C: 0.745, V: 0.510, P: 0.247 Log likelihood = -1428.074 Significance = 0.000 De acordo com Rand e Sankoff (1990), a opo fatores centralizados13 no Varbrul considera que os fatores em um grupo possuem pesos iguais; se no selecionarmos essa opo, cada fator recebe um peso de acordo com a sua ocorrncia relativa no total de ocorrncias no grupo. Se multiplicarmos os valores das frequncias relativas encontrados na tabela abaixo, pelos valores encontrados para os s dos fatores, temos um valor mdio dos s considerando a freqncia relativa das ocorrncias em cada fator particular. Assim, temos:

Rev. Est. Ling., Belo Horizonte, v. 17, n. 2, p. 93-119, jul./dez. 2009

111

TABELA 5 Tabela de contingncia para varivel dependente /l/V ~ com frequncia relativa dos fatores da varivel contexto seguinte /l/V Total Freq. relativa Consoante 603 1041 1644 0,72 Vogal 184 113 297 0,13 Pausa 284 55 339 0,15 Total 1071 1209 2280 1,0

cons x 0,72 = 0,546 x 0,72 = 0,393 vog x 0,13 = -0,488 x 0,13 = -0,063 pausa x 0,15 = -1,642 x 0,15 = -0,246 O valor para media dado pela soma das multiplicaes dos s dos fatores pelas frequncias de suas ocorrncias em relao ao nmero total de ocorrncias do grupo, ou seja, a mdia agora ponderada em relao s freqncias relativas de cada fator:
media

= 0,393 + (-0,063) + (-0,246) = 0,084

^ A partir dos valores acima, podemos recalcular os valores dos efeitos estimados ( b ) para cada fator:

bcons = 0,546 0,084 = 0,462 bvo = 0,488 0,084 = 0,572 bcons = 1,642 0,084 = 1,726
Podemos recalcular tambm suas razes de chances, dadas por: ORcons=exp(0,462)=1,587 ORvog=exp(-0,572)=0,564 ORpausa=exp(-1,726)=0,178 A partir das OR de cada fator, aplicando a frmula PR=OR/(1+OR), os pesos relativos so:
^ ^

112

OLIVEIRA

PRcons=1,587/(1+1,587)=0,613 PRvog=0,564/(1+0,564)=0,360 PRpausa=0,178/(1+0,178)=0,151 Rodando novamente os dados no Varbrul, desmarcando a opo fatores centralizados, obteremos exatamente os mesmos valores obtidos acima: Run # 2, 3 cells: Convergence at Iteration 5 Input 0.522 Group # 1 C: 0.613, V: 0.360, P: 0.151, Log likelihood = -1428.074 Significance = 0.000 Os resultados apresentados acima indicam que, de fato, o Varbrul utiliza um mtodo diferenciado de parametrizao dos efeitos dos parmetros. Tal mtodo assemelha-se ao desvio da mdia, mas o efeito do parmetro estimado considerando-se a magnitude da interferncia do fator na varivel dependente a partir da quantidade de ocorrncias dele. A justificativa para a utilizao de um mtodo especfico, apresentada em Sankoff (1988), de que os dados coletados nos estudos em variao lingustica diferem-se por apresentar uma distribuio desigual nos dados, como ocorre na tabela 5, em que temos 72% das ocorrncias da varivel no fator consoante e 13% e 15% nos fatores vogal e pausa, respectivamente.
Varbrul 5.2. Comparando os resultados gerados pelo Varbrul e pelo SPSS

A constatao de que o mtodo utilizado pelo Varbrul parece ser especfico dele, leva-nos a outro questionamento, relevante do ponto de vista metodolgico: Por que outras reas do conhecimento, especialmente nas cincias sociais, que tambm contam com dados mal distribudos, no utilizam um mtodo que considere o desvio da mdia com uma mdia ponderada a partir dos efeitos dos fatores? Entretanto, podemos testar aqui as implicaes prticas em termos dos resultados obtidos. Tomemos como exemplo um modelo que tenha como varivel dependente as variantes /l/V e e como variveis independentes: gnero, faixa etria, contexto seguinte, contexto anterior, classe da palavra, classe da palavra seguinte, vogal na varivel, tonicidade, tonicidade seguinte, tipo de informao no turno, presena de /S/.

Rev. Est. Ling., Belo Horizonte, v. 17, n. 2, p. 93-119, jul./dez. 2009

113

O resultado abaixo foi gerado por meio de uma sada padro de regresso logstica do SPSS (mtodo desvio da mdia), com variveis significativas selecionadas pelo mtodo forward-lr. A coluna SPSS expressa os resultados em peso relativo (OR/(1+OR)). A coluna Varbrul foi obtida por meio de uma sada do Varbrul (desvio da mdia ponderada), com variveis significativas selecionadas pelo mtodo step-up.

TABELA 6 Comparao entre resultados do Varbrul e do SPSS para /l/V ~


Variveis Independentes Gnero Faixa Etria Contexto Seguinte Classe da Palavra Classe da Palavra Seguinte Vogal na Varivel Tonicidade /S/ final da palavra Fatores Feminino Masculino Adulto Jovem Pausa Consoante Vogal Nome Pronome Verbo Verbo auxiliar Verbo no aux. No verbo Pausa Vogal [a] Vogal [u] Vogal [i] Proparoxtona Paroxtona Ausente Presente n1 / n t 621 / 1336 588 / 944 532 / 1012 677 / 1268 55 / 339 1041 / 1644 113 / 297 46 / 335 1147 / 1855 16 / 90 110 / 143 657 / 965 372 / 814 70 / 358 329 / 909 17 / 115 863 / 1256 13 / 23 1196 / 2257 877 / 1816 332 / 464 %1 46,5 62,3 52,6 53,4 16,2 63,3 38,0 13,7 61,8 17,8 76,9 68,1 45,7 19,6 36,2 14,8 68,7 56,5 53,0 48,3 71,6 p-valor (Wald) <0,001 <0,001 0,009 0,009 <0,001 <0,001 0,917 <0,001 <0,001 0,477 <0,001 0,355 0,003 0,428 0,004 0,303 <0,001 <0,001 <0,001 <0,001 <0,001 S P S S Varbrul 0,38 0,62 0,47 0,53 0,26 0,74 0,50 0,30 0,73 0,46 0,67 0,47 0,41 0,44 0,41 0,44 0,64 0,79 0,21 0,42 0,58 0,40 0,64 0,46 0,53 0,16 0,61 0,35 0,18 0,58 0,30 0,71 0,52 0,45 0,48 0,37 0,41 0,60 0,92 0,49 0,47 0,62

A anlise comparativa entre os resultados do SPSS e do Varbrul na tabela acima (com exceo das variveis contexto seguinte e classe da palavra seguinte) permite-nos observar uma proximidade nos resultados obtidos por ambos os programas. H pequenas variaes nos pesos relativos, mas as

114

OLIVEIRA

concluses seriam exatamente as mesmas: o apagamento da slaba tona final favorecido pelo gnero masculino, pela faixa etria jovem, pela classe dos pronomes, pela vogal [i] na slaba /l/V, pelas proparoxtonas e pela presena de /s/ na slaba. Em ambas as anlises foram excludas as variveis contexto anterior, tonicidade seguinte e tipo de informao no turno. Na varivel contexto seguinte, o fator vogal poderia ser interpretado como neutro no SPSS (0,50) e como desfavorecedor no Varbrul (0,35). Na varivel classe da palavra seguinte, o fator verbo no auxiliar poderia ser interpretado como desfavorecedor no SPSS (0,47) e como favorecedor no Varbrul (0,52). Entretanto, a anlise do SPSS apresenta outro elemento ausente nos resultados obtidos pelo Varbrul: o teste de Wald. O teste de Wald, na tabela 6, testa se a diferena entre o efeito do fator e o efeito mdio da varivel independente estatisticamente significativa. Com base nessa anlise, podemos afirmar que os fatores vogal e verbo no auxiliar no apresentam um diferena estatisticamente significativa em relao ao efeito mdio da varivel. Isso pode ser observado tambm em outros fatores como verbo (na varivel classe da palavra), pausa (na varivel classe da palavra seguinte) e vogal [u] (na varivel vogal na varivel). Outro tipo de anlise pode ser realizada utilizando-se o teste de Wald no mtodo fator de referncia (cf. seo 5.1.1). No mtodo fator de referncia, o teste de Wald testa a significncia da diferena entre os efeitos dos fatores em uma varivel independente. Se analisarmos, por exemplo, os fatores vogal [a] e vogal [u], veremos que h uma pequena diferena entre eles. Uma questo poderia ser levantada: pode-se afirmar que a vogal [a] desfavorece mais o apagamento da slaba do que a vogal [u]? A anlise com o Varbrul no permite a resposta a essa pergunta, diferentemente da anlise com o SPSS. De acordo com Sankoff (1988, p. 989), a comparao entre os efeitos de quaisquer dois fatores em um grupo (medida pelas suas diferenas) que importante, e no seus valores individuais. Entretanto, a comparao entre os efeitos de dois fatores fica prejudicada no Varbrul, j que no se pode afirmar que, de fato, seus efeitos apresentam diferena estatisticamente significativa. No caso das vogais [a] e [u], rodando o modelo de regresso logstica com o mtodo fator de referncia e selecionando o fator vogal [u] como referncia, obtemos um p-valor de 0,678 para o fator vogal [a]. Esse resultado indica que a diferena entre os fatores vogal [a] e vogal [u] no estatisticamente significativa e que, portanto, no se pode afirmar que a vogal [a] desfavorece mais o pagamento da slaba do que a vogal [u].

Rev. Est. Ling., Belo Horizonte, v. 17, n. 2, p. 93-119, jul./dez. 2009

115

Os resultados indicam que a seleo das variveis estatisticamente significativas em ambos os softwares foi a mesma, ou seja, as variveis independentes selecionadas e excludas do modelo foram idnticas. Vemos tambm que a direo da influncia do fator tambm a mesma, j que uma ordenao dos fatores das variveis a partir do efeito gerado na varivel dependente tambm a mesma. Isso indica que a utilizao de um mtodo em que se mede o desvio da mdia ponderada a partir dos efeitos dos fatores, como o utilizado pelo Varbrul, no apresenta diferena significativa em relao a um mtodo desvio da mdia, como no SPSS, ainda que os dados sejam mal distribudos, como no caso dos dados utilizados para gerar os resultados da seo anterior. A diferena principal entre os softwares que o SPSS fornece a significncia no teste de Wald, a partir do qual possvel identificar se o efeito de um fator estatisticamente diferente do efeito de outro fator em uma mesma varivel independente e se o efeito de fator estatisticamente diferente do efeito mdio da varivel.
6. Consideraes finais

Como mostrado neste texto, o modelo estatstico implantado no Varbrul um modelo amplamente utilizado e disponvel em outros pacotes estatsticos, chamado de modelo de regresso logstica. Entretanto, o mtodo de codificao dos fatores das variveis independentes diferenciado no Varbrul. Normalmente, o mtodo de codificao padro dos demais pacotes estatsticos o mtodo fator de referncia, o Varbrul utiliza um mtodo chamado desvio da mdia. O mtodo desvio da mdia tambm encontrado na maioria dos pacotes estatsticos; no SPSS, tal mtodo chamado de contraste deviation. Entretanto, o Varbrul utiliza um tipo especial de desvio da mdia. Em vez de obter uma mdia simples a partir da soma dos efeitos dos fatores dividida pelo nmero de fatores, o Varbrul obtm uma mdia ponderada, obtida da soma da multiplicao de cada fator pela sua frequncia relativa em relao a todos os fatores. Outra limitao do Varbrul, alm da ausncia do teste de Wald, o fato de o Varbrul limitar-se ao modelo de regresso logstica com varivel dependente binria e variveis independentes categricas. A utilizao de um pacote estatstico mais completo possibilita que sejam avaliadas situaes em que a varivel dependente possui mais de duas categorias (uso de um modelo logstico

116

OLIVEIRA

multinomial) ou em que a varivel independente seja contnua (uso de um modelo de regresso linear). Por utilizar um mtodo muito especfico de codificao e estimao dos efeitos, o Varbrul limita bastante o leque de opes de materiais disponveis para compreender seus procedimentos internos. Alm disso, a linguagem utilizada nos textos que explicam os procedimentos do Varbrul bastante obscura, o que dificulta um paralelo com outros textos estatsticos. Ao contrrio, o mtodo convencional de codificao das variveis amplamente discutido nos textos estatsticos e pode ser encontrado em qualquer material que trate do modelo logstico. A especificidade do Varbrul com relao codificao e estimao dos efeitos das variveis no gera resultados significativamente diferentes em relao ao desvio da mdia utilizado pelo SPSS, como mostrado na seo 5.2. Isso indica que utilizar o Varbrul ou qualquer outro pacote estatstico que possua regresso logstica no altera os resultados de estudos em sociolingustica variacionista, mesmo se os dados forem mal distribudos. A utilizao do SPSS, entretanto, fornece mais informaes, por exemplo, a significncia entre os fatores de uma varivel independente. Como pontos positivos, o SPSS apresenta ainda a possibilidade de criao de grficos e tabelas, a fcil manipulao do banco de dados e a compatibilidade com outros softwares. Como pontos negativos, ressalta-se o fato do SPSS ser um software proprietrio de alto custo. Como pontos positivos, temos que o Varbrul um software amplamente utilizado nos estudos em variao lingustica, apresenta resultados familiares aos pesquisadores da rea, alm de ser um software de uso gratuito. Diversos softwares estatsticos poderiam ser utilizados na anlise variacionista, basta que o software rode modelos de regresso logstica. Entre os softwares disponveis, destaca-se o software R,14 que gratuito e de cdigo aberto. H, inclusive, dois pacotes do R que implementam as rotinas do Varbrul: o R-Varb,15 desenvolvido por John Paolillo, e o Rbrul,16 desenvolvido por Daniel Johnson. Tendo em vista os tpicos apresentados acima, optei pela utilizao do SPSS. Ainda que no tenha sido possvel avaliar, do ponto de vista terico, os efeitos de se considerar o mtodo desvio da mdia ponderada ou o mtodo fator de referncia, opto pelo mtodo fator de referncia por ser ele o mtodo padro do modelo de regresso logstica e porque a escolha de um ou outro mtodo no traz alteraes significativas em termos de resultados.

Rev. Est. Ling., Belo Horizonte, v. 17, n. 2, p. 93-119, jul./dez. 2009

117

Notas
VARBRUL 2S (SANKOFF, 1972), MacVarb (GUY; LIPA, 1987), VARBRUL 3M (ROUSSEAU, 1978), PC-VARB (PINTZUK; SANKOFF, 1982), GoldVarb 2.1 (RAND; SANKOFF, 1992), Goldvarb 2001 (LAWRENCE; TAGLIAMONTE, 2001), R-VARB (PAOLILLO, 2002), GoldVarb X (SANKOFF; TAGLIAMONTE, 2005). Este termo refere-se a um procedimento automtico realizado pelo software, independentemente dos cdigos atribudos pelo pesquisador aos fatores nas variveis independentes e s variantes da varivel dependente.
2 3 1

Nesta seo utilizarei os termos modelo e mtodo da forma como eles so normalmente utilizados na literatura estatstica. Neste contexto, modelo ser utilizado para fazer referncia equao da regresso logstica com as variveis independentes selecionadas; o termo mtodo ser utilizado para fazer referncia, na maioria das vezes, forma como as variveis so codificadas.
4

Utilizarei o termo fator para fazer referncia ao que se denomina categoria na literatura estatstica.
5

Tabela de contingncia uma tabela de cruzamento de dados de duas variveis categricas.


6

Maiores informaes em Hosmer e Lemeshow (2000), Dobson (1990) e McCullagh & Nelder (1989).
7

The traditional approach to statistical model building involves seeking the most parsimonious model that still explain the data (HOSMER; LEMESHOW, 2000, p. 92).
8

Any stepwise procedure for selection or deletion of variables from a model is based on a statistical algorithm that checks for the importance of variables, and either includes or excludes them on the basis of a fixed decision rule. The importance of a variable is defined in terms of a measure of the statistical significance of the coefficient for the variable. Uma funo de verossimilhana uma funo que fornece a probabilidade de obter os dados observados, dados os valores dos parmetros. O logaritmo da verossimilhana uma transformao de uma funo de verossimilhana usando logaritmos naturais.
9 10

O p-valor para o teste da razo da mxima verossimilhana pode ser obtido a partir de uma tabela de distribuio do qui-quadrado com n graus de liberdade, sendo n o nmero de variveis includas no segundo modelo.

118

OLIVEIRA

A escolha do fator de referncia na varivel independente feita pelo pesquisador e no afeta os resultados. Se o fator de referncia fosse o gnero masculino, a razo de chances seria 0,53, obtido dividindo-se 1 (feminino) por 1,9 (masculino).
12

11

Exponentiation of the estimated coefficients yields the ratio of the odds for the particular group to the geometric mean of the odds. (HOSMER; LEMESHOW, 2000, p. 60)
13

When this option is chosen, each factor in a group is given equal weight. Otherwise each factor is weighted according to its occurrences relative to total occurrences of all factors in the group. (RAND; SANKOFF, 1990)
14 15 16

Informaes e download do software em http://www.r-project.org/ Informaes disponveis em http://ella.slis.indiana.edu/~paolillo/

Informaes disponveis em http://www.ling.upenn.edu/~johnson4/ Rbrul_manual.html

Referncias
DOBSON, Annette J. An introduction to generalized linear models. London, 1990. FISHER, John L. Influncias sociais na escolha de variantes lingusticas. Trad. Elba I. Souto. In: FONSECA, Maria Stella; NEVES, Moema F. (Org.). Sociolingstica. Rio de Janeiro: Eldorado, 1974. p. 87-98. GUY, G. R.; ZILLES, A. Sociolingstica quantitativa Instrumental de anlise. So Paulo: Parbola Editorial, 2007. GUY, G. R. Advanced VARBRUL analysis. In: FERRARA, K.; BROWN, B.; WALTERS, K., and BAUGH J. (Ed.). Linguistic Contact and Change. Austin: University of Texas Department of Linguistics, 1988. p. 124-136. HOSMER, David W.; LEMESHOW, Stanley. Applied logistic regression. 2nd ed. New York: Wiley, 2000. JOHNSON, Keith. Quantitative Methods in Linguistics. Disponvel em: <http:// linguistics.berkeley.edu/~kjohnson/quantitative/>, 2004. KLEINBAUM, David G. Logistic regression: a self-learning text. New York, 1994. LABOV, W. The social motivation of a sound change. In: Sociolinguistic patterns. Philadelphia: University of Pensylvania Press, 1963. LABOV, W. Stages in the acquisition of standard English. In: SHUY, R. (Ed.). Social Dialects and Language Learning. Champaign, Ill.: National Council of Teachers of English, 1964.

Rev. Est. Ling., Belo Horizonte, v. 17, n. 2, p. 93-119, jul./dez. 2009

119

LABOV, W. Principles of Linguistic Change: internal factors. Oxford: Black Well, 1994. LABOV, W. Principles of Linguistic Change: social factors. Oxford: Black Well, 2001. MCCULLAGH, P.; NELDER, J. A. Generalized linear models. 2nd. ed. London; New York: 1989. MORRISON, G. S. Dat is What the PM Said: A Quantitative Analysis of Prime Minister Chrtiens Pronunciation of English Voiced Dental Fricatives. Cahiers linguistiques dOttawa, 33. Ottawa, Ontaro: University of Ottawa, Department of Linguistics, p. 1-21, 2005. OLIVEIRA, Alan Jardel. Variao em itens lexicais terminados em /l/ V na cidade de Itana/MG. 2006. Dissertao (Mestrado) FALE/UFMG, Belo Horizonte, 2006. PAGANO, M.; GAUVREAU, K. Princpios de Bioestatstica. 2. ed. So Paulo: Ed. Thomson, 2004. PAOLILLO, John C. http://ella.slis.indiana.edu/~paolillo. PAOLILLO, John C. Analyzing Lingusitic Variation. CSLI PUBLICATIONS, STANFORD CA, 2002. RAND, D.; SANKOFF, D. GoldVarb: A variable rule application for the Macintosh (version 3.0B). Montreal: Centre de recherches mathmatiques, Universit de Montral, 1990. SANKOFF, D. Variable rules. In: AMMON, U.; DITTMAR, N., and MATTHEIER, K. J. (Ed.). Sociolinguistics: An International Handbook of the Science of Language and Society. Berlin: Mouton de Gruyter, 1988. v. 2, p. 984-997. SANKOFF, David; TAGLIAMONTE, Sali and; SMITH, Eric. Goldvarb X: A variable rule application for Macintosh and Windows. Department of Linguistics, University of Toronto, 2005. VIEGAS, M. C.; OLIVEIRA, A. J. Apagamento da vogal em slaba /l/ V tona final em Itana/MG e atuao lexical. Revista da ABRALIN, v. 2, p. 119-138, 2008. VIEGAS, M. C.; OLIVEIRA, A. J. Apagamento de /l/ v em slaba tona final em Itana Minas Gerais. In: AGUILERA, Vanderci (Org.). Para a histria do portugus brasileiro: vozes, veredas, voragens, 2009.