Escolar Documentos
Profissional Documentos
Cultura Documentos
0.- Introducción.*
El “estado de la cuestión” que presentamos en estas páginas no va a pasar revista a
cada una de las corrientes que, con criterios más o menos estrictos, reciben el marbete de
“sociolingüística”, sino que estará referido específicamente a la sociolingüística de la
variación. Se pretende dar información sobre el empleo de la estadística y de la informática
en el ámbito de la sociolingüística variacionista.
Nuestro deseo es que los contenidos que aquí se van a desarrollar sean de alguna
utilidad tanto para los especialistas en sociolingüística como para aquellos lingüistas que no
trabajan en el estudio de la variación. Por este motivo, hemos dividido el trabajo en tres
apartados. En el primero se ofrece un panorama general de la cuantificación en los estudios
sociolingüísticos y una presentación del modelo estadístico más utilizado durante los últimos
años. El segundo apartado explica con algún detalle el funcionamiento de los programas
informáticos destinados a la aplicación de técnicas estadísticas. El tercero se detiene en las
fases más complicadas del análisis y en los problemas que suelen tener una solución menos
clara.
cuantificación puede llegar a tener en el campo de la lingüística teórica. Cada uno de esos
problemas ha sido largamente discutido, algunos han sido resueltos, otros están en
candelero, pero todos están contribuyendo a enriquecer, depurar y perfeccionar una línea de
investigación.
La sociolingüística ha hecho aportaciones de gran valor, merced, entre otras cosas, al
manejo de la cuantificación. Ha contribuido, por ejemplo, a ir más allá de los conceptos de
variación libre y de polimorfismo. No nos atrevemos a negar que existan fenómenos con
estas características, pero la sociolingüística ha demostrado que muchos de los que
tradicionalmente han sido considerados como tales simplemente han sido mal o
insuficientemente estudiados.
La existencia de una variación ordenada es un hecho (Weinreich, Labov y Herzog).
Cuando dentro de una comunidad de habla de lengua española encontramos casos de
debilitamiento de /s/ implosiva, de neutralización de líquidas, de yeísmo con diferentes
manifestaciones fonéticas, de morfemas verbales o formas pronominales equivalentes que
alternan en el uso, etc. es fácil descubrir que las distintas variantes de un mismo fenómeno
están íntimamente relacionadas con el estrato socio-cultural de los hablantes, con su edad,
con su sexo, con ciertos rasgos del contexto fónico o con la función que cumple el elemento
que varía. La sociolingüística tiene entre sus objetivos el de descubrir el orden que pueda
haber en la variación y el único medio de hacerlo, cuando los datos se cuentan por
centenares, es la cuantificación. La importancia de los análisis cualitativos, que nadie niega es
paralela al interés de los estudios cuantitativos: no se puede contar lo que no se ha
identificado.
Desde sus inicios, el variacionismo ha tenido dos preocupaciones principales: el
estudio de la lengua en su contexto social y el cambio lingüístico. El primero ha sido
especialmente significativo, porque ha cubierto una necesidad que las investigaciones
geolingüísticas llevaban poniendo de manifiesto y satisfaciendo parcialmente desde hacía
mucho tiempo: el análisis del habla de los grandes núcleos urbanos. En la actualidad es
posible describir con rigor hasta qué punto una variación viene determinada tanto por
factores lingüísticos, como por factores extralingüísticos (sociales y contextuales) en una
comunidad determinada. Por otra parte, la sociolingüística ha contribuido a difundir una
visión de la lengua en la que lo variable es el centro de atención, frente a la postura de las
corrientes más influyentes de la lingüística general, a la vez que ha convencido a muchos
sobre la conveniencia de trabajar con materiales de la lengua viva, obtenidos en cantidades
representativas de boca de unos hablantes representativos. El fracaso de algunos modelos
teóricos está precisamente en su falta de conformidad con los usos reales.
En cuanto al estudio del cambio, hay que destacar la atención prestada al terreno
específico del cambio lingüístico en marcha, donde se ha conseguido un nivel descriptivo
muy satisfactorio. Muchas lenguas, como el español, aún no se han visto suficientemente
beneficiadas por estos avances, pero todo se andará. Por el momento, parece claro que la
sociolingüística es parcialmente responsable del auge que en los últimos años ha cobrado el
estudio del cambio lingüístico desde una perspectiva teórica y general. Las obras de
Lehmann y Malkiel, Bynon, Anttila o Milroy son buena prueba de ello.
En todo lo que acabamos de comentar han estado y están presentes los análisis
cuantitativos. La sociolingüística ha tratado con un mimo especial el desarrollo y
perfeccionamiento de los medios técnicos necesarios para ello. Hasta tal punto es así que
algunos especialistas han reprochado a esta disciplina un interés por el ámbito metodológico
y técnico de la investigación, que podría haber ido en detrimento de algún que otro logro
teórico (Pisani). La preocupación por el método es conveniente y necesaria, especialmente
cuando se trabaja con datos de lengua hablada, y no es incompatible con una reflexión
3
teórica seria (la historia de la geografía lingüística es buena prueba de ello). El variacionismo
ha intentado conjugar los dos intereses, que en el fondo son uno solo, y ha creado una
metodología que sorprende por su refinamiento y por su eficacia, aunque no sea la panacea
universal.
ciencia del tratamiento de la información que contiene las series de datos procedentes
de observaciones de fenómenos colectivos. (Real Academia de Ciencias Exactas,
Físicas y Naturales)
análisis que comprueben, por ejemplo, las desviaciones de los datos respecto de las medias
(varianza, desviación típica), para no llegar a conclusiones limitadas o equivocadas.
Una buena estadística descriptiva requiere, por lo general, un conocimiento previo
de la naturaleza cualitativa de los datos que se quieren cuantificar. Lo demás depende de la
idoneidad de los materiales recolectados. Para ello se debe contar
a) con estudios exploratorios,
b) con hipótesis pertinentes,
c) con variables y variantes bien caracterizadas y dispuestas en escalas y
d) con recuentos minuciosos.
Los primeros recuentos suelen hacerse de forma manual, por lo que se necesita,
además de la paciencia, material apropiado para la codificación (hojas cuadriculadas). La
información bien codificada puede ser trasladada al ordenador sin mayores problemas.
Ahora bien, la importancia de la estadística descriptiva no la convierte en el único
procedimiento susceptible de aplicación. Estamos ante una fase necesaria, pero no
suficiente: por eso se la denomina pre-cuantificación. El variacionismo ha puesto en manos de
los investigadores unos recursos que conviene utilizar para que los análisis no resulten
pobres, en relación con lo que exige su tiempo. Tales recursos pertenecen al campo de la
estadística de inferencias y, concretamente, de los análisis multivariables. La estadística permite
llegar a conclusiones sobre la variación lingüística en una comunidad, partiendo del análisis
de los datos recogidos en unos pocos hablantes que se consideran representativos de esa
comunidad.
Los análisis de regla variable — también llamados análisis de regresión o análisis
probabilísticos — estudian la relación entre más de dos variables (grupos de factores) y
calculan las probabilidades de que aparezcan o no aparezcan las distintas variantes (factores)
en determinadas condiciones lingüísticas y sociales. Para hacer un análisis estadístico de esta
naturaleza se necesita
a) que el fenómeno analizado sea variable,
b) que la alternativas de la variación sean formas diferentes de decir lo mismo, esto es, que el
uso de una alternativa u otra (variantes o factores) por parte de un hablante no suponga
un cambio semántico o pragmático,
c) que la variación analizada tenga relación con las condiciones lingüísticas (contexto
fonético, contexto sintáctico, función, etc.) y extra-lingüísticas (características sociológicas
del hablante, tipo de contexto situacional, tipo de interlocutor, etc.) en que se produce.
El fenómeno estudiado puede pertenecer a cualquier nivel lingüístico, si bien existen
menos dificultades para el análisis cuando se trata de un rasgo fonético-fonológico. El
objeto principal del estudio se considera una variable dependiente (grupo de factores
dependientes); los elementos lingüísticos y socio-situacionales que se tienen en cuenta para
estudiar ese objeto se denominan variables independientes o explicativas (grupos de factores
independientes o explicativos). La forma de preparar los materiales para el análisis
probabilístico es prácticamente la misma que hemos señalado para la estadística descriptiva;
en otras palabras: se parte del recuento de las frecuencias absolutas del rasgo en cada una de
las condiciones previstas (grupos de factores explicativos) y en los discursos recogidos de
una muestra de hablantes.
Es necesario incidir en la idea de que la finalidad de este tipo de análisis es
eminentemente lingüística, por lo que los rasgos analizados deben ser elementos variables de
la lengua. En el momento de valorar el comportamiento de las variables explicativas y de
organizarlas en grupos coherentes es aconsejable anteponer un criterio lingüístico a otro tipo
de consideraciones. El sociolingüista no es un sociólogo, ni un matemático: debe pensar
como lingüista y actuar con los patrones derivados de su formación. De igual modo, los
6
resultados que aporten los análisis también han de ser interpretados desde y para la
lingüística.
La importancia del análisis probabilístico descansa en varios aspectos. Esta prueba
permite averiguar cuál es el grado en que los grupos de factores explicativos determinan la
variación de un elemento cuando todos ellos actúan conjuntamente; dicho de otro modo, el
cálculo permite conocer la probabilidad general de que apareza uno de los factores cuando
actúan simultáneamente diversos grupos de factores lingüísticos y extralingüísticos. Al
mismo tiempo, las probabilidades representan el comportamiento general de una comunidad
a propósito de ciertos fenómenos, aunque solo se hayan recogido los usos lingüísticos de
algunos hablantes.
El uso exclusivo de las frecuencias relativas (%) en la descripción sociolingüística
limita enormemente el alcance de las conclusiones del análisis e incluso puede conducir a
interpretaciones erróneas. Veamos un ejemplo creado por David Sankoff (1988).
Supongamos que estamos analizando la presencia o la ausencia de una marca de plural
teniendo en cuenta la clase de palabras en la que aparece o no aparece (adjetivos,
determinantes, nombres) y las funciones gramaticales de los sintagmas en los que se dan esas
palabras (objeto, sujeto). La Tabla 1 recoge los casos de expresión de la marca en las
condiciones previstas.
Objetos Sujetos Total_____
En esta tabla se indican los casos de presencia de la marca (aplicaciones) sobre un total de
apariciones posibles. Así, encontramos la marca de plural en seis de los diez casos de
adjetivos en sintagmas con función de objeto recogidos en los materiales; en tres de los diez
casos de determinantes en sintagmas con función de objeto y no la encontramos en ninguno
de los diez casos de nombres con esta misma función. La suma de los totales marginales, en
unos datos como estos, nos da una imagen real de cómo funciona la variación de plural: la
aparición de la marca viene claramente determinada por la función de sujeto y por la clase de
los adjetivos.
Ahora bien, hay que tener en cuenta que en las intersecciones de “categoría” y
“función” encontramos un mismo número de apariciones posibles del morfema (diez),
hecho que casi nunca se da en los materiales de carácter sociolingüístico. Lo normal es que
ese número varíe de forma notable y que la distribución de los datos no sea tan uniforme. La
Tabla 2 representa un ejemplo paralelo al anterior, en el que no coincide el número de
posibles aplicaciones por categoría y función, aunque las frecuencias relativas parciales sean
las mismas.
Objetos Sujetos Total_____
En este caso, las frecuencias relativas totales no dan una imagen adecuada del
comportamiento variable del fenómeno, porque podríamos interpretar que el hecho de que
el morfema se utilice en una secuencia con función de sujeto o de objeto es absolutamente
indiferente. Pero, aun cuando los datos estén homogéneamente distribuidos, podemos
encontrar situaciones en las que los totales no son válidos para el análisis. Esto ocurre en la
Tabla 3.
Objetos Sujetos Total_____
Aquí comprobamos que los totales marginales coinciden con los de la Tabla 1. Pero
tampoco haríamos una interpretación adecuada si no prestáramos atención a la forma en
que están distribuidas las frecuencias parciales. Observamos, efectivamente, que la clase de
los adjetivos y la función de sujeto favorecen la aparición de la marca, sin embargo también
se aprecia que nuestros dos grupos de factores están interactuando, es decir, ofrecen una
información solapada, porque los adjetivos sólo admiten la marca cuando van en función de
objeto, y los determinantes y los nombres sólo favorecen la aplicación de la marca cuando
pertenecen a un sujeto. Los factores no tienen efectos independientes.
De todo ello se desprende que, para conseguir unos valores generales capaces de
indicar hasta qué punto unos factores u otros favorecen la aplicación de un elemento, hay
que recurrir a procedimientos matemáticos más seguros y complejos, como, por ejemplo, el
análisis probabilístico (Moreno Fernández 1990a: 149-151).
Los avances técnicos de la sociolingüística han respondido básicamente a una
búsqueda del modelo estadístico más adecuado para analizar un rasgo lingüístico cuya
variación depende de unos factores lingüísticos y extralingüísticos. Estos avances se han
dado principalmente entre 1969 y 1978. Los progresos matemáticos han ido acompañados
de la creación de programas informáticos que han aplicado los cálculos estadísticos. El
nombre genérico con que se conocen tales programas es VARBRUL. Las sucesivas
versiones han ido mejorando y adaptándose a las necesidades de cada momento, desde 1971
(primer VARBRUL) hasta 1990 (GOLDVARB 2.0).
La bibliografía sociolingüística cuenta con varios estudios en los que se da cuenta de
los modelos estadísticos y los programas informáticos que se han manejado. Los modelos
han sido, por este orden, el modelo aditivo (Labov 1969), el modelo multiplicativo (Cedergren y
Sankoff 1974) y los modelos logísticos (Sankoff 1975; Rousseau y Sankoff 1978). Los programas
utilizados han sido VARBRUL (Cedergren 1973), VARBRUL 2 (Sankoff 1975; Sankoff y
Thibault 1977; Labov y Labov 1978), VARBRUL 2S (Poplack 1979), VARBRUL 2S para
PC (Pintzuk 1986) y VARBRUL 3 (Rousseau y Sankoff 1978a; Rousseau 1989). Para
Macintosh, GOLDVARB 1.6 (Rand y Sankoff 1989) y GOLDVARB 2.0 (Rand y Sankoff
1990).
Dado que pretendemos ofrecer un “estado de la cuestión” actualizado, parece
preferible tratar con mayor detenimiento el modelo y los programas que hoy tienen más
difusión y remitir a los estudios pertinentes para conseguir información sobre las etapas
8
Una vez contados los casos particulares en que se manifiesta un factor, hay que
averiguar, de nuevo mediante un recuento, con qué frecuencia se da ese fenómeno cuando
coinciden varios factores explicativos. En nuestros ejemplos sobre la aspiración de /s/
según el contexto siguiente y el hablante, se trata de averiguar cuántas muestras de aspiración
se dan en el hablante 1 cuando el contexto siguiente es una consonante sorda, cuando es una
consonante sonora, ...y así sucesivamente con cada hablante y tipo de contexto.
Estos cruces de información dan lugar a la creación de celdas (puntos de
intersección de los factores) ocupadas por unas frecuencias. La Tabla 6 recoge las celdas
posibles de nuestro ejemplo, con indicación del número de aspiraciones que se encuentra en
cada una de ellas (AP.) y de su frecuencia relativa. Ésta es la configuración interna de los
materiales recogidos.
Tabla 6.- Frecuencias absolutas y relativas de aspiración de /s/ implosiva (AP.), según
contexto fónico siguiente (s, n, v, p) y hablante (1, 2, 3, 4, 5, 6).
Los datos de aspiración de /s/ implosiva así presentados parecen suficientes para
hacer un buen análisis, sin embargo no nos dicen qué importancia, qué peso tiene cada uno
de los factores de nuestros grupos, al coincidir con los demás, para determinar cada una de
las frecuencias. Así, en la primera celda tenemos 62 casos de aspiración de /s/ implosiva
recogidos en el hablante 1 y ante consonante sorda; con los datos de que disponemos no
podemos saber cuántos de esos casos se deben principalmente al hecho de pertenecer a tal
informante y cuántos se deben principalmente al hecho de que el fonema va ante
consonante sorda. Para conocer este extremo hay que crear un “modelo teórico” que nos
indique la probabilidad de que aparezca la aspiración en cada una de las circunstancias
previstas, teniendo en cuenta sus posibles combinaciones o cruces.
El “modelo teórico” de la sociolingüística de un fenómeno está formado por un
conjunto de probabilidades, no de frecuencias. La probabilidad de que aparezca un rasgo
lingüístico determinado se consigue mediante un cálculo de regresión, que combina las
probabilidades de que una variante se dé en cada circunstancia específica (factores i, j, ...)
con un valor constante (p0). Las probabilidades específicas se calculan a partir de las
10
frecuencias del “modelo observado”. p0, denominada también input, probabilidad de input, efecto
medio o media corregida, se consigue a partir de una media del peso de los diferentes grupos de
factores, que, a su vez, es proporcional al número de datos asociado a cada factor.4 El
recurso utilizado por el variacionismo con esta finalidad se denomina modelo logístico.
donde pap. es la probabilidad de que un contexto haya influido sobre una variante lingüística,
elevada al número de aplicaciones (ocurrencias) en ese contexto, y (1 — p)~ap. es la
probabilidad de que un contexto no haya influido sobre una variante,6 elevada al número de
no aplicaciones en ese contexto. Laverosimilitud está relacionada, por tanto, con las
probabilidades calculadas para cada factor y estas probabilidades se obtienen mediante un
proceso de aproximación sucesiva (iteraciones), que conducen a la solución más exacta
(convergencia) y con una mayor verosimilitud.7
Así pues, la verosimilitud sirve tanto para indicar cuáles son las probabilidades más
adecuadas para los factores de un grupo, como para determinar cuál es la combinación de
factores que mejor se corresponde con los datos. Al comparar varias verosimilitudes, es
mejor aquella que tiene un valor más cercano a 0.
1.5. Recapitulación.
La sociolingüística variacionista ha dedicado una parte importante de sus esfuerzos al
perfeccionamiento de unas técnicas cuantitativas de análisis, encaminadas a determinar la
importancia de los contextos lingüísticos y socio-situacionales sobre la variación lingüística.
El método propuesto se denomina análisis probabilístico. Aunque el variacionismo
norteamericano siempre ha hecho sus consideraciones teóricas y metodológicas desde
posiciones cercanas al generativismo, lo cierto es que algunos de sus conceptos
fundamentales son difíciles de conciliar. Por otra parte, el análisis probabilístico se ha
convertido en una herramienta de estudio susceptible de ser utilizada desde diversos marcos
teóricos.
El método variacionista busca el cálculo de la probabilidad de que aparezca un rasgo
lingüístico determinado en unas circunstancias lingüísticas, sociológicas y contextuales
determinadas. A partir de los datos de frecuencia recogidos en un grupo de hablantes, se
crea un modelo teórico formado por las probabilidades de que se dé un fenómeno cuando
concurren diversas circunstancias. La estadística se encarga de precisar hasta qué punto las
probabilidades calculadas son verosímiles y cuáles son las circunstancias que, al darse
simultáneamente, pueden explicar mejor un hecho lingüístico.
1º.- Calcular la probabilidad de que un hecho variable se manifieste de una forma concreta
en un contexto determinado (lingüístico y extralingüístico), es decir, cuando una serie de
factores explicativos aparecen conjuntamente.
2º.- Decidir hasta qué punto da cuenta un “modelo teórico” de los datos recogidos y
determinar si los datos pueden ser divididos en varios subconjuntos que respondan a
modelos diferentes.
3º.- Comprobar si los grupos de factores contribuyen significativamente a explicar los datos
o si deben ser desestimados.8
4º.- Determinar la fiabilidad de los análisis.
Un análisis de naturaleza sociolingüística ha de proporcionar una información
concreta sobre cada uno de los objetivos generales. Todos ellos son importantes, porque
contribuyen a dar seguridad al investigador sobre la calidad de su estudio. Las conclusiones
que se deriven de esta información pueden obligar a reconsiderar las diversas etapas de la
investigación, desde la forma en que se ha seleccionado la muestra de hablantes y se ha
elegido el objeto de estudio, hasta el avance que puede suponer para el conocimiento de un
fenómeno. No obstante, excepto aquello que afecte a la recogida misma de los materiales,
prácticamente todos los problemas que surgen en el proceso analítico pueden ser tratados
— y en muchos casos solucionados — trabajando sobre la información disponible en el
ordenador. Es posible, por ejemplo, agrupar variables explicativas que en principio se habían
tratado de forma separada, prescindir de datos que se han revelado como inadecuados o
realizar análisis parciales para tener un conocimiento más profundo de algún aspecto.
El investigador debe poner un especial cuidado en valorar adecuadamente las
estimaciones de fiabilidad que proporciona el programa en cada fase del análisis. Solo así
puede saberse si las conclusiones obtenidas tienen solidez o si los materiales — datos y
análisis — deben sus características al azar. El sociolingüista tiene que estar seguro de que, al
realizar el mismo análisis con datos similares, los resultados prácticamente se van a repetir.
En esta seguridad descansa la comparabilidad de los estudios que se realicen sobre el mismo
fenómeno en comunidades de habla diferentes.
tienen un orden interno,9 el análisis puede plantear unos problemas que explicaremos más
adelante (Rousseau y Sankoff 1978a: 64).
Para introducir los datos en los programas es imprescindible atribuir a cada factor de
cada grupo un código específico de un carácter (número o letra, mayúscula o minúscula).10
En un caso como el de la aspiración de /s/ implosiva que antes hemos presentado,
podemos atribuir los siguientes códigos:
En los ejemplos de marca de plural y de /s/ implosiva, los datos tendrían una
disposición como esta:
15
_________________________________________________________________
DATOS DE MARCA DE PLURAL DATOS DE /S/ IMPLOSIVA
(1as (2p1
(1as (2n1
(1as (1s2
(1ds (1n2
etc.
_________________________________________________________________
Figura 3.- Disposición de los datos.
Al preparar los datos correspondientes a los distintos grupos, es posible hacer uso
del signo ‘.’ (punto) como si fuera un factor. Suele utilizarse, por ejemplo, cuando hay una
muestra, un contexto, etc. que no se ajusta estrictamente a los factores previstos o cuando se
piensa que un determinado dato puede ser considerado como cualquiera de los factores del
mismo grupo, según las circunstancias.
Los datos siempre deben cumplir dos requisitos mínimos para poder ser analizados:
cada grupo ha de incluir al menos dos factores (no se puede analizar un fenómeno
teóricamente variable cuando sólo se han recogido muestras de una de las variantes);
además, los datos tienen que incluir al menos un caso para cada uno de los factores
explicativos previstos (no se puede analizar el factor “ante pausa” si no hay ningún caso de
mantenimiento de /s/, de aspiración o de pérdida en ese contexto).
A la hora de introducir los datos no es imprescindible que la lista de secuencias
responda exactamente al orden en que los datos han aparecido en los textos transcritos, pero
se ha de respetar estrictamente el orden de los factores dentro de cada secuencia. La lista de
datos, dependiendo del fenómeno analizado, puede incluir unas decenas, unos centanares o
varios miles de secuencias. Aunque la introducción de esos datos lleva algún tiempo, este
puede acortarse notablemente si se cuenta manualmente el número de secuencias idénticas y
se trasladan al ordenador mediante las funciones de activar, copiar y mover bloques.12
Además de los datos codificados, el ordenador necesita saber cuántos son los grupos
de factores que van a ser analizados y cuáles son los factores válidos dentro de cada grupo.
Para ello es necesario cumplimentar una “especificación de factores” — veremos más
adelante el modo de hacerlo—, gracias a la cual el programa puede identificar cualquier dato
erróneo o que no se ajuste a lo previsto. Al especificar los factores, también hay que indicar
al ordenador cómo ha de leer el signo ‘.’ dentro de los datos: se trata de atribuir un “valor
por defecto”. Si queremos que sea leído como alguno de los otros factores, se especifica el
código correspondiente. Si simplemente se quiere eliminar esa información, se especifica el
código ‘/’ (barra inclinada), que significa ‘no se aplica’.
Con esto se está diciendo que se van a analizar los tres grupos previstos y que el que
aparece en primer lugar (1) será la variable dependiente y los demás, las explicativas. Los
datos, por tanto, no se van a recodificar. La forma de dar esta información responde a un
sistema lógico llamado LISP. Cada una de las partes de un archivo de condiciones — la lista
completa de condiciones, cada elemento de la lista — debe ir entre parántesis. En la Figura
4, además de los paréntesis aparecen simplemente los números de los grupos de factores.
Ahora bien, el desarrollo del análisis puede revelar la necesidad de interpretar las
secuencias de datos iniciales (tokens) de una manera diferente: por ejemplo, fundir dos
factores de un grupo en uno solo, no tener en cuenta un factor determinado, prescindir de
un grupo de factores completo o, incluso, elegir otro grupo dependiente. Todo esto se
puede hacer desde un archivo de condiciones sin tener que alterar para nada la lista de
secuencias. En tal circunstancia, ese fichero servirá para recodificar las secuencias
automáticamente.
Para lograr una recodificación, el sistema LISP cuenta con cinco elementos básicos:
“AND”, “OR”, “NOT”, “COL” y “ELSEWHERE” (escritos con mayúsculas o con
minúsculas). Los tres primeros son unos operadores lógicos muy conocidos: “AND” y
“OR” toman hasta 20 argumentos; “NOT” tiene un solo argumento. Por su parte, “COL”
‘columna dentro de lista de secuencias’ se usa con dos argumentos: el número de un grupo
de factores y el código del factor que se va a recodificar. “ELSEWHERE” se utiliza como
último elemento dentro de un conjunto de cláusulas referidas a un grupo de factores y sirve
para recodificar los datos con un valor determinado, si no se encuentra ninguna de las
condiciones dadas previamente para ese grupo. La información referida a un grupo que
aparezca detrás de este operador no se tiene en cuenta para la recodificación. Además de
estos elementos, el sistema LISP utiliza “NIL” que indica la exclusión en el momento del
análisis del factor o los factores (argumentos) que lo acompañan.
En la Figura 5 se ofrece un ejemplo sencillo de archivo de condiciones dispuesto
para conseguir una recodificación. Supongamos que al hacer un primer análisis de la
aspiración de /s/ implosiva hemos observado que no es aconsejable, por las características
de los datos recogidos, mantener una distinción entre consonantes sordas y consonantes
sonoras para el contexto fónico siguiente y que tendría más sentido distinguir simplemente
entre consonantes, vocales y pausa. En ese caso hay que hacer que el ordenador considere
los datos referidos a las sordas y a las sonoras como elementos de una misma categoría. Para
ello se redactaría un archivo como el de la Figura 5.
17
(
(1)
(2 (c (COL 2 s))
(c (COL 2 n))
(v (COL 2 v))
(p (COL 2 p)))
(3)
)
_______________
Figura 5.- Disposición de un archivo de condiciones dispuesto para la recodificación
(muestra sencilla).
_________________________________
(
(4 (d (OR ( (COL 4 d) (COL 4 c)))
(s (ELSEWHERE)))
(5)
(3 (/ (OR (COL 3 s) (COL 3 t) (COL 3 u)))
(m (OR (OR (COL 3 n) (COL 3 h))
(OR (COL 3 1) (COL 3 2) (COL 3 3) (COL 3 w) (COL 3 u)
(COL 3 y) (COL 3 p) (COL 3 t) (COL 3 r) (COL 3 x))))
(x (AND (OR (COL 3 n) (COL 3 h)) (COL 7 n)))
(NIL (ELSEWHERE)))
)
___________________________________________
un lado, bien lo que en la columna 3 aparece como “n” o bien lo que en la columna 3
aparece como “u” o, si no, bien lo que en la columna 3 aparece como “1” o como “2” o
como “3” o como “w” o como “u” o como “y” o como “p” o como “t” o como “r” o
como “x”; lee como “x” lo que en la columna 3 aparece, bien como “n”, bien como “h” y lo
que en la columna 7 aparece como “n”; por último, no se aplica todo lo demás que aparezca
en las secuencias de este grupo.
Como se puede apreciar, si la recodificación que se quiere hacer afecta seriamente a
la disposición inicial de las secuencias de datos, la elaboración de un archivo de condiciones
puede ser algo complicada, entre otras cosas porque los olvidos de los paréntesis se
producen con más frecuencia de la deseada. De cualquier modo, la redacción de unas
condiciones que incluyan recodificación siempre es menos trabajosa que la rectificación
manual de las secuencias de datos. Como veremos, el programa GOLDVARB 2.0 es capaz
de crear de forma automática este tipo de archivos, lo que libera al sociolingüista de un
trabajo ciertamente engorroso. En VARBRUL 2S la redacción en LISP no es automática.
_______________
AP. ~AP. Factores
63 82 1n
10 115 1p
62 238 1s
5 129 1v
76 64 2n
5 87 2p
134 88 2s
31 67 2v
66 48 3n
24 83 3p
164 54 3s
12 68 3v
55 58 4n
6 137 4p
21 201 4s
4 107 4v
59 71 5n
6 129 5p
82 189 5s
2 109 5v
39 26 6n
8 106 6p
134 102 6s
2 87 6v
_________________
Figura 7.- Celdas de aspiración de /s/ implosiva (AP.) y de no aspiración (~AP.)
Una vez que las celdas están creadas y cargadas en la memoria del ordenador, se
puede proceder al análisis estadístico de los materiales.
Figura 9.- Ventana para generación de condiciones con recodificación (GOLDVARB 2.0).
mediante el sistema LISP en el archivo que el ordenador crea a tal efecto, aunque es posible
retocarlas o modificarlas manualmente.
“Lingüística.Cel”
• 19/12/93•18:11
• Token file: s.tkn
• Conditions: Lingüística.Cnd
P
r
o
b
a
b
i
l
i
t
y
0 Applications/Total 1
El análisis binomial de subida y bajada (“Binomial, Up & Down”) aporta una información
en parte coincidente con los resultados del análisis de 1 nivel y en parte complementaria. Se
trata de un análisis de regresión escalonada (paso a paso), compuesto por una sucesión de
etapas. En primer lugar, se realiza el análisis de cada uno de los grupos de factores por
separado: el análisis consiste en calcular las probabilidades de que aparezca una variante para
cada factor del grupo. A continuación, se analizan los grupos tomados de dos en dos,
después de tres en tres, y así hasta que no se encuentra ningún grupo cuya inclusión suponga
un aumento del logaritmo de la función de verosimilitud, dentro siempre de una
significación p < 0.05. El programa compara las verosimilitudes de las etapas sucesivas y
señala cuál es el grupo, o la combinación de grupos, más adecuado, esto es, con mayor
verosimilitud.
Concluida la primera fase, llamada de “ascenso” o de agrupación progresiva de
grupos de factores, se pasa a la fase de “descenso” o de eliminación progresiva de grupos.
Dentro de ella, en primer lugar se analizan conjuntamente todos los grupos explicativos; a
continuación, las combinaciones de grupos que resultan tras eliminar uno de ellos
alternativamente; después las combinaciones que resultan de eliminar dos grupos, y así
sucesivamente hasta que no se encuentra un grupo cuya exclusión suponga una disminución
del logaritmo de la función de verosimilitud, dentro de la significación adecuada. Al terminar
esta segunda fase, el programa compara las verosimilitudes de las distintas etapas e indica
cuál es la combinación de grupos con mayor verosimilitud.
El programa presenta, para cada una de las etapas de este análisis escalonado, la
siguiente información:
En la primera línea aparece el número de grupos de factores que van a ser analizados; en la
segunda, el carácter con el que ha de completarse una secuencia incompleta; en las siguientes
se anotan, por orden, los factores y los valores por defecto de cada grupo analizado. Cuando
CHECKTOK dispone de la información que ha solicitado, crea un archivo en el que se
localizan los errores que pueda contener el fichero de datos.22
Después de comprobar la configuración de los datos, hay que arrancar el programa
parcial READTOK, para crear un archivo de secuencias de datos (“.tok) a partir de uno o
más archivos de datos (“.dat”). Es importante llamar la atención sobre las diferencias que
hay entre el primer archivo de datos — al que damos la extensión “.dat” — y el archivo de
datos que va a ser utilizado por los distintos programas parciales —al que damos la
extensión “.tok”, por paralelismo con GOLDVARB. Sólo los archivos de datos creados
desde READTOK pueden ser utilizados en las siguientes fases de VARBRUL.
Antes de continuar con el proceso de aplicación, todavía es necesario crear un
archivo más mediante el editor de textos: un archivo de condiciones, cuya redacción es
idéntica a la que hemos explicado en 2.3.2 y 2.4.2.
esta forma, el investigador puede saber en cada momento cuáles son las dificultades a las que
se enfrenta y el modo de resolverlas (Pintzuk 1988: 33).
_____________________________________________
• BINOMIAL VARBRUL, 1 step • 19/12/93•18:11 ••••••••••••••••••••••••••••••••••••
Name of cell file: Lingüística.Cel
Using fast, less accurate method.
Averaging by weighting factors.
One-level binomial analysis…
Run # 1, 24 cells:
Iterations: 1 2 3 4 5 6 7
Convergence at Iteration 7
Input 0.676
Group Factor Weight App/Total Input&Weight
1: 1 0.678 0.75 0.81
2 0.278 0.43 0.45
3 0.228 0.40 0.38
4 0.723 0.80 0.84
5 0.598 0.70 0.76
6 0.408 0.59 0.59
Sin duda son numerosos los datos a los que hay que atender, pero los resultados
deben darnos respuesta para varias preguntas:
1ª.- ¿Con qué probabilidades aparece un rasgo lingüístico cuando concurren los factores de
diversas variables explicativas?
2ª.- ¿ Cómo es el modelo teórico en comparación con los datos observados?
3ª.- ¿Qué significación tiene el análisis realizado?
La primera nota de interés en la Figura 12 es el valor correspondiente al “input”
(0.676). Ese valor hace posible la comparación de los efectos de dos factores dentro de un
grupo y nos está dando un promedio (media corregida) de aparición del valor de aplicación
en los grupos estudiados. En el ejemplo de mantenimiento de /s/, estaríamos ante un
fenómeno variable (la cifra está lejos de 0 y a suficiente distancia de 1). Ahora bien, dado
que el “input” es superior a .5 hay que entender que el factor dependiente “mantenimiento”
se ve favorecido en las condiciones previstas (variables explicativas).
La primera de las preguntas planteadas encuentra su respuesta en la columna
correspondiente al efecto o al peso (“weight”) de cada uno de los factores de cada grupo. Ese
conjunto de probabilidades constituye el “modelo teórico” creado a partir de los datos
observados (1.4.). Generalmente, si una probabilidad es superior a .5, indica que el factor
explicativo favorece la variante estudiada; si es inferior, no la favorece. Cuando la
probabilidad es exactamente .5, el factor es indiferente o no resulta significativo en relación
con la variante.
Junto a la columna del peso, se nos da información sobre los datos observados,
dividiendo el número de casos de mantenimiento de /s/ implosiva en cada factor
(aplicaciones) por el total de casos de /s/ encontrados en los materiales.27 A la derecha de
esta columna hay otra en la que se ofrecen unos valores en forma de probabilidad estimada,
que son el resultado de combinar el “input” y el peso (“weight”). Tales valores son siempre
cercanos a los que encontramos en la columna anterior (“App/Total”).
En lo que se refiere al “modelo teórico” del mantenimiento de /s/ implosiva —
frente a la aspiración y la pérdida de la consonante —, la Figura 12 nos está diciendo que los
hablantes en los que se ve favorecido ese rasgo lingüístico (grupo 1) son los números 1, 4 y 5
(probabilidad superior a .5), mientras que no se ve favorecido en los demás hablantes,
especialmente en los números 2 y 3. El contexto fónico (grupo 2) nos aporta una
información interesante: el mantenimiento de la [s] es mucho más probable cuando la
sibilante va seguida de pausa (.825) o de vocal (.765) que cuando lleva detrás una
consonante, especialmente si ésta es sonora (.158). En otras palabras, el debilitamiento de
/s/ implosiva es más probable cuando detrás aparece una consonante. En este momento de
la interpretación, surge, por tanto, la necesidad de realizar análisis complementarios, con el
fin de comprobar qué otros factores dependientes (aspiración o pérdida) son los que
resultan favorecidos por este contexto específico.
La segunda pregunta importante a la hora de interpretar los resultados del análisis
afecta a la relación entre el “modelo teórico” y los datos observados: ¿hasta qué punto se ajusta el
primero a los segundos? La estadística dispone de diversas técnicas para dar cuenta de este
aspecto. Su importancia es singular, porque si el modelo no tiene una correspondencia clara
con los datos, es muy probable que se tenga que revisar la forma en que se han recogido o
codificado los materiales. De ser así, habría que desandar parte del camino, reconsiderando
los datos o cambiando las condiciones en las que se han analizado (2.3.2.).
Los programas VARBRUL 2S y GOLDVARB 2.0 disponen de una de las técnicas
más refinadas para medir la adecuación entre un “modelo teórico” y unos datos: la función
de verosimilitud (1.4.). Cuanto más alto sea este logaritmo, más verosímil resultará el modelo
formado por las probabilidades.28 En la Figura 12, en su parte inferior, se nos da el
29
__________________________________________________
• BINOMIAL VARBRUL • 24/12/93•16:40 ••••••••••••••••••••••••••••••••••••••••••••
Name of cell file: Lingüística.Cel. Using more accurate method. Averaging by weighting factors.
Threshold, step-up/down: 0.050001
Stepping Up…
---------- Level # 0 ----------
Run # 1, 1 cells:
Iterations: 1 2 Convergence at Iteration 2
Input 0.626
Log likelihood = -2323.793
---------- Level # 1 ----------
Run # 2, 6 cells:
Iterations: 1 2 3 4 5 Convergence at Iteration 5
Input 0.638
Group # 1 -- 1: 0.636, 2: 0.300, 3: 0.273, 4: 0.696, 5: 0.574, 6: 0.453
Log likelihood = -2145.863 Significance = 0.000
Run # 3, 4 cells:
Iterations: 1 2 3 4 5 Convergence at Iteration 5
Input 0.659
Group # 2 -- s: 0.397, n: 0.184, v: 0.744, p: 0.802
Log likelihood = -1958.316 Significance = 0.000
verosimilitud es inferior a 0.05 (p = 0.000), lo que revela la idoneidad del análisis. Cuando
un investigador se encuentra con esta significación, puede estar seguro de que los datos
sobre los que va a hacer sus interpretaciones son absolutamente fiables.
A propósito de la significación, puede ser oportuno hacer algunas aclaraciones. El
nivel de significación indica la validez estadística de un análisis. Este nivel se calcula
comparando la verosimilitud que se ha obtenido a propósito de un grupo de factores
(primer análisis) con la verosimilitud que merece la combinación de ese grupo con otro
grupo de factores (segundo análisis), mediante la aplicación de un test de c2, con la
consiguiente consulta de la tabla de probabilidades. La fórmula que se utiliza es la siguiente
(Sankoff 1988: 991):
Figura 15.- Cálculo del nivel de significación a partir del logaritmo de la función de
verosimilitud.
Tabla 7.- Celdas para el análisis de la presencia de marca de plural según la clase de palabra
(“n” ‘nombre’; “d” ‘determinante’; “a” ‘adjetivo’) y la función (“s” ‘sujeto’; “c” ‘objeto’).
Ejemplo ficticio de interacción.
Si nos detenemos en los casos de aplicación (presencia de marca de plural) recogidos en cada
una de las celdas, apreciamos que la presencia de ese rasgo es especialmente llamativa
cuando se trata de palabras de la clase adjetivo (a) en función de objeto (c). Pero a la vez se
observa que no hay una celda para adjetivos en sintagmas con función de sujeto y que no
hay ningún caso de marca de plural en los nombres que están en sintagmas con función de
objeto. Estamos ante un caso de interacción de las variables explicativas.
Pero el investigador debe recoger toda la información que los programas ponen en
sus manos y analizarla escrupulosamente, si no quiere correr el riesgo de llegar a
conclusiones falsas. Por ejemplo: el análisis binomial de 1 nivel de las celdas que se recogen
en la Tabla 7 presenta los resultados que reproducimos en la Tabla 8.
____________________________________ __
Group Factor Weight App/Total Input&Weight
Tabla 8.- Probabilidades de presencia de marca de plural por grupos y factores (a partir de
celdas de Tabla 7). Ejemplo ficticio de interacción.
Para evitarlo, es imprescindible responder a cada una de las preguntas sobre las que hemos
llamado la atención anteriormente: aparte de las probabilidades mismas, hay que saber si el
modelo teórico se ajusta a los datos y cuál es la significación de nuestro análisis. Además tras
el análisis de 1 nivel hay que realizar el binomial de subida y bajada. Si lo hacemos así,
sabremos oportunamente cuándo el análisis es fiable y cuándo no lo es.
Hay varias formas de detectar la interacción de factores.33 Una de ellas, ya lo hemos
comprobado, es la observación de las celdas. También podemos llegar a detectarla
comparando las cifras que aparecen en la columna “App/Total” y en la columna “Input &
Weight” (Tabla 8): cuando las cantidades representadas en ellas no son aproximadas,
podemos estar ante un caso de interacción (compárense las cifras correspondientes a “c” y a
“s”). Si además aplicamos el análisis binomial de subida y bajada, observamos que la
significación que se ofrece en la etapa que corresponde al grupo de factores 2 (función) es
de 1.000 (hipótesis nula aceptada) y que la significación del c2 para la fase de mayor
verosimilitud también sobrepasa el límite permitido (p = 0.4733), como se ve en la Figura
16.
___________________________
Run # 4, 5 cells:
Iterations: 1 2 3 4 5 6 7 8 9 10
Convergence at Iteration 10
Input 0.598
Group # 1 -- a: 0.964, n: 0.075, d: 0.317
Group # 2 -- c: 0.322, s: 0.816
Log likelihood = -23.679 Significance = 0.006
Maximum possible likelihood = -22.918
Fit: X-square(2) = 1.522, accepted, p = 0.4733
________________________________
Figura 16.- Análisis de presencia de marca de plural (mejor fase de análisis binomial de
subida y bajada, a partir de celdas de Tabla 7). Ejemplo ficticio de interacción.
datos y la imposibilidad del análisis probabilístico: se pueden hacer buenos análisis con unas
pocas decenas de datos. Sin embargo, es evidente que cuando se dispone de pocos
materiales se corre un riesgo mayor de que los datos encierren un comportamiento inestable.
Los rasgos lingüísticos poco frecuentes necesitan una atención especial a la hora de
la recogida. En el caso de la sintaxis, es esencial dirigir las entrevistas de la manera apropiada
para favorecer la aparición del fenómeno estudiado o prolongar el periodo de recogida para
conseguir materiales: mediante la observación participativa, por ejemplo; en el estudio de
variantes fonéticas poco abundantes, hay que contar con más minutos de grabación. Pero, si
aún así siguen siendo pocos los materiales, se puede intentar el análisis, prestando una
atención muy especial a la función de verosimilitud y a la significación que se dan en los
resultados. También es necesario incluir en el informe final las frecuencias de los datos con
que se ha trabajado (valores totales y de aplicación), con la finalidad de que se sepa en todo
momento cuál es la entidad de la base sobre la que se han hecho las interpretaciones.
De cualquier forma, el variacionismo permite el análisis conjunto de materiales
recogidos por métodos diferentes: nos referimos especialmente a corpora lingüísticos con una
diferencia notable en cuanto al número de datos que contienen, y a materiales relativos al
mismo fenómeno, claro está. Si por medio de la observación participativa se han anotado
unos pocos casos de un fenómeno, éstos pueden añadirse a los allegados con otra técnica.
En tales condiciones, todos los materiales pueden ser analizados como si procedieran del
mismo corpus, con la única salvedad de que el “input” no tiene significación alguna (1.4.;
2.6.1), dado que depende de una desconocida cantidad total de la cual se han extraído esos
rasgos poco frecuentes. La interpretación final puede hacerse como si se tratara de un
análisis ordinario (Sankoff 1988: 994-995).
apreciar que la incidencia de todos ellos sobre el rasgo estudiado es diversa y que
probablemente esos factores se pueden reunir en subgrupos más homogéneos. VARBRUL
3 construye automáticamente los subgrupos y les asigna los factores más adecuados,
buscando la división más verosímil, pero necesita que los datos estén bien estructurados y
que se maneje un número importante de hablantes y contextos, si bien agrupados en pocas
variables. El programa dispone de una prueba para la simulación de particiones que calcula los
efectos que cada subgrupo tendría sobre la variante dependiente y determina si el modelo
teórico es más adecuado manteniendo todos los hablantes en un grupo y repartiéndolos en
dos o más subgrupos.
Por último, además de hacer análisis multinomiales (3.2.), VARBRUL 3 también
construye escalas de implicación. (Sankoff 1988: 993-994; Rousseau 1989: 405-407). Tales
escalas han sido tradicionalmente un recurso técnico representativo de la lingüística criollista
(De Camp 1971; Bickerton 1973; Dittmar y Schlobinski 1988; Moreno Fernández 1988:
135-137) y consiste en ordenar los factores de dos variables diferentes en una tabla
compuesta de líneas y columnas, de tal modo que en un extremo se reúnan aquellos en los
que siempre aparece el rasgo estudiado y en el otro se agrupen los factores en los que la
variante estudiada no aparece nunca. Así, por ejemplo, si tenemos en cuenta las variables
“hablante” y “contexto fónico siguiente”, la escala de implicación del mantenimiento de la
/s/ implosiva, frente al no mantenimiento, ordenaría los factores de las variables
disponiendo en un extremo aquellos hablantes y contextos en los que siempre aparece la
sibilancia y en el otro, aquellos en los que nunca se da esa variante; en el centro de la tabla
los factores se ordenarían según la proporción de casos de sibilante y de no sibilante.
El problema que los rasgos lingüísticos variables presentan para su disposición en
escalas está en que no es muy frecuente que tengan unos valores del 0% o del 100% (0 ó 1
en términos de probabilidad): por lo general los datos suelen tener valores intermedios.
Dada esta dificultad, VARBRUL 3 emplea el principio de la máxima verosimilitud para
conseguir la ordenación escalonada de las probabilidades correspondientes a los factores de
dos variables y eliminar los errores que dificulten el procedimiento. El resultado suele ser
una escala con una gran zona de variabilidad.
4.- Conclusión.
REFERENCIAS BIBLIOGRÁFICAS
ALBA, Orlando. 1990. Variación fonética y diversidad social en el español dominicano de Santiago.
Santiago: Pontificia Universidad Católica Madre y Maestra.
AMMON, Ulrich, DITTMAR, Norbert y MATTHEIER, Klaus J. (eds.). 1987-1988.
Sociolinguistics. An International Handbook of the Science of Language and Society. Berlin: Walter
de Gruyter.
ANTILLA, Raimo. 1989. Historical and Comparative Linguistics. 2ª ed. Amsterdam: John
Benjamins.
BENTIVOGLIO, PAOLA. 1980. Why “canto” and not “yo canto”? The problem of first-person
subject pronoun in spoken Venezuelan Spanish. University of California. Tesis de M.A.
inédita.
BICKERTON, Derek. 1973. Quantitative versus Dynamic Paradigms: The Case of
Montreal que. En Ch.-J. Bailey y R. Shuy (eds.). New Ways of Analizing Variation in
English, Washington: Georgetown University Press. 23-43.
BYNON, Theodora. 1981. Lingüística histórica. Madrid: Gredos.
CEDERGREN, Henrietta C. J. 1973. The Interplay of Social and Linguistic Factors in Panama.
Cornell University. Tesis Doctoral inédita.
____________________. 1983. Sociolingüística. En H. López Morales. Introducción a la
lingüística actual. Madrid: Playor. 147-165.
____________________, ROUSSEAU, Pascale y SANKOFF, David. 1986. La variabilidad
de /r/ implosiva en el español de Panamá y los modelos de ordenación de reglas. En
R. Núñez Cedeño, I. Páez Urdaneta y J. Guitart (eds.). Estudios sobre la Fonología del
Español del Caribe. Caracas: La Casa de Bello. 13-20.
____________________ y SANKOFF, David. 1974. Variable Rules: Performance as a
Statistical Reflection of Competence. Language 50. 333-355.
CESTERO MANCERA, Ana María. 1992. Intercambio de turnos de palabra en lengua española.
Universidad de Alcalá de Henares. Tesis de Licenciatura inédita.
D’INTRONO, Francesco. 1987. Teoría lingüística, variación paramétrica y español de
América. En H. López Morales y M. Vaquero (eds.). Actas del I Congreso Internacional
sobre el español de América. San Juan. Puerto Rico. Del 4 al 9 de octubre de 1982. San Juan,
Puerto Rico: Academia Puertorriqueña de la Lengua Española. 373-382.
DE CAMP, David. 1971. Toward a generative analysis of a Post-Creole Speech Continuum.
En D. Hymes (ed.). Pidginization and Creolization of Languages. London: Cambridge
University Press. 349-370.
DITTMAR, Norbert y SCHLOBINSKI, Peter. 1988. Implikationanalyse. En U. Ammon,
N. Dittmar y K.J. Mattheier (eds.). Vol. 2. 1014-1026.
FASOLD, Ralph. 1984. Variation theory and language learning. En P. Trudgill (ed.). Applied
Sociolinguistics. London: Academic Press. 245-262.
______________. 1990. Sociolinguistics of Language. Oxford: Basil Blackwell.
______________ y SCHIFFRIN, Deborah. 1989. Language Change and Variation.
Amsterdam: John Benjamins.
GARCÍA MARCOS, Francisco J. 1990. Estratificación social del español de la costa granadina.
Almería: Departamento de Lingüística General y Teoría de la Literatura.
GIMENO, Francisco. 1990. De sociolingüística histórica: en torno a los orígenes del
español. En F. Moreno Fernández (rec.). 89-102.
KAY, Paul y McDANIEL, Chad K. 1979. On the Logic of Variable Rules. Language in Society
8. 151-187.
_____________________, Chad. K. 1981. On the Meaning of Variable Rules: Discussion.
40
* Deseo expresar mi agradecimiento a las siguientes personas: Humberto López Morales, Miguel Ángel Malo
Ocaña, María del Mar Martín de Nicolás, José Enrique Moreno Fernández y Hiroto Ueda. Sus comentarios
han sido muy valiosos para la redacción de este trabajo.
1 Esta decisión, no obstante, tienen algunos inconvenientes serios. Para un buen número de lingüistas es muy
difícil comprender para qué se hace cada una de las operaciones matemáticas, porque no se han explicado
convenientemente. Lo mismo ocurre en el terreno de la informática. Ni las instrucciones de los programas ni
los trabajos teóricos explican con detalle cada uno de los datos que aparecen en los archivos de resultados.
Esto puede ser muy peligroso con vistas a la interpretación de los fenómenos sociolingüísticos. Reconocemos,
42
no obstante, que cuando se quiere trabajar entre la lingüística y las matemáticas o la informática, es muy difícil
encontrar el punto medio más adecuado a los intereses de todos.
2 En el ejemplo que estamos proponiendo, los casos de no aspiración serían los de conservación de la sibilante
realizado sobre seis localidades españolas, en el límite de las provincias de Toledo y de Cuenca (Moreno
Fernández, 1994). No pretendemos con estas páginas presentar un estudio de la variación de /s/: los datos
son utilizados exclusivamente a título de ejemplo.
4 Este valor compensa las diferencias que pueda haber en las probabilidades de dos o más grupos explicativos
sobre no aplicaciones (multiplicativo negativo: (1-p) = (1-p0) x (1-pi) x ... x (1-pk)); cuando se acercan a 0,
como el modelo multiplicativo que trabaja con aplicaciones (multiplicativo positivo: p = p0 x pi x ... x pk); y
cuando los valores son medios (alrededor de 1/2), como el modelo aditivo (p = p0 + pi + ... + pk) (Rousseau
y Sankoff 1978a: 62). Cuando la probabilidad de aplicación de un rasgo en una circunstancia determinada (pi)
supera el 0.5, se interpreta que lo favorece.
6 Dicho de forma más exacta, 1 menos la probabilidad de que un contexto haya influido sobre una variante.
7 Téngase en cuenta lo comentado en la nota 3. De todos modos, Sankoff y Rousseau no han explicado con
claridad cómo se hacen los cálculos para llegar a la convergencia, tal vez por tratarse de procesos numéricos
agotadores que sólo pueden hacerse con ayuda de la informática.
8 Hay que tener en cuenta que tan importante es decubrir la influencia de una variable explicativa sobre la
precede al factor “de 21 a 35 años” y éste, al factor “de 36 a 55 años”. Este sería un caso de escala ordinal. En
las escalas nominales, cualquier factor puede preceder a cualquiera de los demás: el factor “adjetivo” no tiene
por qué ir delante del factor “determinante”; el factor “función sujeto” no tiene por qué ir después del factor
“función objeto”.
10 Los signos ‘(‘ (paréntesis), ‘.’ (punto) o ‘/’ (barra inclinada) nunca puede ser utilizados como códigos de
fragmento en el que ha aparecido el dato o cualquier comentario que el investigador considere oportuno.
Estos “textos” pueden anotarse después del espacio o de la señal de fin de línea de cada secuencia. El
ordenador nunca confundirá tal información con los datos propiamente dichos, porque estos van precedidos
necesariamente por un paréntesis. Algunos de los problemas que se pueden encontrar en los análisis se deben
a una incorrecta introducción o codificación de los datos. Afortunadamente, los errores graves se detectan
mediante una aplicación de “comprobación” (check).
13 Para que funcione el programa se necesita que el Macintosh cuente con un Sistema Operativo 6.0 o
posterior. Cuando se cuenta con una cantidad de datos importante, conviene trabajar con un modelo de
Macintosh suficientemente rápido o bien incorporar un acelerador.
14 En GOLDVARB 2.0 se puede trabajar con un máximo de 30 grupos de factores; cada grupo puede estar
al llegar a ese punto no ha encontrado la convergencia, se ofrecen los valores calculados hasta ese momento.
En este caso, las estimaciones no pueden ser todo lo cuidadas que se desea.
16 En GOLDVARB 2.0, marcando un cuadrado cualquiera, se nos dice exactamente cuántas aplicaciones
de determinar qué método será utilizado para conseguir la probabilidad media de los factores en un grupo
dado. Cuando se da esta orden, cada factor recibe una misma ponderación. Si no se elige esta opción, cada
factor resulta ponderado según el número de casos posibles (aplicaciones y no aplicaciones) en relación con el
número de casos posibles en el conjunto de los factores de un grupo (Rand y Sankoff 1990: 36).
18 Las extensiones que presentamos para estos archivos son simples sugerencias: el investigador puede dar a
los archivos el nombre que quiera. Conviene advertir, no obstante, que son muchos los archivos y programas
que aparecen en el directorio creado para el programa y que, por lo tanto, es aconsejable seguir un método que
facilite la búsqueda.
43
19 Todos los archivos creados con el editor de textos deben memorizarse sin “caracteres de control” (en el
factores directamente desde la consola, anotando la información que se solicita: número de grupos de factores,
valor por defecto, factores legales y valor por defecto de cada grupo.
22 Proponemos dar a este archivo la extensión “.che”.
23 También se pide el nombre de un archivo de “definición de factores” y la posibilidad de añadir un
encabezamiento a la información aportada en el archivo de celdas, pero no son elementos imprescindibles para
el correcto funcionamiento del progama. Tan sólo buscan que el investigador pueda reconocer más fácilmente
los códigos de los factores (Pintzuk 1988: 12).
24 El ordenador también pide que se especifique el multiplicador que se va a utilizar sobre los casos de no-
aplicación. Esto tiene alguna utilidad cuando no se trabaja con todos los casos de no aplicación, sino
solamente con una muestra representativa. Si la muestra recoge 1/5 de los casos de no-aplicación, se pide al
ordenador que el multiplicador sea 5.
25 Es relativamente frecuente encontrar problemas de capacidad de memoria al aplicar estos análisis. Las
instrucciones de VARBRUL 2S explican cómo solucionar la mayor parte de estas dificultades (Pintzuk 1988:
26).
26 Los programas complementarios son los siguientes:
- CROSSTAB (véase 2.4.5.): ofrece las frecuencias absolutas y relativas que se recogen al cruzar la información
de dos variables o grupos explicativos. Para su aplicación es imprescindible la existencia de un archivo del
celdas (Pintzuk 1988: 23-24)
- COUNTUP: sirve para contar las ocurrencias y calcular las proporciones de los factores de un grupo. Para su
aplicación se debe disponer de un archivo de datos (tokens) y especificar el número del factor que se quiere
estudiar (Pintzuk 1988: 22).
- TSORT: se utiliza para ordenar o reordenar los datos incluidos en una secuencia y para copiar en un archivo
diferente los factores que se quieran. El modo en que se hace la ordenación se especifica con un sistema
similar al que se utiliza para crear los archivos de condiciones (Pintzuk 1988: 27).
- TEXTSORT: se utiliza para localizar, ordenar y copiar en un archivo diferente fragmentos de los textos que
acompañan a las secuencias de datos (véase nota 4) (Pintzuk 1988: 30-31).
27 A la hora de interpretar y presentar los resultados es conveniente tener en cuenta y aportar esta información.
Lo más indicado es ofrecer no el resultado de la división, sino el número de aplicaciones y el número total de
casos. En los estudios de fonética, donde los datos se cuentan por centenares, esta información puede ocupar
un segundo plano, pero en los análisis de sintaxis es importante tenerla presente, porque se debe saber sobre
cuántos casos se han calculado las probabilidades.
28 El resultado de ese logaritmo aparece en forma de número negativo. Por tanto, tendrá más verosimilitud
binomial de 1 nivel.
32 En GOLDVARB 2.0, si se quiere tener el valor de c2 y su significación, se puede pedir en el menú “Cells”
(“Show Model Fit”). Esto se puede hacer en el análisis binomial de 1 nivel y en el análisis de subida y bajada.
33 En algunos casos, puede haber variables subyacentes que hay que descubrir.
34 También es posible calcular los coeficientes de correlación de las dos variables mediante otros programas
GOLDVARB 2.0.
36 Véase Cedergren 1983, Silva-Corvalán 1988 y López Morales 1990. Hay publicaciones en las que se estudian
diversos aspectos del español utilizando las técnicas variacionistas. Algunas de ellas son las siguientes:
- Estudios en los que se ha utilizado el programa VARBRUL: Cedergren 1973.
- Estudios en los que se ha utilizado el programa VARBRUL 2: Silva-Corvalán 1977; López Morales 1983;
Samper Padilla 1990; Gimeno 1990.
- Estudios en los que se ha utilizado VARBRUL 2s: Poplack 1979; Bentivoglio 1980; Alba 1990; García
Marcos 1990; Serrano 1992; Moreno Fernández, 1994.
44
- Estudios en los que se ha utilizado GOLDVARB 2.0: Molina Martos 1991; Cestero Mancera 1992; Sedano
1993; Moreno Fernández, 1994.
37 Por otra parte, la lingüística hispánica está mostrando una tendencia a compaginar su tradición dialectológica
con la metodología variacionista, pero esa inclinación adolece por el momento de la suficiente claridad de
ideas.
**************************************************************************************