Sociolingüística, Estadística e Informática

1
SOCIOLINGÜÍSTICA, ESTADÍSTICA E INFORMÁTICA
FRANCISCO MORENO FERNÁNDEZ

Universidad de Alcalá de Henares
Publicado en Lingüística, 6 (1994), pp. 95-154.
0.- Introducción.*
El “estado de la cuestión” que presentamos en estas páginas no va a pasar revista a
cada una de las corrientes que, con criterios más o menos estrictos, reciben el marbete de
“sociolingüística”, sino que estará referido específicamente a la sociolingüística de la
variación. Se pretende dar información sobre el empleo de la estadística y de la informática
en el ámbito de la sociolingüística variacionista.
Nuestro deseo es que los contenidos que aquí se van a desarrollar sean de alguna
utilidad tanto para los especialistas en sociolingüística como para aquellos lingüistas que no
trabajan en el estudio de la variación. Por este motivo, hemos dividido el trabajo en tres
apartados. En el primero se ofrece un panorama general de la cuantificación en los estudios
sociolingüísticos y una presentación del modelo estadístico más utilizado durante los últimos
años. El segundo apartado explica con algún detalle el funcionamiento de los programas
informáticos destinados a la aplicación de técnicas estadísticas. El tercero se detiene en las
fases más complicadas del análisis y en los problemas que suelen tener una solución menos
clara.
1.- Investigación sociolingüística y cuantificación.
1.1. Aportaciones de la sociolingüística a través de la cuantificación.

El nacimiento y desarrollo de la sociolingüística variacionista no puede entenderse
sin la cuantificación. De hecho, entre los factores “determinantes” de su impulso hay que
incluir, sin duda, la aplicación de las matemáticas en el tratamiento de grandes volúmenes de
datos y los avances de la informática durante los últimos quince años. El auxilio de otras
disciplinas y la mejora de los medios han hecho que la sociolingüística tenga una imagen
bien caracterizada y destacada en el conjunto de la llamada “lingüística cuantitativa”
(Tesitelová).
Nada de esto, sin embargo, es mérito que deba atribuirse de forma exclusiva a
nuestra disciplina. La sociolingüística es hija de su tiempo y continuadora de unas
experiencias acumuladas, principalmente, durante los últimos cincuenta años (Moreno
Fernández, 1997).
El uso de procedimientos cuantitativos en la sociolingüística está íntimamente ligado
a conflictos de naturaleza teórica que se han ido poniendo de manifiesto conforme nuestra
disciplina ha ido madurando. Pensamos en los contrastes de pareceres entre los partidarios
de los análisis cualitativos y de los análisis cuantitativos, en los problemas que presenta la
relación entre “gramáticas comunitarias” y “gramáticas individuales” o en las dificultades
para aceptar la existencia de un componente probabilístico dentro de la competencia. A esto
podríamos añadir que los diversos niveles de la lengua no son igualmente accesibles desde
unos planteamientos cuantitativos y que las categorías cuantificadas, especialmente las
sociales, no son siempre las más idóneas, por no entrar en el comentario de los lazos de
“amor-odio” entre generativistas y variacionistas.
Esta relación de conflictos sólo pretende poner de manifiesto la importancia que la
2
cuantificación puede llegar a tener en el campo de la lingüística teórica. Cada uno de esos
problemas ha sido largamente discutido, algunos han sido resueltos, otros están en
candelero, pero todos están contribuyendo a enriquecer, depurar y perfeccionar una línea de
investigación.
La sociolingüística ha hecho aportaciones de gran valor, merced, entre otras cosas, al
manejo de la cuantificación. Ha contribuido, por ejemplo, a ir más allá de los conceptos de
variación libre y de polimorfismo. No nos atrevemos a negar que existan fenómenos con
estas características, pero la sociolingüística ha demostrado que muchos de los que
tradicionalmente han sido considerados como tales simplemente han sido mal o
insuficientemente estudiados.
La existencia de una variación ordenada es un hecho (Weinreich, Labov y Herzog).
Cuando dentro de una comunidad de habla de lengua española encontramos casos de
debilitamiento de /s/ implosiva, de neutralización de líquidas, de yeísmo con diferentes
manifestaciones fonéticas, de morfemas verbales o formas pronominales equivalentes que
alternan en el uso, etc. es fácil descubrir que las distintas variantes de un mismo fenómeno
están íntimamente relacionadas con el estrato socio-cultural de los hablantes, con su edad,
con su sexo, con ciertos rasgos del contexto fónico o con la función que cumple el elemento
que varía. La sociolingüística tiene entre sus objetivos el de descubrir el orden que pueda
haber en la variación y el único medio de hacerlo, cuando los datos se cuentan por
centenares, es la cuantificación. La importancia de los análisis cualitativos, que nadie niega es
paralela al interés de los estudios cuantitativos: no se puede contar lo que no se ha
identificado.
Desde sus inicios, el variacionismo ha tenido dos preocupaciones principales: el
estudio de la lengua en su contexto social y el cambio lingüístico. El primero ha sido
especialmente significativo, porque ha cubierto una necesidad que las investigaciones
geolingüísticas llevaban poniendo de manifiesto y satisfaciendo parcialmente desde hacía
mucho tiempo: el análisis del habla de los grandes núcleos urbanos. En la actualidad es
posible describir con rigor hasta qué punto una variación viene determinada tanto por
factores lingüísticos, como por factores extralingüísticos (sociales y contextuales) en una
comunidad determinada. Por otra parte, la sociolingüística ha contribuido a difundir una
visión de la lengua en la que lo variable es el centro de atención, frente a la postura de las
corrientes más influyentes de la lingüística general, a la vez que ha convencido a muchos
sobre la conveniencia de trabajar con materiales de la lengua viva, obtenidos en cantidades
representativas de boca de unos hablantes representativos. El fracaso de algunos modelos
teóricos está precisamente en su falta de conformidad con los usos reales.
En cuanto al estudio del cambio, hay que destacar la atención prestada al terreno
específico del cambio lingüístico en marcha, donde se ha conseguido un nivel descriptivo
muy satisfactorio. Muchas lenguas, como el español, aún no se han visto suficientemente
beneficiadas por estos avances, pero todo se andará. Por el momento, parece claro que la
sociolingüística es parcialmente responsable del auge que en los últimos años ha cobrado el
estudio del cambio lingüístico desde una perspectiva teórica y general. Las obras de
Lehmann y Malkiel, Bynon, Anttila o Milroy son buena prueba de ello.
En todo lo que acabamos de comentar han estado y están presentes los análisis
cuantitativos. La sociolingüística ha tratado con un mimo especial el desarrollo y
perfeccionamiento de los medios técnicos necesarios para ello. Hasta tal punto es así que
algunos especialistas han reprochado a esta disciplina un interés por el ámbito metodológico
y técnico de la investigación, que podría haber ido en detrimento de algún que otro logro
teórico (Pisani). La preocupación por el método es conveniente y necesaria, especialmente
cuando se trabaja con datos de lengua hablada, y no es incompatible con una reflexión
3
teórica seria (la historia de la geografía lingüística es buena prueba de ello). El variacionismo
ha intentado conjugar los dos intereses, que en el fondo son uno solo, y ha creado una
metodología que sorprende por su refinamiento y por su eficacia, aunque no sea la panacea
universal.
1.2. Variación y teoría lingüística.

El análisis emblemático de la sociolingüística variacionista es, sin duda, el que se
conoce con el nombre de análisis de regla variable. Ese nombre recoge la esencia de su origen,
pero no se ajusta estrictamente al sentido que tiene el análisis en la actualidad. El
variacionismo ha dedicado parte de sus energías a perfeccionar una prueba estadística capaz de
medir hasta qué punto una serie de factores lingüísticos (contextuales y funcionales) y extralingüísticos
(sociales y situacionales) determina la aparición de cada una de las variantes de un fenómeno lingüístico
variable.
Conviene dejar claro, antes de seguir adelante, que una estadística de corte
variacionista no tiene por qué vincularse de forma absoluta y necesaria a una corriente
teórica determinada. Sin embargo, es evidente que los variacionistas norteamericanos, desde
un primer momento, han estado condicionados por un entorno de naturaleza generativo-
transformacional. Frente a la propuesta de “regla opcional”, concepto teóricamente endeble,
la sociolingüística presenta una alternativa destinada a enriquecer el modelo generativista: la
regla variable (Labov 1969). Esta regla sería capaz de explicar en qué medida se cumple un
fenómeno y en qué condiciones lingüísticas y sociales. Frente a las propuestas de “hablante-
oyente ideal” y de “comunidad homogénea”, conceptos incompatibles con cualquier tipo de
empirismo, la sociolingüística propone la experiencia de unos usos reales y representativos.
Desde el momento en que el variacionismo convierte estas propuestas en axiomas, aparece
el choque dialéctico con el generativismo (Kay y McDaniel 1979, 1981; Sankoff y Labov
1979; Kiparsky 1979, 1982; Singh y Ford 1989; Moreno Fernández 1988: 128-130).
Sin embargo, el contraste de opiniones no ha hecho que los variacionistas
norteamericanos pierdan de vista el devenir del generativismo; es más, algunos han
intentado trabajar desde la “Teoría de la Rección y el Ligamiento” (Lefebvre; Lemieux) y
otros han visto en el “Modelo de Principios y Parámetros” la posibilidad de un acercamiento
formal (D’Introno). Una demostración de la importancia que tiene el generativismo para los
variacionistas norteamericanos está, por un lado, en la propuesta del concepto de regla
variable y, por otro, en el abandono silencioso que se ha ido haciendo, aproximadamente
desde 1978, de la misma regla variable en las publicaciones. No se han abandonado las
técnicas estadísticas, sino el uso formal de las reglas: se calculan y presentan en tablas los
factores estudiados y su peso cuantitativo, pero no se redactan las reglas derivadas de ellos.
Las causas de este cambio de orientación son varias: por una parte está la dificultad de
aplicar la regla variable en el campo de la sintaxis transformacional (Fasold 1990: 251-257);
por otra, una regla variable no explica los fenómenos, sino que simplemente los describe
(López Morales 1993: 189); finalmente, los sucesivos cambios en el seno del generativismo
han hecho que la elaboración de reglas no se ajuste a las necesidades teóricas más actuales.
En resumen, la renuncia a formular reglas variables está íntimamente ligada a la relación
entre variacionismo y generativismo.
Muy unido a este problema encontramos el del emplazamiento de la variación socio-
lingüística en el conjunto de la lengua; dicho de otra forma, la localización de la regla
variable en el sistema. La sociolingüística parte de la idea de que la regla variable está
vinculada a la competencia lingüística. En las explicaciones que se han hecho de esta
hipótesis pueden observarse distintos matices de intensidad. Para Labov, las reglas variables
son reglas de producción que en una gran mayoría pueden ser caracterizadas también como
4
“reglas de actuación” (1972: 225-226), aunque constituyen claramente un aspecto de la

competencia. Para Cedergren y Sankoff, la actuación es un reflejo estadístico — si bien
aproximado — de la competencia y las reglas variables incluyen un componente
probabilístico de lo lingüístico y de lo social. Podríamos decir que unos autores han
defendido más radicalmente un concepto de regla variable como patrimonio exclusivo de la
competencia, mientras otros no han descuidado los niveles de la lengua menos abstractos. El
debate sobre esta cuestión ha ido perdiendo fuerza al mismo ritmo que se abandonaba el
uso formal de las reglas, pero no ha dejado de despertar interés y es probable que en el
futuro se reavive.
Las dificultades y controversias teóricas no han impedido que se sigan haciendo
análisis estadísticos, con más fuerza y calidad que nunca, pero considerados como simple
herramienta descriptiva de la variación (Fasold 1990: 256). Esto prueba, como advertíamos
al principio, que se puede hacer variacionismo desde un modelo teórico no generativista
(Fasold 1984: 245-247). La sociolingüística exige de la teoría, sea la que sea, capacidad para
admitir la presencia ordenada de fenómenos variables.
1.3. Desarrollo de las técnicas cuantitativas en sociolingüística.

La cuantificación en el ámbito de la lingüística se ha hecho básicamente mediante los
recursos de la estadística, entendida como
ciencia del tratamiento de la información que contiene las series de datos procedentes
de observaciones de fenómenos colectivos. (Real Academia de Ciencias Exactas,
Físicas y Naturales)
La sociolingüística trabaja habitualmente con dos tipos de estadística: una estadística

descriptiva y una estadística de inferencias (inferencia estadística). La primera consiste
simplemente en contar y ordenar cuantitativamente un conjunto de datos; la segunda nos
permite aplicar de forma válida las conclusiones de esos análisis a entidades mayores que en
realidad no han sido investigadas en su totalidad.
La estadística descriptiva incluye pruebas simples de cuantificación, por otra parte muy
conocidas, como el recuento de frecuencias absolutas, su conversión en frecuencias relativas
y el cálculo de medias, medianas, modas, varianzas y desviaciones típicas (Moreno
Fernández 1990a). Este tipo de pruebas se aplican en lingüística desde hace muchos
decenios. Con el paso del tiempo hemos ido ganando en rapidez y fiabilidad en el manejo de
los datos, así como en calidad a la hora de presentarlos gráficamente. En este punto, el
desarrollo de la informática ha reportado grandes ventajas. Actualmente es posible aplicar la
estadística descriptiva por medio de programas llamados “Hojas de cálculo” que están al
alcance de cualquier mano. También existen programas estadísticos más completos de los
que se obtienen cálculos rápidos y gráficos de gran calidad (SPSS, Statgraphics, Statview).
Como se deduce de lo apuntado, la estadística descriptiva se ha utilizado desde los
inicios mismos de la sociolingüística moderna: ejemplo de ello es el trabajo de W. Labov
(1963) sobre la isla de Martha’s Vineyard. Sin embargo, su aplicación sigue siendo
inexcusable en cualquier análisis de la variación y los problemas que presenta son mínimos
desde un punto de vista técnico. El éxito está garantizado cuando el investigador cuantifica
las categorías pertinentes, cuando están bien delimitadas — sin solapamientos de datos — y
cuando se aprovechan al máximo sus posibilidades. No obstante, con cierta frecuencia se
encuentran publicaciones en las que no se pasa del cálculo de los tantos por ciento. Este
cálculo es tan necesario como básico, pero a menudo necesita ser complementado con
5
análisis que comprueben, por ejemplo, las desviaciones de los datos respecto de las medias
(varianza, desviación típica), para no llegar a conclusiones limitadas o equivocadas.
Una buena estadística descriptiva requiere, por lo general, un conocimiento previo
de la naturaleza cualitativa de los datos que se quieren cuantificar. Lo demás depende de la
idoneidad de los materiales recolectados. Para ello se debe contar
a) con estudios exploratorios,
b) con hipótesis pertinentes,
c) con variables y variantes bien caracterizadas y dispuestas en escalas y
d) con recuentos minuciosos.
Los primeros recuentos suelen hacerse de forma manual, por lo que se necesita,
además de la paciencia, material apropiado para la codificación (hojas cuadriculadas). La
información bien codificada puede ser trasladada al ordenador sin mayores problemas.
Ahora bien, la importancia de la estadística descriptiva no la convierte en el único
procedimiento susceptible de aplicación. Estamos ante una fase necesaria, pero no
suficiente: por eso se la denomina pre-cuantificación. El variacionismo ha puesto en manos de
los investigadores unos recursos que conviene utilizar para que los análisis no resulten
pobres, en relación con lo que exige su tiempo. Tales recursos pertenecen al campo de la
estadística de inferencias y, concretamente, de los análisis multivariables. La estadística permite
llegar a conclusiones sobre la variación lingüística en una comunidad, partiendo del análisis
de los datos recogidos en unos pocos hablantes que se consideran representativos de esa
comunidad.
Los análisis de regla variable — también llamados análisis de regresión o análisis
probabilísticos — estudian la relación entre más de dos variables (grupos de factores) y
calculan las probabilidades de que aparezcan o no aparezcan las distintas variantes (factores)
en determinadas condiciones lingüísticas y sociales. Para hacer un análisis estadístico de esta
naturaleza se necesita
a) que el fenómeno analizado sea variable,
b) que la alternativas de la variación sean formas diferentes de decir lo mismo, esto es, que el
uso de una alternativa u otra (variantes o factores) por parte de un hablante no suponga
un cambio semántico o pragmático,
c) que la variación analizada tenga relación con las condiciones lingüísticas (contexto
fonético, contexto sintáctico, función, etc.) y extra-lingüísticas (características sociológicas
del hablante, tipo de contexto situacional, tipo de interlocutor, etc.) en que se produce.
El fenómeno estudiado puede pertenecer a cualquier nivel lingüístico, si bien existen
menos dificultades para el análisis cuando se trata de un rasgo fonético-fonológico. El
objeto principal del estudio se considera una variable dependiente (grupo de factores
dependientes); los elementos lingüísticos y socio-situacionales que se tienen en cuenta para
estudiar ese objeto se denominan variables independientes o explicativas (grupos de factores
independientes o explicativos). La forma de preparar los materiales para el análisis
probabilístico es prácticamente la misma que hemos señalado para la estadística descriptiva;
en otras palabras: se parte del recuento de las frecuencias absolutas del rasgo en cada una de
las condiciones previstas (grupos de factores explicativos) y en los discursos recogidos de
una muestra de hablantes.
Es necesario incidir en la idea de que la finalidad de este tipo de análisis es
eminentemente lingüística, por lo que los rasgos analizados deben ser elementos variables de
la lengua. En el momento de valorar el comportamiento de las variables explicativas y de
organizarlas en grupos coherentes es aconsejable anteponer un criterio lingüístico a otro tipo
de consideraciones. El sociolingüista no es un sociólogo, ni un matemático: debe pensar
como lingüista y actuar con los patrones derivados de su formación. De igual modo, los
6
resultados que aporten los análisis también han de ser interpretados desde y para la
lingüística.
La importancia del análisis probabilístico descansa en varios aspectos. Esta prueba
permite averiguar cuál es el grado en que los grupos de factores explicativos determinan la
variación de un elemento cuando todos ellos actúan conjuntamente; dicho de otro modo, el
cálculo permite conocer la probabilidad general de que apareza uno de los factores cuando
actúan simultáneamente diversos grupos de factores lingüísticos y extralingüísticos. Al
mismo tiempo, las probabilidades representan el comportamiento general de una comunidad
a propósito de ciertos fenómenos, aunque solo se hayan recogido los usos lingüísticos de
algunos hablantes.
El uso exclusivo de las frecuencias relativas (%) en la descripción sociolingüística
limita enormemente el alcance de las conclusiones del análisis e incluso puede conducir a
interpretaciones erróneas. Veamos un ejemplo creado por David Sankoff (1988).
Supongamos que estamos analizando la presencia o la ausencia de una marca de plural
teniendo en cuenta la clase de palabras en la que aparece o no aparece (adjetivos,
determinantes, nombres) y las funciones gramaticales de los sintagmas en los que se dan esas
palabras (objeto, sujeto). La Tabla 1 recoge los casos de expresión de la marca en las
condiciones previstas.
Objetos Sujetos Total_____
Adjetivos 6/10 = 60% 10/10 = 100% 16/20 = 80%

Determinantes 3/10 = 30% 7/10 = 70% 10/20 = 50%
Nombres 0/10 = 0% 4/10 = 40% 4/20 = 20%
__________________________________________________________
Total: 9/30 = 30% 21/30 = 70%
Tabla 1.- Frecuencias (absolutas y relativas) de presencia de una marca de plural según la
clase de palabras y la función gramatical. Totales válidos.
En esta tabla se indican los casos de presencia de la marca (aplicaciones) sobre un total de
apariciones posibles. Así, encontramos la marca de plural en seis de los diez casos de
adjetivos en sintagmas con función de objeto recogidos en los materiales; en tres de los diez
casos de determinantes en sintagmas con función de objeto y no la encontramos en ninguno
de los diez casos de nombres con esta misma función. La suma de los totales marginales, en
unos datos como estos, nos da una imagen real de cómo funciona la variación de plural: la
aparición de la marca viene claramente determinada por la función de sujeto y por la clase de
los adjetivos.
Ahora bien, hay que tener en cuenta que en las intersecciones de “categoría” y
“función” encontramos un mismo número de apariciones posibles del morfema (diez),
hecho que casi nunca se da en los materiales de carácter sociolingüístico. Lo normal es que
ese número varíe de forma notable y que la distribución de los datos no sea tan uniforme. La
Tabla 2 representa un ejemplo paralelo al anterior, en el que no coincide el número de
posibles aplicaciones por categoría y función, aunque las frecuencias relativas parciales sean
las mismas.
Adjetivos 42/70 = 60% 10/10 = 100% 52/80 = 65%

Determinantes 3/10 = 30% 49/70 = 70% 52/80 = 65%
Nombres 0/10 = 0% 76/190 = 40% 76/200 = 38%
_________________________________________________________
Total: 45/90 = 50% 135/270 = 50%
7
clase de palabras y la función gramatical. Totales inadecuados para el análisis.
En este caso, las frecuencias relativas totales no dan una imagen adecuada del
comportamiento variable del fenómeno, porque podríamos interpretar que el hecho de que
el morfema se utilice en una secuencia con función de sujeto o de objeto es absolutamente
indiferente. Pero, aun cuando los datos estén homogéneamente distribuidos, podemos
encontrar situaciones en las que los totales no son válidos para el análisis. Esto ocurre en la
Tabla 3.
Adjetivos 9/10 = 90% 7/10 = 70% 16/20 = 80%

Determinantes 0/10 = 0% 10/10 = 100% 10/20 = 50%
Nombres 0/10 = 0% 4/10 = 40% 4/20 = 20%
_________________________________________________________
Total: 9/30 = 30% 21/30 = 70%
clase de palabras y la función gramatical. Interacción de factores independientes.
Aquí comprobamos que los totales marginales coinciden con los de la Tabla 1. Pero
tampoco haríamos una interpretación adecuada si no prestáramos atención a la forma en
que están distribuidas las frecuencias parciales. Observamos, efectivamente, que la clase de
los adjetivos y la función de sujeto favorecen la aparición de la marca, sin embargo también
se aprecia que nuestros dos grupos de factores están interactuando, es decir, ofrecen una
información solapada, porque los adjetivos sólo admiten la marca cuando van en función de
objeto, y los determinantes y los nombres sólo favorecen la aplicación de la marca cuando
pertenecen a un sujeto. Los factores no tienen efectos independientes.
De todo ello se desprende que, para conseguir unos valores generales capaces de
indicar hasta qué punto unos factores u otros favorecen la aplicación de un elemento, hay
que recurrir a procedimientos matemáticos más seguros y complejos, como, por ejemplo, el
análisis probabilístico (Moreno Fernández 1990a: 149-151).
Los avances técnicos de la sociolingüística han respondido básicamente a una
búsqueda del modelo estadístico más adecuado para analizar un rasgo lingüístico cuya
variación depende de unos factores lingüísticos y extralingüísticos. Estos avances se han
dado principalmente entre 1969 y 1978. Los progresos matemáticos han ido acompañados
de la creación de programas informáticos que han aplicado los cálculos estadísticos. El
nombre genérico con que se conocen tales programas es VARBRUL. Las sucesivas
versiones han ido mejorando y adaptándose a las necesidades de cada momento, desde 1971
(primer VARBRUL) hasta 1990 (GOLDVARB 2.0).
La bibliografía sociolingüística cuenta con varios estudios en los que se da cuenta de
los modelos estadísticos y los programas informáticos que se han manejado. Los modelos
han sido, por este orden, el modelo aditivo (Labov 1969), el modelo multiplicativo (Cedergren y
Sankoff 1974) y los modelos logísticos (Sankoff 1975; Rousseau y Sankoff 1978). Los programas
utilizados han sido VARBRUL (Cedergren 1973), VARBRUL 2 (Sankoff 1975; Sankoff y
Thibault 1977; Labov y Labov 1978), VARBRUL 2S (Poplack 1979), VARBRUL 2S para
PC (Pintzuk 1986) y VARBRUL 3 (Rousseau y Sankoff 1978a; Rousseau 1989). Para
Macintosh, GOLDVARB 1.6 (Rand y Sankoff 1989) y GOLDVARB 2.0 (Rand y Sankoff
1990).
Dado que pretendemos ofrecer un “estado de la cuestión” actualizado, parece
preferible tratar con mayor detenimiento el modelo y los programas que hoy tienen más
difusión y remitir a los estudios pertinentes para conseguir información sobre las etapas
8
anteriores (Moreno Fernández 1988: 111-126; López Morales 1993).
1.4. El modelo estadístico.

El modelo estadístico con el que trabaja el variacionismo desde 1975 es el modelo
logístico de regresión, cuya segunda versión fue presentada en 1978 por Pascale Rousseau y
David Sankoff. Antes de comentar cuáles son sus características generales, creemos
necesario hacer algunas advertencias.
Hasta el momento, las explicaciones más detalladas que se han dado de este modelo
proceden, como es lógico, de sus creadores. Sankoff y Rousseau son investigadores de
formación matemática que han dedicado una parte muy importante de su trabajo a las
aplicaciones con fines lingüísticos. Ahora bien, estos autores no han dado las explicaciones
con la intención de que los sociolingüistas aprendan matemáticas o puedan calcular por ellos
mismos unas probabilidades de significación sociolingüística: han buscado la comprensión
general del modelo. Ni siquiera la publicación más “pedagógica” de este campo (Sankoff
1988) permite al lingüista seguir con facilidad los argumentos matemáticos. El modelo se ha
descrito para su comprensión y la de los resultados que proporcionan los programas
informáticos correspondientes, pero poco más: se ha dado prioridad al qué y al para qué
sobre el cómo.1
El modelo logístico estima la probabilidad de que un fenómeno variable se
manifieste en una de sus formas cuando concurren simultáneamente unas determinadas
condiciones. Para llegar a aplicar esto, es necesario tener en cuenta diversas informaciones.
En primer lugar, se necesita saber, a propósito de cada factor, cuántas veces se ha
manifestado — se ha aplicado — en relación con los casos posibles. Este dato se consigue
mediante el simple recuento de las frecuencias absolutas y el cálculo de las relativas. En la
Tabla 4 se muestran unos datos de aspiración de /s/ implosiva en lengua española cuando
en el contexto fónico siguiente aparece una consonante sorda (s), una consonante sonora
(n), una vocal (v) o pausa. Consideramos casos de aplicación (AP.) los que corresponden a la
variante aspirada; los casos de no aplicación (NO AP.) son los que no corresponden a la
aspiración.2
GRUPO AP. % NO AP. % TOTAL %
s 597 41 872 59 1469 42
n 358 51 349 49 707 20
v 56 9 567 91 623 18
p 59 8 657 92 716 20
_______________________________
Total 1070 30 2445 70 3515
Tabla 4.- Frecuencias de aspiración de /s/ implosiva, según contexto fónico siguiente.3
En la Tabla 5 se muestran unos datos de aspiración de /s/ implosiva recogidos en seis

hablantes. Aquí también consideramos casos de aplicación (AP.) los correspondientes a la
variante aspirada.
GRUPO AP. % NO AP. % TOTAL %
1 140 20 564 80 704 20
2 246 45 306 55 552 16
3 266 51 253 49 519 15
4 86 15 503 85 589 17
5 149 23 498 77 647 18
6 183 36 321 64 504 14
_______________________________ _
Total 1070 30 2445 70 3515
Tabla 5.- Frecuencias de aspiración de /s/ implosiva, según hablantes.
9
Una vez contados los casos particulares en que se manifiesta un factor, hay que
averiguar, de nuevo mediante un recuento, con qué frecuencia se da ese fenómeno cuando
coinciden varios factores explicativos. En nuestros ejemplos sobre la aspiración de /s/
según el contexto siguiente y el hablante, se trata de averiguar cuántas muestras de aspiración
se dan en el hablante 1 cuando el contexto siguiente es una consonante sorda, cuando es una
consonante sonora, ...y así sucesivamente con cada hablante y tipo de contexto.
Estos cruces de información dan lugar a la creación de celdas (puntos de
intersección de los factores) ocupadas por unas frecuencias. La Tabla 6 recoge las celdas
posibles de nuestro ejemplo, con indicación del número de aspiraciones que se encuentra en
cada una de ellas (AP.) y de su frecuencia relativa. Ésta es la configuración interna de los
materiales recogidos.
Tabla 6.- Frecuencias absolutas y relativas de aspiración de /s/ implosiva (AP.), según
contexto fónico siguiente (s, n, v, p) y hablante (1, 2, 3, 4, 5, 6).
Los datos de aspiración de /s/ implosiva así presentados parecen suficientes para
hacer un buen análisis, sin embargo no nos dicen qué importancia, qué peso tiene cada uno
de los factores de nuestros grupos, al coincidir con los demás, para determinar cada una de
las frecuencias. Así, en la primera celda tenemos 62 casos de aspiración de /s/ implosiva
recogidos en el hablante 1 y ante consonante sorda; con los datos de que disponemos no
podemos saber cuántos de esos casos se deben principalmente al hecho de pertenecer a tal
informante y cuántos se deben principalmente al hecho de que el fonema va ante
consonante sorda. Para conocer este extremo hay que crear un “modelo teórico” que nos
indique la probabilidad de que aparezca la aspiración en cada una de las circunstancias
previstas, teniendo en cuenta sus posibles combinaciones o cruces.
El “modelo teórico” de la sociolingüística de un fenómeno está formado por un
conjunto de probabilidades, no de frecuencias. La probabilidad de que aparezca un rasgo
lingüístico determinado se consigue mediante un cálculo de regresión, que combina las
probabilidades de que una variante se dé en cada circunstancia específica (factores i, j, ...)
con un valor constante (p0). Las probabilidades específicas se calculan a partir de las
10
frecuencias del “modelo observado”. p0, denominada también input, probabilidad de input, efecto
medio o media corregida, se consigue a partir de una media del peso de los diferentes grupos de
factores, que, a su vez, es proporcional al número de datos asociado a cada factor.4 El
recurso utilizado por el variacionismo con esta finalidad se denomina modelo logístico.
Figura 1.- Modelo logístico (Rousseau y Sankoff 1978).
Esta fórmula es el fruto del perfeccionamiento que ha conocido el análisis de la

variación a lo largo del tiempo. Por un lado, permite obtener unos valores “teóricos” o
“esperados” que no sobrepasan nunca los límites del 0 % y del 100% (0 y 1 en términos de
probabilidades). Por otro lado, la relación que se establece, dentro del “modelo teórico”,
entre los casos de aplicación y los de no aplicación es siempre simétrica: la probabilidad de
que aparezca un rasgo lingüístico variable (p = aplicación) siempre es complementaria de la
probabilidad de que no aparezca (1-p = no aplicación). Finalmente, tiene la virtud de reunir
todos los aspectos positivos de los diferentes modelos usados por la sociolingüística.5
En estadística es muy frecuente la utilización de ciertas técnicas para contrastrar
hipótesis y para conocer si la distribución interna de unos datos se debe a factores
accidentales o a errores. La hipótesis de partida en esta clase de análisis se denomina
“hipótesis nula”, según la cual ninguno de los factores estudiados tendría un efecto
sistemático sobre la aparición de un fenómeno. La creación de un “modelo teórico” sirve
para probar si la disposición de unos datos se debe al azar o se explica realmente por la
influencia de ciertos factores. Se trata, por lo tanto, de demostrar que la hipótesis nula es
falsa y que los factores analizados tienen algún poder de determinación, mayor o menor,
según los casos.
La sociolingüística variacionista utiliza una prueba para conocer hasta qué punto son
significativos los parámetros del “modelo teórico”, esto es, la bondad del ajuste entre el
modelo y los datos: la función de laverosimilitud (“likelihood”). La medida de ese ajuste se
consigue con los valores correspondientes al efecto que tiene cada factor sobre el rasgo
lingüístico estudiado. Según Sankoff (1988: 990), el principio de la máxima verosimilitud
proporciona una estimación de los efectos de los factores que consiste en elegir el conjunto
de valores que más probablemente ha generado los datos: el valor máximo de la función de
verosimilitud. Este principio puede tener aplicación en muy diversos campos. En medicina,
por ejemplo, permitiría seleccionar, entre todas las posibles causas del cáncer de pulmón,
cuál es la combinación de factores que debe ser considerada como la que más favorece la
enfermedad; en economía, ayudaría a conocer la probabilidad de ser o no ser un
desempleado en función de una serie de características individuales o sociales.
La verosimilitud es el producto de unos valores conseguidos para cada uno de los
factores, de la forma que se refleja en la Figura 2.
11
Figura 2.- Cálculo de la verosimilitud para cada factor.
donde pap. es la probabilidad de que un contexto haya influido sobre una variante lingüística,
elevada al número de aplicaciones (ocurrencias) en ese contexto, y (1 — p)~ap. es la
probabilidad de que un contexto no haya influido sobre una variante,6 elevada al número de
no aplicaciones en ese contexto. Laverosimilitud está relacionada, por tanto, con las
probabilidades calculadas para cada factor y estas probabilidades se obtienen mediante un
proceso de aproximación sucesiva (iteraciones), que conducen a la solución más exacta
(convergencia) y con una mayor verosimilitud.7
Así pues, la verosimilitud sirve tanto para indicar cuáles son las probabilidades más
adecuadas para los factores de un grupo, como para determinar cuál es la combinación de
factores que mejor se corresponde con los datos. Al comparar varias verosimilitudes, es
mejor aquella que tiene un valor más cercano a 0.
1.5. Recapitulación.
La sociolingüística variacionista ha dedicado una parte importante de sus esfuerzos al
perfeccionamiento de unas técnicas cuantitativas de análisis, encaminadas a determinar la
importancia de los contextos lingüísticos y socio-situacionales sobre la variación lingüística.
El método propuesto se denomina análisis probabilístico. Aunque el variacionismo
norteamericano siempre ha hecho sus consideraciones teóricas y metodológicas desde
posiciones cercanas al generativismo, lo cierto es que algunos de sus conceptos
fundamentales son difíciles de conciliar. Por otra parte, el análisis probabilístico se ha
convertido en una herramienta de estudio susceptible de ser utilizada desde diversos marcos
teóricos.
El método variacionista busca el cálculo de la probabilidad de que aparezca un rasgo
lingüístico determinado en unas circunstancias lingüísticas, sociológicas y contextuales
determinadas. A partir de los datos de frecuencia recogidos en un grupo de hablantes, se
crea un modelo teórico formado por las probabilidades de que se dé un fenómeno cuando
concurren diversas circunstancias. La estadística se encarga de precisar hasta qué punto las
probabilidades calculadas son verosímiles y cuáles son las circunstancias que, al darse
simultáneamente, pueden explicar mejor un hecho lingüístico.
2.- Informática y sociolingüística.
2.1. Los programas VARBRUL.

Sólo con tener en cuenta el cálculo de la verosimilitud, sería patente la necesidad de
usar medios informáticos para el análisis sociolingüístico. Esos medios los proporcionan los
programas VARBRUL. Existen en el mercado muchos programas estadísticos capaces de
realizar análisis similares a los que hacen los VARBRUL, pero estos últimos están
especialmente preparados para trabajar sobre unos datos como los que aparecen en la
variación lingüística y, además, presentan los resultados de una forma adecuada a los
intereses de los lingüistas (Sankoff 1988: 990-991).
Los programas de la familia VARBRUL no están comercializados y se consiguen de
forma gratuita de los propios autores o de otros investigadores que los aplican
habitualmente. En la actualidad se hacen los análisis con las versiones que aplican el modelo
logístico: VARBRUL 2, VARBRUL 2s, VARBRUL 3 y GOLDVARB 2.0. De todos ellos,
los más utilizados son VARBRUL 2s y GOLDVARB 2.0, debido a que son versiones para
ordenadores personales: el primero para IBM-PC o VAX y el segundo para Macintosh.
12
VARBRUL 2 tiene el inconveniente de ser un programa para macro-computadoras

— lo que lo hace menos accesible para algunos investigadores — y de no ofrecer
información que sí presentan otras versiones: por ejemplo, la función de verosimilitud de
cada una de las combinaciones de factores analizadas. En algunos aspectos, VARBRUL 2
ofrece ciertas ventajas. Esto ocurre a la hora de introducir los datos en el ordenador: el
programa no necesita que se le especifiquen cuáles son los grupos de factores analizados; tan
sólo hay que anotar cuántos casos de un rasgo lingüístico están asociados a los diversos
factores explicativos: en el ejemplo sobre la aspiración de /s/ implosiva, cuántos casos de
aspiración se dan en el informante 1 ante consonante sorda, ante sonora, ante vocal, ante
pausa, en el informante 2 ante sorda, sonora, etc. Naturalmente, esos datos han sido
contados antes de forma manual. El ordenador se encarga de reunir los factores de tal
manera que no puedan aparecer en un mismo contexto dos factores pertenecientes a un
mismo grupo; en otras palabras, se ocupa de encontrar a qué grupo pertenece cada factor
para aplicar, después, el modelo estadístico ya comentado.
VARBRUL 3 comparte con la versión 2 el inconveniente de estar preparado para
macro-computadoras, pero ofrece unas ventajas que lo convierten en la mejor y más
completa versión de la familia. Sin embargo, este programa tiene todavía una difusión muy
limitada.
La principal desventaja que ofrece GOLDVARB 2.0 respecto de VARBRUL 2S y
VARBRUL 3 está en que el primero realiza solamente análisis binomiales, mientras que los
últimos pueden hacer análisis multinomiales. Esto quiere decir que GOLDVARB sólo
puede considerar como valores de aplicación los procedentes de uno de los factores de la
variable dependiente, frente a los valores de no aplicación, que corresponderían a una o más
variables explicativas. VARBRUL 2S y 3 pueden considerar como valores de aplicación los
pertenecientes a más de un factor dependiente, y esto permite estudiar mejor las relaciones
entre los factores que componen un grupo dependiente, cuando son más de dos. En el caso
de VARBRUL 3, se añaden otras ventajas —rapidez, capacidad de admisión de datos,
número de variables explicativas— que comentaremos después. Desde luego, cuando esta
última versión cubra su etapa experimental, será, sin duda, de obligada aplicación en el
variacionismo, aunque tenga que manejarse en centros de cálculo.
Poniendo en una balanza los pros y los contras, podemos decir que hoy día los
mejores programas para el análisis sociolingüístico son VARBRUL 2S Y GOLDVARB 2.0.
El primero fue creado por David Sankoff, mejorado en la Universidad de Pennsylvania y
preparado para IBM-PC por S. Pintzuk. El segundo está basado en programas de Sankoff,
Rousseau, Hindle y Pintzuk y fue adaptado para Macintosh por David Rand. En estas dos
versiones nos centraremos, explicando, en primer lugar, las características comunes y, más
adelante, sus respectivas peculiaridades.
2.2. Objetivos de los programas VARBRUL.

Hay que saber, desde un primer momento, que la aplicación de un análisis
sociolingüístico a menudo no es un proceso lineal del tipo “codificación de datos >
introducción de datos en el ordenador > análisis > interpretación de resultados”, sino que la
fase final exige muchas veces repetir algunos de los pasos anteriores. La causa de esto reside
en que no todos los conjuntos de datos han sido recogidos de la misma forma ni tienen la
misma distribución interna. Después de un primer análisis podemos descubrir algunos
detalles que desconocíamos al empezar la investigación. Lo importante no es aplicar un
programa informático, sino conseguir la mayor cantidad de información posible sobre el
rasgo lingüístico convertido en objeto de estudio.
La aplicación de los programas de análisis probabilístico tiene los siguientes
13
objetivos generales (Rousseau y Sankoff 1978a: 59-60):
1º.- Calcular la probabilidad de que un hecho variable se manifieste de una forma concreta
en un contexto determinado (lingüístico y extralingüístico), es decir, cuando una serie de
factores explicativos aparecen conjuntamente.
2º.- Decidir hasta qué punto da cuenta un “modelo teórico” de los datos recogidos y
determinar si los datos pueden ser divididos en varios subconjuntos que respondan a
modelos diferentes.
3º.- Comprobar si los grupos de factores contribuyen significativamente a explicar los datos
o si deben ser desestimados.8
4º.- Determinar la fiabilidad de los análisis.
Un análisis de naturaleza sociolingüística ha de proporcionar una información
concreta sobre cada uno de los objetivos generales. Todos ellos son importantes, porque
contribuyen a dar seguridad al investigador sobre la calidad de su estudio. Las conclusiones
que se deriven de esta información pueden obligar a reconsiderar las diversas etapas de la
investigación, desde la forma en que se ha seleccionado la muestra de hablantes y se ha
elegido el objeto de estudio, hasta el avance que puede suponer para el conocimiento de un
fenómeno. No obstante, excepto aquello que afecte a la recogida misma de los materiales,
prácticamente todos los problemas que surgen en el proceso analítico pueden ser tratados
— y en muchos casos solucionados — trabajando sobre la información disponible en el
ordenador. Es posible, por ejemplo, agrupar variables explicativas que en principio se habían
tratado de forma separada, prescindir de datos que se han revelado como inadecuados o
realizar análisis parciales para tener un conocimiento más profundo de algún aspecto.
El investigador debe poner un especial cuidado en valorar adecuadamente las
estimaciones de fiabilidad que proporciona el programa en cada fase del análisis. Solo así
puede saberse si las conclusiones obtenidas tienen solidez o si los materiales — datos y
análisis — deben sus características al azar. El sociolingüista tiene que estar seguro de que, al
realizar el mismo análisis con datos similares, los resultados prácticamente se van a repetir.
En esta seguridad descansa la comparabilidad de los estudios que se realicen sobre el mismo
fenómeno en comunidades de habla diferentes.
2.3. Manejo de los programas VARBRUL para ordenadores personales.

La aplicación de los programas VARBRUL 2s y GOLDVARB 2.0 tienen en común
muchos aspectos. En ambos casos hay que recorrer tres etapas antes de proceder al análisis
probabilístico propiamente dicho:
1º.- Introducción de los datos (tokens) y especificación de factores.

2º.- Especificación de condiciones.
3º.- Creación de celdas.
2.3.1. Introducción de los datos.

Los datos con los que trabajan estos programas consisten en una lista de
“secuencias” (tokens) donde queda reflejada la manifestación concreta de cada una de las
muestras encontradas en los materiales sociolingüísticos, con los rasgos lingüísticos y
extralingüísticos que configuran su contexto. Los datos se disponen, pues, de uno en uno,
caso a caso, en forma de lista.
Los factores que integran los distintos grupos deben establecer entre sí una relación
de escala nominal, preferentemente; esto es, cada variante recibe una etiqueta, sin que ello
implique un orden determinado (Moreno Fernández 1990a: 125-126). Cuando los factores
14
tienen un orden interno,9 el análisis puede plantear unos problemas que explicaremos más
adelante (Rousseau y Sankoff 1978a: 64).
Para introducir los datos en los programas es imprescindible atribuir a cada factor de
cada grupo un código específico de un carácter (número o letra, mayúscula o minúscula).10
En un caso como el de la aspiración de /s/ implosiva que antes hemos presentado,
podemos atribuir los siguientes códigos:
Grupo de factores dependiente :

- /s/ implosiva: [s] = 2; [h] = 1; ø = 0.
Grupos de factores explicativos:

- Contexto fónico siguiente: ante consonante sorda = s; ante consonante sonora = n; ante
vocal = v; ante pausa = p.
- Hablante: hablante 1 = 1; hablante 2 = 2; hablante 3 = 3; ... etc.11
En el ejemplo de la marca de plural, que utiliza David Sankoff para explicar el

funcionamiento de GOLDVARB, se atribuyen los siguientes códigos:
Grupo de factores dependiente:

- Marca de plural: aparición de marca de plural = 1; no aparición de marca de plural = 0.
Grupos de factores explicativos:

- Clase de palabra en la que puede aparecer la marca de plural: adjetivo = a; nombre = n;
determinante = d.
- Función del sintagma en el que puede aparecer la marca: sujeto = s; objeto = c.
Siguiendo este sistema de codificación, podemos representar en una secuencia de

tres caracteres — o más, dependiendo del estudio — los factores que concurren en cada uno
de los datos. Las secuencias se disponen en forma de lista en una parte del programa que
tiene las mismas características que un programa de tratamiento de textos y de la que
daremos algún detalle más abajo. Cada una de las secuencias debe ir precedida de un
paréntesis, que indica al ordenador que lo que va después de él es un dato que ha de ser
analizado. Tras el paréntesis, el primer carácter debe ser siempre un factor del grupo
dependiente. La secuencia debe ir seguida de una marca de fin de línea (retorno manual) o
de un espacio.
SECUENCIA DE CÓDIGOS PARA CADA DATO:
([código de factor dependientex] [código de factor explicativo i]

[código de factor explicativoj]... [código de factor explicativon]
fin de línea/espacio
En los ejemplos de marca de plural y de /s/ implosiva, los datos tendrían una
disposición como esta:
15
_________________________________________________________________
DATOS DE MARCA DE PLURAL DATOS DE /S/ IMPLOSIVA
(1as (2p1
(1as (2n1
(1as (1s2
(1ds (1n2
etc.
_________________________________________________________________
Figura 3.- Disposición de los datos.
Al preparar los datos correspondientes a los distintos grupos, es posible hacer uso
del signo ‘.’ (punto) como si fuera un factor. Suele utilizarse, por ejemplo, cuando hay una
muestra, un contexto, etc. que no se ajusta estrictamente a los factores previstos o cuando se
piensa que un determinado dato puede ser considerado como cualquiera de los factores del
mismo grupo, según las circunstancias.
Los datos siempre deben cumplir dos requisitos mínimos para poder ser analizados:
cada grupo ha de incluir al menos dos factores (no se puede analizar un fenómeno
teóricamente variable cuando sólo se han recogido muestras de una de las variantes);
además, los datos tienen que incluir al menos un caso para cada uno de los factores
explicativos previstos (no se puede analizar el factor “ante pausa” si no hay ningún caso de
mantenimiento de /s/, de aspiración o de pérdida en ese contexto).
A la hora de introducir los datos no es imprescindible que la lista de secuencias
responda exactamente al orden en que los datos han aparecido en los textos transcritos, pero
se ha de respetar estrictamente el orden de los factores dentro de cada secuencia. La lista de
datos, dependiendo del fenómeno analizado, puede incluir unas decenas, unos centanares o
varios miles de secuencias. Aunque la introducción de esos datos lleva algún tiempo, este
puede acortarse notablemente si se cuenta manualmente el número de secuencias idénticas y
se trasladan al ordenador mediante las funciones de activar, copiar y mover bloques.12
Además de los datos codificados, el ordenador necesita saber cuántos son los grupos
de factores que van a ser analizados y cuáles son los factores válidos dentro de cada grupo.
Para ello es necesario cumplimentar una “especificación de factores” — veremos más
adelante el modo de hacerlo—, gracias a la cual el programa puede identificar cualquier dato
erróneo o que no se ajuste a lo previsto. Al especificar los factores, también hay que indicar
al ordenador cómo ha de leer el signo ‘.’ dentro de los datos: se trata de atribuir un “valor
por defecto”. Si queremos que sea leído como alguno de los otros factores, se especifica el
código correspondiente. Si simplemente se quiere eliminar esa información, se especifica el
código ‘/’ (barra inclinada), que significa ‘no se aplica’.
2.3.2. Especificación de condiciones.

Una vez introducidos los datos y especificados los factores, hay que cubrir la
segunda etapa: señalar al ordenador qué condiciones debe tener en cuenta para leer los
datos. Esta información ya se ha proporcionado en parte mediante la “especificación de
factores”; esto es, el ordenador ya sabe cuántos grupos de factores hay y qué factores
conforman cada grupo, pero desconoce, por ejemplo, cuál será considerado como
dependiente y cuáles como explicativos o independientes.
Las condiciones del análisis se especifican en un archivo creado especialmente para
ello (en los epígrafes dedicados a cada programa explicaremos el modo de crear ese archivo).
Si el investigador desea hacer su análisis con las condiciones marcadas en la “especificación
de factores” — pongamos como ejemplo el de la aspiración de /s/ implosiva — creará un
16
archivo con la forma reproducida en la Figura 4.

__________
(
(1)
(2)
(3)
)
__________
Figura 4.- Disposición de un archivo de condiciones.
Con esto se está diciendo que se van a analizar los tres grupos previstos y que el que
aparece en primer lugar (1) será la variable dependiente y los demás, las explicativas. Los
datos, por tanto, no se van a recodificar. La forma de dar esta información responde a un
sistema lógico llamado LISP. Cada una de las partes de un archivo de condiciones — la lista
completa de condiciones, cada elemento de la lista — debe ir entre parántesis. En la Figura
4, además de los paréntesis aparecen simplemente los números de los grupos de factores.
Ahora bien, el desarrollo del análisis puede revelar la necesidad de interpretar las
secuencias de datos iniciales (tokens) de una manera diferente: por ejemplo, fundir dos
factores de un grupo en uno solo, no tener en cuenta un factor determinado, prescindir de
un grupo de factores completo o, incluso, elegir otro grupo dependiente. Todo esto se
puede hacer desde un archivo de condiciones sin tener que alterar para nada la lista de
secuencias. En tal circunstancia, ese fichero servirá para recodificar las secuencias
automáticamente.
Para lograr una recodificación, el sistema LISP cuenta con cinco elementos básicos:
“AND”, “OR”, “NOT”, “COL” y “ELSEWHERE” (escritos con mayúsculas o con
minúsculas). Los tres primeros son unos operadores lógicos muy conocidos: “AND” y
“OR” toman hasta 20 argumentos; “NOT” tiene un solo argumento. Por su parte, “COL”
‘columna dentro de lista de secuencias’ se usa con dos argumentos: el número de un grupo
de factores y el código del factor que se va a recodificar. “ELSEWHERE” se utiliza como
último elemento dentro de un conjunto de cláusulas referidas a un grupo de factores y sirve
para recodificar los datos con un valor determinado, si no se encuentra ninguna de las
condiciones dadas previamente para ese grupo. La información referida a un grupo que
aparezca detrás de este operador no se tiene en cuenta para la recodificación. Además de
estos elementos, el sistema LISP utiliza “NIL” que indica la exclusión en el momento del
análisis del factor o los factores (argumentos) que lo acompañan.
En la Figura 5 se ofrece un ejemplo sencillo de archivo de condiciones dispuesto
para conseguir una recodificación. Supongamos que al hacer un primer análisis de la
aspiración de /s/ implosiva hemos observado que no es aconsejable, por las características
de los datos recogidos, mantener una distinción entre consonantes sordas y consonantes
sonoras para el contexto fónico siguiente y que tendría más sentido distinguir simplemente
entre consonantes, vocales y pausa. En ese caso hay que hacer que el ordenador considere
los datos referidos a las sordas y a las sonoras como elementos de una misma categoría. Para
ello se redactaría un archivo como el de la Figura 5.
17
(
(1)
(2 (c (COL 2 s))
(c (COL 2 n))
(v (COL 2 v))
(p (COL 2 p)))
(3)
)
_______________
Figura 5.- Disposición de un archivo de condiciones dispuesto para la recodificación
(muestra sencilla).
Obsérvese que el conjunto de la información y cada uno de sus componentes se

encierran entre paréntesis. Con este archivo estamos diciendo lo siguiente:
1º.- Que el grupo 1 será dependiente y que no se tienen que recodificar sus factores; los
demás grupos serán explicativos.
2º.- Que los factores del grupo 2 se tienen que recodificar de la siguiente forma: se va a leer
como “c” (consonante) lo que en la columna 2 de las secuencias (tokens) aparezca como “s”
(consonante sorda); también se va a leer como “c” lo que en la columna 2 aparezca como
“n” (consonante sonora); se va a seguir leyendo como “v” (vocal) lo que en la columna 2
aparece como “v”; y se va a seguir leyendo como “p” (pausa) lo que en la columna 2 aparece
como “p”.
3º.- Que los factores del grupo 3 no se tienen que recodificar.
Aunque nuestro ejemplo es bastante sencillo, las posibilidades de recodificación con
el sistema LISP son muy amplias, como se puede comprobar en una muestra que
proporcionan Rand y Sankoff (1990) para unos grupos de factores más complejos y que
reproducimos parcialmente en la Figura 6.
_________________________________
(
(4 (d (OR ( (COL 4 d) (COL 4 c)))
(s (ELSEWHERE)))
(5)
(3 (/ (OR (COL 3 s) (COL 3 t) (COL 3 u)))
(m (OR (OR (COL 3 n) (COL 3 h))
(OR (COL 3 1) (COL 3 2) (COL 3 3) (COL 3 w) (COL 3 u)
(COL 3 y) (COL 3 p) (COL 3 t) (COL 3 r) (COL 3 x))))
(x (AND (OR (COL 3 n) (COL 3 h)) (COL 7 n)))
(NIL (ELSEWHERE)))
)
___________________________________________
Figura 6.- Archivo de condiciones con recodificación (muestra compleja).
El desarrollo de la información contenida en este archivo podría ser el siguiente:

1º.- Considera el grupo 4 como dependiente y los demás como explicativos.
2º.- Recodifica el grupo 4 de esta forma: lee como “d” bien lo que en la columna 4 de las
secuencias (tokens) aparece como “d”, bien lo que en la columna 4 aparece como “c”, y lee
como “s” todo lo demás.
3º.- El grupo 5 no se recodifica.
4º.- Recodifica el grupo 3 de esta forma: no se aplica, bien lo que en la columna 3 aparece
como “s”, bien lo que aparece como “t” o bien lo que aparece como “u”; lee como “m”, por
18
un lado, bien lo que en la columna 3 aparece como “n” o bien lo que en la columna 3
aparece como “u” o, si no, bien lo que en la columna 3 aparece como “1” o como “2” o
como “3” o como “w” o como “u” o como “y” o como “p” o como “t” o como “r” o
como “x”; lee como “x” lo que en la columna 3 aparece, bien como “n”, bien como “h” y lo
que en la columna 7 aparece como “n”; por último, no se aplica todo lo demás que aparezca
en las secuencias de este grupo.
Como se puede apreciar, si la recodificación que se quiere hacer afecta seriamente a
la disposición inicial de las secuencias de datos, la elaboración de un archivo de condiciones
puede ser algo complicada, entre otras cosas porque los olvidos de los paréntesis se
producen con más frecuencia de la deseada. De cualquier modo, la redacción de unas
condiciones que incluyan recodificación siempre es menos trabajosa que la rectificación
manual de las secuencias de datos. Como veremos, el programa GOLDVARB 2.0 es capaz
de crear de forma automática este tipo de archivos, lo que libera al sociolingüista de un
trabajo ciertamente engorroso. En VARBRUL 2S la redacción en LISP no es automática.
2.3.3. Creación de celdas.

La creación de celdas se consigue con el recuento de la frecuencia hallada en la
intersección de dos factores de grupos diferentes. Para hacer esto es imprescindible la
información que se aporta en las secuencias de datos y en los archivos de condiciones. De
hecho, estos últimos determinan cuántas celdas se van a construir y qué datos van a formar
parte de cada una de las frecuencias.
Desde el punto de vista del sociolingüista, la fase de creación de celdas puede ser
considerada como un trámite informático, puesto que la resuelve el ordenador
automáticamente, una vez que conoce sobre qué archivos de datos y de condiciones tiene
que realizar los cómputos. No obstante el investigador debe señalar previamente —ya
explicaremos en qué lugar — cuál de los factores del grupo dependiente es el que se va a
analizar (aplicar).
Al especificar qué factor o factores son pertinentes para la construcción de las celdas,
también hay que decidir si se quiere hacer un análisis binomial o multinomial. Este último
sólo se puede considerar en el caso de trabajar con VARBRUL 2S, puesto que
GOLDVARB 2.0 no está preparado para ello. Si el sociolingüista trabaja con un grupo
dependiente compuesto por cuatro factores (“1”, “2”, “3” y “4”) las posibilidades de análisis
que tiene son las siguientes:
a) Análisis binomial: considerar “1” como valor de aplicación y “2”, “3” y “4” como valores
de no aplicación.
b) Análisis binomial: considerar “1” como valor de aplicación, “2” como valor de no
aplicación y omitir “3” y “4”.
c) Análisis trinomial: analizar conjuntamente “1”, “2” y “3” y omitir “4”.
En el ejemplo sobre el comportamiento de /s/ implosiva (grupo dependiente con
tres factores), sería posible analizar el mantenimiento de la sibilante frente a la aspiración y a
la pérdida de la consonante, cuyos datos serían considerados como un todo, o la pérdida
frente al mantenimiento y omitir los datos sobre la aspiración o cualquier otra combinación
que se considere oportuna por el carácter del fenómeno lingüístico estudiado.
Cuando el ordenador dispone de toda esta información crea las celdas oportunas y
las reproduce en un archivo. La Figura 7 muestra las celdas correspondientes a la aspiración
de /s/ (aplicación) frente a mantenimiento y pérdida (no aplicación), obtenidas al combinar
dos grupos explicativos (hablante y contexto fónico).
19
_______________
AP. ~AP. Factores
63 82 1n
10 115 1p
62 238 1s
5 129 1v
76 64 2n
5 87 2p
134 88 2s
31 67 2v
66 48 3n
24 83 3p
164 54 3s
12 68 3v
55 58 4n
6 137 4p
21 201 4s
4 107 4v
59 71 5n
6 129 5p
82 189 5s
2 109 5v
39 26 6n
8 106 6p
134 102 6s
2 87 6v
_________________
Figura 7.- Celdas de aspiración de /s/ implosiva (AP.) y de no aspiración (~AP.)
Una vez que las celdas están creadas y cargadas en la memoria del ordenador, se
puede proceder al análisis estadístico de los materiales.
2.4. GOLDVARB 2.0.

El manejo de GOLDVARB 2.0. se ajusta a las etapas que hemos presentado en los
epígrafes anteriores.13 Cada una de estas fases requiere la creación de un archivo específico,
que se van creando y memorizando progresivamente: archivo de secuencias de datos (Tok),
archivo de condiciones (Con) y archivo de celdas (Cel). Por último, se crea un archivo de
resultados (Res) en el que aparecen los recuentos estadísticos y los análisis probabilísticos.
No pretendemos que estas líneas sustituyan las instrucciones del programa, pero
creemos conveniente comentar los aspectos más elementales del manejo. La verdad, no
obstante, es que el uso de este programa es sumamente fácil, porque el ordenador ofrece
para cada fase una “ventana” en la que la información se dispone de forma muy clara.
2.4.1. Archivo de datos.

La primera “ventana” que se abre en la pantalla está preparada para incluir las
secuencias de datos y para especificar los factores que se van a manejar en cada uno de los
grupos de factores. Esta ventana está dividida en dos partes, una para cada uno de los fines
que acabamos de exponer. La parte destinada a recoger las secuencias de datos funciona
realmente como un programa de tratamiento de textos en el que se pueden activar, mover o
borrar bloques. En la parte de “especificación de factores”, se anotan los datos necesarios
en los lugares apropiados para ello, como se observa en la Figura 8.14
20
Figura 8.- Ventana de archivo de datos (Tok) y de especificación de factores

(GOLDVARB 2.0).
Una vez introducidos los datos, se puede comprobar si están correctamente

dispuestos mediante la función “Check all” que aparece en la ventana de “especificación de
factores” o en la ventana “Tokens” del menú principal del programa.
2.4.2. Archivo de condiciones.

Se crea desde el menú principal (Tokens) y existe la posibilidad de hacerlo sin
recodificación o con recodificación de las secuencias de datos. En el segundo caso, se abre
una ventana destinada a la generación de condiciones (Figura 9).
Figura 9.- Ventana para generación de condiciones con recodificación (GOLDVARB 2.0).
Como ya hemos comentado, las condiciones son redactadas de forma automática

21
mediante el sistema LISP en el archivo que el ordenador crea a tal efecto, aunque es posible
retocarlas o modificarlas manualmente.
2.4.3. Creación de celdas.

En la entrada “Cells” del menú principal se encuentra la orden pertinente para cargar
las celdas en el ordenador a partir de los archivos de datos y de condiciones que se
especifiquen. Antes de que se creen las celdas, proceso que se realiza también
automáticamente, es necesario anotar, en la ventana que se presenta con este fin, cuál o
cuáles van a ser los valores de aplicación y de no aplicación, teniendo en cuenta las
posibilidades explicadas en 2.3.3.
En este programa no existe la posibilidad de realizar un análisis multinomial. De
todas formas, si se necesita considerar dos factores como valores de aplicación y otros dos
como valores de no aplicación, es posible hacerlo mediante una recodificación, al crear el
archivo de condiciones. Por otra parte, cuando contamos con cuatro factores en el grupo
dependiente, existe la posibilidad de crear celdas como si de un análisis multinomial se
tratase, pero estas sólo servirán para construir “tabulaciones cruzadas” (véase Tabla 6), no
para hacer el análisis propiamente dicho.
Después de que el ordenador haya hecho las celdas — a partir de los valores de
aplicación que se le hayan indicado —, se crea, también automáticamente, un archivo de
resultados en el que se ofrecen las frecuencias absolutas y relativas de los casos de aplicación
para cada grupo explicativo estudiado y para cada uno de sus factores. La información que
se proporciona aquí coincide con la que hemos reproducido en las Tablas 4 y 5. Estos datos
se presentan antes de proceder a los análisis probabilísticos, porque en ellos se hace notar si
los recuentos son adecuados. Si alguno de los grupos contiene un solo factor (“singleton”) o
alguno de los factores muestra una frecuencia de 0% o 100% en los casos de aplicación
(“knockout”), no es posible acceder al análisis de regresión (véase 2.3.1.)
2.4.4. Análisis de regresión.

GOLDVARB 2.0 cuenta con dos posibilidades de análisis probabilístico. A ambas se
accede desde el menú “Cells”: “Binomial, 1 level” y “ Binomilal, Up & Down”. Los
resultados de estos análisis se escriben automáticamente dentro del archivo de resultados, a
continuación de las frecuencias de cada factor.
Cuando se aplica el análisis binomial de 1 nivel, GOLDVARB 2.0 da la siguiente
información:
a) Número de iteraciones que han sido necesarias para encontrar la función de
verosimilitud.15
b) “Input” que se utiliza al aplicar el modelo logístico (véase 1.4)
c) Efecto de cada uno de los factores de cada grupo sobre el factor dependiente (“Weight”).
d) División del número de aplicaciones de cada factor entre el número de casos posibles
(“App/Total”).
e) Probabilidad resultante de combinar el efecto (“weight”) y el “input”.
f) Factores utilizados en la creación de cada celda.
g) Número total de datos por celda.
h) Número de aplicaciones por celda.
i) Valor esperado por celda.
j) Proporción de error por celda.
k) Ji- cuadrado (c2) total .
l) Ji-cuadrado (c2) dividido por el número de celdas.
m) Logaritmo de la función de verosimilitud.
22
n) Diagrama de dispersión, en el que se compara la proporción de casos de aplicación del

factor estudiado en cada una de las celdas, con las probabilidades creadas en el análisis.
Estos dos tipos de valores se relacionan y disponen teniendo como referencia un eje central:
cuando los datos observados se ajustan a las probabilidades del modelo, aparecen situados
cerca del eje. La Figura 10 representa el diagrama de dispersión del mantenimiento de la
sibilancia para /s/ implosiva. En él se observa que hay una correspondencia entre los
valores observados y los valores predichos por el modelo, puesto que todas las celdas están
cerca del eje. Los cuadrados que aparecen en la parte superior corresponden a las celdas que
contienen un mayor número de aplicaciones. Los de la parte baja del diagrama representan
las celdas que tienen menos aplicaciones.16
“Lingüística.Cel”
• 19/12/93•18:11
• Token file: s.tkn
• Conditions: Lingüística.Cnd
P
r
o
b
a
b
i
l
i
t
y
0 Applications/Total 1
Figura 10.- Diagrama de dispersión de mantenimiento de /s/ implosiva.
Además de esto, se puede pedir al ordenador que ofrezca la información necesaria

para valorar la adecuación del modelo teórico: logaritmo de máxima verosimilitud y c2, con
indicación de la significación, esto es, de la probabilidad de que los resultados del análisis se
deban al azar.17 La significación nunca debe superar el umbral de 0.05, admitido de forma
general en los estudios de Ciencias Sociales. El cálculo de c2 permite comparar el resultado
del análisis de GOLDVARB con los que proporcionan las versiones anteriores de
VARBRUL.
23
El análisis binomial de subida y bajada (“Binomial, Up & Down”) aporta una información
en parte coincidente con los resultados del análisis de 1 nivel y en parte complementaria. Se
trata de un análisis de regresión escalonada (paso a paso), compuesto por una sucesión de
etapas. En primer lugar, se realiza el análisis de cada uno de los grupos de factores por
separado: el análisis consiste en calcular las probabilidades de que aparezca una variante para
cada factor del grupo. A continuación, se analizan los grupos tomados de dos en dos,
después de tres en tres, y así hasta que no se encuentra ningún grupo cuya inclusión suponga
un aumento del logaritmo de la función de verosimilitud, dentro siempre de una
significación p < 0.05. El programa compara las verosimilitudes de las etapas sucesivas y
señala cuál es el grupo, o la combinación de grupos, más adecuado, esto es, con mayor
verosimilitud.
Concluida la primera fase, llamada de “ascenso” o de agrupación progresiva de
grupos de factores, se pasa a la fase de “descenso” o de eliminación progresiva de grupos.
Dentro de ella, en primer lugar se analizan conjuntamente todos los grupos explicativos; a
continuación, las combinaciones de grupos que resultan tras eliminar uno de ellos
alternativamente; después las combinaciones que resultan de eliminar dos grupos, y así
sucesivamente hasta que no se encuentra un grupo cuya exclusión suponga una disminución
del logaritmo de la función de verosimilitud, dentro de la significación adecuada. Al terminar
esta segunda fase, el programa compara las verosimilitudes de las distintas etapas e indica
cuál es la combinación de grupos con mayor verosimilitud.
El programa presenta, para cada una de las etapas de este análisis escalonado, la
siguiente información:
a) Número de iteraciones realizadas para encontrar la convergencia.

b) “Input” que se utiliza al aplicar el modelo logístico (véase 1.4)
c) Probabilidad de aparición del rasgo analizado atendiendo a cada factor de cada grupo (el
número de grupos analizados varía según la etapa del análisis).
d) Logaritmo de la función de verosimilitud.
e) Significación.
El hecho de disponer de la información probabilística desgranada de esta manera

(por cada grupo de factores, por cada combinación de dos grupos, por cada combinación de
tres grupos, etc.) facilita al sociolingüista la labor de interpretación de los resultados y hace
posible que esta tarea se realice con todo rigor.
2.4.5. Tabulación cruzada.

Independientemente de que se haya procedido a cualquiera de los análisis
binomiales, una vez construidas las celdas a partir de unos valores de aplicación
determinados (casos binomial y multinomial), el menú “Cells” ofrece la posibilidad de crear
tablas de frecuencias absolutas y relativas en las que se cruzan los datos de dos variables
explicativas (véase Tabla 6).
2.5. VARBRUL 2S.

Este programa se utiliza en ordenadores IBM-PC equipados con Coprocesador
matemático o en VAX. También es necesario contar con un editor de textos. El manejo del
programa requiere cumplir las fases explicadas en 2.3., de un modo similar al que hemos
descrito para GOLDVARB. Ahora bien, VARBRUL no funciona en un entorno de
“ventanas”, sino que está formado por una serie de programas, destinados, cada uno de
ellos, a un fin específico. Estos programas parciales reciben los siguientes nombres:
24
CHECKTOK, READTOK, MAKECELL, COUNTUP, CROSSTAB, IVARB, TVARB,

MVARB, TSORT y TEXTSORT. Para hacer funcionar estos programas, hay que contar
con una serie de archivos creados por medio del editor de textos: un archivo de datos (con
extensión “.dat”)18, un archivo de especificación de factores (“.fac”) y un fichero de
condiciones (“.con”). La aplicación de los programas parciales sobre los archivos
correspondientes dará lugar a la creación de los archivos de secuencias de datos (“.tok”), de
celdas (“.cel”) y de resultados (“.res”).
Tal y como hemos hecho a propósito de GOLDVARB 2.0, comentaremos de forma
general los aspectos más elementales del manejo de VARBRUL 2s, puesto que no tenemos
la intención de que estas notas ocupen el lugar que corresponde a las instrucciones del
programa.
2.5.1. Introducción de los datos en el ordenador. Archivos de especificación de factores y de

condiciones.
La disposición y características de los datos para trabajar con este programa se ajusta
exactamente a lo que hemos comentado en 2.3.1 y 2.4.1., excepto en lo que se refiere al
número de grupos y factores admitidos para el análisis. Este número depende del programa
parcial que se quiera aplicar. Para construir las celdas, los límites son los siguientes (Pintzuk
1988: 20; 25-26):
Máximo número de factores en el grupo dependiente: 9.
Máximo número de grupos explicativos: 20.
Máximo número de factores en los grupos explicativos: 30.
Para realizar un análisis binomial, el número máximo de factores admitido para el

grupo dependiente es de dos y, entre todos los grupos explicativos, no puede haber más de
49 factores, si se trabaja con IBM-PC, o de 100, si se trabaja con VAX. Como ya hemos
apuntado, esta versión de VARBRUL puede hacer análisis multinomiales. En este caso, el
número máximo de factores admitido para el grupo dependiente es de 3 ó 5, según el
programa parcial que se aplique y, entre todos los grupos explicativos, no puede haber más
de 100 factores.
En VARBRUL 2S el archivo de datos (“.dat”) hay que crearlo en un documento de
un editor de textos (p.e. WordPerfect) que no contenga “caracteres de control”.19 Una vez
que se ha creado ese primer archivo de datos, conviene utilizar el programa destinado a
comprobar que las secuencias no contienen errores: CHECKTOK.20 Previamente, sin
embargo, se ha tenido que crear un archivo de especificación de factores (“.fac”) por medio
del editor de textos.21 Este archivo debe tener una configuración acorde con la que se
reproduce en la Figura 11.
_________
3
/
012
/
123456
/
snvp
/
_________
Figura 11.- Archivo de especificación de factores creado con editor de textos (VARBRUL
2S). Factores para el análisis de /s/ implosiva.
25
En la primera línea aparece el número de grupos de factores que van a ser analizados; en la
segunda, el carácter con el que ha de completarse una secuencia incompleta; en las siguientes
se anotan, por orden, los factores y los valores por defecto de cada grupo analizado. Cuando
CHECKTOK dispone de la información que ha solicitado, crea un archivo en el que se
localizan los errores que pueda contener el fichero de datos.22
Después de comprobar la configuración de los datos, hay que arrancar el programa
parcial READTOK, para crear un archivo de secuencias de datos (“.tok) a partir de uno o
más archivos de datos (“.dat”). Es importante llamar la atención sobre las diferencias que
hay entre el primer archivo de datos — al que damos la extensión “.dat” — y el archivo de
datos que va a ser utilizado por los distintos programas parciales —al que damos la
extensión “.tok”, por paralelismo con GOLDVARB. Sólo los archivos de datos creados
desde READTOK pueden ser utilizados en las siguientes fases de VARBRUL.
Antes de continuar con el proceso de aplicación, todavía es necesario crear un
archivo más mediante el editor de textos: un archivo de condiciones, cuya redacción es
idéntica a la que hemos explicado en 2.3.2 y 2.4.2.
2.5.2. Creación de celdas y análisis probabilísticos.

Los archivos creados hasta este momento hacen ya posible la preparación de las
celdas de frecuencias y los análisis de regresión. Para crear las celdas se utiliza el programa
parcial MAKECELL, el cual solicita para su funcionamiento el nombre de los archivos de
datos (“.tok”) y de condiciones (“.con), así como el valor de aplicación sobre el que se va a
centrar el análisis (2.3.3.).23
El resultado se registra en un nuevo archivo, para el que se sugiere la extensión
“.cel”. En él se dan las frecuencias absolutas y relativas de los casos de aplicación y de no
aplicación — en una forma similar a la de las Tablas 4 y 5— y a continuación la frecuencia
correspondiente a cada celda (véase Figura 7). Este archivo de celdas es necesario para la
aplicación de otros programas específicos.
VARBRUL 2S cuenta con tres programas destinados al análisis de regresión:
IVARB, TVARB y MVARB. El primero de ellos se utiliza para hacer análisis binomiales
cuando el grupo dependiente está formado solamente por dos factores (véase nuestro
ejemplo sobre marca de plural). Antes de realizar los análisis, el ordenador pide el nombre
del archivo de celdas sobre el que van a hacer los cálculos;24 también se solicita un nombre
para atribuírselo al archivo en el que van a quedar inscritos los resultados de los análisis
(“.res”).
Como ocurre con GOLDVARB 2.0, IVARB ofrece dos posibilidades de análisis de
regresión: análisis binomial de 1 nivel y análisis binomial de subida y bajada (“Up & Down”)
(2.4.4.). La información que se proporciona en uno y en otro es prácticamente la misma que
comentamos a propósito de GOLDVARB, si bien en el programa para IBM-PC no se da un
diagrama de dispersión.
Por su parte, los programas TVARB y MVARB se encargan de realizar análisis
multinomiales. La principal diferencia entre ellos está en que TVARB trabaja con un grupo
dependiente de tres factores, mientras que MVARB puede analizar un grupo dependiente
con cuatro o cinco factores. En ambos casos, tan sólo hay una posibilidad de regresión:
análisis binomial de 1 nivel.25
VARBRUL 2S incluye otros programas parciales que permiten contar, ordenar y
manipular los datos de diversas formas. Estos programas suelen ser un buen complemento
para conseguir análisis refinados y rigurosos.26 Por otra parte, los errores que surgen en la
aplicación de los diversos programas se anotan en archivos creados automáticamente. De
26
esta forma, el investigador puede saber en cada momento cuáles son las dificultades a las que
se enfrenta y el modo de resolverlas (Pintzuk 1988: 33).
2.6. Interpretación de los análisis probabilísticos.

La interpretación de los resultados de los análisis es la etapa más importante de toda
investigación. La calidad de un trabajo — en cuanto a validez, utilidad y comparabilidad —
viene determinada por la forma en que se haya hecho la interpretación y en que se hayan
aprovechado los datos disponibles. Puede haber análisis correctos, pero pobres; puede haber
interpretaciones complejas y sugerentes, pero absolutamente incorrectas.
Ya hemos señalado qué informaciones proporcionan los programas creados para
hacer análisis de regresión (2.4.4. y 2.5.2.). Esas informaciones se dan en los llamados
archivos de resultados. Ahora nos interesa tratar con mayor detenimiento cómo hay que
valorar esa información, para qué sirve cada dato y cómo se puede conseguir un
aprovechamiento óptimo de los materiales.
La actitud general del investigador debe ser la de conseguir el máximo rendimiento
de cada uno de las herramientas técnicas que la informática ha puesto a su disposición. Con
esto queremos decir que, si el programa y las características de los datos permiten hacer dos
tipos de análisis —p.e. binomial de 1 nivel y binomial de subida y bajada —, no es
aconsejable dejar de lado uno de ellos; si el análisis plantea algún problema, es más fácil
solucionarlo con una información completa — resultados completos, tablas cruzadas,
etc. — que con una información parcial —p.e. solamente tablas cruzadas. Además de esto,
la actitud del investigador debe estar siempre abierta a la posibilidad de analizar los datos
varias veces: a menudo hay que reconsiderar los grupos y factores establecidos previamente,
las condiciones del análisis, los valores de aplicación seleccionados. etc. En palabras
sencillas, los análisis no siempre salen a la primera, si lo que se busca es un conocimiento
detallado de los mecanismos de la variación. Las aproximaciones superficiales están al
alcance de cualquiera.
Dado que VARBRUL 2S y GOLDVARB 2.0 ofrecen unos resultados de
características muy similares (en su mayor parte idénticas), los comentarios que dediquemos
a su interpretación tendrán validez para ambos programas.
2.6.1. Análisis binomial de 1 nivel.

Es aconsejable comenzar los análisis aplicando la prueba de 1 nivel, por ser la más
sencilla. En la Figura 12 reproducimos los resultados obtenidos del análisis de /s/ implosiva,
cuando el valor de aplicación es el mantenimiento de la sibilante, es decir, el factor
dependiente correspondiente a [s].
27
_____________________________________________
• BINOMIAL VARBRUL, 1 step • 19/12/93•18:11 ••••••••••••••••••••••••••••••••••••
Name of cell file: Lingüística.Cel
Using fast, less accurate method.
Averaging by weighting factors.
One-level binomial analysis…
Run # 1, 24 cells:
Iterations: 1 2 3 4 5 6 7
Convergence at Iteration 7
Input 0.676
Group Factor Weight App/Total Input&Weight
1: 1 0.678 0.75 0.81
2 0.278 0.43 0.45
3 0.228 0.40 0.38
4 0.723 0.80 0.84
5 0.598 0.70 0.76
6 0.408 0.59 0.59
2: s 0.389 0.56 0.57

n 0.158 0.30 0.28
v 0.765 0.85 0.87
p 0.825 0.89 0.91
Cell Total App’ns Expected Error

6v 89 86 73.317 12.450
6s 236 94 112.656 5.911
6p 114 104 99.319 1.713
6n 65 15 13.786 0.136
5v 111 105 100.992 1.764
5s 271 178 179.796 0.053
5p 135 127 126.346 0.053
5n 130 45 47.774 0.255
4v 111 103 105.062 0.756
4s 222 192 172.184 10.163
4p 143 136 137.624 0.509
4n 113 41 57.021 9.086
3v 80 58 53.390 1.197
3s 218 49 61.386 3.479
3p 107 78 79.585 0.123
3n 114 21 11.806 7.987
2v 98 54 70.903 14.573
2s 222 76 75.096 0.016
2p 92 81 72.778 4.446
2n 140 26 18.331 3.692
1v 134 123 125.241 0.613
1s 300 233 220.908 2.511
1p 125 109 119.236 19.056
1n 145 66 65.466 0.008
Total Chi-square = 100.5513
Chi-square/cell = 4.1896
Log likelihood = -1757.103
Maximum possible likelihood = -1707.502
Fit: X-square(16) = 99.202, rejected, p = 0.0000
Execution time: 0 min, 6.0 sec

_____________________________________________
Figura 12.- Análisis binomial de 1 nivel (mantenimiento de /s/ implosiva).
28
Sin duda son numerosos los datos a los que hay que atender, pero los resultados
deben darnos respuesta para varias preguntas:
1ª.- ¿Con qué probabilidades aparece un rasgo lingüístico cuando concurren los factores de
diversas variables explicativas?
2ª.- ¿ Cómo es el modelo teórico en comparación con los datos observados?
3ª.- ¿Qué significación tiene el análisis realizado?
La primera nota de interés en la Figura 12 es el valor correspondiente al “input”
(0.676). Ese valor hace posible la comparación de los efectos de dos factores dentro de un
grupo y nos está dando un promedio (media corregida) de aparición del valor de aplicación
en los grupos estudiados. En el ejemplo de mantenimiento de /s/, estaríamos ante un
fenómeno variable (la cifra está lejos de 0 y a suficiente distancia de 1). Ahora bien, dado
que el “input” es superior a .5 hay que entender que el factor dependiente “mantenimiento”
se ve favorecido en las condiciones previstas (variables explicativas).
La primera de las preguntas planteadas encuentra su respuesta en la columna
correspondiente al efecto o al peso (“weight”) de cada uno de los factores de cada grupo. Ese
conjunto de probabilidades constituye el “modelo teórico” creado a partir de los datos
observados (1.4.). Generalmente, si una probabilidad es superior a .5, indica que el factor
explicativo favorece la variante estudiada; si es inferior, no la favorece. Cuando la
probabilidad es exactamente .5, el factor es indiferente o no resulta significativo en relación
con la variante.
Junto a la columna del peso, se nos da información sobre los datos observados,
dividiendo el número de casos de mantenimiento de /s/ implosiva en cada factor
(aplicaciones) por el total de casos de /s/ encontrados en los materiales.27 A la derecha de
esta columna hay otra en la que se ofrecen unos valores en forma de probabilidad estimada,
que son el resultado de combinar el “input” y el peso (“weight”). Tales valores son siempre
cercanos a los que encontramos en la columna anterior (“App/Total”).
En lo que se refiere al “modelo teórico” del mantenimiento de /s/ implosiva —
frente a la aspiración y la pérdida de la consonante —, la Figura 12 nos está diciendo que los
hablantes en los que se ve favorecido ese rasgo lingüístico (grupo 1) son los números 1, 4 y 5
(probabilidad superior a .5), mientras que no se ve favorecido en los demás hablantes,
especialmente en los números 2 y 3. El contexto fónico (grupo 2) nos aporta una
información interesante: el mantenimiento de la [s] es mucho más probable cuando la
sibilante va seguida de pausa (.825) o de vocal (.765) que cuando lleva detrás una
consonante, especialmente si ésta es sonora (.158). En otras palabras, el debilitamiento de
/s/ implosiva es más probable cuando detrás aparece una consonante. En este momento de
la interpretación, surge, por tanto, la necesidad de realizar análisis complementarios, con el
fin de comprobar qué otros factores dependientes (aspiración o pérdida) son los que
resultan favorecidos por este contexto específico.
La segunda pregunta importante a la hora de interpretar los resultados del análisis
afecta a la relación entre el “modelo teórico” y los datos observados: ¿hasta qué punto se ajusta el
primero a los segundos? La estadística dispone de diversas técnicas para dar cuenta de este
aspecto. Su importancia es singular, porque si el modelo no tiene una correspondencia clara
con los datos, es muy probable que se tenga que revisar la forma en que se han recogido o
codificado los materiales. De ser así, habría que desandar parte del camino, reconsiderando
los datos o cambiando las condiciones en las que se han analizado (2.3.2.).
Los programas VARBRUL 2S y GOLDVARB 2.0 disponen de una de las técnicas
más refinadas para medir la adecuación entre un “modelo teórico” y unos datos: la función
de verosimilitud (1.4.). Cuanto más alto sea este logaritmo, más verosímil resultará el modelo
formado por las probabilidades.28 En la Figura 12, en su parte inferior, se nos da el
29
logaritmo de la función de verosimilitud del mantenimiento de /s/ implosiva (Log likelihood

= -1757.103) y la máxima verosimilitud posible (Maximum possible likelihood = -1707.502). La
diferencia entre ambos es pequeña y podemos afirmar que el “modelo teórico” se ajusta
adecuadamente a los datos analizados. Esto nos llevaría automáticamente a deducir que los
grupos de factores analizados no tienen ningún poder de determinación sobre la variable
dependiente. Si las probabilidades calculadas se ajustan a la realidad, hay que suponer que
ciertamente están indicando cómo unos factores favorecen o desfavorecen la aparición de
un elemento lingüístico determinado.
Paralelamente al cálculo de la verosimilitud, se realiza una prueba de c2 encaminada
al mismo fin. Esta prueba se aplica, por un lado, para permitir la comparación de estos
análisis con los que proporcionan versiones anteriores de los programas VARBRUL y, por
otro, para dar más seguridad al investigador, si cabe, sobre los resultados de sus análisis. La
prueba de c2 determina la distancia que existe entre unos valores observados y unos valores
esperados según el “modelo teórico” (Moreno Fernández 1990a: 140-146). El resultado que
se obtiene se lleva a una tabla estadística en la que se dice qué probabilidad hay de que el
resultado del análisis no sea el mismo si se vuelve a repetir con unos datos similares o, dicho
de otra forma, qué probabilidad existe de que la hipótesis nula no pueda ser rechazada.29 En
la Figura 12, esta probabilidad es de 0.0000 — inferior a 0.05—, por tanto, la hipótesis nula
puede rechazarse.
Nuestros resultados acerca del mantenimiento de /s/ implosiva dan también los
valores totales, los casos de aplicación y los valores esperados para cada una de las celdas
creadas. De esta forma, en la celda “6v” (“hablante 6”; “ante vocal”) aparecen un total de 89
casos de /s/ implosiva, de los cuales 86 son de mantenimiento de la sibilante. Para esa celda,
el modelo espera una cifra algo superior a 73 casos de mantenimiento, con un error previsto
por encima de 12.
Si se estima en tanto por ciento la cifra correspondiente al error, se aprecia que su
proporción en la mayor parte de las celdas es relativamente pequeña. Este “error” se refiere
a la predicción y refleja una perturbación aleatoria inherente a cualquier investigación
empírica. Si el error fuera muy grande en todas las celdas, estaríamos ante unas falsas
variables explicativas, lo que conllevaría unos malos resultados en las medidas de ajuste del
modelo. De todos modos, en un número importante de análisis de la variación, la columna
del “error” no va a ser ninguna clave imprescindible para una correcta interpretación de los
resultados.
Si volvemos a la Figura 12, observamos que el margen de error es absolutamente
despreciable en más de la mitad de las celdas (“6n” = 0.136; “5s” = 0.053; etc.). No lo es
tanto, aunque ello no afecte a la calidad del análisis, en las celdas “2v” y “1p”. Más adelante
comentaremos aspectos complicados del análisis en los que la consulta de estos errores
puede tener alguna significación.
La tercera pregunta importante de la que hay que dar cuenta se refiere a la significación
del análisis realizado. El análisis binomial de 1 nivel da la significación calculada a partir de c2.
En el ejemplo de mantenimiento de /s/ comprobamos que la significación es adecuada a las
exigencias de la sociolingüística (p < 0.05). Ahora bien, las conclusiones definitivas sobre
este aspecto podrán extraerse de forma más fiable sobre los resultados del análisis binomial
de subida y bajada.
2.6.2. Análisis binomial de subida y bajada (regresión escalonada).

En la Figura 13 se reproducen los resultados obtenidos del análisis binomial de
subida y bajada de /s/ implosiva, cuando el valor de aplicación es el mantenimiento de la
sibilante, es decir, el factor dependiente correspondiente a [s].
30
__________________________________________________
• BINOMIAL VARBRUL • 24/12/93•16:40 ••••••••••••••••••••••••••••••••••••••••••••
Name of cell file: Lingüística.Cel. Using more accurate method. Averaging by weighting factors.
Threshold, step-up/down: 0.050001
Stepping Up…
---------- Level # 0 ----------
Run # 1, 1 cells:
Iterations: 1 2 Convergence at Iteration 2
Input 0.626
---------- Level # 1 ----------
Run # 2, 6 cells:
Iterations: 1 2 3 4 5 Convergence at Iteration 5
Input 0.638
Group # 1 -- 1: 0.636, 2: 0.300, 3: 0.273, 4: 0.696, 5: 0.574, 6: 0.453
Log likelihood = -2145.863 Significance = 0.000
Run # 3, 4 cells:
Input 0.659
Group # 2 -- s: 0.397, n: 0.184, v: 0.744, p: 0.802
Add Group # 2 with factors snvp

---------- Level # 2 ----------
Run # 4, 24 cells:
Iterations: 1 2 3 4 5 6 7 Convergence at Iteration 7
Input 0.676
Group # 1 -- 1: 0.678, 2: 0.278, 3: 0.228, 4: 0.723, 5: 0.598, 6: 0.408
Group # 2 -- s: 0.389, n: 0.158, v: 0.765, p: 0.825
Add Group # 1 with factors 123456

Best stepping up run: #4
---------------------------------------------
Stepping Down…
---------- Level # 2 ----------
Run # 5, 24 cells:
Input 0.676
Group # 1 -- 1: 0.678, 2: 0.278, 3: 0.228, 4: 0.723, 5: 0.598, 6: 0.408
Group # 2 -- s: 0.389, n: 0.158, v: 0.765, p: 0.825
---------- Level # 1 ----------
Run # 6, 4 cells:
Input 0.659
Group # 2 -- s: 0.397, n: 0.184, v: 0.744, p: 0.802
Run # 7, 6 cells:
Input 0.638
Group # 1 -- 1: 0.636, 2: 0.300, 3: 0.273, 4: 0.696, 5: 0.574, 6: 0.453
All remaining groups significant

Groups eliminated while stepping down: None
Best stepping up run: #4
Best stepping down run: #5
Execution time: 0 min, 20.9 sec
____________________________________________
Figura 13.- Análisis binomial de subida y bajada (mantenimiento de /s/ implosiva)
31
La manera de proceder en el examen de los resultados de este análisis es similar a la

que hemos propuesto para el binomial de 1 nivel: se trata de descubrir la probabilidad con
que cada factor favorece la aparición de un elemento lingüístico, de comprobar la
adecuación entre los datos y el modelo creado por la estadística y de comprobar la
significación del análisis.
Antes hemos hablado de la conveniencia de realizar en primer lugar el análisis de 1
nivel y después el de subida y bajada. Esta sucesión de análisis lleva a valorar y comparar los
resultados del primero con los del segundo, antes de reanalizar los datos, de hacer otros
cálculos complementarios o de estudiar aspectos que momentáneamente hayan quedado a
un lado.
Tal y como se ha explicado en 2.4.4. y en 2.5.2., el análisis de subida y bajada es un
análisis de regresión escalonada donde se analizan los grupos de factores, primero uno a uno
y después combinándolos, hasta que se encuentra la convergencia más verosímil. El análisis
se desarrolla, pues, en fases sucesivas (“run”). Si el resultado de la subida coincide o es
complementario del resultado de la bajada, estaremos en condiciones de hacer una
interpretación adecuada. Si no es así, el investigador deberá replantearse la forma en que ha
organizado sus datos o ha fijado las condiciones.
En la Figura 13, el análisis de subida (“Stepping Up”) se desarrolla en cuatro fases
(“run” 1, 2, 3 y 4)30 y el de bajada (“Stepping Down”) en tres (“run” 5, 6 y 7). Ante una hoja
de resultados como ésta, conviene atender primero a lo que se dice al final de cada regresión.
Así, tras la subida se nos informa de que la mejor fase ha sido la número 4, mientras que, al
final de la bajada, se señala que las mejores fases han sido las números 4 y 5; además se dice
que ningún grupo de factores ha sido eliminado. Esto significa que las fases que ofrecen
mayor verosimilitud han sido la 4 y la 5 y, por otro lado, que los grupos de factores
explicativos que hemos analizado en relación con el mantenimiento de /s/ implosiva
(hablante y contexto fónico) son significativos para el análisis. Comprobamos,
efectivamente, que los resultados de la subida y de la bajada son complementarios.
Una vez hechas estas comprobaciones, nuestra atención debe centrarse en los datos
que aportan las fases 4 y 5. Como son prácticamente idénticos, atenderemos exclusivamente
a la fase 4, que nos ofrece la significación para la función de verosimilitud. La Figura 14
representa la información de la fase 4.
___________________________________________________
Input 0.676
Group # 1 -- 1: 0.678, 2: 0.278, 3: 0.228, 4: 0.723, 5: 0.598, 6: 0.408
Group # 2 -- s: 0.389, n: 0.158, v: 0.765, p: 0.825
__________________________________________
Figura 14.- Resultados de análisis binomial de subida y bajada (fase 4 de la Fig.13).
Con estos resultados se puede dar respuesta a las preguntas básicas de la

interpretación. Las probabilidades con que se favorece la aparición del factor dependiente [s]
son las que se expresan para cada grupo y factor explicativo. Todas ellas configuran el
“modelo teórico” o, si se quiere, el conjunto de valores esperados, en forma probabilística.31
La bondad del ajuste del modelo se expresa en el “Log likelihood”: en nuestro ejemplo, esta
cifra es la más alta comparada con las que se ofrecen en las demás fases (a excepción de la
fase 5). Finalmente, la significación (“significance”) del logaritmo de la función de
32
verosimilitud es inferior a 0.05 (p = 0.000), lo que revela la idoneidad del análisis. Cuando
un investigador se encuentra con esta significación, puede estar seguro de que los datos
sobre los que va a hacer sus interpretaciones son absolutamente fiables.
A propósito de la significación, puede ser oportuno hacer algunas aclaraciones. El
nivel de significación indica la validez estadística de un análisis. Este nivel se calcula
comparando la verosimilitud que se ha obtenido a propósito de un grupo de factores
(primer análisis) con la verosimilitud que merece la combinación de ese grupo con otro
grupo de factores (segundo análisis), mediante la aplicación de un test de c2, con la
consiguiente consulta de la tabla de probabilidades. La fórmula que se utiliza es la siguiente
(Sankoff 1988: 991):
Figura 15.- Cálculo del nivel de significación a partir del logaritmo de la función de
verosimilitud.
El nivel de significación determina si un grupo de factores es relevante para el

fenómeno estudiado. Cuando no lo es, el programa se encarga de eliminarlo, advirtiéndolo
en la hoja de resultados. En el ejemplo del mantenimiento de /s/ implosiva no se ha
eliminado ningún grupo de factores y la fase de mayor verosimilitud presenta una
significación que permite rechazar la hipótesis nula.
A la hora de publicar los resultados de los análisis, es necesario que el investigador
dé cuenta, al menos, de estos datos: “input”, probabilidades por factores, logaritmo de la
función de verosimilitud y significación. En la Figura 14 se recoge también el resultado de
aplicar la prueba de c2, que coincide en la significación con la prueba de la verosimilitud. La
presencia de esta información en el archivo de resultados es opcional, ya que no es
imprescindible para hacer una interpretación correcta.32
3.- Dificultades en la interpretación de los análisis probabilísticos.
Los resultados de los análisis probabilísticos pueden aconsejar la repetición de una

determinada prueba, el cambio de las condiciones del análisis o la reorganización de los
grupos y factores fijados desde un principio. En algunas circunstancias, tales medidas son
necesarias — “knockout”, “singleton” (2.3.1. y 2.4.3.) — y en otras, convenientes —
análisis particular de cada factor dependiente, agrupamiento o eliminación de grupos que
ofrecen escasa verosimilitud, etc. (2.3.2. y 2.6.1.). En muchos casos, se pueden repetir los
análisis sustituyendo la variable dependiente por una de las explicativas y ésta por la primera,
siempre y cuando la variable explicativa no tenga los factores dispuestos en escala ordinal.
Tal recurso permite ver el mismo problema desde una perspectiva diferente, aportando algo
más de dinamismo a las interpretaciones. No obstante, los resultados de este tipo de
experimentos deben interpetarse con sumo cuidado.
Aunque es muy difícil prever qué dificultades de interpretación va a presentar un
análisis determinado, lo cierto es que a menudo surgen obstáculos que el sociolingüista debe
salvar de una forma adecuada. Esos obstáculos tienen que ver, en líneas generales, con la
forma de organizar las variables y sus variantes y con las relaciones que establecen entre sí.
Dejando a un lado los problemas que surgen por un uso inadecuado de la estadística o de
los programas informáticos, nos detendremos en el comentario de las dificultades que más
33
frecuentemente aparecen en el momento de la interpretación: la interacción de factores, la

agrupación de factores, las variantes minoritarias
3.1. Interacción de factores.

Desde un punto de vista matemático, los análisis probabilísticos parten de la
hipótesis de que los grupos de factores son independientes, es decir, no interactúan entre sí.
Esta hipótesis puede ser rechazada en caso de que los datos no se ajusten al modelo teórico
creado a partir de unas frecuencias observadas. Se habla de interacción cuando los casos de
aplicación que se observan en la confluencia de dos factores pertenecientes a grupos
distintos (celda) tienen una frecuencia muy alta, en comparación con las demás. En la Tabla
7 se observa esta circunstancia, a propósito de los factores correspondientes “categoría” y
“función”, para el análisis de la presencia de una marca de plural.
__________________________________
Cell Total App’ns Expected Error
ns 10 4 3.465 0.126
nc 10 0 0.539 0.570
ds 10 7 7.531 0.151
dc 10 3 2.469 0.152
ac 20 19 18.997 0.000
__________________________________
Tabla 7.- Celdas para el análisis de la presencia de marca de plural según la clase de palabra
(“n” ‘nombre’; “d” ‘determinante’; “a” ‘adjetivo’) y la función (“s” ‘sujeto’; “c” ‘objeto’).
Ejemplo ficticio de interacción.
Si nos detenemos en los casos de aplicación (presencia de marca de plural) recogidos en cada
una de las celdas, apreciamos que la presencia de ese rasgo es especialmente llamativa
cuando se trata de palabras de la clase adjetivo (a) en función de objeto (c). Pero a la vez se
observa que no hay una celda para adjetivos en sintagmas con función de sujeto y que no
hay ningún caso de marca de plural en los nombres que están en sintagmas con función de
objeto. Estamos ante un caso de interacción de las variables explicativas.
Pero el investigador debe recoger toda la información que los programas ponen en
sus manos y analizarla escrupulosamente, si no quiere correr el riesgo de llegar a
conclusiones falsas. Por ejemplo: el análisis binomial de 1 nivel de las celdas que se recogen
en la Tabla 7 presenta los resultados que reproducimos en la Tabla 8.
____________________________________ __
Group Factor Weight App/Total Input&Weight
1: a 0.964 0.95 0.98

n 0.075 0.20 0.11
d 0.317 0.50 0.41
2: c 0.322 0.55 0.41

s 0.816 0.55 0.87
____________________________________ _________
Tabla 8.- Probabilidades de presencia de marca de plural por grupos y factores (a partir de
celdas de Tabla 7). Ejemplo ficticio de interacción.
Partiendo de esta tabla, podríamos interpretar que la marca de plural se ve

claramente favorecida cuando aparece en adjetivos y en sintagmas con función de sujeto. Si
damos por concluida la interpretación en este momento, podríamos caer en un grave error.
34
Para evitarlo, es imprescindible responder a cada una de las preguntas sobre las que hemos
llamado la atención anteriormente: aparte de las probabilidades mismas, hay que saber si el
modelo teórico se ajusta a los datos y cuál es la significación de nuestro análisis. Además tras
el análisis de 1 nivel hay que realizar el binomial de subida y bajada. Si lo hacemos así,
sabremos oportunamente cuándo el análisis es fiable y cuándo no lo es.
Hay varias formas de detectar la interacción de factores.33 Una de ellas, ya lo hemos
comprobado, es la observación de las celdas. También podemos llegar a detectarla
comparando las cifras que aparecen en la columna “App/Total” y en la columna “Input &
Weight” (Tabla 8): cuando las cantidades representadas en ellas no son aproximadas,
podemos estar ante un caso de interacción (compárense las cifras correspondientes a “c” y a
“s”). Si además aplicamos el análisis binomial de subida y bajada, observamos que la
significación que se ofrece en la etapa que corresponde al grupo de factores 2 (función) es
de 1.000 (hipótesis nula aceptada) y que la significación del c2 para la fase de mayor
verosimilitud también sobrepasa el límite permitido (p = 0.4733), como se ve en la Figura
16.
___________________________
Run # 4, 5 cells:
Iterations: 1 2 3 4 5 6 7 8 9 10
Convergence at Iteration 10
Input 0.598
Group # 1 -- a: 0.964, n: 0.075, d: 0.317
Group # 2 -- c: 0.322, s: 0.816
Fit: X-square(2) = 1.522, accepted, p = 0.4733
________________________________
Figura 16.- Análisis de presencia de marca de plural (mejor fase de análisis binomial de
subida y bajada, a partir de celdas de Tabla 7). Ejemplo ficticio de interacción.
El análisis de subida y bajada tiene la enorme ventaja de señalar el grado de bondad

de cada una de las fases y su significación. Dado que los grupos se analizan primeramente de
uno en uno, para después emparejarse y agruparse, podemos saber cuál (o cuáles) de los
grupos que se van añadiendo provoca una alteración grave de la significación y de la función
de verosimilitud.
Pero, todavía hay otro recurso — más seguro si cabe — de comprobar la interacción
de dos factores: la elaboración de una tabla cruzada (véase Tablas 3 y 6). Para disponer de
una imagen más clara de cómo se distribuye la interacción, se pueden elaborar gráficas de
curvas a partir de las frecuencias relativas que dan esas mismas tablas.34
Cuando se ha llegado a la evidencia de que hay una interacción, hay que reconsiderar
el análisis realizado. Esto puede llevar, unas veces, a buscar variables explicativas diferentes.
En otras ocasiones, el problema puede estar tanto en las variables seleccionadas como en la
forma de distinguir los factores. Cuando esto ocurre, puede bastar con crear un nuevo
archivo de condiciones en el que se unan dos variantes de un mismo grupo en una sola o en
el que se cree un nuevo grupo combinando los factores de dos de los grupos estudiados en
un primer análisis. Así, por ejemplo, en vez de analizar dos grupos con dos factores cada
uno, podría ser conveniente la constitución de un solo grupo con cuatro factores.
Queda claro que los casos de interacción de factores llevan a una mala adecuación
entre el “modelo teórico” y el “modelo observado”. Por lo general, no es frecuente
encontrar el fenómeno de la interacción entre variables de naturaleza lingüística, como las
que hemos manejado en nuestro ejemplo. Sin embargo, las interacciones son relativamente
35
habituales entre grupos de factores extralingüísticos, especialmente entre los sociológicos

(Labov 1990: 220-242) y sobre todo si están dispuestos en escalas ordinales. Cuando esto
ocurre, puede resultar aconsejable prescindir de grupos sociológicos diferentes (p.e. edad,
nivel socio-cultural, etc.) y trabajar con un solo grupo en el que queden como factores cada
uno de los hablantes estudiados (Sankoff 1988: 992-993).
Es evidente que la supresión de variables o la concentración de dos o más grupos en
uno hace que se pierda parte de la información sociolingüística. En este caso, el investigador
ha de explicar dónde ha encontrado las interacciones, en qué grado interactúan los factores y
cómo ha conseguido la adecuación entre el modelo y las observaciones. Ahora bien, el
programa VARBRUL 3 es capaz de paliar esta pérdida identificando, dentro de un grupo de
factores (p.e. hablantes), un determinado número de subgrupos que no habían sido
establecidos previamente y calculando el efecto de cada uno de ellos sobre un fenómeno
lingüístico (Rousseau y Sankoff 1978b; Sankoff 1988: 992; Rousseau 1989: 397-400).
3.2. Análisis multinomiales y ordenación de los procesos de variación lingüística.

En el estudio de la variación no es extraño encontrar hechos lingüísticos en los que
puedan alternar más de dos variantes. El ejemplo del comportamiento de /s/ implosiva que
aquí hemos manejado es suficientemente representativo: hemos distinguido tres variantes de
/s/ ([s], [h] y ø). A la hora de elegir un valor de aplicación, GOLDVARB 2.0 permite
seleccionar sólo una de las variantes (frente a las otras dos o frente a una de ellas), no
obstante VARBRUL 2S y 3 ofrecen la posibilidad de analizar como valores de aplicación
dos o más variantes. Este tipo de análisis recibe el nombre de “multinomial” (2.1; 2.3.3.;
2.4.3.; 2.5.1). El problema más importante que presenta el análisis multinomial no es tanto
de naturaleza matemática como informática: los procesos de programación y de cálculo son
sensiblemente más complicados que los que se dan en los análisis binomiales, sobre todo
cuando se cuenta con cuatro, cinco o seis variantes.
El variacionismo norteamericano ha llevado los análisis multinomiales al terreno de
la competencia sociolingüística (Cedergren, Rousseau y Sankoff; Sankoff y Rousseau 1989).
Básicamente, se considera que estos análisis son una vía adecuada para explicar:
a) la dirección en que opera una regla: ¿h -> ø ó ø -> h?
b) las relaciones subyacentes entre las variantes dependientes; en otras palabras, el orden en
que se aplican las reglas: ¿s > h > ø; s > ø > h; etc.?
El modo de resolver esta clase de dudas y de determinar el orden jerárquico de las
variantes consiste simplemente en realizar análisis de cada una de las posibles combinaciones
y extraer la verosimilitud de todos ellos: se interpretan como más adecuadas las ordenaciones
que presentan un ajuste de mayor calidad. Los estudios que se han hecho sobre el
comportamiento de /s/ implosiva han revelado que hay dos clasificaciones más adecuadas
que las demás. Una de ellas distingue, primero, una variante de las otras dos — [s], [h, ø] —
y en una segunda etapa se separa [h] de ø. Según esto, las variantes de /s/ implosiva tienen
un orden interno en el que la sibilante [s] ocupa el lugar más destacado; a partir de ella, se
genera [h] y de ésta, ø. Otra interpretación, con el mismo grado de verosimilitud, descubre
una relación en la cual [h] y ø pueden ser generadas simultáneamente por [s] (Sankoff y
Rousseau 1989: 4-7).
3.3. El estudio de variantes a partir de pocos datos.

Existen varios campos de la variación lingüística (sintaxis, estudios de
sociolingüística histórica, fenómenos fonéticos poco recurrentes, etc.) en los que es difícil
conseguir un número de datos suficiente para el análisis estadístico. Al plantear este
problema no queremos decir que exista una relación directa y necesaria entre la escasez de
36
datos y la imposibilidad del análisis probabilístico: se pueden hacer buenos análisis con unas
pocas decenas de datos. Sin embargo, es evidente que cuando se dispone de pocos
materiales se corre un riesgo mayor de que los datos encierren un comportamiento inestable.
Los rasgos lingüísticos poco frecuentes necesitan una atención especial a la hora de
la recogida. En el caso de la sintaxis, es esencial dirigir las entrevistas de la manera apropiada
para favorecer la aparición del fenómeno estudiado o prolongar el periodo de recogida para
conseguir materiales: mediante la observación participativa, por ejemplo; en el estudio de
variantes fonéticas poco abundantes, hay que contar con más minutos de grabación. Pero, si
aún así siguen siendo pocos los materiales, se puede intentar el análisis, prestando una
atención muy especial a la función de verosimilitud y a la significación que se dan en los
resultados. También es necesario incluir en el informe final las frecuencias de los datos con
que se ha trabajado (valores totales y de aplicación), con la finalidad de que se sepa en todo
momento cuál es la entidad de la base sobre la que se han hecho las interpretaciones.
De cualquier forma, el variacionismo permite el análisis conjunto de materiales
recogidos por métodos diferentes: nos referimos especialmente a corpora lingüísticos con una
diferencia notable en cuanto al número de datos que contienen, y a materiales relativos al
mismo fenómeno, claro está. Si por medio de la observación participativa se han anotado
unos pocos casos de un fenómeno, éstos pueden añadirse a los allegados con otra técnica.
En tales condiciones, todos los materiales pueden ser analizados como si procedieran del
mismo corpus, con la única salvedad de que el “input” no tiene significación alguna (1.4.;
2.6.1), dado que depende de una desconocida cantidad total de la cual se han extraído esos
rasgos poco frecuentes. La interpretación final puede hacerse como si se tratara de un
análisis ordinario (Sankoff 1988: 994-995).
3.4. VARBRUL 3. Características generales del programa.

Algunos de los problemas planteados en los epígrafes anteriores dejarán de serlo
cuando el uso del programa VARBRUL 3 esté generalizado. Este programa ha tenido hasta
el momento dos versiones. La primera, presentada por Rousseau y Sankoff (1978a: 67-68),
fue abandonada por la dificultad que suponía su adaptación a los nuevos sistemas
informáticos. La segunda, desarrollada por Rousseau (1989: 395-409), se ha implantado
experimentalmente en algunos centros de investigación.
VARBRUL 3 ofrece al investigador diversas ventajas sobre los programas anteriores,
entre las que destacan la de ser mucho más rápido y la de permitir el análisis de más de un
centenar de factores dentro de un grupo. Este programa incorpora varios tipos de análisis:
el análisis de partición, un test para la simulación de particiones, el análisis de variantes múltiples
(análisis multinomial) y una técnica para la creación de escalas de implicación. A diferencia de
los programas para ordenadores personales, no hace análisis de regresión escalonada,
aunque se tiene la idea de incluir este recurso en el futuro.35 Por otro lado, VARBRUL 3
tampoco es capaz de trabajar con variables en las que los factores estén dispuestos en escalas
continuas u ordinales — edad, ingresos, etc. —, pero esta carencia tiene un alcance muy
limitado al proporcionar otros análisis que garantizan unos resultados fiables.
El análisis de partición sirve para solucionar en buena medida el problema planteado en
3.1, a propósito de la interacción de factores. Allí comentábamos que a veces es aconsejable
trabajar no con clases de hablantes que tienen ciertas características sociológicas comunes
(edad, ingresos económicos, etc.), sino con los hablantes individualizados como factores y
reunidos en un solo grupo. Ahora bien, cuando se hace esto, se puede sospechar o detectar
que los factores de ese grupo no son homogéneos en cuanto a su efecto sobre la
probabilidad de aparición de una variante dependiente: si trabajamos con una variable
explicativa “hablante”, en la que los factores son los individuos de la muestra, es posible
37
apreciar que la incidencia de todos ellos sobre el rasgo estudiado es diversa y que
probablemente esos factores se pueden reunir en subgrupos más homogéneos. VARBRUL
3 construye automáticamente los subgrupos y les asigna los factores más adecuados,
buscando la división más verosímil, pero necesita que los datos estén bien estructurados y
que se maneje un número importante de hablantes y contextos, si bien agrupados en pocas
variables. El programa dispone de una prueba para la simulación de particiones que calcula los
efectos que cada subgrupo tendría sobre la variante dependiente y determina si el modelo
teórico es más adecuado manteniendo todos los hablantes en un grupo y repartiéndolos en
dos o más subgrupos.
Por último, además de hacer análisis multinomiales (3.2.), VARBRUL 3 también
construye escalas de implicación. (Sankoff 1988: 993-994; Rousseau 1989: 405-407). Tales
escalas han sido tradicionalmente un recurso técnico representativo de la lingüística criollista
(De Camp 1971; Bickerton 1973; Dittmar y Schlobinski 1988; Moreno Fernández 1988:
135-137) y consiste en ordenar los factores de dos variables diferentes en una tabla
compuesta de líneas y columnas, de tal modo que en un extremo se reúnan aquellos en los
que siempre aparece el rasgo estudiado y en el otro se agrupen los factores en los que la
variante estudiada no aparece nunca. Así, por ejemplo, si tenemos en cuenta las variables
“hablante” y “contexto fónico siguiente”, la escala de implicación del mantenimiento de la
/s/ implosiva, frente al no mantenimiento, ordenaría los factores de las variables
disponiendo en un extremo aquellos hablantes y contextos en los que siempre aparece la
sibilancia y en el otro, aquellos en los que nunca se da esa variante; en el centro de la tabla
los factores se ordenarían según la proporción de casos de sibilante y de no sibilante.
El problema que los rasgos lingüísticos variables presentan para su disposición en
escalas está en que no es muy frecuente que tengan unos valores del 0% o del 100% (0 ó 1
en términos de probabilidad): por lo general los datos suelen tener valores intermedios.
Dada esta dificultad, VARBRUL 3 emplea el principio de la máxima verosimilitud para
conseguir la ordenación escalonada de las probabilidades correspondientes a los factores de
dos variables y eliminar los errores que dificulten el procedimiento. El resultado suele ser
una escala con una gran zona de variabilidad.
4.- Conclusión.
El variacionismo actual ha contribuido de forma notable a que la sociolingüística

ocupe un lugar destacado en el conjunto de la lingüística del habla y de la lingüística
cuantitativa. Esta corriente ha dedicado una parte importante de sus esfuerzos a la
adaptación de un método capaz de proporcionar análisis rigurosos e interpretaciones
lingüísticas tan ricas como fiables: el análisis probabilístico. Pero ello no quiere decir que la
sociolingüística de la variación haya dado una solución definitiva a todas las dificultades
teóricas y metodológicas que se le han presentado. Queda por recorrer una parte importante
del camino.
Entre las principales virtudes de la sociolingüística norteamericana está la
generosidad. Todos los avances técnicos han sido puestos a disposición de la comunidad
científica internacional. Los programas informáticos se distribuyen gratuitamente y están al
alcance de cualquier persona que los solicite. Entre ellos destacan los programas que se
manejan desde ordenadores personales: VARBRUL 2S y GOLDVARB 2.0. Gracias a esta
generosidad, la sociolingüística hispánica ha podido incorporarse paulatinamente a la
corriente variacionista y hacer aportaciones enriquecedoras para la disciplina y para el
conocimiento de la lengua española.36
38
El lado negativo de este hecho se encuentra en la relación de dependencia técnica —

y también teórica — que se ha ido estableciendo: el variacionismo hispánico, en términos
generales, es subsidiario del norteamericano.37 Las relaciones entre investigadores de distinta
procedencia son deseables y beneficiosas para todos, pero una dependencia extremada
puede provocar que los investigadores de un grupo sólo muestren interés por los aspectos
que preocupan al otro. La sociolingüística hispánica tiene intereses comunes con la
norteamericana; esto es evidente. Pero también es verdad que ha de enfrentarse con
problemas peculiares que hay que resolver desde la lingüística hispánica, porque es difícil
que alguien se desvele por lo ajeno. El ideal sería que la sociolingüística de la lengua española
planteara y resolviera los muchos problemas que encierra, aportando sus conocimientos para
que los sociolingüistas norteamericanos pudieran seguir perfeccionando sus modelos o
proponiendo nuevas técnicas de análisis que contribuyeran a un enriquecimiento de la
sociolingüística general.
39
REFERENCIAS BIBLIOGRÁFICAS
ALBA, Orlando. 1990. Variación fonética y diversidad social en el español dominicano de Santiago.
Santiago: Pontificia Universidad Católica Madre y Maestra.
AMMON, Ulrich, DITTMAR, Norbert y MATTHEIER, Klaus J. (eds.). 1987-1988.
Sociolinguistics. An International Handbook of the Science of Language and Society. Berlin: Walter
de Gruyter.
ANTILLA, Raimo. 1989. Historical and Comparative Linguistics. 2ª ed. Amsterdam: John
Benjamins.
BENTIVOGLIO, PAOLA. 1980. Why “canto” and not “yo canto”? The problem of first-person
subject pronoun in spoken Venezuelan Spanish. University of California. Tesis de M.A.
inédita.
BICKERTON, Derek. 1973. Quantitative versus Dynamic Paradigms: The Case of
Montreal que. En Ch.-J. Bailey y R. Shuy (eds.). New Ways of Analizing Variation in
English, Washington: Georgetown University Press. 23-43.
BYNON, Theodora. 1981. Lingüística histórica. Madrid: Gredos.
CEDERGREN, Henrietta C. J. 1973. The Interplay of Social and Linguistic Factors in Panama.
Cornell University. Tesis Doctoral inédita.
____________________. 1983. Sociolingüística. En H. López Morales. Introducción a la
lingüística actual. Madrid: Playor. 147-165.
____________________, ROUSSEAU, Pascale y SANKOFF, David. 1986. La variabilidad
de /r/ implosiva en el español de Panamá y los modelos de ordenación de reglas. En
R. Núñez Cedeño, I. Páez Urdaneta y J. Guitart (eds.). Estudios sobre la Fonología del
Español del Caribe. Caracas: La Casa de Bello. 13-20.
____________________ y SANKOFF, David. 1974. Variable Rules: Performance as a
Statistical Reflection of Competence. Language 50. 333-355.
CESTERO MANCERA, Ana María. 1992. Intercambio de turnos de palabra en lengua española.
Universidad de Alcalá de Henares. Tesis de Licenciatura inédita.
D’INTRONO, Francesco. 1987. Teoría lingüística, variación paramétrica y español de
América. En H. López Morales y M. Vaquero (eds.). Actas del I Congreso Internacional
sobre el español de América. San Juan. Puerto Rico. Del 4 al 9 de octubre de 1982. San Juan,
Puerto Rico: Academia Puertorriqueña de la Lengua Española. 373-382.
DE CAMP, David. 1971. Toward a generative analysis of a Post-Creole Speech Continuum.
En D. Hymes (ed.). Pidginization and Creolization of Languages. London: Cambridge
University Press. 349-370.
DITTMAR, Norbert y SCHLOBINSKI, Peter. 1988. Implikationanalyse. En U. Ammon,
N. Dittmar y K.J. Mattheier (eds.). Vol. 2. 1014-1026.
FASOLD, Ralph. 1984. Variation theory and language learning. En P. Trudgill (ed.). Applied
Sociolinguistics. London: Academic Press. 245-262.
______________. 1990. Sociolinguistics of Language. Oxford: Basil Blackwell.
______________ y SCHIFFRIN, Deborah. 1989. Language Change and Variation.
Amsterdam: John Benjamins.
GARCÍA MARCOS, Francisco J. 1990. Estratificación social del español de la costa granadina.
Almería: Departamento de Lingüística General y Teoría de la Literatura.
GIMENO, Francisco. 1990. De sociolingüística histórica: en torno a los orígenes del
español. En F. Moreno Fernández (rec.). 89-102.
KAY, Paul y McDANIEL, Chad K. 1979. On the Logic of Variable Rules. Language in Society
8. 151-187.
_____________________, Chad. K. 1981. On the Meaning of Variable Rules: Discussion.
40
Language in Society 10. 251-258.

KIPARSKY, Paul. 1979. Panini as a Variationist. Cambridge, MA: MIT Press.
LABOV, William. 1963. The Social Motivation of Sound Change. Word 19. 273-309.
_____________. 1969. Contraction, Deletion, and Inherent Variability of the English
Copula. Language 45. 715-762.
_____________. 1972. Sociolinguistic Patterns. Philadelphia. University of Pennsylvania Press.
_____________. 1990. The intersection of sex and social class in the course of linguistic
change. Language Variation and Change 2. 205-254.
_____________ y LABOV, T. 1977. L’apprentissage de la syntaxe des interrogations.
Langue Française 34. 52-80.
LEFEBVRE, Claire (ed.). 1982. La syntaxe comparée du français standard et populaire: approches
formelle et fonctionelle. Editeur officiel du Québec.
LEHMANN, W.P. y MALKIEL, Yakov (eds.). 1968. Directions for Historical Linguistics. A
symposium. Austin: University of Texas Press.
LEMIEUX, Monique. 1985. Variation et changement en syntaxe. En M. Lemieux y H.J.
Cedergren (eds.). Langues et sociétés. Les tendances dynamiques du français parlé à Montréal.
Gouvernement du Québec.
LÓPEZ MORALES, Humberto. 1983. Estratificación social del español de San Juan de Puerto Rico.
México: UNAM.
________________. 1981. Estudio de la competencia sociolingüística: los modelos
probabilísticos. Revista de la Sociedad Española de Lingüística 11. 247-268.
________________. 1990. La sociolingüística actual. En F. Moreno Fernández (rec.). 79-
87.
________________. 1993. Sociolingüística. 2ª ed. Madrid: Gredos.
MILROY, James. 1991. Linguistic Variation and Change. Oxford: Blackwell.
MOLINA MARTOS, Isabel. 1991. Estudio sociolingüístico de la ciudad de Toledo. Universidad
Complutense. Tesis Doctoral inédita.
MORENO FERNÁNDEZ, Francisco. 1988. Sociolingüística en EE.UU. (1975-1985). Guía
bibliográfica crítica. Málaga: Ágora.
____________________. 1990a. Metodología sociolingüística. Madrid: Gredos.
_______________ (rec.). 1990b. Estudios sobre variación lingüística. Alcalá de Henares:
Universidad de Alcalá.
____________________. 1993. “Geolingüística y cuantificación”. En H. Ueda (coord.).
Actas del III Congreso de Hispanistas de Asia. Tokio: Asociación Asiática de Hispanistas.
Pp. 289-300.
____________________. 1994. "Debilitamiento de -s en el español de Orán: análisis de sus
contextos fónicos", Boletín de la Academia Puertorriqueña de la Lengua Española, 2ª época, I,
pp. 91-111.
____________________. 1997. "Geografía lingüística y variacionismo", Contribuciones al
estudio de la lingüística hispánica. Homenaje al profesor Ramón Trujillo. Santa Cruz de Tenerife,
Montesinos, 1997, pp. 347-356.
PINTZUK, Suzanne. 1986, 1987, 1988. VARBRUL PROGRAMS. Programas y
documentación inéditos.
PISANI, Alessandro E.M. 1987. La variazione linguistica. Causalismo e probabilismo in
sociolinguistica. Milán: Franco Angeli.
POPLACK, Shana. 1979. Function and process in a variable phonology. University of
Pennsylvania. Tesis Doctoral inédita.
RAND, David y SANKOFF, David. 1989. GOLDVARB. A Variable Rule Application for the
Macintosh. Programa y documentación inéditos.
41
______________________. 1990. GOLDVARB. VERSION 2. A Variable Rule Application

for the Macintosh. Programa y documentación inéditos.
Real Academia de Ciencias Exactas, Físicas y Naturales. 1990. Vocabulario científico y técnico. 2ª
ed. Madrid: Espasa-Calpe.
ROUSSEAU, Pascale. 1989. A versatile program for the analysis of sociolinguistic data. En
R. Fasold y D. Schiffrin (eds.). 395-409.
________________ y SANKOFF, David. 1978a. Advances in Variable Rule Methodology.
En D. Sankoff (ed.). 57-69
________________ y SANKOFF, David. 1978b. A Solution to the Problem of Grouping
Speakers. En D. Sankoff (ed.). 97-117.
SAMPER PADILLA, José Antonio. 1990. Estudio sociolingüístico del español de Las Palmas de
Gran Canaria. Las Palmas: La Caja de Canarias.
SANKOFF, David. 1975. VARBRUL 2. Programa y documentación inéditos.
_____________ (ed.). 1978. Linguistic Variation. Models and Methods. New York: Academic
Press.
_____________. 1986. Ordenamiento de reglas variables: /r/ implosiva en un dialecto
puertorriqueño. En R. Núñez Cedeño, I. Páez Urdaneta y J. Guitart (eds.). Estudios sobre
la Fonología del Español del Caribe. Caracas: La Casa de Bello. 109-115.
_____________. 1988. Variable Rules. En U. Ammon, N. Dittmar y K.J. Mattheier (eds.).
Vol 2. 984-997
_____________ y LABOV, William. 1979. On the Uses of Variable Rules. Language in
Society 8. 189-222.
_______________ y ROUSSEAU, Pascale. 1989. Statistical evidence for rule ordering.
Language Variation and Change 1. 1-18.
SANKOFF, Gillian y THIBAULT, Pierrette. 1977. L’alternace entre les auxiliares avoir et
être en français parlé à Montréal. Langue Française 34. 81-108.
SEDANO, Mercedes. 1993. The alternation between acá and aquí in present-day Spanish.
En NWAVE 22. Universidad de Ottawa. Comunicación inédita.
SERRANO, María José. 1992. La variación sintáctica: formas verbales del periodo hipotético en
español. Universidad de La Laguna. Tesis Doctoral inédita.
SILVA-CORVALÁN, Carmen. 1977. A discourse study of word order in the Spanish spoken by
Mexican-Americans in West Los Angeles. Universidad de California, Los Ángeles. Tesis de
M.A. inédita.
_________________. 1988. Sociolingüística. Teoría y análisis. Madrid: Longman.
SINGH, Rajendra y FORD, Alan. 1989. A closer look at so-called variable processes. En R.
Fasold y D. Schiffrin (eds.). 367-380.
TESITELOVÁ, Marie. 1992. Quantitative Linguistics. Amsterdam: John Benjamins.
WEINREICH, Uriel, LABOV, William y HERZOG, Marvin. 1968. Empirical Foundations
for a Theory of Language Change. En W.P. Lehmann y Y. Malkiel (eds.). 189-195.
*****************************
* Deseo expresar mi agradecimiento a las siguientes personas: Humberto López Morales, Miguel Ángel Malo
Ocaña, María del Mar Martín de Nicolás, José Enrique Moreno Fernández y Hiroto Ueda. Sus comentarios
han sido muy valiosos para la redacción de este trabajo.
1 Esta decisión, no obstante, tienen algunos inconvenientes serios. Para un buen número de lingüistas es muy
difícil comprender para qué se hace cada una de las operaciones matemáticas, porque no se han explicado
convenientemente. Lo mismo ocurre en el terreno de la informática. Ni las instrucciones de los programas ni
los trabajos teóricos explican con detalle cada uno de los datos que aparecen en los archivos de resultados.
Esto puede ser muy peligroso con vistas a la interpretación de los fenómenos sociolingüísticos. Reconocemos,
42
no obstante, que cuando se quiere trabajar entre la lingüística y las matemáticas o la informática, es muy difícil
encontrar el punto medio más adecuado a los intereses de todos.
2 En el ejemplo que estamos proponiendo, los casos de no aspiración serían los de conservación de la sibilante
más los de pérdida total.

3 Estos datos y los que aparecen en este trabajo referidos a /s/ implosiva proceden de un estudio cuantitativo
realizado sobre seis localidades españolas, en el límite de las provincias de Toledo y de Cuenca (Moreno
Fernández, 1994). No pretendemos con estas páginas presentar un estudio de la variación de /s/: los datos
son utilizados exclusivamente a título de ejemplo.
4 Este valor compensa las diferencias que pueda haber en las probabilidades de dos o más grupos explicativos
diferentes y sirve como punto de referencia.

5 Cuando las probabilidades en los factores se acercan a 1, funciona como el modelo multiplicativo que trabaja
sobre no aplicaciones (multiplicativo negativo: (1-p) = (1-p0) x (1-pi) x ... x (1-pk)); cuando se acercan a 0,
como el modelo multiplicativo que trabaja con aplicaciones (multiplicativo positivo: p = p0 x pi x ... x pk); y
cuando los valores son medios (alrededor de 1/2), como el modelo aditivo (p = p0 + pi + ... + pk) (Rousseau
y Sankoff 1978a: 62). Cuando la probabilidad de aplicación de un rasgo en una circunstancia determinada (pi)
supera el 0.5, se interpreta que lo favorece.
6 Dicho de forma más exacta, 1 menos la probabilidad de que un contexto haya influido sobre una variante.
7 Téngase en cuenta lo comentado en la nota 3. De todos modos, Sankoff y Rousseau no han explicado con
claridad cómo se hacen los cálculos para llegar a la convergencia, tal vez por tratarse de procesos numéricos
agotadores que sólo pueden hacerse con ayuda de la informática.
8 Hay que tener en cuenta que tan importante es decubrir la influencia de una variable explicativa sobre la
dependiente, como descubrir que no existe ninguna influencia.

9 Por ejemplo, en un grupo de factores relativo a la edad de los informantes, el factor “menor de 20 años”
precede al factor “de 21 a 35 años” y éste, al factor “de 36 a 55 años”. Este sería un caso de escala ordinal. En
las escalas nominales, cualquier factor puede preceder a cualquiera de los demás: el factor “adjetivo” no tiene
por qué ir delante del factor “determinante”; el factor “función sujeto” no tiene por qué ir después del factor
“función objeto”.
10 Los signos ‘(‘ (paréntesis), ‘.’ (punto) o ‘/’ (barra inclinada) nunca puede ser utilizados como códigos de
factores, porque están destinados a cumplir otras funciones.

11 En nuestro ejemplo, cada número corresponde a un hablante nacido en una localidad determinada.
12 Existe la posibilidad de incluir, junto a una secuencia de datos, un texto en el que se reproduzca el
fragmento en el que ha aparecido el dato o cualquier comentario que el investigador considere oportuno.
Estos “textos” pueden anotarse después del espacio o de la señal de fin de línea de cada secuencia. El
ordenador nunca confundirá tal información con los datos propiamente dichos, porque estos van precedidos
necesariamente por un paréntesis. Algunos de los problemas que se pueden encontrar en los análisis se deben
a una incorrecta introducción o codificación de los datos. Afortunadamente, los errores graves se detectan
mediante una aplicación de “comprobación” (check).
13 Para que funcione el programa se necesita que el Macintosh cuente con un Sistema Operativo 6.0 o
posterior. Cuando se cuenta con una cantidad de datos importante, conviene trabajar con un modelo de
Macintosh suficientemente rápido o bien incorporar un acelerador.
14 En GOLDVARB 2.0 se puede trabajar con un máximo de 30 grupos de factores; cada grupo puede estar
formado, como máximo, por 200 factores.

15 El programa realiza 20 iteraciones para encontrar la “convergencia” de máxima verosimilitud (véase 1.4). Si
al llegar a ese punto no ha encontrado la convergencia, se ofrecen los valores calculados hasta ese momento.
En este caso, las estimaciones no pueden ser todo lo cuidadas que se desea.
16 En GOLDVARB 2.0, marcando un cuadrado cualquiera, se nos dice exactamente cuántas aplicaciones
corresponden a esa celda y los factores que la forman.

17 Igualmente, existe la posibilidad, mediante la orden “Centre factors” que se encuentra en el menú “Cells”,
de determinar qué método será utilizado para conseguir la probabilidad media de los factores en un grupo
dado. Cuando se da esta orden, cada factor recibe una misma ponderación. Si no se elige esta opción, cada
factor resulta ponderado según el número de casos posibles (aplicaciones y no aplicaciones) en relación con el
número de casos posibles en el conjunto de los factores de un grupo (Rand y Sankoff 1990: 36).
18 Las extensiones que presentamos para estos archivos son simples sugerencias: el investigador puede dar a
los archivos el nombre que quiera. Conviene advertir, no obstante, que son muchos los archivos y programas
que aparecen en el directorio creado para el programa y que, por lo tanto, es aconsejable seguir un método que
facilite la búsqueda.
43
19 Todos los archivos creados con el editor de textos deben memorizarse sin “caracteres de control” (en el
caso de WordPerfect, como Texto DOS: caracteres ASCII)

20 Éste, como los demás programas parciales, arrancan escribiendo simplemente su nombre junto a “c:\”.
21 Este procedimiento es el más recomendable. Sin embargo, al aplicar CHECKTOK se pueden especificar los
factores directamente desde la consola, anotando la información que se solicita: número de grupos de factores,
valor por defecto, factores legales y valor por defecto de cada grupo.
22 Proponemos dar a este archivo la extensión “.che”.
23 También se pide el nombre de un archivo de “definición de factores” y la posibilidad de añadir un
encabezamiento a la información aportada en el archivo de celdas, pero no son elementos imprescindibles para
el correcto funcionamiento del progama. Tan sólo buscan que el investigador pueda reconocer más fácilmente
los códigos de los factores (Pintzuk 1988: 12).
24 El ordenador también pide que se especifique el multiplicador que se va a utilizar sobre los casos de no-
aplicación. Esto tiene alguna utilidad cuando no se trabaja con todos los casos de no aplicación, sino
solamente con una muestra representativa. Si la muestra recoge 1/5 de los casos de no-aplicación, se pide al
ordenador que el multiplicador sea 5.
25 Es relativamente frecuente encontrar problemas de capacidad de memoria al aplicar estos análisis. Las
instrucciones de VARBRUL 2S explican cómo solucionar la mayor parte de estas dificultades (Pintzuk 1988:
26).
26 Los programas complementarios son los siguientes:
- CROSSTAB (véase 2.4.5.): ofrece las frecuencias absolutas y relativas que se recogen al cruzar la información
de dos variables o grupos explicativos. Para su aplicación es imprescindible la existencia de un archivo del
celdas (Pintzuk 1988: 23-24)
- COUNTUP: sirve para contar las ocurrencias y calcular las proporciones de los factores de un grupo. Para su
aplicación se debe disponer de un archivo de datos (tokens) y especificar el número del factor que se quiere
estudiar (Pintzuk 1988: 22).
- TSORT: se utiliza para ordenar o reordenar los datos incluidos en una secuencia y para copiar en un archivo
diferente los factores que se quieran. El modo en que se hace la ordenación se especifica con un sistema
similar al que se utiliza para crear los archivos de condiciones (Pintzuk 1988: 27).
- TEXTSORT: se utiliza para localizar, ordenar y copiar en un archivo diferente fragmentos de los textos que
acompañan a las secuencias de datos (véase nota 4) (Pintzuk 1988: 30-31).
27 A la hora de interpretar y presentar los resultados es conveniente tener en cuenta y aportar esta información.
Lo más indicado es ofrecer no el resultado de la división, sino el número de aplicaciones y el número total de
casos. En los estudios de fonética, donde los datos se cuentan por centenares, esta información puede ocupar
un segundo plano, pero en los análisis de sintaxis es importante tenerla presente, porque se debe saber sobre
cuántos casos se han calculado las probabilidades.
28 El resultado de ese logaritmo aparece en forma de número negativo. Por tanto, tendrá más verosimilitud
aquél que esté más cerca de 0.

29 Esta prueba sólo proporciona un resultado adecuado cuando el número esperado de aplicaciones y de no
aplicaciones es, al menos, de cinco en todos los contextos.

30 En la primara fase (“run 1”) se calcula el logaritmo de la función de verosimilitud del conjunto de los datos,
como si estos hubieran sido recogidos en un solo contexto.

31 Como se puede comprobar, las probabilidades coinciden exactamente con las que ofrecía el análisis
binomial de 1 nivel.
32 En GOLDVARB 2.0, si se quiere tener el valor de c2 y su significación, se puede pedir en el menú “Cells”
(“Show Model Fit”). Esto se puede hacer en el análisis binomial de 1 nivel y en el análisis de subida y bajada.
33 En algunos casos, puede haber variables subyacentes que hay que descubrir.
34 También es posible calcular los coeficientes de correlación de las dos variables mediante otros programas
estadísticos (Moreno Fernández 1990a: 147-149).

35 De todos modos, esta necesidad está satisfecha plenamente tanto con VARBRUL 2s, como con
GOLDVARB 2.0.
36 Véase Cedergren 1983, Silva-Corvalán 1988 y López Morales 1990. Hay publicaciones en las que se estudian
diversos aspectos del español utilizando las técnicas variacionistas. Algunas de ellas son las siguientes:
- Estudios en los que se ha utilizado el programa VARBRUL: Cedergren 1973.
- Estudios en los que se ha utilizado el programa VARBRUL 2: Silva-Corvalán 1977; López Morales 1983;
Samper Padilla 1990; Gimeno 1990.
- Estudios en los que se ha utilizado VARBRUL 2s: Poplack 1979; Bentivoglio 1980; Alba 1990; García
Marcos 1990; Serrano 1992; Moreno Fernández, 1994.
44
- Estudios en los que se ha utilizado GOLDVARB 2.0: Molina Martos 1991; Cestero Mancera 1992; Sedano
1993; Moreno Fernández, 1994.
37 Por otra parte, la lingüística hispánica está mostrando una tendencia a compaginar su tradición dialectológica
con la metodología variacionista, pero esa inclinación adolece por el momento de la suficiente claridad de
ideas.
**************************************************************************************

Sociolingüística, Estadística e Informática - Lingüística 6, 1994.

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Sociolingüística, Estadística e Informática - Lingüística 6, 1994.

Enviado por

Direitos autorais:

Formatos disponíveis

1

FRANCISCO MORENO FERNÁNDEZ

Publicado en Lingüística, 6 (1994), pp. 95-154.

1.- Investigación sociolingüística y cuantificación.

1.1. Aportaciones de la sociolingüística a través de la cuantificación.

1.2. Variación y teoría lingüística.

“reglas de actuación” (1972: 225-226), aunque constituyen claramente un aspecto de la

1.3. Desarrollo de las técnicas cuantitativas en sociolingüística.

La sociolingüística trabaja habitualmente con dos tipos de estadística: una estadística

Adjetivos 6/10 = 60% 10/10 = 100% 16/20 = 80%

Adjetivos 42/70 = 60% 10/10 = 100% 52/80 = 65%

clase de palabras y la función gramatical. Totales inadecuados para el análisis.

Adjetivos 9/10 = 90% 7/10 = 70% 16/20 = 80%

anteriores (Moreno Fernández 1988: 111-126; López Morales 1993).

1.4. El modelo estadístico.

En la Tabla 5 se muestran unos datos de aspiración de /s/ implosiva recogidos en seis

Figura 1.- Modelo logístico (Rousseau y Sankoff 1978).

Esta fórmula es el fruto del perfeccionamiento que ha conocido el análisis de la

Figura 2.- Cálculo de la verosimilitud para cada factor.

2.- Informática y sociolingüística.

2.1. Los programas VARBRUL.

VARBRUL 2 tiene el inconveniente de ser un programa para macro-computadoras

2.2. Objetivos de los programas VARBRUL.

objetivos generales (Rousseau y Sankoff 1978a: 59-60):

2.3. Manejo de los programas VARBRUL para ordenadores personales.

1º.- Introducción de los datos (tokens) y especificación de factores.

2.3.1. Introducción de los datos.

Grupo de factores dependiente :

Grupos de factores explicativos:

En el ejemplo de la marca de plural, que utiliza David Sankoff para explicar el

Grupo de factores dependiente:

Grupos de factores explicativos:

Siguiendo este sistema de codificación, podemos representar en una secuencia de

SECUENCIA DE CÓDIGOS PARA CADA DATO:

([código de factor dependientex] [código de factor explicativo i]

2.3.2. Especificación de condiciones.

archivo con la forma reproducida en la Figura 4.

Obsérvese que el conjunto de la información y cada uno de sus componentes se

Figura 6.- Archivo de condiciones con recodificación (muestra compleja).

El desarrollo de la información contenida en este archivo podría ser el siguiente:

2.3.3. Creación de celdas.

2.4. GOLDVARB 2.0.

2.4.1. Archivo de datos.

Figura 8.- Ventana de archivo de datos (Tok) y de especificación de factores

Una vez introducidos los datos, se puede comprobar si están correctamente

2.4.2. Archivo de condiciones.

Como ya hemos comentado, las condiciones son redactadas de forma automática

2.4.3. Creación de celdas.

2.4.4. Análisis de regresión.

n) Diagrama de dispersión, en el que se compara la proporción de casos de aplicación del

Figura 10.- Diagrama de dispersión de mantenimiento de /s/ implosiva.

Además de esto, se puede pedir al ordenador que ofrezca la información necesaria

a) Número de iteraciones realizadas para encontrar la convergencia.

El hecho de disponer de la información probabilística desgranada de esta manera

2.4.5. Tabulación cruzada.

2.5. VARBRUL 2S.

CHECKTOK, READTOK, MAKECELL, COUNTUP, CROSSTAB, IVARB, TVARB,

2.5.1. Introducción de los datos en el ordenador. Archivos de especificación de factores y de

Para realizar un análisis binomial, el número máximo de factores admitido para el

2.5.2. Creación de celdas y análisis probabilísticos.

2.6. Interpretación de los análisis probabilísticos.

2.6.1. Análisis binomial de 1 nivel.