Escolar Documentos
Profissional Documentos
Cultura Documentos
Universidad de Murcia
pcantos@um.es
asanchez@um.es
Recibido: 7/01/2011
Aceptado: 21/03/2011
RESUMEN
Las similitudes o diferencias que percibimos al comparar dos o ms lenguas son siempre relativas. El
anlisis de estos contrastes lingsticos se puede formalizar tanto desde diversos ngulos y/o niveles
lingsticos (fontico-fonolgico, morfolgico, sintctico, semntico, pragmtico, diacrnico, etc.), como
mediante diferentes metodologas (inductiva, deductiva, descriptiva, etc.). La finalidad de este estudio
comparativo entre el espaol y el ingls es ofrecer, por primera vez, datos cuantitativos objetivos y
fiables sobre la estructura y vertebracin del inventario lxico en ambas lenguas (riqueza lxica,
crecimiento lxico: formas, tramos de frecuencias, formas lxicas y funcionales, formas ms frecuentes,
longitud de formas, etc.), y poder aproximarnos a las diferentes propiedades matemticas que subyacen
en las lenguas espaola e inglesa. Todos los datos cuantitativos se han obtenido partiendo de dos corpus
lingsticos equivalentes (en estructura, composicin y tamao: 20 millones de palabras): Cumbre (para
el espaol) y Lacell (para el ingls).
Palabras clave: Propiedades cuantitativas, distribucin del lxico, frecuencias, espaol, ingls.
__________
1
Esta investigacin deriva de otras afines relacionadas con el proyecto financiado por la Fundacin
SENECA, de la Comunidad Autnoma de la Regin de Murcia, proyecto 00481/PI/04.
Spanish and English. All the quantitative data were obtained from two equivalent linguistic corpora (in
structure, composition and size: 20 million words): Cumbre (for Spanish) and Lacell (for English).
__________
3
En http://www.ethnologue.com
4
En http://es.wikipedia.org/wiki/Poblacion_mundial
5
En http://www.internetworldstats.com/languages.htm
3. En cualquier momento del da, hay unos 120.000 alumnos estudiando ingls en
centros del British Council desparramados por todo el mundo.
4. El nmero de alumnos que estudia ingls cada ao asciende a ms de mil
millones.
5. Cada ao viajan a Inglaterra ms de 600.000 alumnos para estudiar ingls,
generando unos ingresos de ms de mil millones de libras anuales.
6. Ms de un 80% de la informacin electrnica se almacena en ingls.
7. Y si nos centramos en Internet, los datos revelan de nuevo el incuestionable
predominio del ingls como lengua vehicular, que copa casi un tercio de todos los
usuarios (Tabla 2):
Crecimiento en Usuarios de
Usuarios de
Internet Internet
Internet
( 2000 - 2008) (% sobre el total)
Ingls 463 Millones 226,70 % 29,10 %
Espaol 130 Millones 619,30 % 8,20 %
Total mundial 1.596 Millones 342,20 % 100,00 %
Tabla 2. El ingls y el espaol en Internet (Fuente: Internet World Stats6, 2009)
As pues, desde el punto de vista del nmero de hablantes nativos, ambas lenguas
estn equiparadas, pero en cuanto al uso de cada una de ellas en el contexto mundial,
el ingls ocupa una preeminencia y liderazgo indiscutibles.
Los datos lxicos incluidos en los diccionarios, aunque sean reales, deben ser
analizados con atencin para entenderlos en su justa medida. El nmero de voces
seleccionadas puede variar:
1. Segn el criterio que se aplique para definir lo que se entiende por palabra en el
diccionario;
2. Segn los criterios seguidos para incluir o excluir determinados trminos;
3. Segn el tratamiento que se d a los trminos tcnicos y especializados y a los
nombres propios;
4. Segn el criterio aplicado respecto al grado de exhaustividad que se pretende
alcanzar. En la tradicin lexicogrfica inglesa y norteamericana se ha buscado
con frecuencia la exhaustividad, sobre todo a partir del Oxford English
Dictionary, finalizado en 1928, y a raz de la guerra de los diccionarios desatada
en los Estados Unidos en la segunda mitad del s. XIX, en la que competan los
diccionarios de Webster ms innovador y de Worcester ms clsico y
conservador. De ah la tendencia en la lexicografa inglesa a incluir todo tipo de
voces (derivados, nombres propios, voces coloquiales, obsoletas, slang, etc.).
Por otro lado, la propaganda de las obras lexicogrficas se basa con excesiva
frecuencia en la cantidad del caudal lxico incluido. Y en este aspecto, al lector se le
confunde fcilmente apelando al nmero de voces, voces derivadas, voces
compuestas, voces de igual forma y con ms de una categora gramatical,
abreviaciones, nombres propios y nmero de significados, pero sin aclarar lo que cada
cosa supone respecto al nmero de voces reales. El lector no versado tiende a asociar
la cifra destacada con el nmero de palabras diferentes ofrecidas por el diccionario.
Los diccionarios suelen recoger el uso lingstico actual y heredado. Es decir, son en
gran medida sincrnicos y diacrnicos, y resultan de la conjuncin de lo actual con lo
heredado. Adems, a lo heredado o transmitido por generaciones pasadas, se le suele
atribuir ms peso que a lo actual. Hay razones para que esto sea as (la estabilidad del
sistema comunicativo, por ejemplo), pero hasta ahora contribua a mantener esta
situacin una razn cualitativamente inocua: recopilar el uso lingstico del presente
con las herramientas de la lexicografa tradicional (ficha y lpiz, anotaciones
ocasionales, obras literarias sobre todo de autores ya consagrados) era una tarea
difcil y poco eficiente. Desde finales del siglo XX, no obstante, la lexicografa cuenta
ya con herramientas mucho ms eficaces y fiables: los corpus lingsticos, o grandes
recopilaciones de muestras lingsticas, orales y/o escritas, susceptibles de ser
tomadas de cualquier mbito comunicativo.
Los corpus adecuadamente diseados reflejan con gran fidelidad cul es el uso real
de una lengua en el periodo en el cual se ha hecho la recopilacin. Adems, si el
corpus es representativo del conjunto de un idioma, ofrecer una radiografa fiel de
cules y cuntas palabras estn en activo se usan en un determinado momento
histrico. Los corpus Cumbre (del espaol contemporneo) y Lacell (del ingls
contemporneo) creemos que responden a estas caractersticas y por esa razn sern
tomados en este estudio como referencia para la proyeccin de datos comparativos
relativos a la cantidad de palabras totales y palabras diferentes en las lenguas aqu
comparadas. Es evidente que la estructura o caractersticas de un corpus condicionan
de alguna manera la variedad de palabras contenidas en l. Es importante, por tanto,
tener en cuenta que la proyeccin que hacemos a continuacin debe tomarse como
una proyeccin relativa, aplicable a textos o recopilaciones textuales de estructura y
composicin similar.
Nuestros corpus se ajustan a los siguientes parmetros:
1. Se refieren a la lengua espaola o inglesa de los ltimos cincuenta aos.
2. Recogen el habla de todos los pases en los cuales tanto el espaol como el ingls
son lenguas oficiales, aunque en cantidades notablemente sesgadas a favor de
Espaa y Reino Unido, con un porcentaje medio del 65% sobre el total, mientras
que los pases hispanoamericanos y los de habla inglesa diferentes del Reino
Unido slo cuentan con un 35 % de las muestras.
3. Respecto a la modalidad de lengua, la lengua hablada recibe un 35% del peso
total. A la lengua escrita se le asign el 65%. En ambas modalidades se busc una
amplia variedad respecto a los mbitos de uso, tanto vertical como
horizontalmente (la variedad de textos en su conjunto consta de varios miles de
muestras diferentes).
4. Los listados de frecuencia fueron depurados de todos los elementos no
estrictamente lxicos: se eliminaron, por ejemplo, todas las secuencias numricas
y de signos, aunque no las palabras con errores ortogrficos o los trminos
extranjeros.
Los resultados obtenidos quedan reflejados en la Tabla 3:
Cabe destacar que el nmero de palabras diferentes est en relacin directa con el
tamao del corpus, es decir, a mayor nmero de palabras (tokens) recopiladas
corresponde mayor nmero de formas diferentes (types)9. Puede observarse en los
datos de la Tabla 3 que el corpus Cumbre (espaol) y el corpus Lacell de tamao y
estructura similares presentan algunos rasgos diferenciadores en cuanto a la cantidad
__________
8
En http://www.um.es/grupos/grupo-lacell/quees.php
9
No obstante, vase Snchez y Cantos (1997, 1998) en relacin con la naturaleza de la curva
hiperblica del incremento.
de formas. Importa tener en cuenta que las palabras diferentes (types) no son
necesariamente lemas. Adems, los corpus suelen incluir un alto nmero de formas
provenientes de otras lenguas, nombres propios, e incluso errores ortogrficos que en
cuanto diferentes son contabilizados por el ordenador como formas distintas. Pero
dado que la metodologa aplicada en la recopilacin es la misma para ambas lenguas,
puede concluirse que los resultados son razonablemente vlidos y homogneos.
Los datos confirman algunas diferencias esperadas. El corpus espaol contiene
45.252 types ms que su homlogo ingls. Lo cual hace que la relacin type/token sea
de 0,010 para el espaol, mientras para el ingls es de 0,008; o lo que es lo mismo,
como media, en espaol la ratio de formas distintas es de aproximadamente 10 por
cada 1.000 palabras de texto, mientras que en ingls esta cifra asciende solamente a 8
palabras. El espaol es por tanto ms prolijo en formas que el ingls, conclusin ya
previsible, dado que el espaol es una lengua con mayor carga flexiva.
Types 173391
Ratio _ type _ tokenIngls 0,008
Tokens 21427428
Types 218643
Ratio _ type _ tokenEspaol 0,010
Tokens 21785302
Analicemos ahora las formas con mayor detalle. Para homogeneizar los resultados, es
preciso determinar la relacin entre palabras y formas mediante una medida estndar
que nos permita establecer comparaciones directas entre ambas lenguas. Al tratarse de
corpus con tamaos ligeramente divergentes, no utilizaremos la ratio entre las
palabras (token) y las formas (types)10. En su lugar utilizaremos una frmula para
__________
10
Medida conocida como ratio type-token.
Y para el ingls:
173391 173391
K 37,45
21427248 4628,95
Estos valores confirman que el ritmo incremental de formas del espaol es mayor que
el del ingls. Adems, estos valores nos permiten comparar ambas lenguas en cuanto
a la relacin que guardan entre palabras y formas, y hacen posible proyectar los datos
y apreciar mejor el ritmo incremental de formas en espaol e ingls. En el Grfico 1
se muestra el comportamiento y relacin entre palabras y formas en espaol e ingls,
proyectando los datos hasta 100 millones. Se aprecia cmo el espaol, por ser lengua
ms flexiva, contiene un repertorio de formas (types) ms amplio que el ingls (ver
tambin Tabla 4). El espaol cuenta con unas 21.000 formas de media ms en un
volumen de texto de 5 millones de palabras, cantidad que llega hasta casi 94.000 en
100 millones.
__________
11
Otros mtodos alternativos son la ratio estandarizada type-token (Scott 1999), o los mtodos
propuestos por Tuldava (1995); Yang, Cantos y Song (2000); Chipere, Malvern, Richards y Duran
(2001), entre otros.
12
En Cantos (2000) se emplea este ndice para la discriminacin automtica de textos dependiendo
de la temtica de los mismos.
Formas
Incremento
Palabras de la
Espaol Ingls Diferencia (E-I)
diferencia (E-
I)
5000000 104737 83741 20997 20997
10000000 148121 118427 29694 8697
15000000 181411 145043 36367 6674
20000000 209475 167481 41993 5626
25000000 234200 187250 46950 4957
30000000 256553 205122 51431 4481
35000000 277109 221557 55552 4121
40000000 296242 236855 59388 3836
45000000 314212 251222 62990 3602
50000000 331209 264811 66397 3407
55000000 347375 277737 69638 3241
60000000 362821 290086 72735 3097
65000000 377636 301932 75705 2970
70000000 391892 313329 78562 2858
75000000 405646 324327 81320 2757
80000000 418950 334963 83987 2667
85000000 431843 345272 86572 2585
90000000 444363 355282 89081 2510
95000000 456540 365017 91522 2441
100000000 468400 374500 93900 2378
Tabla 4. Ritmo incremental de las formas en espaol e ingls
Segn estos datos, el espaol cuenta, en trminos absolutos, con casi 25.000
palabras ms que el ingls usadas solamente una vez; lo que corresponde a un 5%
__________
13
Un milln de billones, o lo que es lo mismo, un uno seguido de 18 ceros.
ms de hpax legomena, una vez normalizados los datos para su mejor contraste. En
los restantes tramos de frecuencia, las diferencias son menores (frecuencia de 6-20,
por ejemplo; Grfico 3).
Palabras
Palabras Palabras lxicas
funcionales
CUMBRE (espaol) 21.785.302 16.916.177 4.869.125
LACELL (ingls) 21.427.248 18.053.547 3.373.701
Tabla 6. Datos lxicos de los Cumbre y Lacell
Los datos reflejan que el uso de palabras lxicas (sustantivos, verbos, adjetivos y
adverbios) es ms frecuente entre angloparlantes que entre hispanohablantes. Los
clculos que siguen detallan las diferencias:
18.053.547
Palabras _ lxicasIngls 0,8425
21.427.248
16.916.177
Palabras _ lxicasEspaol 0,7764
21.785.302
Mientras los primeros se valen, de media, de 84 palabras lxicas por cada cien
palabras, los segundos reducen esta cifra a 78. Este hecho revela, en contrapartida,
que el espaol abunda ms que el ingls en el uso de palabras funcionales
(preposiciones, artculos, pronombres, etc.).
3.373.701
Palabras _ funcionalesIngls 0,1574
21.427.248
4.869.125
Palabras _ funcionalesEspaol 0,2235
21.785.302
Se suele afirmar que el ingls es una lengua ms sobria y concisa, menos proclive
a la ornamentacin lxica. Un reflejo de este supuesto podra detectarse en el nmero
de oraciones usadas en cada lengua y en su longitud, asumiendo que frases ms cortas
implican el uso de menos recursos sintcticos y lxicos, y tienden a la concisin
expresiva. El anlisis de los dos corpus equivalentes, Cumbre y Lacell, demuestra en
efecto, que las oraciones del espaol son, de media, ms largas que las del ingls. Los
datos de ambos corpus muestran que el corpus ingls contiene ms frases (1.138.760)
que el corpus espaol (1.042.417). La media de palabras por oracin es consecuencia
de estas cifras:
21.427.248
Ratio _ palabras / oracinIngls 18,8162
1.138.760
21.785.302
Ratio _ palabras / oracinEspaol 20,8988
1.042.417
A raz de tales datos, podemos definir cmo sera un texto tipo de 1.000 palabras en
ingls y en espaol:
1. En ingls constara de 53 oraciones (con 19 palabras por oracin); 843 palabras
lxicas; 157 palabras funcionales.
2. En espaol constara de 48 oraciones (21 palabras por oracin); 776 palabras
lxicas; 224 palabras funcionales.
1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1
0 1 2 3 4 5 6 7 8 9
Ingls
1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1 2 2
0 1 2 3 4 5 6 7 8 9 0 1
Espaol
Palabra lxica
Palabra funcional
Grfico 5. Oracin tipo: espaol versus ingls
Espaol Ingls
Media de letras por 4,423 3,992
palabra
Tabla 7. Letras por palabras
casos y a las letras del alfabeto usadas para abrir prrafos o similares); (ii) las
palabras de dos letras, cuyo nmero en ingls supera al del espaol en casi dos
millones; o (iii) las palabras de 4 letras, que en ingls casi duplican el volumen del
espaol. La Tabla 8 y el Grfico 6 recogen los datos referidos a palabras de 1 a 10
letras en cada idioma:
Espaol Ingls
Letras por palabra
Frecuencias % Frecuencias %
1 letra 816.275 3,75 2.656.653 12,40
2 letras 3.642.015 16,72 5.335.686 24,90
3 letras 4.366.524 20,04 3.335.324 15,57
4 letras 3.637.621 16,70 1.939.735 9,05
5 letras 2.408.555 11,06 2.174.200 10,15
6 letras 1.804.230 8,28 1.579.171 7,37
7 letras 1.655.522 7,60 1.439.280 6,72
8 letras 1.150.188 5,28 1.162.258 5,42
9 letras 830.798 3,81 788.230 3,68
10 letras 533.148 2,45 595.246 2,78
Ms de 10 letras 940.426 4,32 421.465 1,97
Tabla 8. Cantidad de palabras segn el nmero de letras que las integran
Ingls Espaol
Vocales % %
% %
(posicin final) (posicin final)
E 11,8 3,53 12 2,78
A 7,7 0,57 11,5 2,98
O 7,2 0,82 8,1 1,95
I 7,3 0,12 7 0,07
U 2,6 0,06 3,6 0,09
TOTAL 36,6 5,1 42,1 7,87
Tabla 9. Uso y distribucin de las vocales en ingls y en espaol
Grfico 8. Distribucin comparativa (espaol-ingls) del uso de las vocales en posicin final
Respecto a las consonantes, los corpus analizados reflejan los siguientes datos (en
orden de frecuencia):
Obsrvese que en la tabla anterior se han sombreado los casos con las diferencias ms
significativas. Especialmente revelador resulta la diferencia de uso en las consonantes
t, h, f y w. En conjunto, sin embargo, predominan las semejanzas entre ambas lenguas
(Grfico 10).
Aparte del estudio comparativo de las frecuencias lxicas, cabe tambin preguntarse
si esas mismas frecuencias se distribuyen homogneamente en ambos idiomas. A tal
fin, es preciso seleccionar un determinado tramo de frecuencia en cada lengua y
analizar las palabras que lo integran. En la Tabla 12 se ofrece la lista de las 100
formas ms frecuentes en ingls y en espaol, especificando la frecuencia de cada
forma en su respectivo corpus:
En cuanto a los trminos de mayor frecuencia, las palabras funcionales ocupan los
primeros puestos en ambas lenguas, si bien es verdad que su orden en la lista no es
plenamente coincidente. El trmino ingls the (artculo) es la palabra ms frecuente,
que se corresponde en espaol con de (preposicin). Aunque en realidad esta
diferencia en categora gramatical se debe a razones flexivas. Si sumamos todas las
formas flexivas del artculo determinado en espaol, en singular y en plural (el, la,
los, las), el resultado es superior al the ingls: la suma asciende a 1.870.920 veces (un
8,58% del total de palabras usadas en los 21 millones), muy por encima de la
preposicin de (5,53%) o del artculo the (5,89%). A su vez, la segunda palabra ms
frecuente en ingls, of (preposicin), se usa casi tres veces por cada cien palabras,
mientras que su equivalente espaola, de, casi la duplica en el uso (Tabla 13).
Ingls Espaol
The frente a 5,89% 8,58%
El/la/los/las
Of frente a De 2,89% 5,53%
Tabla 13. Voces ms frecuentes en ingls y espaol: the y of; de y el/la/los/las
Tambin destaca el hecho de que en ingls las formas verbales ms frecuentes son,
y en este orden, was, be, are, have, mientras que el espaol prefiere es, ha, hay,
haba, mostrando una inversin parcial respecto a la preeminencia de (to) be, seguido
de (to) have.
Respecto a los sustantivos, es interesante advertir que estos aparecen en posiciones
sorprendentemente retrasadas: time ocupa la posicin 60 en la lista, y aos la posicin
53. La preeminencia de las voces funcionales y de las formas verbales es evidente en
ambos idiomas.
La comparacin de la frecuencia de los lemas (Tabla 14 y Grfico 11) no vara en
algunos de los rasgos ms sobresalientes. Destaca el hecho de que, globalmente, las
frecuencias son muy similares en ambos idiomas y que las palabras funcionales
siguen en cabeza:
1. El lema menos frecuente (de los 100 primeros) presenta una diferencia de unas
2.000 ocurrencias a favor del ingls.
2. El verbo to be dobla con creces la frecuencia de ser y estar juntos.
3. To have casi dobla la frecuencia de haber, mientras que to do y hacer son muy
similares en este parmetro.
4. En las cien primeras voces, el espaol incluye 40 trminos lxicos, mientras que
el ingls slo cuenta con 29.
Grfico 12. Distribucin comparativa y diferencial de las frecuencias de los lemas ms usadas
A tenor de los datos obtenidos de las dos lenguas, espaol e ingls, es posible mostrar
el perfil de un texto prototipo en cada una de las lenguas mencionadas. As un texto
de unas 25.000 palabras en espaol y otro de igual tamao en ingls, reflejaran los
siguientes rasgos y composicin lxica interna:
__________
15
Los valores positivos sealan ndices a favor del espaol y los negativos a favor del ingls.
__________
16
Las ratios se expresan por cada 100 tems.
__________
17
Este dato se ha obtenido dividiendo 21 por 25.000; 21 : 25.000 = 0,00084.
REFERENCIAS