Domingo, 29 Marzo 2020 23:55

El Corpes. Méritos y falacias

Ya presentamos hace más de un año el banco de datos CREA, Corpus de Referencia del Español Actual1 en Les Langues néo-latines2. Se sabe que esta imprescindible herramienta diseñada e implementada por la Real Academia Española permite observar la lengua española tal como se hablaba y escribía en los últimos veinticinco años del siglo pasado mediante unas cuantas precauciones. Siguiendo adelante, la RAE decidió poner en línea sin tardar un banco de datos dedicado a la lengua del siglo XXI: el CORPES o CORPus del Español del Siglo XXI3.
Analizaremos en este artículo sus principales características pensando primero en su interés para todo hispanista pero también en lo que significa.

El legado del CREA

Aunque se presente como un banco de datos todavía en desarrollo, el CORPES consta ya con más de 276 millones de formas, o sea más del doble del corpus reunido por el CREA. La progresión es obvia a pesar de que es preciso matizar el balance como veremos más adelante. Notemos ya que si la cifra puede parecer impresionante no da la talla frente a otros corpus del español, por ejemplo NOW que recoge actualmente 7.2 mil millones de formas4. Pero eso no quita que una palabra faltante en el compendio de la RAE puede considerarse como un barbarismo, ya no en referencia a unas normas siempre discutibles, sino respecto al uso real. La cuestión de la corrección o de la incorrección de un vocablo pierde todo sentido cuando queda claro que no existe efectivamente.
El CORPES retoma globalmente los principios que regían el CREA.

– Las fuentes escritas, libros y prensa, representan una mayoría aplastante (80%), las fuentes orales un 10%, y el resto se reparte entre internet y varios orígenes. La parte de la lengua oral queda muy reducida si nos atenemos a su papel decisivo en la evolución del idioma, pero se puede entender cierta voluntad de priorizar formas consideradas como más estabilizadas. Cabe esperar que en días futuros la comunicación oral halle un lugar más conveniente, lo que permitiría tener una representación más fiel de la lengua; los programas radiales y de televisión y también videos seleccionados en la red internet ofrecen a menudo las garantías requeridas. Seguimos sin embargo con las dudas ya que la RAE parece decidida a mantener el patrón de reparto entre las distintas fuentes.
– Como anteriormente y con razón, todos los países de lengua española de América están representados, Estados Unidos inclusive. Una novedad acertada aunque parezca demográfícamente marginal: la incorporación de Guinea Ecuatorial y de Filipinas.
– Por fin es motivo de satisfacción el poder seguir buscando expresiones complejas lo que permite comparar construcciones sintácticas, frases hechas, metáforas, dichos, etc., o sea el meollo de la lengua que de ningún modo puede limitarse a un repertorio de palabras. Por ejemplo, si buscamos “encogerse de hombros” encontramos que esta expresión es universalmente conocida. Pero en seguida notamos que es mucho menos frecuente en México y Argentina que en Cuba y España. Por otro lado, “levantar los hombros”, presente en toda América, es casi desconocida en España. En cuanto a “alzar las hombros” y “alzarse de hombros” parecen ser de uso estrictamente americano. Otras variantes usuales como “empinar los hombros” o “fruncir los hombros” no aparecen en esta entrada, pero se pueden hallar si se solicita “empina los hombros” y “frunció los hombros”. Estos últimos ejemplos ponen de realce una verdadera dificultad en el caso de las lexías complejas: la consulta admite una única forma cuando las flexiones posibles son a veces muy numerosas. Hay que hacer malabarismos, cambiando tiempos, personas, géneros y números para intentar dar en el blanco. Más de una vez, uno se queda con las dudas. Es de esperar que la ampliación del corpus, tarea llevada a cabo por la RAE, palíe al menos en parte este inconveniente.

Unas notables mejoras

Más allá de estos ajustes, es preciso detenerse en unas cuantas evoluciones más importantes.

– Primero se da la posibilidad de detectar y ponderar las coapariciones5 u ocurrencias simultáneas. Excelente oportunidad que da acceso a los distintos contextos de empleo en los diferentes países y áreas de habla española.
– En segundo lugar, las estadísticas se han mejorado muy sustancialmente. Siguen permaneciendo los cómputos brutos inutilizables ya que incitan a comparar bases de tamaños diferentes, una completa aberración que no se le perdonaría a un estudiante universitario de primer año. ¿Qué cabe opinar cuando se trata de expertos perfectamente conscientes de lo que hacen? De hecho, esta procedimiento lleva a la conclusión absurda de que si echamos una cucharada de azúcar en un vaso de agua y dos cucharadas en un barril, el agua del barril es dos veces más azucarada que la del vaso. Pues es lo que instauró el CREA sin ningún rubor aparente como veremos más adelante. Hay que celebrar que en el CORPES se haya añadido una rúbrica de frecuencia normalizada que mide el número de ocurrencias del vocablo por cada millón de palabras en las distintas áreas, países y periodos. Por fin se puede verdaderamente hablar de frecuencias y compararlas entre sí aunque algunos sesgos siguen siempre requiriendo cautela. Por ejemplo, si la frecuencia del lema “huracán” es especialmente alta en el Caribe no es por motivos propiamente lingüísticos sino sencillamente porque el meteoro es desgraciadamente mucho más corriente en esta zona que en la Patagonia o la Península ibérica. La lengua no es un sistema estanco.
– En fin, y éste no es el progreso menos importante, resulta posible tener acceso directo a las distintas formas de un lema. Basta con entrar “hurgar” para que salten a la pantalla tanto “hurgar” como “hurgaban” o “hurgando”. En cambio si se busca una forma exacta, “hurgó” por ejemplo, es fácil restringir el campo6.

Una estrategia ofensiva de la RAE

Ahora bien, si intentamos profundizar nos llama la atención el reparto del corpus que se hace conforme un extraño patrón: el 30% de las formas son de origen peninsular y el 70% proceden de América. Desde luego se da un reequilibrio si nos referimos al CREA que había otorgado soberana y “equitativamente” un 50% a cada una de estas dos grandes áreas. De este modo la palabra de un español valía casi tanto como la de diez americanos de habla española si nos atenemos a las poblaciones respectivas7. Con el CORPES el desequilibrio se reduce de forma significativa pero persiste pertinaz. Reconocer que el español de España representa un 10% del español que se habla en el mundo parece quedar muy cuesta arriba para una institución que pregona urbi et orbi su panhispanismo. Sería un error sin embargo deducir de ello que la Real Academia Española es reacia a cualquier movimiento. Por el contrario la RAE despliega una amplia y poderosa ofensiva. Veamos los rasgos principales para procurar deslindar su lógica y sus metas.
– Abramos primero el Diccionario de la Lengua Española (DLE), buque insignia de la RAE que pretende al puesto de referencia universal8. Busquemos un verbo cualquiera, por ejemplo “ser”. Al final del artículo aparece de modo sistemático la conjugación. El presente de indicativo viene presentado de esta manera: 1a pers. sg. yo soy; 2a pers. sg. tú eres / vos sos; 3a pers. sg. él, ella es; 1a pers. pl. nosotros, nosotras somos; 2a pers. pl. vosotros, vosotras sois / ustedes son; 3a pers. pl. ellos, ellas son9. Más de un estudioso del español se sorprenderá del “atrevimiento” de la Academia que reconoce de este modo un mismo valor a los formas del voseo que a las del tuteo así como a las dos formas de la 2a persona de plural. Las variedades americanas y peninsulares están en un mismo nivel aparente. Es cierto que el voseo, quiérase o no, es una realidad masiva con carácter oficial en varios territorios de América y que el empleo de “ustedes son” es nueve veces más frecuente que “vosotros sois” si se considera el conjunto de los hispanohablantes. Pero no se dejará de notar que la forma peninsular siempre viene en primer lugar, con independencia de la frecuencia. Por ejemplo, si parece lógico dar el puesto preferente a “tú eres”, a las claras más frecuente que “vos sos”, resulta perfectamente anormal, en el sentido cabal de la palabra, dar primero “vosotros sois” y en segundo lugar “ustedes son”, muchísimo más frecuente. ¿Una manera solapada y eficiente de disfrazar la excepción de norma?
– Tenemos ahora también en línea un Diccionario de Americanismos10. Con más de 70.000 entradas y 120.000 acepciones es una herramienta sin comparación. Lo alimentan con mayor o menor afán las Academias de la lengua de los diferentes países americanos, reunidas junto con la RAE en la Asociación de Academias de la Lengua Española (ASALE). Con excepción de la RAE, todas las demás academias son definidas como “correspondientes”. El presidente de ASALE con sede en Madrid es el director general de la RAE por disposición de los estatutos y el tesorero es asimismo elegido por la RAE. Lo menos que puede decirse es que todo esto parece muy curioso cuando se enarbola el estandarte del panhispanismo. Tampoco deja de suscitar interrogantes la iniciativa en sí. ¿Por qué pretender agrupar en un mismo repertorio las diferentes variedades del español de América? ¿Y por qué no un diccionario de españolismos, o sea de variedades peninsulares? Todo induce a pensar que el español peninsular es el fondo compartido y normativo y que el resto son añadiduras o desviaciones particulares. Curiosidades que exponer en un gabinete aparte.
– Una plataforma que reúne el conjunto de los recursos finalizados bajo la supervisión de la RAE está también en la red, con el nombre de ENCLAVE11. Se hallarán en particular una ficha sintética para cada vocablo con informaciones muy numerosas, seis diccionarios esenciales o especializados, una gramática pormenorizada de fácil acceso gracias a palabras clave, un portal que da acceso a los diferentes corpus de la Academia y varias herramientas prácticas que permiten consultar o verificar puntos precisos e incluso elaborar un repertorio personal. Como se echa de ver esta plataforma es de gran utilidad. El acceso es de pago y se hace mediante suscripción anual.

Está clarísimo que la RAE pretende avanzar pisando fuerte por la vía del panhispanismo. Habría que mostrarse satisfecho sin reservas porque es ciertamente hora de ayudar al despliegue de un espacio articulado, valioso y profundo todavía mal cartografiado. Pero no queda menos clarísimo que esta ofensiva no se lleva a cabo sin segundas intenciones y que el objetivo es implementar un soft power, una “forma suave” de intentar imponerse como la referencia única y exclusiva. Habrá quien lo llame, con motivo, imperialismo cultural o incluso forma de neocolonialismo. Las investigaciones universitarias al respecto son numerosas y convergentes. Desde luego no se pueden pasar por alto los valiosos y decisivos artículos reunidos en El dardo en la Academia12. Por su parte, tras un examen sesudo y pormenorizado, Andre Moskowitz y Susana Rodríguez Barcia concluyen que la política panhispánica de la RAE es una falacia y un instrumento que intenta imponer una unidad lingüística que no existe en la realidad13.
Y es que lo que está en juego a nivel político y económico es de cuantía. Llama sobremanera la atención el extraordinario apoyo financiero de firmas de la envergadura de Telefónica, BBVA, Banco Santander o La Caixa. Para estas entidades el mercado hispanohablante ingente y en desarrollo es estribo para entrar a la competencia globalizada planetaria. El desequilibrio mantenido bajo cuerda entre corpus peninsular y corpus americanos y los gráficos de tarta engañosos cuando no mentirosos dan testimonio del esfuerzo coordenado para lograr este objetivo. Entremos por ejemplo el lema “pasto” de acepciones mucho más amplias en áreas americanas que en España y apuntemos las frecuencias normalizadas por países. Van desde el 2,26 hasta el 57,29 ocurrencias por millón de formas. Como es natural España presenta en este caso una tasa de frecuencia baja, el 7,11, en comparación con la mayor parte de los países americanos situándose lógicamente la Península en el puesto 20. Sin embargo el gráfico de colores vivos que supuestamente da cuenta de este reparto de forma expresiva y sintética propone una lectura muy diferente y completamente falsa: España se ubica en un lugar muy elevado, sobrepasando Argentina a pesar de que ésta ostenta una tasa normalizada triple de la suya –21,98– y sólo cede el primer sitio a Colombia con la tasa máxima. No hay ni un asomo de explicación, lo que probablemente es lo más turbador. Se deja errante o en el error a quien consulta la estadística. Se necesita verdadera insistencia para percatarse de que el gráfico circular no se basa en la frecuencia estadística normalizada. De hecho, no hace más que reflejar la desigualdad arbitraria de los corpus por países. Y eso sin confesarlo, por supuesto. El lector interesado podrá interrogar al CORPES y entrar todos los lemas que se le ocurran; acabará constatando que el español peninsular ve sistemáticamente su peso multiplicado por tres, mermando en proporción el del resto de los países, en estas síntesis visuales con el objetivo de que aparezca como la norma de referencia.
No cabe duda alguna de que tendremos ocasión de volver sobre este intento, reaccionario en el sentido primero de la palabra14, de hacer de España la “Madre Patria” del español y de presentar a todos los demás países hispanohablantes como hijos menores que balbucean. Hay que reafirmar que la lengua no proviene de las piedras del suelo, sino de todas las mujeres y todos los hombres que la hablan cada día.
Dejémosle la palabra a Octavio Paz para decirlo con elegancia y sin rodeos: “El español nació en una región de la península ibérica y su historia, desde la Edad Media hasta el siglo XVI, fue la de una nación europea. Todo cambió con la aparición de América en el horizonte de España. El español del siglo XX no sería lo que es sin la influencia creadora de los pueblos americanos con sus diversas historias, psicologías y culturas.15”. Menos aún el del siglo XXI.

Lauro Capdevila


Artículo publicado en Les Langues néo-latines, París, nº 392, marzo de 2020, p. 392. Enlace: Les Langues Néo-Latines. La traducción y algunas mejoras son mías
www.neolatines.com


1. En línea: http://corpus.rae.es/creanet.html
2. n.º 387, diciembre de 2018, p. 97.
3. Se hallará siguiendo el enlace: https://www.rae.es/recursos/banco-de-datos/corpes-xxi
4. Todas las flexiones de los vocablos del corpus se consideran como “formas” diferentes. Chica, chico et chicos son tres formas diferentes. En línea: https://www.corpusdelespanol.org/now/
5. Bajo la pestaña de mismo nombre.
6. C. el 14/11/19.
7. O sea en números redondos 47 millones de hablantes en España y 459 en América.
8. Acceso en línea: https://dle.rae.es/diccionario.
9. C. el 10/11/19. Las negritas son mías.
10. Acceso vía el enlace: https://www.asale.org/recursos/diccionarios/damer
11. Esta es su dirección: https://enclave.rae.es/
12. Silvia SENZ, Montserrat ALBERTE (eds.), El dardo en la Academia. Esencia y vigencia de las academias de la lengua española, 2011. Santa Cruz de Tenerife, Ed. Melusina. ISBN: 978-84-96614-97-0.
13. This study reveals the fallacy of the RAE’s pan-Hispanic language policy, an institutional device that attempts to force linguistic unity centered around Peninsular Spanish usage where no such unity in fact exists. “An Authentic Pan-Hispanic Policy? Spain as the Point of Reference in the Spanish Royal Academy’s Diccionario de la Lengua Española”, in International Journal of Lexicography, 27/04/2019.
14. “Que tiende a oponerse a cualquier innovación” dice la Real Academia en su Diccionario de la Lengua Española.
15. Nuestra lengua. Discurso de inauguración del 1er Congreso Internacional de la Lengua Española de Zacateca, 1997. Véase: http://congresosdelalengua.es/zacatecas/inauguracion/paz.htm C. el 15/11/19