lunes, 2 de marzo de 2009

DRAC: Diccionario de Referencia del Guaraní Contemporáneo

RESUMEN

En los diccionarios se recogen voces de una o más lenguas, de una ciencia o de una materia determinada (Cfr. DRAE, 2002), y/o se plasman las recopilaciones sistematizadas y ordenadas de los significados asociados a “todas” las palabras que usa una determinada comunidad de hablantes. Por ende, estas fuentes de información –impresas o en formato electrónico- se convierten en la referencia fonética, gramatical, léxica, cultural, histórica, científica y técnica de los usuarios de una lengua. Desde los primeros listados de palabras, recopilados en los estadios incipientes de la lexicografía, hasta el tipo de libro –o programa de ordenador- que hoy se conoce como diccionario, mucho ha cambiado; se percibe claramente que la ciencia lexicográfica ha experimentado una importante mejora y perfeccionamiento. Hoy en día los diccionarios ya no se limitan a recoger un repertorio de palabras con sus significados, sino que incluyen, además, información complementaria extremadamente útil, permitiéndonos ubicar un determinado vocablo en sus contextos de uso más frecuentes, aportar información gramatical sobre su categoría morfológica y/o sintáctica, etc. Parece existir un cierto consenso en cuanto al hecho de que nueva lingüística del corpus (Leech, 1991:9-10), avalada por los hallazgos informáticos de las tres últimas décadas, represente el renacimiento de la investigación lingüística basada en la observación y el análisis de datos, típica del paradigma estructuralista. En este sentido, el presente trabajo de investigación propone de recopilación de un diccionario electrónico de la lengua guaraní -DRAC- a partir del corpus de referencia del guaraní contemporáneo (CORACON), desarrollado en el ámbito del Proyecto AVAKOTEPA (Rodrigues et al., 2008:1-3).

Palabras-clave: lexicografía – drac – diccionario de Referencia – lengua guaraní


1. Introducción:
En el ámbito de la lexicología –ciencia que se ocupa del estudio de las unidades léxicas de una lengua y de las relaciones sistemáticas que se establecen entre ellas (Cfr. DRAE, 2002)-, los diccionarios –Del b. lat. dictionarium- constituyen los libros en el que se «recogen y explican de forma ordenada voces de una o más lenguas, de una ciencia o de una materia determinada» (Ídem) y/o se plasman las recopilaciones sistematizadas y ordenadas de los significados asociados a “todas” las palabras que usa en una determinada comunidad de hablantes. Por ende, estas fuentes de información –impresas o en formato electrónico- se convierten en la referencia fonética, gramatical, léxica, cultural, histórica, científica y técnica de los usuarios de una lengua. En los diccionarios podemos encontrar, asimismo, todo lo relacionado con la estructura y adecuación entre los vocablos y los símbolos lingüísticos que usan y el significado que abarcan. Más allá de un producto léxico concebido para dar respuesta a algunas necesidades lingüísticas de un grupo de usuarios, dichos libros conforman la extensión de la memoria humana. Es decir, ya que nuestra mente tiene límites -en cuanto a la memoria- y no es capaz de almacenar todo el acervo de símbolos lingüísticos y sus respectivos significados, todo lo relacionado con el vasto campo de actividad de los seres humanos, los conceptos, las actividades, fenómenos, objetos, etc., tenemos que echar mano de un repositorio que nos ayude a recordarlos y/o nos provea la información necesaria para entenderlos. Por eso Lara (1987:31) sostiene que los diccionarios constituyen la representación social y colectiva de todo lo que tiene sentido y representa algo para la sociedad.
Ese banco de datos, que en un principio eran meros «glosarios» de términos, que más explicar el significado, ofrecían vocablos equivalentes o sinónimos, generalmente ordenados alfabéticamente, se convirtieron en obras de consulta de palabras, términos, expresiones, etc., con sus respectivos significados, etimología, ortografía, y en algunos casos, contiene incluso la pronunciación –mediante transcripción fonética o archivos de audio-.
Desde los primeros listados de palabras, recopilados en los estadios incipientes de la lexicografía, hasta el tipo de libro –o programa de ordenador- que hoy se conoce como diccionario, mucho ha cambiado; se percibe claramente que la ciencia lexicográfica ha experimentado una importante mejora y perfeccionamiento. Hoy en día los diccionarios ya no se limitan a recoger un repertorio de palabras con sus significados, sino que incluyen, además, información complementaria extremadamente útil, como, por ejemplo, ubicar un determinado vocablo en sus contextos de uso más frecuentes, aportar información gramatical sobre su categoría morfológica y/o sintáctica, las locuciones más frecuentes en las que aparece el término buscado, etc.

2. La tradición lexicográfica y la lengua guaraní:
Los primeros diccionarios, recopilados hace 4500 años, tenían un objetivo muy concreto: evitar problemas de comunicación –malinterpretación de conceptos-, tanto en las relaciones comerciales como culturales (Ahumada, 2000:51). Es bien sabido que hasta mediados del siglo XVIII, la mayor parte de los diccionarios elaborados se recopilaban de un modo empírico y a partir de otros diccionarios. O sea, basándose en criterios muy subjetivos, los autores añadían nuevas palabras y significados, según su entender y conocimientos. Como subraya Haensh (1996:16), no existía una base teórica coherente y sistemática que sirviese de fundamento y aportase métodos y técnicas para la recopilación de los primeros glosarios. Por ello, muchos expertos de la actualidad afirman que dichos trabajos eran obras de «aficionados o autores de buena voluntad» (Sánchez, 2001:2-3), que trabajaban sin criterios sistemáticos, rigurosos y científicos. Aquilino Sánchez (Ídem) subraya que esta ha sido la realidad de la lexicografía hasta la llegada de la ilustración a Europa, cuando se inicia una etapa más criteriosa en la que la recopilación basada en el uso de la lengua que hacían algunos autores de prestigio. Este criterio, aunque pueda parecer sesgado y subjetivo, tuve tiene como hito el Diccionario de la Real Academia Española, publicado a finales del siglo XVIII, y que se convirtió en el principal instrumento normativo de la lengua castellana. No ahondaremos aquí en el tema de la recopilación de diccionarios de la lengua española. No obstante, es importante resaltar que estos criterios metodológicos –basados en las referencias literarias- adoptados en Europa, según el citado autor, fue habitual hasta finales del siglo XX, tanto para el español como para la mayoría de las demás lenguas europeas.
En lo que concierne a las lenguas autóctonas, es bien sabido que durante la colonización, con la llegada de la misión jesuítica, durante el descubrimiento de las llamadas lenguas tupí-guaraníes, se da inicio a un proceso de cultivación de las lenguas indígenas, ya que la catequización de los nativos americanos prácticamente obligaba a los jesuitas a estudiar y conocer la lengua de los pueblos sometidos.
Según Dietrich (1994:287), la obra “cumbre de la lingüística jesuítica del siglo XVI es el Arte de Grammatica da Lingoa mais usada na costa do Brasil”¸ del padre José de Anchieta, publicada en 1595. Esta obra encuentra su parangón en el primer diccionario de la lengua guaraní, recopilado por Montoya bajo el título “El Tesoro de la lengua guaraní” y publicado en 1639 (Ibíd.). Desde entonces, pese al sinfín de diccionarios de la lengua guaraní surgidos –Cfr. Guasch, Cadogan, Sanabria, Mayans, etc.-, es evidente que los criterios no han variado mucho respecto de cómo se seleccionan las entradas y se definen los vocablos. En general, parece ser que casi todos se limitan a seguir los criterios establecidos por Montoya, e inclusive, en los diccionarios más modernos, hay casos en que son perceptibles los calcos, o sea, se copian ipsis litteris las voces y acepciones definidas.
En este sentido, y teniendo en cuenta de que en Paraguay las lenguas española y guaraní, que han convivido durante casi 500 años, se han influido mutuamente, produciendo una considerable variación léxica, fónica y morfosintáctica en ambas lenguas, estamos convencidos de que hay que llevar a cabo un proyecto con miras a recopilar un diccionario moderno que sirva de referencia para la lengua guaraní hablada en la actualidad. A ejemplo del español, que ya cuenta con un diccionario que basa la mayor parte de sus definiciones en ejemplos de uso extraídos de un corpus lingüístico, el Gran Diccionario de Uso del Español Actual, el DRAC (Diccionario de Referencia del Guaraní Contemporáneo), que proponemos a continuación, se compondrá de ejemplos reales de uso extraídos del Corpus CORACON[1]. En líneas generales, lo que se pretende es recopilar un diccionario sobre la base metodológica de los resultados obtenidos en la explotación del Corpus de Referencia del Guaraní Contemporáneo.

3. La «moderna lingüística de corpus» en los estudios lingüísticos
Parece existir un cierto consenso en cuanto al hecho de que nueva lingüística del corpus (Leech, 1991, 1992), avalada por los hallazgos informáticos de las tres últimas décadas, represente el renacimiento de la investigación lingüística basada en la observación y el análisis de datos, típicos del paradigma estructuralista. Por otro lado, parece una tautología afirmar que este renacimiento esté vinculado al uso del ordenador, tal y como aclara Leech (1991:9-10): «At a basic level, the resurgence of corpus linguistics can be measured in terms of the increasing power of computers and of the exponentially increasing size of corpus, viewed simplistically as large bodies of computer-readable text».
El término corpus, hoy por hoy, va más allá de una simple colección o conjunto de textos representativos de un determinado idioma o dialecto para usarse en el análisis lingüístico (Francis, 1982:17 apud Pérez Hernández, 2002:40), como vemos en las siguientes definiciones recogidas en las páginas del British National Corpus[2]:
A collection of linguistic data, either written texts or a transcription of recorded speech, which can be used as a starting-point of linguistic description or as a means of verifying hypotheses about a language. (Crystal, 1991)

(…) a collection of naturally occurring language text, chosen to characterize a state or variety of a language. (Sinclair, 1991:17)

En las anteriores definiciones ambos autores enfatizan uno de aspectos más importantes a la hora de seleccionar los textos: éstos deben basarse en reproducciones de situaciones reales que expresan una condición natural de uso de la lengua. Es decir, ya sea una colección de diálogos de un seminario, transcripciones de discursos grabados, etc., uno de los criterios que deberá seguirse para el análisis lingüístico será contar con muestras lo más fiables posible. Otro aspecto que merece especial atención en las definiciones que hemos visto anteriormente es que los lingüistas ya tienen tan asumido el hecho de que la compilación y el almacenamiento de los textos serán en formato digital que ni lo mencionan. En este sentido siempre que citamos el término corpus[3], en realidad nos referimos a un corpus electrónico o corpus legible por máquina.
Estos corpus electrónicos pueden ser sometidos a una serie de cálculos complejos y, debido a la velocidad de procesamiento de los ordenadores modernos, se puede obtener respuestas estadísticas sin ningún error en cuestión de segundos. Un corpus electrónico proporciona al lingüista la posibilidad de identificar y detallar aquello qué es útil para la investigación, lo que significa un ahorro de tiempo al delimitar el objeto de estudio. Además, los programas informáticos cada vez más específicos para cada área, potencian las posibilidades de análisis y explotación de los datos relevantes. Por ello, a parte de añadir otros aspectos importantes para la compilación de un corpus –criterios explícitos-, algunos investigadores señalan la importancia de almacenar los datos en formato digital, como en la definición de nos ofrecen Atkins, Clear y Ostler (1992:1): « [a corpus is] a subset of an ETL (Electronic Text Library) built according to explicit design criteria for a specific purpose».
Los criterios explícitos que se deben seguir para la compilación suelen ser determinados a partir de la definición del objeto de estudio, teniendo en cuenta la finalidad de la investigación y los objetivos que se desean alcanzar. Como destacan Leech (1991:73-80) y McEnery & Wilson (2001, 2001b), los datos observables –empíricos- extraídos de grandes colecciones de textos en formato digital –corpus- permiten al lingüista realizar análisis objetivos sobre la lengua, ya sea con fines lingüísticos, lexicológicos o terminológicos. En el ámbito de la lexicografía, como veremos en la siguiente sección, disponer de inmensos corpus lingüísticos, al que el lingüista o lexicógrafo tiene acceso a través de varios programas que procesan los textos de diferentes formas, llamados genéricamente herramientas de recuperación de información (information retrieval (IR) software o IR tools), facilita sobremanera la elaboración de diccionarios, ya que les permite a los lexicógrafos ampliar de forma magnífica las posibilidades de análisis lingüístico durante el proceso de compilación de las entradas. En resumen, y como sostiene Pérez Hernández (2002:36):
(…) la lingüística de corpus ha hecho patente la importancia de derivar la descripción lingüística de un análisis detallado de la lengua usada de forma natural, ya que este estudio puede ayudar a revelar muchas regularidades (e irregularidades) en nuestro uso de la lengua que antes no se habían observado, o pueden ayudarnos a verlas de forma más uniforme, con una perspectiva más amplia y con índices de frecuencia relativa más fiables.

3.1 La recopilación de diccionarios a partir de corpus lingüísticos
La Universidad de Birmingham ha sido la pionera en el uso del corpus en la compilación de diccionarios. A través de la editorial COBUILD (Collins Birmingham University Internacional Language Database), se llevó a cabo la construcción de un corpus de 20 millones de palabras que dio origen al diccionario Collins Cobuild Dictionary of English Language (Sinclair, 1987). Esta iniciativa capitaneada por Sinclair supuso un marco en el uso de corpus electrónico. Al usar un corpus lingüístico en formato digital de millones de palabras los lingüistas pueden acceder a todos los ejemplos disponibles en los que aparece una determinada palabra o expresión, y en pocos segundos se pueden cruzar miles de datos y solicitar estadísticas sobre incidencias, combinaciones, etc. En la actualidad, este tipo de procedimiento suele ser utilizado en la confección y revisión de diccionarios por casi todas las editoriales importantes. En cuestión de minutos se puede revisar un diccionario y aportar ejemplos actualizados sobre el uso de una palabra o término. Al analizar un mayor número de ejemplos naturales o muestras reales de uso lingüístico es posible lograr una mayor exactitud y fiabilidad. En algunos casos, las recopilaciones finitas, los cálculos fiables sobre frecuencia, variedades de lenguaje en las que se utiliza una palabra, etc., suponen la clave en la cuantificación relacionada con los estudios léxicos y han sido fundamentales en esta área.
Todos los archivos en formato digital son modificables y de fácil manejo, lo que les permite a los lexicógrafos actualizar, siempre que necesario, el significado de las entradas léxicas o terminológicas, así como añadir nuevas palabras al diccionario. Además, se puede aportar informaciones concernientes a nuevas posibilidades de uso y datos relativos a frecuencia o variaciones de significado según determinadas regiones o poblaciones. Estas son algunas de las características que nos lleva a considerar un diccionario electrónico como un corpus vivo y mutante. En la Web de segunda de generación los diccionarios se actualizarán automáticamente y estarán integrados de tal forma con la Web que interactuarán con los usuarios. Son múltiples las posibilidades que nos ofrece un corpus informatizado en la labor lexicográfica, por ello, los ordenadores y las herramientas de procesamiento de corpus supusieron una verdadera revolución en el mundo editorial y en el ámbito lexicológico.
La idea de recopilar un diccionario de referencia para la lengua guaraní nació ante la necesidad de registrar aspectos de lengua –extranjerismos, neologismos e hispanismos- que ya forman parte del vocabulario activo y corriente del guaraní, tal y como sostiene Lustig (1996:10):
Mientras tanto hay una serie de palabras que se han adaptado completamente a la fonética e integrado al vocabulario considerado guaraní, escapando por lo tanto al caudal léxico español con el que el hablante espontáneamente puede desvirtuar la “guaranidad” del discurso. Algunos ejemplos nominales son: kavaju (caballo), kavara (cabra), ovecha (oveja), guéi (buey), Huã (Juan), aramirõ (almidón), aramboha (almohada), kesu (queso), sevói (cebolla), korasõ (corazón). Pero también hay verbos, que muchas veces han sufrido un cambio de significado, como malisia (maliciar / suponer, creer), dipara (disparar / correr, huir) o pika (picar / tomar, chupar)[4].
Además de recoger estas “peculiaridades” léxicas, imperantes para el registro del acervo lingüístico de nuestro país, este se convertirá en el primer diccionario electrónico de referencia de la lengua guaraní y se ceñirá a los estándares lexicográficos actuales, o sea, se basará sus entradas en un Corpus Lingüístico, es decir, en el material propuesto convergerán todas las características de la lexicografía moderna en su primera aparición, como veremos a continuación.
Aunque, en algunos casos, la influencia del español sobre la lengua guaraní ha sido tan fuerte que parece haber aumentado la permeabilidad lingüística –proceso natural cuando dos lenguas permanecen en contacto durante mucho tiempo-, dando origen a un proceso –a veces- exacerbado de trasvase, préstamos lingüísticos y asimilaciones de hispanismos por parte de la lengua guaraní, este factor no debe ser entendido como negativo; si acaso, peculiar y enriquecedor. En consonancia con Germán de Granda (1990:162-164), quien opina que la interferencia léxica del guaraní sobre el español paraguayo, no representa un elemento desestructurador de este último código lingüístico, sino más bien, constituye, por el contrario, un factor positivo de enriquecimiento del mismo, creemos que el guaraní paraguayo goza de muy buena salud en cuanto a su estructura morfosintáctica y el repertorio léxico.
Los préstamos lingüísticos, transferencias e interferencias[5] ocurridos entre la lengua autóctona y el idioma de los colonizadores, han permitido la supervivencia del guaraní, o sea, han ayudado a traer de la mano una lengua primitiva a la modernidad, y al contrario de lo algunos piensan, todavía constituyen factores positivos, ya que está asegurando el futuro de la lengua guaraní en una sociedad moderna, veloz y lingüísticamente flexible, que, gracias a los avances de algunas ciencias y el advenimiento de nuevas tecnologías de la información y la comunicación, ha propiciado la aparición de un “repertorio léxico franco” –es inútil intentar generar artificialmente neologismos para Internet, televisión, computador/a, laptop, taxi, pendrive, shopping, marketing, show, acordeón, etc.-; tampoco es conveniente evitar la influencia lógica en ámbitos especializados y/o distorsionar conceptos universales , optando por la creación en laboratorio de equivalentes para complemento circunstancial, adjunto adnominal, plataforma, informática, científico, investigación, lexicológico, terminológico, lingüístico, república, democracia, policía, política, etc. En resumen, los extranjerismos e hispanismos, si asimilados con criterios, no hacen más que enriquecer el caudal léxico del guaraní y suplen algunas lagunas y carencias de una lengua primitiva que, gracias a los discursos puristas de algunos, se resiste a aceptar los cánones lingüísticos de la modernidad y rechaza el vocabulario que no posee. En otras palabras, la incorporación de los vocablos –hispanismos y/o extranjerismos- que ya forman parte del léxico activo en guaraní ampliará las posibilidades connotativas y denotativas de dicha lengua, que no podrían ser realizadas utilizando solamente los recursos léxicos propios del guaraní normativo.
Por último, es importante destacar que los fenómenos descritos anteriormente nada tienen que ver con el sonado jopara-, que muchas veces se asemeja a una interlengua, empleada, por un lado, como recurso lingüístico cuando la proficiencia oral –y/o escrita- es limitada en una de las dos lenguas, y por otro, como estrategia para confundir a los oyentes foráneos, excluyéndolos de la conversación; esta es, bajo nuestra óptica, una demostración de poder de un pueblo valeroso que a lo largo de casi quinientos años ha sido oprimido, y que encuentra en la lengua su refugio y fortaleza, lo que demuestra una seña de identidad y representa un punto de confluencia y unidad nacional.

4. DRAC: Diccionario de Referencia del Guaraní Contemporáneo
En este apartado no ahondaremos en el tema de la estructura del DRAC, sino más bien describiremos en passant algunas de las principales características que tendrá nuestro Diccionario de Referencia. Como se ha dicho anteriormente, este diccionario será el primero en varios aspectos: sus datos provendrán de un Corpus lingüístico de referencia, herramienta fundamental para la lexicografía moderna; permitirá consultas a través de Internet, lo que apoyará el proceso de visibilidad de esta lengua minorizada; se emplearán programas de código abierto en su diseño, fomentando así su libre divulgación sin de amarras comerciales, etc., se distribuirá libremente en las escuelas paraguayas como parte del programa de incentivo a la incorporación de las NTICs en el aula, auspiciado por el proyecto AVAKOTEPA[6]; etc.
En lo que concierne a la pertinencia de la propuesta esbozada en este artículo, y en relación con los ejes principales, que justifican la recopilación del DRAC, podemos afirmar que:
§ Paraguay al año 2006 cuenta con una población de 6.009.142 habitantes[7]. La mayor parte de la población paraguaya es bilingüe guaraní-castellano o monolingüe guaraní: el 37% habla sólo guaraní, el 50% castellano y guaraní, el 7% sólo castellano y el 6% utiliza otros idiomas (Cfr. CNPV, 2002). De estos datos se desprende que el guaraní ocupa el rol de lingua-franca;

§ La trascripción ortográfica de la lengua guaraní se realiza a mediados del siglo XVII y hasta la actualidad, en los albores de la era informática, no se cuentan con materiales específicos en formato digital para enseñanza-aprendizaje de la lengua guaraní;

§ Existe una considerable producción literaria en lengua guaraní. Dicha lengua fue elevada al rango constitucional, pero hasta el presente no se dieron iniciativas que apunten a la realización de materiales educativos, principalmente en lo que concierne a la recopilación de diccionarios en formato digital;

§ Dicho material puede constituirse en una oportunidad histórica y cultural, dado su alcance y demanda existente en los diferentes sectores de la sociedad paraguaya;

§ El proyecto “Una laptop por niño”, de Negroponte, comenzó a funcionar en Paraguay en noviembre del presente año, no obstante, si se pretende que dicha iniciativa tenga éxito en Paraguay, para que podamos sumarnos al mundo de las nuevas tecnologías de la información y comunicación, debemos empezar a crear materiales didácticos que se adecuen a las necesidades del nuevo modelo educativo que exige la sociedad del conocimiento;

§ Por último, cabe señalar que los más afectados por la “exclusión informática” y la “alienación educativa” que ha vivido Paraguay en las últimas décadas son los ciudadanos paraguayos de las generaciones venideras; es decir, los niños y niñas que se encuentran en edad escolar y que, en la actualidad, viven al margen de la “posrevolución informática” en la que está inmersa el mundo globalizado y los países más desarrollados.

5. Características estructurales del DRAC
No abordaremos aquí los datos conferidos tanto en la macro como en la microestructura del DRAC, ya que los mismos figurarán en detalle en la “Planta” que se está elaborando para el diccionario. Respecto de la estructura del DRAC, destacamos las siguientes características:
a) Números de entradas: Se pretende recoger alrededor de 25.000 entradas;
b) Formato electrónico: el diccionario aparecerá en su versión electrónica. Además, se está diseñando una plataforma que albergará, además del CORACON y del CORESPY, una versión del DRAC para consultas a través de la red;
c) Basado en un corpus lingüístico: todas las definiciones y ejemplos de uso serán tomadas del Corpus de Referencia del Guaraní Paraguayo (CORACON). Estamos convencidos de que el CORACON nos aportará algunos vocablos que no todavía no han sido recogidos en el ningún diccionario de la lengua guaraní;
d) De Referencia: en el proceso de selección de las entradas seguiremos un método contrastivo (Véase tabla de contrastes), evidenciando la variabilidad de definiciones y recogiendo todos los vocablos que aparecen al menos en uno de los diccionarios consultados. El objetivo de este procedimiento es compilar todas las entradas recogidas en los diccionarios existentes y de uso actualmente en el Paraguay. El proceso de vaciado de los diccionarios y el posterior cruce de datos -análisis contrastivo- se hará de forma automática con una herramienta especialmente creada para dicho menester.
Los Diccionarios de la lengua Guaraní - Ejemplos de contrastes:
GUASCH (1998):
AVA: indio, hombre, individuo, persona (Decir ava a uno puede ser un insulto o un piropo); ava ra'y juky péva: ¡ qué niño tan lindo, simpático!;
MBO'EHÁRA - No registra;
MBO'EHAO - No registra;
U: raíz del verbo ha'u, re'u: comer, beber (menos agua, que tiene verbo propio). Ejemplo de "u" en composición: hi'upy: comestibles. hi'upyrâ: comestibles para después. ka'avo'uha: herbívoro. pira'uha: ictiófago (que se alimenta e pescado o peces). so'o uha: carnívoro. tuguy'uha: hematófago (que come o chupa la sangre). (785).
TA'ANGAMBYRY. No registra.

SANABRIA (2000):
AVA. s. Hombre, individuo, persona (Ava ha' Kuñáva ha kuimba'éva = Hombre es mujer y varón);
MBO'EHÁRA. s. Maestro/a. Persona que se dedica al magisterio.(159);
MBO'EHAO. s. escuela, colegio. Casa de la enseñanza. (159)
U. v. ar. Comer, beber, (menos agua, que tiene v. propio) (Che ha'u, nde re'u, etc.) Es un verbo irregular. (303)
TA'ANGAMBYRY. .s. neol. Televisión (=téle). (271)
ACOSTA (2002):
AVA. s. Hombre, indígena, persona,, sujeto, a. joguaha. Aindiado. a. Kachape. Arribeño. a. pajé. Mago, hechicero, brujo, sacerdote indígena. a. reko. Capricho. a. táva. Reducción, pueblo de indios. 2. pron. ind. Alguien. 3. pron. Int. Quién, cuál, a. mba'épa. De quién. (18);
MBO'EHÁRA. neol., s. Maestro, profesor, docente educador, instructor, pedagogo, preceptor.(59);
MBO'EHAO. neol., s. Escuela, colegio (59).
'U. v. Comer beber, ingerir, tomar. 'u kuña. Fornicar.
TA'ANGAMBYRY. neol., t. s. Televisión. (107)

ORTIZ MAYANS (1960):
AVÁ. s. Hombre. /Indio. /Persona indeterminada. /Zambo o hijo de negro y de india o al contario. / pron. int. ¿Quién? - catú. Hombre de bien./ Bot. Nombre de dos arbustos e propiedades afrodisíacas. (420);
MBO-JHARA. S. Maestro; instructor; enseñante; predicador; profesor; preceptor; / Ú. t .p. el femenino. (529);
MBO'EHAO - No registra.
U. v. Comer; beber. / Carcomer / Venir (3ª pers.). Oú pîa-e: viene rápido. /Poseer (en sentido sexual). (529)
TA'ANGAMBYRY. No registra.

e) Diccionario sincrónico:
En el proceso de selección de las entradas se tendrá nos ceñiremos al criterio sincrónico, ya que pretendemos recoger solamente el léxico utilizado en los últimos 50 años. Es importante mencionar que pretendemos informar sobre el repertorio léxico y el uso, sin instituir ni postular criterios normativos, aunque incluiremos algunos vocablos obsolescentes e históricos. Dentro del espacio de tiempo antes señalado, se recogerá el léxico usual, teniendo en cuenta criterios de frecuencia y una actualidad mínima.

f) Índice de frecuencia:
Al disponer de los índices de frecuencia que nos proporcionará el CORACON, incluiremos marcas de frecuencia en las voces del diccionario. De este modo, el DRAC se convertirá en el primer diccionario de la lengua guaraní que contará con información relativa a este aspecto:

Ausencia de marca: Frecuencia no significativa
- Frecuencia baja
- Frecuencia moderada
- Frecuencia notable
- Frecuencia alta
- Frecuencia muy alta

g) Muestras de audio:
Además de incluir una referencia de audio, que nos permitirá escuchar la correcta pronunciación de cada una de las palabras del DRAC, pretendemos añadir una funcionalidad específica que nos ofrecerá muestras de audio de algunas frases y/o ejemplos de uso.

h) Transcripción fonética:
La inclusión de información fónica en el DRAC tiene por objetivo indicar la pronunciación correcta de las palabras desde una concepción normativa (Cfr. Haensch et al., 1982:179-180; Quilis, 1982; Walter, 1990). Debido a que está orientado con un fin didáctico a usuarios –nativos y extranjeros- (Cfr. Haas, 1975; Harrel, 1975; entre otros) aprendices de la lengua guaraní, esta opción será muy útil, ya que la relación existente entre la representación ortográfica y la pronunciación de la lengua guaraní entraña ciertas dificultades en su aprendizaje.

i) Herramienta para el estudio lingüístico:
La novedad del diccionario es que constará de autoridades o ejemplos documentales, esto es, se dará al usuario un ejemplo de uso de los lemas, que se extraerán del Corpus de referencia del Guaraní Contemporáneo (CORACON). Al estar interrelacionado con el corpus, se convertirá en una herramienta indispensable para los estudiosos del léxico, pues ofrecerá una muestra de la prensa escrita, muestras textuales de distinta índole y procedencia y recogerá, asimismo, la mayoría de las páginas Web escritas en guaraní en el Paraguay. Lo que pretendemos como este planteamiento es que las lexías seleccionadas representen un repertorio reconocido y utilizado por todos los hablantes, ya que incluirá términos de la lengua viva, diaria y cotidiana.

j) Diccionario didáctico-pedagógico:
El diccionario estará dirigido a diferentes usuarios: el usuario común que se interese por el léxico de su país, los estudiantes de diversas edades, los docentes, técnicos, especialistas de distintas áreas del conocimiento, lingüistas, lexicógrafos, lexicólogos, investigadores, etc. Hay que subrayar que obra incluirá el primer conjugador de verbos en lengua guaraní, biografía de autores y corrientes de pensamiento. Por ello, se dirige fundamentalmente al ámbito educativo.

6. Proceso de recopilación de las entradas y asignación de las definiciones
La principal tarea del lexicógrafo en la recopilación de un diccionario es, lógicamente, la selección de las entradas y la asignación de definiciones y explicaciones sobre su significado. Como sostiene Sánchez (2001:13): “Un diccionario es bueno si es útil, y es útil si es capaz de transmitir a los hablantes de una lengua el significado exacto de las palabras que debe usar en la comunicación. Por lo tanto, además de todos los elementos y ayudas de que un lexicógrafo puede valerse, es esencial que la explicitación del significado llegue con fidelidad y claridad a quien consulta su obra.”
Es obvio que ni los corpus ni los programas informáticas podrán sustituir la labor del lexicógrafo. Ahora bien, éste puede valerse de dichos recursos para poder acceder a las entradas y a toda y cualquier información relacionada con ella con más facilidad y precisión. Se están diseñando herramientas específicas para la explotación del corpus CORACON, que nos permitirá consultar todos los contextos de uso más frecuentes de una palabra en cuestión de segundos, lo que facilitará sobremanera la definición y la asignación de etiquetas. En la primera etapa del proceso de recopilación estamos “entrenando” las herramientas informáticas, y nos hemos propuesto como meta lo siguiente:
  1. Definir con palabras sencillas y accesibles
  2. Describir, siempre que posible, la función de la palabra definida, evitando así la definición demasiado abstracta
  3. Ofrecer las distintas acepciones que pueda contener un vocablo, atendiendo a su frecuencia de uso.

El paquete informático que estamos utilizando en la recopilación del DRAC, y que ha sido especialmente diseñado para este proyecto, nos permitirá el acceso rápido y constante a los ejemplos de uso dentro de los contextos, facilitando la captación del significado y, por consiguiente, la definición de las voces atendiendo a criterios de frecuencia y/o campos semánticos. Se ha adoptado este procedimiento para evitar la incorporación de información impertinente y/o en desuso. La adopción de criterios de recopilación basados en frecuencia nos permitirá conocer las acepciones más frecuentes de los vocablos, incidiendo directamente en la calidad de la obra, al ofrecer consultas más eficaces sobre la ortografía y/o significados más frecuentes de una palabra.

7. Conclusiones

Como es bien sabido, el guaraní es una de las lenguas oficiales del Paraguay y está reconocida como “tercera” lengua del Mercosur. Actualmente, está incluida como una materia obligatoria en todas las instituciones educativas de nivel inicial y media, de acuerdo con la Reforma Educativa de 1992. Hoy en día se constituye en una necesidad de la población contar con herramientas tecnológicas adecuadas, que faciliten la generación de contenidos escritos en guaraní, y ayuden en el proceso de valorización de esta minorizada lengua mayoritaria, aportando los elementos que propiciarán su estructuración y normalización y la adaptarán a los cánones de la lingüística moderna; eso facilitaría su difusión y ayudaría sobremanera en su proceso de revalorización lingüístico-cultural. En este sentido, el objetivo del presente proyecto es el diseño e implementación de una herramienta ofimática –diccionario electrónico- que permitirá tanto la realización de consultas a través de Internet como su instalación en los ordenadores, al igual que ocurren con todas las lenguas modernas que gozan de más prestigio.

La recopilación de un diccionario de referencia en formato electrónico, incidirá directamente en los siguientes aspectos: i) revalorización de la lengua guaraní a través de la publicidad y visibilidad más allá de las fronteras del Mercosur; ii) incorporación en la plataforma AVAKOTEPA, lo que permitirá la participación de toda la comunidad guaraní-hablante, que podrá ir enriqueciéndolo mediante sus aportaciones; y por último, iii) apoyar en el proceso de incorporación de las NTICs en la realidad de las aulas paraguayas, ya que todos los niños y niñas paraguayos que se encuentran en edad escolar, tarde o temprano, formarán parte del mundo globalizado e informatizado, como ocurre en todos los países más desarrollados.

La elaboración de un diccionario con estas características es una necesidad emergente en el Paraguay, no solamente por el hecho de que no existe ningún diccionario electrónico con esas características, sino que servirá de referencia para los hablantes paraguayos, que en muchas ocasiones se cuestionan aspectos relacionados con él, pero no encuentran las respuestas a tales cuestionamientos. Ofrecerá un repertorio que servirá para la enseñanza de la lengua, porque no solo evidenciará el léxico sino también estructuras gramaticales propias del guaraní paraguayo.

Asimismo, puede convertirse en la base para futuras investigaciones en el ámbito sociolingüístico, pragmático, lexicológico, lexicográfico dentro del territorio nacional y en el extranjero, ya que el DRAC se está concibiendo como un Diccionario de Referencia especialmente diseñado para recoger una amplia gama de muestras reales de habla que ocurren en interacciones y conversaciones auténticas en la actualidad en el Paraguay, tanto en la modalidad escrita como oral.

Referencias Bibliográficas:

ACOSTA, Feliciano y KRIVOSHEIN DE CANESE, Natalia (2002): Ñe’ëryru Avañe’ë – Karaiñe’ë. Segunda Edición, Colección Ñemity.

AHMAD, K., DAVIES, A. HULFORF, H. & ROGERS, M. (1994): What is a term? The semi-automatic extraction of terms from text, en M. Snell-Hornby, F. Pöchhacker & K. Kaindl (eds.): 267-278.

AHUMADA, Ignacio (2000): Estudios de lexicografía regional del español. Universidad Nacional a Distancia.

ATKINS, B., J. CLEAR & N. OSTLER (1992): Corpus Design Criteria. Literary and Linguistic Computing. Vol. 7, No. 1, 1-16.

DIETRICH, Wolf (1994-95): «La importancia de los diccionarios guaraníes de Montoya (1640) para el estudio comparativo de las lenguas tupí-guaraníes de hoy », Amerindia, 1994-95, n° 19-20.

GRANDA, Germán de. (1990): Hacia una valoración del proceso de interferencia léxica del guaraní sobre el español paraguayo. En: Revista Paraguaya de Sociología, año 27, N ° 77, Asunción.
___________________ (1996): Interferencia y convergencias sintácticas e isogramatismo amplio en el español paraguayo. In International Journal of the Sociology of Language 117, 63-80. Berlin / New York.
GUASCH, P. Antonio. (1978): Diccionario castellano-guaraní y guaraní-castellano, sintáctico, fraseológico, ideológico. Reimpresión de la 4ª ed. española. Asunción: Loyola.
_________________. (1998): Diccionario Castellano-Guaraní / Guaraní-Castellano. S. J. –Diego Ortiz S. 13ª, CEPAG J, Asunción.
TRINIDAD SANABRIA, Lino. (2000): Gran Diccionario Avañe’ë Ilustrado. Editorial Occidente S. R. L., Asunción.

HAAS, M. R. (1975): What Belongs in the Bilingual Dictionary?, en F. W. Householder y S. Saporta (eds.), Problems in Lexicography. 3ª ed., Bloomington: Indiana University Publications, pp. 45-50.

HAENSCH, G. WOLF, L. ETTINGER, S. y R. WERNER (1982): La lexicografía. De la lingüística teórica a la lexicografía práctica, Madrid: Gredos. Biblioteca Románica Hispánica. Manuales, 56.

HAENSH, Günther (1997): Los diccionarios del español en el umbral del siglo XXI. Salamanca: Ediciones de la Universidad de Salamanca.

HARREL, R. S. (1975): Some Notes on Bilingual Lexicography, en F. W. Householder y S. Saporta (eds.), Problems in Lexicography. 3ª ed., Bloomington: Indiana University Publications, pp. 51-62.

QUILIS, A. (1982): Diccionarios de pronunciación, Lingüística Española Actual IV,II: 326-332.

i FONTANALS, Joaquim, i BOU. Joan. (2003) El procesamiento de corpus- La lingüística empírica. Las tecnologías del lenguaje. , 41-73.

KRIVOSHEIN de CANESE (2000), Natalia. Cultura y bilingüismo en el Paraguay. www.staff.uni-mainz.de/lustig/texte/culpares.htm [EN LÌNEA]

KRIVOSHEIN de CANESE, Natalia y CORVALAN, Graziella. (1993): El español del Paraguay en contacto con el guaraní. Centro Paraguayo de Estudios Sociológicos. Asunción.

LARA, Fernando (1987). El objeto diccionario. En Luis Fernando Lara. 1990. Dimensiones de la lexicografía. A propósito del Diccionario del español actual de México. El Colegio de México: 15-20

LEECH, G. (1991): Corpora, en Malmkjaer (ed.) The Linguistics Encyclopedia, London: Routledge: 73-80.
___________ (1992): Corpus and theories of linguistic performance: in Svartvik, J. ed., Directions in corpus linguistics: proceedings of Nobel symposium 82, Berlin and New York, Mouton de Gruyter, 125-148.

LUSTIG, Wolf. (1996): "Mba'eichapa oiko la guaraní", in: Papia, 4:2 (1996), S. 19-43; En Red: http://www.uni-mainz.de/~lustig/texte/jopara2.txt

MCENERY, T. & A. WILSON (1996): Corpus Linguistics. Edinburgh Textbooks in Empirical Linguistics. Edinburgh: Edinburgh University Press.
_________________________ (2001): Corpus Linguistics. 2nd. Edition. Edinburgh: Edinburgh University Press.

ORTIZ MAYANS, Antonio. (1960): Gran Diccionario Castellano-Guaraní / Guaraní-Castellano. Ed. Abaco, Buenos Aires.

PÉREZ HERNÁNDEZ, M. Chantal: (2002): "Explotación de los córpora textuales informatizados para la creación de bases de datos terminológicas basadas en el conocimiento", en Estudios de Lingüística Española, 18, Málaga.

SÁNCHEZ, Aquilino (2001): Cómo se hace un diccionario en el siglo XXI: Gran Diccionario de Uso del Español Actual. SGEL, Madrid.

SINCLAIR, J.M. (ed.) (1987): Collins Cobuild English Language Dictionary. London: Harper Collins.
________________ (1987b). Looking Up: an Account of the COBUILD Project in Lexical Computing. London: Collins.
_________________ (1990). "Progress in Computational Lexicography", en World Englishes. Vol.9 (1). Oxford: Pergamon: 233-257.
_________________ (1991): Corpus, Concordance, Collocation. Oxford: Oxford University Press.
__________________ (1996): The Empty Lexicon, International Journal of Corpus Linguistics. Vol. 1 (1): 99-119.

SINCLAIR, J. M., J. Payne & Ch. Pérez (eds.) (1996). Corpus to Corpus: A Study of Translation Equivalence. International Journal of Lexicography. Vol. 9 (3).

ONU, (2003): Objetivos de desarrollo del milenio. Informe de Paraguay. Sistema de las Naciones Unidas en Paraguay. Asunción, 2003

WALTER, H. (1990): Le dictionnarie de prononciation, en F. J. Hausmann, O. Reichmann, H. E. Wiegand y L. Zgusta (eds.) Wörterbücher. Dictionaries. Dictionnaries. Ein internationales Handbuch zur Lexicographie. An International Encyclopedie of Lexicography. Enciclopédie internationale de lexicographie. Tomo II: 1309-1311. Berlín-Nueva York: Walter de Gruyter.

[1] El CORACON (Corpus de Referencia de Guaraní Contemporáneo), desarrollado en el ámbito del proyecto AVAKOTEPA, se compone de dos partes: el CORACON, corpus oral que recoge muestras reales de habla que ocurren en interacciones y conversaciones auténticas y son almacenadas en una base de datos textual acompañada de su respectivo archivo de audio, y el COTRACON, corpus textual que reúne un conjunto de textos lingüísticos y reales almacenados en formato electrónico. En ambos corpus se siguen las recomendaciones hechas por EAGLES y, a posteriori, se pretende adoptar las normas de codificación definidas en el TEI P4. El CORACON abarcará un espacio cronológico que va desde 1950 hasta la actualidad. Las bases de datos que componen dicho corpus son abiertas, es decir, están diseñadas para albergar los últimos 58 años del guaraní, de modo que vayan actualizando sus materiales con el paso del tiempo.

[2] Cfr. BNC – British National Corpus. Disponible en: http://www.natcorp.ox.ac.uk/

[3] Las dos siguientes definiciones propuestas por EAGLES (1996) se encuentran recogidas en Internet en la publicación titulada “EAGLES Preliminary recommendations on Corpus Typology EAG--TCWG--CTYP/P” –mayo, 1996- (Consulta: 10 mayo 2008). http://www.ilc.cnr.it/EAGLES96/corpustyp/node5.html#SECTION00041000000000000000
a) A computer corpus is a corpus which is encoded in a standardized and homogenous way for open-ended retrieval tasks. Its constituent pieces of language are documented as to their origins and provenance.
b) A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language.

[4] Véase también al respecto, el Diccionario guaraní-español de Natalia KRIVOSHEIN DE CANESE, Asunción 1990.

[5] Cfr Granda (1996:64-65)

[6] En el marco del proyecto AVAKOTEPA se ha diseñado un programa de incentivo a la incorporación de las NTICs en las escuelas paraguayas. Dicho programa todavía se encuentra en ciernes, pero sus objetivos coinciden con los objetivos de desarrollo del milenio para el Paraguay. (ONU, 2003)

[7] Datos extraídos del estudio Educación Media en el Paraguay: Logros, opciones y desafíos, 2007.