La familia léxica en la lexicografía de DaF. Una cuantificación teórico-neutral de la aprendibilidad del corpus lemático
Fecha
Autores
Editores
Otras autorías
Handle
Cita bibliográfica
Titulación
Resumen
[ES] Esta tesis se inscribe en el debate histórico (vigente desde el s. XVII) sobre el potencial didáctico de la familia léxica en la lexicografía alemana. Sobre este trasfondo, nuestra investigación aborda la búsqueda de una explicación 'universal' y teórico-neutral del citado fenómeno que permita evaluar su integración en la lexicografía contemporánea de alemán como lengua extranjera (Deutsch als Fremdsprache, DaF). La viabilidad de este planteamiento se sustenta en el concepto de complejidad algorítmica, el cual aporta una métrica invariante y rigurosa, derivada del principio de universalidad computacional. Este constructo nos ha permitido formular una explicación del componente didáctico de la familia léxica sobre la base de parámetros formales y extralingüísticos, en términos de codificación, regularidad, y compresibilidad, "by viewing learning in terms of data compression" (Grünwald 2005: 18). Nuestra propuesta elude así sesgos asociados a teorías lingüísticas específicas y abre la puerta a una comprensión más amplia e integral de los procesos cognitivos que subyacen al aprendizaje y el procesamiento de la lengua. Desde esta óptica computacional, equiparamos el aprendizaje de una lista de vocabulario a una tarea de aprendizaje automático supervisado, en la cual el estudiante se modela como un algoritmo de aprendizaje que debe inferir una función generativa (la gramática) a partir de un conjunto de datos de entrenamiento (el vocabulario). La premisa clave es que una arquitectura de datos menos compleja -esto es, una macroestructura lexicográfica que reduce la aleatoriedad y maximiza las regularidades del vocabulario- disminuye el costo computacional del proceso de inferencia, lo que permite al aprendiz converger de manera más eficiente hacia la gramática subyacente. En este contexto, el principio de longitud mínima de descripción ofrece el mecanismo formal para aproximar cuantitativamente una complejidad algorítmica formalmente incomputable. Sobre esta base, analizamos la complejidad algorítmica de una lista de vocabulario en función de su ordenamiento macroestructural. Los resultados muestran que, frente al orden alfabético, una estructura de anidamiento de 2º nivel -asociada a la familia léxica- produce una versión algorítmicamente más compresible y, por lo tanto, menos compleja del corpus. Esta observación sugiere que la organización en familias léxicas permite una inferencia gramatical más eficiente e incrementa, por lo tanto, la aprendibilidad del vocabulario. Dado el carácter general de nuestro planteamiento, su alcance trasciende la lexicografía didáctica del alemán -o de cualquier otra lengua natural- y se proyecta hacia un conjunto amplio y heterogéneo de ámbitos de investigación. Esta tesis contribuye, por una parte, al estudio de la analogía como operación basal del procesamiento lingüístico, así como al análisis de los principios que gobiernan el comportamiento de la lengua como sistema natural. Por otra parte, nuestro enfoque ofrece vínculos conceptuales y afinidades metodológicas con el paradigma conexionista de la Inteligencia Artificial, cuyo marco teórico -inspirado en la estructura y el funcionamiento del cerebro humano- se apoya en redes neuronales artificiales para modelar el procesamiento computacional de la información. En conjunto, esta investigación aspira a impulsar un debate interdisciplinar que integre fenómenos lingüísticos, cognitivos, y computacionales bajo un marco explicativo universal.
[EN] This thesis forms part of the long-standing debate -dating back to the 17th century- regarding the didactic nature and potential of word families within German lexicography. Against this backdrop, our research aims to formulate a 'universal' and theory-neutral explanation of this phenomenon, enabling us to assess the incorporation of word families into contemporary lexicography of German as a Foreign Language (Deutsch als Fremdsprache, DaF). The viability of this approach rests on the concept of algorithmic complexity, which provides an invariant and rigorously defined metric derived from the principle of computational universality. This construct has allowed us to formulate an explanation based on formal and extralinguistic parameters -encoding, regularity, and compressibility- of the didactic component of the lexical family, "by viewing learning in terms of data compression" (Grünwald 2005: 18). Hence, our proposal avoids biases associated with any specific linguistic theory and opens the door to a broader and more comprehensive understanding of the cognitive processes underlying language learning and processing. Within this computational perspective on cognition, we equate learning a vocabulary list to a supervised machine learning task, in which the language learner is modelled as a learning algorithm that must infer a generative function (the grammar) from a training dataset (the vocabulary). The key premise is that a less complex data architecture -that is, a lexicographical macrostructure that reduces randomness and maximizes the regularities within the vocabulary- decreases the computational cost of the inference process, allowing the learner to converge more efficiently toward the underlying grammar. In this context, the minimum description length principle provides the formal mechanism necessary to obtain a quantitative approximation of this (formally incomputable) complexity. On this basis, we analize the algorithmic complexity of a vocabulary list as a function of its macrostructural order. The results show that, compared to the alphabetical order, a second-level nesting structure -associated to the word-family arrangement- yields an algorithmically more compressible and, therefore, less complex version of the corpus. This observation suggests the word-family arrangement enables a more efficient grammar inference and, therefore, increases vocabulary learnability. Given the general scope of our approach, its relevance transcends the learner's lexicography of German -or any other natural language- and extends to a broad and heterogeneous range of research fields. This thesis contributes, on the one hand, to the study of analogy as an essential operation in linguistic processing, as well as to the analysis of the principles governing language as a natural system. On the other hand, our approach establishes conceptual links and methodological affinities with the connectionist paradigm of Artificial Intelligence, whose theoretical framework -inspired by the structure and function of the human brain- relies on artificial neural networks to model the computational processing of information. Ultimately, with this research we hope to advance an interdisciplinary debate that links linguistic, cognitive, and computational phenomena under the same universal explanatory framework.
[CA] Esta tesi s'inscriu en la tradició de debat, vigent des del segle XVII, entorn de la naturalesa i el potencial didàctic de la família lèxica en la lexicogràfica alemanya. Sobre este rerefons històric, la nostra investigació aborda la busca d'una explicació 'universal' i teòric-neutral del citat fenomen que permeta avaluar la integració de la família lèxica en la lexicografia contemporània d'alemany com a llengua estrangera (Deutsch als Fremdsprache, DaF). La viabilitat d'este plantejament se sustenta en el concepte de complexitat algorítmica, el qual aporta una mètrica invariant i rigorosament definida que es deriva del principi d'universalitat computacional. Este constructe ens ha permés formular una explicació basada en paràmetres formals i extralingüístics -codificació, regularitat, i compressibilitat- del component didàctic de la família lèxica, "by viewing learning in terms of data compression" (Grünwald 2005: 18). La nostra proposta eludix així biaixos associats a teories lingüístiques específiques i obri la porta a una comprensió més àmplia i integral dels processos cognitius subjacents a l'aprenentatge i el processament de la llengua. Des d'esta òptica computacional, equiparem l'aprenentatge d'una llista de vocabulari a una tasca d'aprenentatge automàtic supervisat, en la qual l'estudiant es modela com un algorisme d'aprenentatge que ha d'inferir una funció generativa (la gramàtica) a partir d'un conjunt de dades d'entrenament (el vocabulari). La premissa clau és que una arquitectura de dades menys complexa -això és, una macroestructura lexicogràfica que reduïx l'aleatorietat i maximitza les regularitats del vocabulari- disminuïx el cost computacional del procés d'inferència, la qual cosa permet a l'aprenent convergir de manera més eficient cap a la gramàtica subjacent. En este context, el principi de longitud mínima de descripció oferix el mecanisme formal necessari per a obtindre una aproximació quantitativa d'esta complexitat formalment incomputable. Sobre esta base, analitzem la complexitat algorítmica d'una llista de vocabulari en funció del seu ordenament macroestructural. Els resultats mostren que, en comparació amb l'orde alfabètic, una estructura de anidamiento de segon nivell -associada a la família lèxica- produïx una versió algorítmicament més compressible i, per tant, menys complexa del corpus. Esta observació suggerix que l'organització en famílies lèxiques permet una inferència gramatical més eficient i, per tant, un major grau de aprendibilitat del vocabulari. Donat el caràcter general del nostre plantejament, el seu abast transcendix la lexicografia didàctica de l'alemany -o de qualsevol altra llengua natural- i es projecta cap a un conjunt ampli i heterogeni d'àmbits d'investigació. Esta tesi contribuïx, d'una banda, a l'estudi de l'analogia com a operació basal del processament lingüístic, així com a l'anàlisi dels principis que governen el comportament de la llengua com a sistema natural. D'altra banda, el nostre enfocament oferix vincles conceptuals i afinitats metodològiques amb el paradigma conexionista de la Intel·ligència Artificial, el marc teòric -inspirat de la qual en l'estructura i el funcionament del cervell humà- es recolza en xarxes neuronals artificials per a modelar el processament computacional de la informació. En suma, amb esta investigació esperem impulsar un debat interdisciplinari que vincule fenòmens lingüístics, cognitius, i computacionals sota un mateix marc explicatiu universal.

