CLARAClear: Transparencia radical en el procesamiento del lenguaje natural
«Que cada cálculo sea visible, cada peso debatible, cada decisión fundamentada.»
C.L.A.R.A. (Clear Lexical Analysis & Reasoning Aid) es un proyecto de procesamiento de lenguaje natural desarrollado en JavaScript puro, con un objetivo deliberadamente contraintuitivo en la era de los modelos de lenguaje: la transparencia radical. Cada operación que realiza —cada token, cada peso, cada distancia calculada— es visible, explicable y debatible por el usuario.
Este proyecto nace de una convicción filosófica: en un momento en que las máquinas toman decisiones cada vez más opacas sobre personas (recomendaciones algorítmicas, scoring crediticio, diagnósticos médicos automatizados), necesitamos herramientas que nos permitan ver cómo piensan, no solo qué responden. Es la misma convicción que motivó el artículo «Creencias en transformación» sobre el Perceptrón de Rosenblatt: comprender el alfabeto antes de enfrentarse a la novela.
Dos capas de análisis: lo superficial y lo profundo
El nombre Clear Lexical Analysis & Reasoning Aid no es casual. Refleja las dos capas que CLARA implementa, inspiradas en la metáfora del equipo de especialistas desarrollada en el artículo sobre el Perceptrón Multicapa:
Capa superficial: análisis léxico
Como un perito que examina las pruebas materiales, CLARA analiza el texto en su superficie:
- Tokenización: separación del texto en unidades léxicas.
- Lematización: reducción de palabras flexionadas a su forma base (analizó → analizar).
- Filtrado de stopwords: eliminación de palabras funcionales (artículos, preposiciones) que aportan estructura pero no contenido.
- Clasificación morfológica: identificación de sustantivos, adjetivos, verbos y conectores.
- Identificación de dominios: detección del campo temático (jurídico, académico, científico, etc.).
- Cálculo de frecuencias: TF-IDF para ponderar la relevancia de cada término.
Capa profunda: análisis argumentativo
Como un juez que evalúa la solidez de los argumentos, CLARA examina la estructura lógica del texto:
- Identificación de premisas: detección de las afirmaciones base del argumento.
- Extracción de conclusiones: identificación de las tesis que se sostienen.
- Mapeo de conectores retóricos: clasificación de las relaciones lógicas (causales, adversativas, consecutivas).
- Búsqueda de respaldo: comparación con corpus de referencia mediante similitud semántica.
- Evaluación de coherencia: detección de contradicciones internas o falacias formales.
Algoritmos implementados
CLARA utiliza algoritmos clásicos de recuperación de información y procesamiento de lenguaje natural, todos implementados en JavaScript puro sin dependencias externas. La elección de algoritmos clásicos no es accidental: son métodos cuyo funcionamiento puede explicarse completamente —no hay matrices de pesos inescrutables ni mecanismos de atención inabarcables:
| Algoritmo | Función | Aplicación en CLARA |
|---|---|---|
| Jaccard | Similitud entre conjuntos | Comparación rápida de vocabularios entre textos |
| Coseno | Similitud entre vectores | Comparación semántica de documentos en espacio TF-IDF |
| k-NN | Clasificación por vecinos cercanos | Clasificación de textos por dominio o tema |
| BM25 | Ranking de relevancia | Búsqueda de pasajes relevantes en corpus |
| TF-IDF | Ponderación de términos | Identificación de palabras clave |
| Regla de Rosenblatt | Aprendizaje del perceptrón | Clasificación binaria supervisada (módulo posterior) |
| Análisis argumentativo | Estructura lógica | Extracción de premisas y conclusiones |
Lo que CLARA sí puede hacer
- ✅ Tokenizar y lematizar texto en español e inglés con diccionarios curados.
- ✅ Calcular similitud semántica entre textos mediante Jaccard y coseno.
- ✅ Clasificar textos por dominio temático usando k-NN.
- ✅ Extraer palabras clave mediante TF-IDF.
- ✅ Identificar conectores retóricos y clasificar su función argumentativa.
- ✅ Buscar pasajes relevantes en un corpus mediante BM25.
- ✅ Parafrasear léxicamente mediante sustitución por sinónimos controlada.
- ✅ Resumir extractivamente seleccionando las oraciones más relevantes.
- ✅ Mostrar todos los cálculos en tiempo real: pesos, distancias, activaciones.
Lo que CLARA no puede hacer (y por qué)
La honestidad intelectual exige delimitar con claridad lo que una herramienta no puede lograr. CLARA no es un modelo de lenguaje grande (LLM), ni pretende serlo. Sus limitaciones son estructurales, no accidentales:
- ❌ No genera texto coherente a partir de cero. Requiere un texto de entrada sobre el cual operar. La generación creativa exige modelos autoregresivos (tipo GPT) con miles de millones de parámetros, imposibles de ejecutar en un navegador.
- ❌ No parafrasea con calidad literaria. La sustitución léxica por sinónimos puede producir resultados torpes. La reformulación elegante requiere comprensión contextual profunda.
- ❌ No traduce con calidad profesional. Las traducciones son aproximaciones basadas en diccionarios, no en modelos seq2seq.
- ❌ No responde preguntas complejas. Puede extraer oraciones relevantes, pero no sintetizar respuestas nuevas a partir de múltiples fuentes.
- ❌ No detecta ironía, sarcasmo o dobles sentidos. Requiere comprensión pragmática del contexto cultural.
- ❌ No reemplaza el juicio humano. Es una herramienta de apoyo, no un sustituto del análisis crítico.
Esta delimitación no es una debilidad, sino una fortuna epistemológica: al saber exactamente qué puede y qué no puede hacer, el usuario puede confiar en sus resultados dentro de los márgenes correctos. Es el equivalente algorítmico de la duda razonable del derecho penal: mejor decir «no lo sé» que afirmar con falsa certeza.
Conexión con el Perceptrón Multicapa
La arquitectura de CLARA está inspirada conceptualmente en el artículo sobre el Perceptrón Multicapa. Así como el MLP resuelve el problema XOR mediante un equipo de especialistas (dos neuronas ocultas que detectan aspectos complementarios, coordinadas por una neurona de salida), CLARA aborda el análisis de texto mediante múltiples módulos especializados:
- Especialista léxico: analiza palabras, frecuencias, dominios.
- Especialista estructural: analiza conectores, premisas, conclusiones.
- Especialista semántico: calcula similitudes con corpus de referencia.
- Coordinador: integra los dictámenes de los especialistas en un análisis unificado.
La diferencia fundamental con el Perceptrón Multicapa es que CLARA no aprende automáticamente sus pesos: los diccionarios están curados manualmente, y los algoritmos son deterministas. Esta decisión es deliberada: sacrifica capacidad de generalización a cambio de transparencia total. Cada peso, cada conexión, cada activación puede ser explicada al usuario.
Tres componentes didácticos complementarios
Para comprender cabalmente el procesamiento de lenguaje natural y las redes neuronales, CLARA ofrece tres componentes didácticos, cada uno con un propósito específico y un nivel de complejidad progresivo:
-
Prototipo Funcional (Fase 4 — en desarrollo):
Muestra el pipeline NLP completo con transparencia radical: tokenización, lematización, filtrado de stopwords, cálculo de TF-IDF y medidas de similitud (Jaccard y coseno). Ideal para comprender los fundamentos del procesamiento de texto sin la complejidad de las redes neuronales.
🔍 Acceder al Prototipo en Español · 🔍 Access the Prototype in English -
MLP XOR Solver (complemento pedagógico):
Demuestra de forma independiente cómo un Perceptrón Multicapa resuelve el problema XOR mediante un equipo de especialistas. Es un ejercicio clásico de redes neuronales, no conectado al prototipo CLARA, pero esencial para comprender el funcionamiento de capas ocultas, pesos, sesgos y funciones de activación.
🏛️ Ver MLP XOR Solver en Español · 🏛️ View MLP XOR Solver in English -
CLARA + MLP Integrado (Fase 4.5 — planificada):
Componente futuro que combinará ambos mundos: el prototipo procesará textos y generará vectores TF-IDF, que luego serán clasificados por un Perceptrón Multicapa entrenado en vivo mediante backpropagation. Cada peso, cada activación y cada decisión serán visibles y debatibles, realizando plenamente la promesa de transparencia radical.
Esta integración se desarrollará cuando el diseño pedagógico y técnico esté suficientemente maduro. El objetivo es superar lo prometido: que el usuario no solo observe, sino que participe activamente en el aprendizaje de la máquina.
El usuario que lea el artículo sobre el Perceptrón Multicapa encontrará en el MLP XOR Solver una demostración didáctica inmediata, y en la futura Fase 4.5 la integración completa con el procesamiento de lenguaje natural de CLARA. Ambos componentes son complementarios, no idénticos: el XOR es el «alfabeto» de las redes neuronales; la integración futura será la «sintaxis avanzada» aplicada al lenguaje.
Arquitectura de dos niveles: CLARA como núcleo, no como frontera
CLARA está diseñada desde su concepción con una arquitectura de dos niveles que preserva su principio fundacional (transparencia radical) mientras permite ampliar sus capacidades mediante un backend complementario. Esta decisión arquitectónica es fundamental: CLARA es el núcleo, no la frontera.
El principio: complementariedad sin opacidad
El nivel superior (navegador, JavaScript puro) realiza siempre las operaciones visibles: tokenización, lematización, Jaccard, coseno, TF-IDF, k-NN. Cada peso, cada distancia, cada decisión es auditable por el usuario. Opcionalmente, CLARA puede solicitar asistencia a un nivel inferior (backend Python local o remoto) para tareas que exceden sus capacidades nativas: paráfrasis de calidad, traducción profesional, generación controlada, detección de ironía.
El principio arquitectónico es simple: esa asistencia externa no reemplaza el análisis de CLARA, lo complementa, y además hereda el mandato de transparencia: el backend debe devolver no solo el resultado, sino los fundamentos —criterios de selección, alternativas descartadas, nivel de confianza, modelo utilizado.
Hoja de ruta ampliada
El desarrollo de CLARA se organiza en fases progresivas. La arquitectura de dos niveles está prevista desde el inicio, pero su implementación se aborda cuando las capacidades nativas estén sólidamente establecidas:
- Fase 1 — Infraestructura: plantilla del blog, sistema de diccionarios alojados en páginas estáticas, función de carga JSON. (Completada)
- Fase 2 — Diccionarios base: stopwords, lemas, conectores, dominios en español e inglés. (Completada)
- Fase 3 — Diccionarios avanzados: léxico principal y tesauro semántico en ambos idiomas. (Completada)
- Fase 4 — Prototipo funcional: emulador standalone que implemente tokenización, lematización, similitud Jaccard/coseno y visualización en tiempo real. (En desarrollo — páginas estáticas ES/EN)
- Fase 4.5 — Módulo Perceptrón Multicapa: implementación de red neuronal con una capa oculta para clasificación binaria, utilizando los vectores TF-IDF del prototipo como entrada. Mostrará pesos, activaciones y proceso de entrenamiento con transparencia radical. (Planificada)
- Fase 5 — Puerto JSON: implementación del contrato de comunicación con backend Python. Estructura de mensajes, validación de respuestas, panel de fundamentos. (Prevista en arquitectura)
- Fase 6 — Backend complementario: servidor Python con spaCy, WordNet y modelos pequeños para paráfrasis, traducción y NER. Siempre con bloque de fundamentos obligatorio.
- Fase 7 — Capa profunda: análisis argumentativo, extracción de premisas y conclusiones, búsqueda de respaldo, evaluación de coherencia.
- Fase 8 — Integración: herramienta embebida en el blog, accesible desde cualquier entrada, con modo offline y modo asistido por backend.
Prototipo Funcional
El Prototipo Funcional de CLARA es un emulador standalone que demuestra el procesamiento de lenguaje natural con transparencia radical. Ingresa dos textos y observa cada paso del análisis: tokenización, lematización, filtrado de stopwords, cálculo de TF-IDF, y medidas de similitud (Jaccard y coseno).
Acceso al prototipo:
Nota importante: El prototipo no incluye Perceptrón Multicapa. Ese será un módulo posterior (Fase 4.5) que aprovechará los datos procesados por el prototipo.
Tablero de control: diccionarios implementados
| Diccionario | ES | EN | Entradas | Estado |
|---|---|---|---|---|
| Stopwords | ES | EN | 284 / 176 | ✅ Completado |
| Lemas | ES | EN | 302 / 198 | ✅ Completado |
| Léxico | ES | EN | ~135* / 160 | ✅ Completado |
| Tesauro | ES | EN | ~72 / ~72 | ✅ Completado |
| Conectores | ES | EN | 52 / 50 | ✅ Completado |
| Dominios | Multilingüe | 30 | ✅ Completado | |
📋 Total: 11 diccionarios · ~1.331 entradas curadas manualmente · Herramienta de depuración
* El léxico ES contiene duplicados que serán eliminados en la fase de consolidación.
Compromiso con la excelencia
CLARA es un proyecto de largo plazo, desarrollado en tiempo intermitente. No busca competir con herramientas comerciales ni con modelos de lenguaje de última generación. Su valor reside en tres principios:
- Transparencia: cada cálculo es visible y explicable, sin cajas negras.
- Accesibilidad: funciona en cualquier navegador, sin instalación, sin dependencias externas, incluso en equipos antiguos.
- Pedagogía: diseñado para que estudiantes, profesionales del derecho y cientistas sociales comprendan los fundamentos del procesamiento de lenguaje natural, viendo cada paso del proceso.
Si compartes estos principios, bienvenido a CLARA.
Jorge Verón Schenone
Junio de 2026