CLARAClear

CLARAClear: Transparencia radical en el procesamiento del lenguaje natural

«Que cada cálculo sea visible, cada peso debatible, cada decisión fundamentada.»

C.L.A.R.A. (Clear Lexical Analysis & Reasoning Aid) es un proyecto de procesamiento de lenguaje natural desarrollado en JavaScript puro, con un objetivo deliberadamente contraintuitivo en la era de los modelos de lenguaje: la transparencia radical. Cada operación que realiza —cada token, cada peso, cada distancia calculada— es visible, explicable y debatible por el usuario.

Este proyecto nace de una convicción filosófica: en un momento en que las máquinas toman decisiones cada vez más opacas sobre personas (recomendaciones algorítmicas, scoring crediticio, diagnósticos médicos automatizados), necesitamos herramientas que nos permitan ver cómo piensan, no solo qué responden. Es la misma convicción que motivó el artículo «Creencias en transformación» sobre el Perceptrón de Rosenblatt: comprender el alfabeto antes de enfrentarse a la novela.

Dos capas de análisis: lo superficial y lo profundo

El nombre Clear Lexical Analysis & Reasoning Aid no es casual. Refleja las dos capas que CLARA implementa, inspiradas en la metáfora del equipo de especialistas desarrollada en el artículo sobre el Perceptrón Multicapa:

Capa superficial: análisis léxico

Como un perito que examina las pruebas materiales, CLARA analiza el texto en su superficie:

Tokenización: separación del texto en unidades léxicas.
Lematización: reducción de palabras flexionadas a su forma base (analizó → analizar).
Filtrado de stopwords: eliminación de palabras funcionales (artículos, preposiciones) que aportan estructura pero no contenido.
Clasificación morfológica: identificación de sustantivos, adjetivos, verbos y conectores.
Identificación de dominios: detección del campo temático (jurídico, académico, científico, etc.).
Cálculo de frecuencias: TF-IDF para ponderar la relevancia de cada término.

Capa profunda: análisis argumentativo

Como un juez que evalúa la solidez de los argumentos, CLARA examina la estructura lógica del texto:

Identificación de premisas: detección de las afirmaciones base del argumento.
Extracción de conclusiones: identificación de las tesis que se sostienen.
Mapeo de conectores retóricos: clasificación de las relaciones lógicas (causales, adversativas, consecutivas).
Búsqueda de respaldo: comparación con corpus de referencia mediante similitud semántica.
Evaluación de coherencia: detección de contradicciones internas o falacias formales.

Algoritmos implementados

CLARA utiliza algoritmos clásicos de recuperación de información y procesamiento de lenguaje natural, todos implementados en JavaScript puro sin dependencias externas. La elección de algoritmos clásicos no es accidental: son métodos cuyo funcionamiento puede explicarse completamente —no hay matrices de pesos inescrutables ni mecanismos de atención inabarcables:

Algoritmo	Función	Aplicación en CLARA
Jaccard	Similitud entre conjuntos	Comparación rápida de vocabularios entre textos
Coseno	Similitud entre vectores	Comparación semántica de documentos en espacio TF-IDF
k-NN	Clasificación por vecinos cercanos	Clasificación de textos por dominio o tema
BM25	Ranking de relevancia	Búsqueda de pasajes relevantes en corpus
TF-IDF	Ponderación de términos	Identificación de palabras clave
Regla de Rosenblatt	Aprendizaje del perceptrón	Clasificación binaria supervisada (módulo posterior)
Análisis argumentativo	Estructura lógica	Extracción de premisas y conclusiones

Lo que CLARA sí puede hacer

✅ Tokenizar y lematizar texto en español e inglés con diccionarios curados.
✅ Calcular similitud semántica entre textos mediante Jaccard y coseno.
✅ Clasificar textos por dominio temático usando k-NN.
✅ Extraer palabras clave mediante TF-IDF.
✅ Identificar conectores retóricos y clasificar su función argumentativa.
✅ Buscar pasajes relevantes en un corpus mediante BM25.
✅ Parafrasear léxicamente mediante sustitución por sinónimos controlada.
✅ Resumir extractivamente seleccionando las oraciones más relevantes.
✅ Mostrar todos los cálculos en tiempo real: pesos, distancias, activaciones.

Lo que CLARA no puede hacer (y por qué)

La honestidad intelectual exige delimitar con claridad lo que una herramienta no puede lograr. CLARA no es un modelo de lenguaje grande (LLM), ni pretende serlo. Sus limitaciones son estructurales, no accidentales:

❌ No genera texto coherente a partir de cero. Requiere un texto de entrada sobre el cual operar. La generación creativa exige modelos autoregresivos (tipo GPT) con miles de millones de parámetros, imposibles de ejecutar en un navegador.
❌ No parafrasea con calidad literaria. La sustitución léxica por sinónimos puede producir resultados torpes. La reformulación elegante requiere comprensión contextual profunda.
❌ No traduce con calidad profesional. Las traducciones son aproximaciones basadas en diccionarios, no en modelos seq2seq.
❌ No responde preguntas complejas. Puede extraer oraciones relevantes, pero no sintetizar respuestas nuevas a partir de múltiples fuentes.
❌ No detecta ironía, sarcasmo o dobles sentidos. Requiere comprensión pragmática del contexto cultural.
❌ No reemplaza el juicio humano. Es una herramienta de apoyo, no un sustituto del análisis crítico.

Esta delimitación no es una debilidad, sino una fortuna epistemológica: al saber exactamente qué puede y qué no puede hacer, el usuario puede confiar en sus resultados dentro de los márgenes correctos. Es el equivalente algorítmico de la duda razonable del derecho penal: mejor decir «no lo sé» que afirmar con falsa certeza.

Conexión con el Perceptrón Multicapa

La arquitectura de CLARA está inspirada conceptualmente en el artículo sobre el Perceptrón Multicapa. Así como el MLP resuelve el problema XOR mediante un equipo de especialistas (dos neuronas ocultas que detectan aspectos complementarios, coordinadas por una neurona de salida), CLARA aborda el análisis de texto mediante múltiples módulos especializados:

Especialista léxico: analiza palabras, frecuencias, dominios.
Especialista estructural: analiza conectores, premisas, conclusiones.
Especialista semántico: calcula similitudes con corpus de referencia.
Coordinador: integra los dictámenes de los especialistas en un análisis unificado.

La diferencia fundamental con el Perceptrón Multicapa es que CLARA no aprende automáticamente sus pesos: los diccionarios están curados manualmente, y los algoritmos son deterministas. Esta decisión es deliberada: sacrifica capacidad de generalización a cambio de transparencia total. Cada peso, cada conexión, cada activación puede ser explicada al usuario.

Tres componentes didácticos complementarios

Para comprender cabalmente el procesamiento de lenguaje natural y las redes neuronales, CLARA ofrece tres componentes didácticos, cada uno con un propósito específico y un nivel de complejidad progresivo:

Prototipo Funcional (Fase 4 — en desarrollo): Muestra el pipeline NLP completo con transparencia radical: tokenización, lematización, filtrado de stopwords, cálculo de TF-IDF y medidas de similitud (Jaccard y coseno). Ideal para comprender los fundamentos del procesamiento de texto sin la complejidad de las redes neuronales.
🔍 Acceder al Prototipo en Español · 🔍 Access the Prototype in English
MLP XOR Solver (complemento pedagógico): Demuestra de forma independiente cómo un Perceptrón Multicapa resuelve el problema XOR mediante un equipo de especialistas. Es un ejercicio clásico de redes neuronales, no conectado al prototipo CLARA, pero esencial para comprender el funcionamiento de capas ocultas, pesos, sesgos y funciones de activación.
🏛️ Ver MLP XOR Solver en Español · 🏛️ View MLP XOR Solver in English
CLARA + MLP Integrado (Fase 4.5 — planificada): Componente futuro que combinará ambos mundos: el prototipo procesará textos y generará vectores TF-IDF, que luego serán clasificados por un Perceptrón Multicapa entrenado en vivo mediante backpropagation. Cada peso, cada activación y cada decisión serán visibles y debatibles, realizando plenamente la promesa de transparencia radical.
Esta integración se desarrollará cuando el diseño pedagógico y técnico esté suficientemente maduro. El objetivo es superar lo prometido: que el usuario no solo observe, sino que participe activamente en el aprendizaje de la máquina.

El usuario que lea el artículo sobre el Perceptrón Multicapa encontrará en el MLP XOR Solver una demostración didáctica inmediata, y en la futura Fase 4.5 la integración completa con el procesamiento de lenguaje natural de CLARA. Ambos componentes son complementarios, no idénticos: el XOR es el «alfabeto» de las redes neuronales; la integración futura será la «sintaxis avanzada» aplicada al lenguaje.

Arquitectura de dos niveles: CLARA como núcleo, no como frontera

CLARA está diseñada desde su concepción con una arquitectura de dos niveles que preserva su principio fundacional (transparencia radical) mientras permite ampliar sus capacidades mediante un backend complementario. Esta decisión arquitectónica es fundamental: CLARA es el núcleo, no la frontera.

El principio: complementariedad sin opacidad

El nivel superior (navegador, JavaScript puro) realiza siempre las operaciones visibles: tokenización, lematización, Jaccard, coseno, TF-IDF, k-NN. Cada peso, cada distancia, cada decisión es auditable por el usuario. Opcionalmente, CLARA puede solicitar asistencia a un nivel inferior (backend Python local o remoto) para tareas que exceden sus capacidades nativas: paráfrasis de calidad, traducción profesional, generación controlada, detección de ironía.

El principio arquitectónico es simple: esa asistencia externa no reemplaza el análisis de CLARA, lo complementa, y además hereda el mandato de transparencia: el backend debe devolver no solo el resultado, sino los fundamentos —criterios de selección, alternativas descartadas, nivel de confianza, modelo utilizado.

Hoja de ruta ampliada

El desarrollo de CLARA se organiza en fases progresivas. La arquitectura de dos niveles está prevista desde el inicio, pero su implementación se aborda cuando las capacidades nativas estén sólidamente establecidas:

Fase 1 — Infraestructura: plantilla del blog, sistema de diccionarios alojados en páginas estáticas, función de carga JSON. (Completada)
Fase 2 — Diccionarios base: stopwords, lemas, conectores, dominios en español e inglés. (Completada)
Fase 3 — Diccionarios avanzados: léxico principal y tesauro semántico en ambos idiomas. (Completada)
Fase 4 — Prototipo funcional: emulador standalone que implemente tokenización, lematización, similitud Jaccard/coseno y visualización en tiempo real. (En desarrollo — páginas estáticas ES/EN)
Fase 4.5 — Módulo Perceptrón Multicapa: implementación de red neuronal con una capa oculta para clasificación binaria, utilizando los vectores TF-IDF del prototipo como entrada. Mostrará pesos, activaciones y proceso de entrenamiento con transparencia radical. (Planificada)
Fase 5 — Puerto JSON: implementación del contrato de comunicación con backend Python. Estructura de mensajes, validación de respuestas, panel de fundamentos. (Prevista en arquitectura)
Fase 6 — Backend complementario: servidor Python con spaCy, WordNet y modelos pequeños para paráfrasis, traducción y NER. Siempre con bloque de fundamentos obligatorio.
Fase 7 — Capa profunda: análisis argumentativo, extracción de premisas y conclusiones, búsqueda de respaldo, evaluación de coherencia.
Fase 8 — Integración: herramienta embebida en el blog, accesible desde cualquier entrada, con modo offline y modo asistido por backend.

Prototipo Funcional

El Prototipo Funcional de CLARA es un emulador standalone que demuestra el procesamiento de lenguaje natural con transparencia radical. Ingresa dos textos y observa cada paso del análisis: tokenización, lematización, filtrado de stopwords, cálculo de TF-IDF, y medidas de similitud (Jaccard y coseno).

Acceso al prototipo:

Nota importante: El prototipo no incluye Perceptrón Multicapa. Ese será un módulo posterior (Fase 4.5) que aprovechará los datos procesados por el prototipo.

Tablero de control: diccionarios implementados

Diccionario	ES	EN	Entradas	Estado
Stopwords	ES	EN	284 / 176	✅ Completado
Lemas	ES	EN	302 / 198	✅ Completado
Léxico	ES	EN	~135* / 160	✅ Completado
Tesauro	ES	EN	~72 / ~72	✅ Completado
Conectores	ES	EN	52 / 50	✅ Completado
Dominios	Multilingüe		30	✅ Completado

📋 Total: 11 diccionarios · ~1.331 entradas curadas manualmente · Herramienta de depuración

* El léxico ES contiene duplicados que serán eliminados en la fase de consolidación.

Compromiso con la excelencia

CLARA es un proyecto de largo plazo, desarrollado en tiempo intermitente. No busca competir con herramientas comerciales ni con modelos de lenguaje de última generación. Su valor reside en tres principios:

Transparencia: cada cálculo es visible y explicable, sin cajas negras.
Accesibilidad: funciona en cualquier navegador, sin instalación, sin dependencias externas, incluso en equipos antiguos.
Pedagogía: diseñado para que estudiantes, profesionales del derecho y cientistas sociales comprendan los fundamentos del procesamiento de lenguaje natural, viendo cada paso del proceso.

Si compartes estos principios, bienvenido a CLARA.

Jorge Verón Schenone
Junio de 2026

CLARAClear: Radical transparency in natural language processing

«Let every calculation be visible, every weight debatable, every decision well-founded.»

C.L.A.R.A. (Clear Lexical Analysis & Reasoning Aid) is a natural language processing project developed in pure JavaScript, with a deliberately counterintuitive goal in the age of language models: radical transparency. Every operation it performs —every token, every weight, every calculated distance— is visible, explainable, and debatable by the user.

This project is born from a philosophical conviction: at a time when machines make increasingly opaque decisions about people (algorithmic recommendations, credit scoring, automated medical diagnoses), we need tools that allow us to see how they think, not just what they answer. It is the same conviction that motivated the article «Beliefs in Transformation» about Rosenblatt's Perceptron: understanding the alphabet before facing the novel.

Two layers of analysis: the superficial and the deep

The name Clear Lexical Analysis & Reasoning Aid is not accidental. It reflects the two layers that CLARA implements, inspired by the metaphor of the team of specialists developed in the article on the Multilayer Perceptron:

Superficial layer: lexical analysis

Like an expert examining material evidence, CLARA analyzes the text on its surface:

Tokenization: separation of text into lexical units.
Lemmatization: reduction of inflected words to their base form (analyzed → analyze).
Stopword filtering: removal of function words (articles, prepositions) that provide structure but not content.
Morphological classification: identification of nouns, adjectives, verbs, and connectors.
Domain identification: detection of the thematic field (juridical, academic, scientific, etc.).
Frequency calculation: TF-IDF to weight the relevance of each term.

Deep layer: argumentative analysis

Like a judge evaluating the strength of arguments, CLARA examines the logical structure of the text:

Premise identification: detection of the base assertions of the argument.
Conclusion extraction: identification of the theses being sustained.
Rhetorical connector mapping: classification of logical relationships (causal, adversative, consecutive).
Support search: comparison with reference corpus through semantic similarity.
Coherence evaluation: detection of internal contradictions or formal fallacies.

Implemented algorithms

CLARA uses classical information retrieval and natural language processing algorithms, all implemented in pure JavaScript without external dependencies. The choice of classical algorithms is not accidental: they are methods whose operation can be completely explained —there are no inscrutable weight matrices or unmanageable attention mechanisms:

Algorithm	Function	Application in CLARA
Jaccard	Similarity between sets	Quick comparison of vocabularies between texts
Cosine	Similarity between vectors	Semantic comparison of documents in TF-IDF space
k-NN	Classification by nearest neighbors	Text classification by domain or topic
BM25	Relevance ranking	Search for relevant passages in corpus
TF-IDF	Term weighting	Identification of keywords
Rosenblatt's Rule	Perceptron learning	Supervised binary classification (future module)
Argumentative Analysis	Logical structure	Extraction of premises and conclusions

What CLARA can do

✅ Tokenize and lemmatize text in Spanish and English with curated dictionaries.
✅ Calculate semantic similarity between texts using Jaccard and cosine.
✅ Classify texts by thematic domain using k-NN.
✅ Extract keywords through TF-IDF.
✅ Identify rhetorical connectors and classify their argumentative function.
✅ Search for relevant passages in a corpus using BM25.
✅ Lexically paraphrase through controlled synonym substitution.
✅ Extractively summarize by selecting the most relevant sentences.
✅ Show all calculations in real time: weights, distances, activations.

What CLARA cannot do (and why)

Intellectual honesty requires clearly delimiting what a tool cannot achieve. CLARA is not a large language model (LLM), nor does it pretend to be. Its limitations are structural, not accidental:

❌ It does not generate coherent text from scratch. It requires an input text to operate on. Creative generation demands autoregressive models (GPT-type) with billions of parameters, impossible to run in a browser.
❌ It does not paraphrase with literary quality. Lexical substitution by synonyms can produce clumsy results. Elegant reformulation requires deep contextual understanding.
❌ It does not translate with professional quality. Translations are dictionary-based approximations, not seq2seq models.
❌ It does not answer complex questions. It can extract relevant sentences, but not synthesize new answers from multiple sources.
❌ It does not detect irony, sarcasm, or double meanings. It requires pragmatic understanding of cultural context.
❌ It does not replace human judgment. It is a support tool, not a substitute for critical analysis.

This delimitation is not a weakness, but an epistemological fortune: by knowing exactly what it can and cannot do, the user can trust its results within the correct margins. It is the algorithmic equivalent of reasonable doubt in criminal law: better to say «I don't know» than to affirm with false certainty.

Connection with the Multilayer Perceptron

CLARA's architecture is conceptually inspired by the article on the Multilayer Perceptron. Just as the MLP solves the XOR problem through a team of specialists (two hidden neurons that detect complementary aspects, coordinated by an output neuron), CLARA approaches text analysis through multiple specialized modules:

Lexical specialist: analyzes words, frequencies, domains.
Structural specialist: analyzes connectors, premises, conclusions.
Semantic specialist: calculates similarities with reference corpus.
Coordinator: integrates the specialists' opinions into a unified analysis.

The fundamental difference with the Multilayer Perceptron is that CLARA does not automatically learn its weights: the dictionaries are manually curated, and the algorithms are deterministic. This decision is deliberate: it sacrifices generalization capacity in exchange for total transparency. Every weight, every connection, every activation can be explained to the user.

Three complementary didactic components

To fully understand natural language processing and neural networks, CLARA offers three didactic components, each with a specific purpose and progressive level of complexity:

Functional Prototype (Phase 4 — in development): Shows the complete NLP pipeline with radical transparency: tokenization, lemmatization, stopword filtering, TF-IDF calculation, and similarity measures (Jaccard and cosine). Ideal for understanding the fundamentals of text processing without the complexity of neural networks.
🔍 Access the Prototype in Spanish · 🔍 Access the Prototype in English
MLP XOR Solver (pedagogical complement): Independently demonstrates how a Multilayer Perceptron solves the XOR problem through a team of specialists. It is a classic neural network exercise, not connected to the CLARA prototype, but essential for understanding hidden layers, weights, biases, and activation functions.
🏛️ View MLP XOR Solver in Spanish · 🏛️ View MLP XOR Solver in English
Integrated CLARA + MLP (Phase 4.5 — planned): Future component that will combine both worlds: the prototype will process texts and generate TF-IDF vectors, which will then be classified by a Multilayer Perceptron trained live via backpropagation. Every weight, every activation, and every decision will be visible and debatable, fully fulfilling the promise of radical transparency.
This integration will be developed when the pedagogical and technical design is sufficiently mature. The goal is to exceed what was promised: that the user not only observes, but actively participates in the machine's learning.

Users who read the article on the Multilayer Perceptron will find in the MLP XOR Solver an immediate didactic demonstration, and in the future Phase 4.5 the complete integration with CLARA's natural language processing. Both components are complementary, not identical: XOR is the "alphabet" of neural networks; the future integration will be the "advanced syntax" applied to language.

Two-tier architecture: CLARA as core, not frontier

CLARA is designed from its conception with a two-tier architecture that preserves its foundational principle (radical transparency) while allowing its capabilities to be expanded through a complementary backend. This architectural decision is fundamental: CLARA is the core, not the frontier.

The principle: complementarity without opacity

The upper tier (browser, pure JavaScript) always performs visible operations: tokenization, lemmatization, Jaccard, cosine, TF-IDF, k-NN. Every weight, every distance, every decision is auditable by the user. Optionally, CLARA can request assistance from a lower tier (local or remote Python backend) for tasks that exceed its native capabilities: quality paraphrasing, professional translation, controlled generation, irony detection.

The architectural principle is simple: this external assistance does not replace CLARA's analysis, it complements it, and furthermore inherits the mandate of transparency: the backend must return not only the result, but the fundamentals —selection criteria, discarded alternatives, confidence level, model used.

Expanded roadmap

CLARA's development is organized in progressive phases. The two-tier architecture is planned from the start, but its implementation is addressed once the native capabilities are solidly established:

Phase 1 — Infrastructure: blog template, dictionary system hosted on static pages, JSON loading function. (Completed)
Phase 2 — Base dictionaries: stopwords, lemmas, connectors, domains in Spanish and English. (Completed)
Phase 3 — Advanced dictionaries: main lexicon and semantic thesaurus in both languages. (Completed)
Phase 4 — Functional prototype: standalone emulator implementing tokenization, lemmatization, Jaccard/cosine similarity, and real-time visualization. (In development — static pages ES/EN)
Phase 4.5 — Multilayer Perceptron module: implementation of a neural network with one hidden layer for binary classification, using the prototype's TF-IDF vectors as input. It will display weights, activations, and the training process with radical transparency. (Planned)
Phase 5 — JSON bridge: implementation of the communication contract with Python backend. Message structure, response validation, fundamentals panel. (Planned in architecture)
Phase 6 — Complementary backend: Python server with spaCy, WordNet, and small models for paraphrasing, translation, and NER. Always with mandatory fundamentals block.
Phase 7 — Deep layer: argumentative analysis, extraction of premises and conclusions, support search, coherence evaluation.
Phase 8 — Integration: tool embedded in the blog, accessible from any entry, with offline mode and backend-assisted mode.

Functional Prototype

The CLARA Functional Prototype is a standalone emulator that demonstrates natural language processing with radical transparency. Enter two texts and observe each step of the analysis: tokenization, lemmatization, stopword filtering, TF-IDF calculation, and similarity measures (Jaccard and cosine).

Access the prototype:

Important note: The prototype does not include a Multilayer Perceptron. That will be a subsequent module (Phase 4.5) that leverages the data processed by the prototype.

Dashboard: implemented dictionaries

Dictionary	ES	EN	Entries	Status
Stopwords	ES	EN	284 / 176	✅ Completed
Lemmas	ES	EN	302 / 198	✅ Completed
Lexicon	ES	EN	~135* / 160	✅ Completed
Thesaurus	ES	EN	~72 / ~72	✅ Completed
Connectors	ES	EN	52 / 50	✅ Completed
Domains	Multilingual		30	✅ Completed

📋 Total: 11 dictionaries · ~1,331 manually curated entries · Debug tool

* The ES lexicon contains duplicates that will be removed during the consolidation phase.

Commitment to excellence

CLARA is a long-term project, developed in intermittent time. It does not seek to compete with commercial tools or state-of-the-art language models. Its value lies in three principles:

Transparency: every calculation is visible and explainable, with no black boxes.
Accessibility: it works in any browser, without installation, without external dependencies, even on old equipment.
Pedagogy: designed so that students, law professionals, and social scientists can understand the foundations of natural language processing, seeing each step of the process.

If you share these principles, welcome to CLARA.

Jorge Verón Schenone
June 2026