./Inicio./Bio./Proyectos./Tutoriales./Blog./Noticias
>root@barbarita:~/blog/karpathy-llm-knowledge-bases

Andrej Karpathy y las LLM Knowledge Bases_

Un nuevo paradigma para gestionar conocimiento con inteligencia artificial.


cat ./quien-es-karpathy.md

Andrej Karpathy es uno de los investigadores más influyentes en inteligencia artificial del mundo. Fue co-fundador de OpenAI (la empresa detrás de ChatGPT), luego se convirtió en Director de AI en Tesla, donde lideró el desarrollo de Autopilot — el sistema de conducción autónoma. Tiene un PhD en Stanford bajo la supervisión de Fei-Fei Li, una de las pioneras en visión computacional.

Karpathy es también conocido por acuñar el término "vibe coding" — la práctica de programar de forma intuitiva con ayuda de LLMs, dejando que la IA genere código mientras tú diriges la visión general. Actualmente trabaja como investigador independiente, y el 3 de abril de 2026 compartió una idea que está transformando la conversación sobre cómo usamos los LLMs.

cat ./que-son-llm-kb.md

El problema que todos conocemos: cada vez que abres una conversación con un LLM (como ChatGPT o Claude), empiezas desde cero. No hay memoria persistente. Si trabajaste 3 horas construyendo contexto y se te acaba la sesión, al día siguiente tienes que reconstruir todo ese entendimiento desde cero. Karpathy lo describe como una "lobotomía del proyecto".

La solución tradicional de la industria es RAG (Retrieval-Augmented Generation): tomas documentos, los conviertes en vectores numéricos (embeddings), los metes en una base de datos vectorial, y cuando haces una pregunta, el sistema busca los fragmentos más parecidos y se los pasa al LLM. Funciona, pero es complejo, opaco (no puedes "ver" qué sabe el sistema), y para datasets medianos es excesivo.

Karpathy propone algo radicalmente más simple: en vez de que el LLM solo busque información, que la compile, la estructure y la mantenga en una wiki de archivos Markdown. El LLM actúa como un bibliotecario a tiempo completo: lee fuentes crudas, escribe artículos enciclopédicos, crea enlaces entre conceptos, y mantiene todo actualizado.

"Una gran fracción de mi consumo reciente de tokens va menos a manipular código, y más a manipular conocimiento."

— Andrej Karpathy, 2026-04-03

cat ./arquitectura.svg

CICLO CONTINUO — LLM KNOWLEDGE BASES01 INGEST📂 raw/Papers, repos, artículos📎 Web ClipperObsidian → .md + imgsfeeds02 COMPILE🤖 LLM CompilerLee raw/ → escribe wiki/Sumarios · Backlinks · ArtículosÍndices · Categorías · Conceptosgenera📝 wiki/~100 artículos~400K palabrasMarkdown = fuente de verdad03 QUERY🔍 Agente Q&ANavega wiki, sigue links, sintetizalee.md filesSlidesChartsHTMLoutput↻ outputs se archivan de vuelta en wiki/ — el conocimiento se acumula04 LINT (HEALTH CHECKS)🩺 LLM LinterInconsistencias · datos faltantes · nuevas conexiones🛠 CLI ToolsSearch · Vibe-codedOBSIDIAN = Frontend IDE del conocimientoBasado en: Andrej Karpathy — "LLM Knowledge Bases" (Abril 2026)

ls ./como-funciona/

01
Ingestión de datos
Se recopilan fuentes crudas: papers académicos, repositorios de GitHub, datasets, artículos web. Todo va a una carpeta raw/. Para capturar artículos web se usa el Web Clipper de Obsidian, que convierte páginas a Markdown y descarga las imágenes localmente.
02
Compilación por el LLM
Aquí está la innovación central. El LLM no solo indexa los archivos — los compila. Lee todo en raw/ y escribe artículos wiki estructurados: resúmenes, artículos enciclopédicos por concepto, backlinks entre ideas relacionadas, índices navegables. El LLM es el autor principal de la wiki, tú casi nunca la editas manualmente.
03
Consultas complejas (Q&A)
Cuando la wiki tiene masa crítica (~100 artículos, ~400K palabras), puedes hacer preguntas complejas. Un agente LLM navega la wiki, sigue enlaces, cruza referencias entre múltiples artículos y sintetiza respuestas. Los resultados se generan como archivos Markdown, presentaciones, gráficos o HTML interactivo — y se archivan de vuelta en la wiki.
04
Linting (mantenimiento)
El LLM ejecuta "health checks" periódicos sobre toda la wiki: detecta inconsistencias, completa datos faltantes usando búsqueda web, identifica conexiones que no se habían hecho, y sugiere candidatos para nuevos artículos. La wiki se auto-repara y mejora con el tiempo.

echo ./analogia.txt

Karpathy describe su sistema usando una analogía poderosa del mundo de la programación:

raw/
=
Código fuente
LLM
=
Compilador
Wiki
=
Ejecutable
Health checks
=
Test suite
Queries
=
Runtime

cat ./por-que-importa.md

Transparencia total: A diferencia de las bases vectoriales donde la información es opaca (embeddings numéricos que un humano no puede leer), aquí cada afirmación del LLM se puede trazar a un archivo .md específico que cualquier persona puede abrir, leer, editar o borrar.

Simplicidad radical: No necesitas bases de datos vectoriales, ni pipelines de embeddings ni infraestructura compleja. Con ~100 documentos de alta señal, los LLMs actuales navegan eficientemente usando índices y resúmenes que ellos mismos mantienen.

Futuro: Karpathy plantea que el siguiente paso natural es usar la wiki para generar datos sintéticos de entrenamiento y hacer fine-tuning — literalmente convertir una base de conocimiento personal en un modelo personalizado que "sepa" tu dominio en sus pesos.

root@emercom:~/cerebro-digital $

diff karpathy emercom

Lo que Karpathy presentó en abril de 2026 es un patrón que en EMERCOM ya veníamos construyendo: nuestro sistema de Cerebro Digital. La arquitectura es esencialmente la misma — captura deliberada de conocimiento, procesamiento con IA, y acumulación estructurada en Obsidian.

KARPATHY
EMERCOM
raw/ directory
Telegram como interfaz de entrada
Obsidian Web Clipper
n8n workflows de captura
LLM compila wiki
Gemini/Claude procesan y estructuran
Markdown + Obsidian
Obsidian + GitHub como vault
CLI tools vibe-coded
Bots de Telegram + n8n automations
Health checks / Linting
Workflows de validación automática
Conocimiento acumulativo
Conocimiento acumulativo

La diferencia principal es que Karpathy usa el LLM como el compilador central de toda la wiki, mientras que nuestro Cerebro Digital distribuye el procesamiento entre n8n (orquestación), Gemini/Claude (procesamiento de IA), y Telegram (interfaz humana). Pero el insight fundamental es idéntico:

Dejar de usar la IA como un buscador glorificado y empezar a usarla como infraestructura de conocimiento — donde cada interacción suma, nada se pierde, y el sistema mejora con el tiempo.

Que uno de los investigadores de IA más respetados del mundo llegue a la misma conclusión valida el camino que ya estamos recorriendo. Lo que para Karpathy es todavía "una colección hacky de scripts", en mi empresa, EMERCOM, lo estamos convirtiendo en metodología replicable para nuestros clientes.