La trampa del ISBN

(rygoldstein.com)

8 puntos por GN⁺ 2026-02-21 | 4 comentarios | Compartir por WhatsApp

Mientras intentaba crear una app de registro de libros limpia y práctica, al estilo de Letterboxd para películas, el principal obstáculo resultó ser un problema estructural del sistema ISBN
Descubrió que la Google Books API para la función de búsqueda de libros devuelve varias versiones de ISBN de una misma obra como entradas distintas
Esto se debe a que, en la estructura bibliográfica (modelo FRBR), se distinguen la ‘obra (work)’, la ‘expresión (expression)’ y la ‘manifestación (manifestation)’, por lo que los datos están demasiado fragmentados incluso cuando el usuario solo quiere registrar que ‘leyó un libro’
Aunque OpenLibrary ofrece una estructura de datos centrada en la ‘obra’, todavía existen duplicados e incompletitud, así que no logra ser una alternativa completa
A diferencia de la base de datos de películas TMDB, en el ámbito de los libros no existe una infraestructura de metadatos públicos de alta calidad, lo que se convierte en un gran obstáculo para desarrollar plataformas sociales centradas en libros

Comparación entre Letterboxd y las plataformas de libros

Letterboxd permite gestionar fácilmente el registro de películas vistas gracias a su interfaz limpia y sus funciones sociales no intrusivas
- Los usuarios pueden anotar de forma simple qué película vieron y cuándo
En cambio, GoodReads hace incómodo registrar libros debido a una UI compleja y una estructura de clics en varias capas
- ‘Libros leídos’ y ‘libros por leer’ aparecen mezclados en una misma pantalla, y elementos extra como retos de lectura y newsletters ocupan espacio
- La razón de que GoodReads sea tan incómodo es que es un producto derivado de baja prioridad dentro del negocio de venta de libros de Amazon
Storygraph también tiene problemas similares, por lo que al final los usuarios terminan gestionando sus registros personales en archivos de Obsidian

Google Books API y el problema del ISBN

Para crear la función de búsqueda de libros se utilizó la Google Books API, pero apareció el fenómeno de que una misma obra se encuentra duplicada bajo varios ISBN
- Por ejemplo, si se busca “The Last Unicorn”, aparecen por separado tapa dura, libro de bolsillo, eBook, edición revisada, etc., cada uno con un ISBN distinto
Cada ISBN representa un formato o edición diferente, pero el usuario solo quiere registrar el hecho de que ‘leyó un libro’
Esta estructura dificulta la búsqueda y la integración de datos, por lo que no es adecuada para construir un sistema de registro basado en una obra única

El modelo FRBR y el enfoque por ‘obra’

El modelo FRBR usado en bibliotecología divide los datos bibliográficos en cuatro niveles
- Work (obra): la creación abstracta en sí (ej.: la novela "The Last Unicorn")
- Expression (expresión): una edición específica
- Manifestation (manifestación): el formato físico de una edición específica (libro de bolsillo, tapa dura, etc.)
- Item (ítem): un objeto físico individual dentro de una colección
Google Books devuelve sobre todo datos a nivel de ‘expresión’ o ‘manifestación’, pero los usuarios necesitan una unidad abstracta a nivel de ‘obra’
OpenLibrary ofrece una estructura de datos centrada en la ‘obra’, pero aun así sigue habiendo entradas duplicadas
- Ej.: al buscar Hotel Iris de Yoko Ogawa, la misma obra aparece duplicada cuatro veces

Calidad de los datos y límites del ecosistema

Letterboxd funciona sobre The Movie Database (TMDB), y TMDB posee datos de alrededor de 1 millón de películas
En cambio, OpenLibrary incluye más de 40 millones de obras, pero muchos de sus datos son incompletos y no están bien depurados
Los datos de películas tienen mayor calidad porque combinan plataformas comerciales y aportes de la comunidad, mientras que los datos de libros tienen una escala mucho mayor y menos financiamiento
Como resultado, no existe la base de datos necesaria para crear un servicio tipo Letterboxd centrado en libros

Conclusión e intentos futuros

Como no existe una infraestructura de metadatos bibliográficos open source completa, desarrollar una plataforma de registro de libros es una tarea mucho más difícil que en el cine
El autor todavía planea seguir intentando construir un sistema independiente de registro de libros
Al igual que la experiencia de descubrir gustos cinematográficos, el registro de lectura también necesita un enfoque personalizado

4 comentarios

nemorize 2026-02-21

Claro... el ISBN es un identificador de publicaciones, no un identificador del contenido...
El título es demasiado clickbait jajaja

roxie 2026-02-27

Parece que el espacio del identificador del contenido está vacío :(

yeobi222 2026-02-22

También es cierto que el sistema ISBN no considera demasiado una clasificación verdaderamente sistemática...
Según las reglas, a cada reimpresión se le debe asignar un número por separado, pero como la categoría más baja termina siendo la editorial, a pesar de la necesidad de clasificar por obra, no es fácil de gestionar.

GN⁺ 2026-02-21

Comentarios en Hacker News

Me recuerda a la estructura de base de datos de MusicBrainz
Por ejemplo, el álbum Nevermind de Nirvana es un solo release group, pero existen distintas versiones en cinta, CD, LP, promocionales y reediciones por país
En algunos casos se distinguen por número de catálogo o código de barras, pero en otros, aunque tengan el mismo código, en realidad son versiones diferentes
Incluso una misma grabación puede variar por remasterización, edición o censura
MusicBrainz rastrea estas diferencias con mucho detalle y distingue claramente si se trata o no de la misma grabación
En casos como versiones de otras canciones o standards grabados por varios artistas, enlaza la información de compositor y letrista a nivel de work
Este tipo de diseño refinado de base de datos relacional me parece muy útil para registrar la identidad y las diferencias entre obras creativas
Enlace relacionado
- Últimamente también existe una base de datos para libros llamada BookBrainz, que está operando en versión alfa
  bookbrainz.org/about
  Si usa un esquema similar al de MusicBrainz, espero que sea muy fácil extraer datos
- Una vez intenté registrar en MusicBrainz un CD del doble concierto para violín de Bach y tuve un error de indexación de CD-ID
  Me hice una cuenta, subí los datos yo mismo y, tras varias correcciones, logré registrarlo
  Encontré y usé como referencia la información del mismo CD en su edición australiana en un sitio web chino, y eso me hizo darme cuenta de que existen versiones ligeramente distintas según el mercado
  Siento mucha empatía con el equipo de MusicBrainz en que la gente es demasiado descuidada al actualizar los “identificadores únicos”
- El álbum In My Tribe de 10000 Maniacs es un buen ejemplo
  La edición de 1987 y la de 1989 (la versión sin “Peace Train”) tenían el mismo número UPC
  Recuerdo que a mediados de los 90 me costó trabajo encontrar en tiendas de discos usados la versión anterior a la eliminación
- Hace poco escaneé códigos de barras de CDs y MusicBrainz reconoció entre 90 y 95%
  El resto era confuso porque había varias versiones con distinto número de pistas según la región
  Si hubiera existido una función para indicar la información de artista por pista, creo que la precisión de búsqueda habría sido mayor
- En el caso de libros publicados a través de Kindle Press, el ISBN es el mismo, pero existen al menos 3 revisiones oficiales y varias revisiones menores
  Incluso si la diferencia es solo corregir erratas, es difícil distinguirlas
Wikidata es una base de datos abierta compatible con FRBR, y en los últimos años la calidad relacionada con libros ha mejorado mucho
Hotel Iris de Yoko Ogawa, que se puso como ejemplo, no es la misma obra sino distintas traducciones
Una traducción debería verse como una obra derivada distinta del original
Aun así, la lista está mezclada y tiene muchos errores
- En FRBR, las traducciones normalmente también se consideran la misma obra (work)
  En OpenLibrary se agrupan bajo un solo work, y la información de idioma y traductor se guarda en la edición
  El duplicado actual parece ser un problema surgido en el proceso de fusión automática por idioma
- Aunque se considere la traducción como un derivado separado, al buscar debería agruparse bajo una sola entidad
  Lo ideal es que el usuario pueda explorar juntos el original y las traducciones
Recomiendo LibraryThing
Me parece mucho mejor que Goodreads
Es importante distinguir la estructura WEMI (work, expression, manifestation, item) de un libro
“Leí Don Quijote” es algo a nivel work, mientras que “mi libro tiene una mancha de café” es algo a nivel item
En una competencia de lectura a nivel estatal, los libros se gestionaban solo por ISBN y eso hacía difícil que los estudiantes los encontraran
Así que usaron la base de datos de mapeo de ISBN de WorldCat para agregar un join SQL que conectara otros ISBN del mismo contenido
Como resultado, durante 10 años los estudiantes leyeron más de un millón de libros adicionales
- Después siguió una pregunta sobre la consulta SQL
Anna’s Archive ha contribuido mucho a organizar datos relacionados con ISBN
Aprovechó scraping de WorldCat, y ahora también está construyendo una base de datos de ISSN (publicaciones periódicas)
En comparación con los libros, los datos de ISSN están muy incompletos
Se recuerda que Open Library surgió a partir del trabajo inicial de Brewster Kahle (fundador de Internet Archive) y Aaron Swartz
Blog relacionado
A veces veía un libro en una librería real, lo compraba y al llegar a casa descubría que ya tenía esa misma edición
Si hubiera podido buscar mi catálogo personal por ISBN, habría evitado esas compras duplicadas
- Alguien respondió que tiene cerca de mil libros electrónicos y sabe con certeza cuáles posee, así que eso no le pasa
Tuve la experiencia de crear como proyecto personal un sitio de gestión de libros usando la API de ISBNDB
Al buscar por título, los resultados eran muy complejos porque se mezclaban muchísimas ediciones, idiomas y tipos de encuadernación
Organicé los resultados con similitud de Jaccard, pero no fue perfecto
Estoy considerando OpenLibrary como alternativa
La app StoryGraph no me parece mala
Me gusta su interfaz porque toma en cuenta a los usuarios que quieren evitar funciones de IA
La búsqueda también es buena
- Hardcover.app también es una buena alternativa
  En lo personal la uso desde 2017 y la elegí con el objetivo de salir del oligopolio
El ISBN incluye un identificador de editorial, así que un mismo libro puede tener ISBN distintos según el mercado
- En Nueva Zelanda, el ISBN se emite a través de un servicio bibliotecario del gobierno y hay que registrar el nombre de la editorial
  Es un servicio gratuito, así que puede variar según el país
- Los ISBN los compran las editoriales o empresas en bloques y luego los asignan internamente a cada sello
  Así que el nombre de la editorial no aparece directamente, pero sí puede identificarse por la estructura