8 puntos por GN⁺ 2026-02-21 | 4 comentarios | Compartir por WhatsApp
  • Mientras intentaba crear una app de registro de libros limpia y práctica, al estilo de Letterboxd para películas, el principal obstáculo resultó ser un problema estructural del sistema ISBN
  • Descubrió que la Google Books API para la función de búsqueda de libros devuelve varias versiones de ISBN de una misma obra como entradas distintas
  • Esto se debe a que, en la estructura bibliográfica (modelo FRBR), se distinguen la ‘obra (work)’, la ‘expresión (expression)’ y la ‘manifestación (manifestation)’, por lo que los datos están demasiado fragmentados incluso cuando el usuario solo quiere registrar que ‘leyó un libro’
  • Aunque OpenLibrary ofrece una estructura de datos centrada en la ‘obra’, todavía existen duplicados e incompletitud, así que no logra ser una alternativa completa
  • A diferencia de la base de datos de películas TMDB, en el ámbito de los libros no existe una infraestructura de metadatos públicos de alta calidad, lo que se convierte en un gran obstáculo para desarrollar plataformas sociales centradas en libros

Comparación entre Letterboxd y las plataformas de libros

  • Letterboxd permite gestionar fácilmente el registro de películas vistas gracias a su interfaz limpia y sus funciones sociales no intrusivas
    • Los usuarios pueden anotar de forma simple qué película vieron y cuándo
  • En cambio, GoodReads hace incómodo registrar libros debido a una UI compleja y una estructura de clics en varias capas
    • ‘Libros leídos’ y ‘libros por leer’ aparecen mezclados en una misma pantalla, y elementos extra como retos de lectura y newsletters ocupan espacio
    • La razón de que GoodReads sea tan incómodo es que es un producto derivado de baja prioridad dentro del negocio de venta de libros de Amazon
  • Storygraph también tiene problemas similares, por lo que al final los usuarios terminan gestionando sus registros personales en archivos de Obsidian

Google Books API y el problema del ISBN

  • Para crear la función de búsqueda de libros se utilizó la Google Books API, pero apareció el fenómeno de que una misma obra se encuentra duplicada bajo varios ISBN
    • Por ejemplo, si se busca “The Last Unicorn”, aparecen por separado tapa dura, libro de bolsillo, eBook, edición revisada, etc., cada uno con un ISBN distinto
  • Cada ISBN representa un formato o edición diferente, pero el usuario solo quiere registrar el hecho de que ‘leyó un libro’
  • Esta estructura dificulta la búsqueda y la integración de datos, por lo que no es adecuada para construir un sistema de registro basado en una obra única

El modelo FRBR y el enfoque por ‘obra’

  • El modelo FRBR usado en bibliotecología divide los datos bibliográficos en cuatro niveles
    • Work (obra): la creación abstracta en sí (ej.: la novela "The Last Unicorn")
    • Expression (expresión): una edición específica
    • Manifestation (manifestación): el formato físico de una edición específica (libro de bolsillo, tapa dura, etc.)
    • Item (ítem): un objeto físico individual dentro de una colección
  • Google Books devuelve sobre todo datos a nivel de ‘expresión’ o ‘manifestación’, pero los usuarios necesitan una unidad abstracta a nivel de ‘obra’
  • OpenLibrary ofrece una estructura de datos centrada en la ‘obra’, pero aun así sigue habiendo entradas duplicadas
    • Ej.: al buscar Hotel Iris de Yoko Ogawa, la misma obra aparece duplicada cuatro veces

Calidad de los datos y límites del ecosistema

  • Letterboxd funciona sobre The Movie Database (TMDB), y TMDB posee datos de alrededor de 1 millón de películas
  • En cambio, OpenLibrary incluye más de 40 millones de obras, pero muchos de sus datos son incompletos y no están bien depurados
  • Los datos de películas tienen mayor calidad porque combinan plataformas comerciales y aportes de la comunidad, mientras que los datos de libros tienen una escala mucho mayor y menos financiamiento
  • Como resultado, no existe la base de datos necesaria para crear un servicio tipo Letterboxd centrado en libros

Conclusión e intentos futuros

  • Como no existe una infraestructura de metadatos bibliográficos open source completa, desarrollar una plataforma de registro de libros es una tarea mucho más difícil que en el cine
  • El autor todavía planea seguir intentando construir un sistema independiente de registro de libros
  • Al igual que la experiencia de descubrir gustos cinematográficos, el registro de lectura también necesita un enfoque personalizado

4 comentarios

 
nemorize 2026-02-21

Claro... el ISBN es un identificador de publicaciones, no un identificador del contenido...
El título es demasiado clickbait jajaja

 
roxie 2026-02-27

Parece que el espacio del identificador del contenido está vacío :(

 
yeobi222 2026-02-22

También es cierto que el sistema ISBN no considera demasiado una clasificación verdaderamente sistemática...
Según las reglas, a cada reimpresión se le debe asignar un número por separado, pero como la categoría más baja termina siendo la editorial, a pesar de la necesidad de clasificar por obra, no es fácil de gestionar.

 
GN⁺ 2026-02-21
Comentarios en Hacker News
  • Me recuerda a la estructura de base de datos de MusicBrainz
    Por ejemplo, el álbum Nevermind de Nirvana es un solo release group, pero existen distintas versiones en cinta, CD, LP, promocionales y reediciones por país
    En algunos casos se distinguen por número de catálogo o código de barras, pero en otros, aunque tengan el mismo código, en realidad son versiones diferentes
    Incluso una misma grabación puede variar por remasterización, edición o censura
    MusicBrainz rastrea estas diferencias con mucho detalle y distingue claramente si se trata o no de la misma grabación
    En casos como versiones de otras canciones o standards grabados por varios artistas, enlaza la información de compositor y letrista a nivel de work
    Este tipo de diseño refinado de base de datos relacional me parece muy útil para registrar la identidad y las diferencias entre obras creativas
    Enlace relacionado

    • Últimamente también existe una base de datos para libros llamada BookBrainz, que está operando en versión alfa
      bookbrainz.org/about
      Si usa un esquema similar al de MusicBrainz, espero que sea muy fácil extraer datos
    • Una vez intenté registrar en MusicBrainz un CD del doble concierto para violín de Bach y tuve un error de indexación de CD-ID
      Me hice una cuenta, subí los datos yo mismo y, tras varias correcciones, logré registrarlo
      Encontré y usé como referencia la información del mismo CD en su edición australiana en un sitio web chino, y eso me hizo darme cuenta de que existen versiones ligeramente distintas según el mercado
      Siento mucha empatía con el equipo de MusicBrainz en que la gente es demasiado descuidada al actualizar los “identificadores únicos”
    • El álbum In My Tribe de 10000 Maniacs es un buen ejemplo
      La edición de 1987 y la de 1989 (la versión sin “Peace Train”) tenían el mismo número UPC
      Recuerdo que a mediados de los 90 me costó trabajo encontrar en tiendas de discos usados la versión anterior a la eliminación
    • Hace poco escaneé códigos de barras de CDs y MusicBrainz reconoció entre 90 y 95%
      El resto era confuso porque había varias versiones con distinto número de pistas según la región
      Si hubiera existido una función para indicar la información de artista por pista, creo que la precisión de búsqueda habría sido mayor
    • En el caso de libros publicados a través de Kindle Press, el ISBN es el mismo, pero existen al menos 3 revisiones oficiales y varias revisiones menores
      Incluso si la diferencia es solo corregir erratas, es difícil distinguirlas
  • Wikidata es una base de datos abierta compatible con FRBR, y en los últimos años la calidad relacionada con libros ha mejorado mucho
    Hotel Iris de Yoko Ogawa, que se puso como ejemplo, no es la misma obra sino distintas traducciones
    Una traducción debería verse como una obra derivada distinta del original
    Aun así, la lista está mezclada y tiene muchos errores

    • En FRBR, las traducciones normalmente también se consideran la misma obra (work)
      En OpenLibrary se agrupan bajo un solo work, y la información de idioma y traductor se guarda en la edición
      El duplicado actual parece ser un problema surgido en el proceso de fusión automática por idioma
    • Aunque se considere la traducción como un derivado separado, al buscar debería agruparse bajo una sola entidad
      Lo ideal es que el usuario pueda explorar juntos el original y las traducciones
  • Recomiendo LibraryThing
    Me parece mucho mejor que Goodreads
    Es importante distinguir la estructura WEMI (work, expression, manifestation, item) de un libro
    “Leí Don Quijote” es algo a nivel work, mientras que “mi libro tiene una mancha de café” es algo a nivel item

  • En una competencia de lectura a nivel estatal, los libros se gestionaban solo por ISBN y eso hacía difícil que los estudiantes los encontraran
    Así que usaron la base de datos de mapeo de ISBN de WorldCat para agregar un join SQL que conectara otros ISBN del mismo contenido
    Como resultado, durante 10 años los estudiantes leyeron más de un millón de libros adicionales

    • Después siguió una pregunta sobre la consulta SQL
  • Anna’s Archive ha contribuido mucho a organizar datos relacionados con ISBN
    Aprovechó scraping de WorldCat, y ahora también está construyendo una base de datos de ISSN (publicaciones periódicas)
    En comparación con los libros, los datos de ISSN están muy incompletos

  • Se recuerda que Open Library surgió a partir del trabajo inicial de Brewster Kahle (fundador de Internet Archive) y Aaron Swartz
    Blog relacionado

  • A veces veía un libro en una librería real, lo compraba y al llegar a casa descubría que ya tenía esa misma edición
    Si hubiera podido buscar mi catálogo personal por ISBN, habría evitado esas compras duplicadas

    • Alguien respondió que tiene cerca de mil libros electrónicos y sabe con certeza cuáles posee, así que eso no le pasa
  • Tuve la experiencia de crear como proyecto personal un sitio de gestión de libros usando la API de ISBNDB
    Al buscar por título, los resultados eran muy complejos porque se mezclaban muchísimas ediciones, idiomas y tipos de encuadernación
    Organicé los resultados con similitud de Jaccard, pero no fue perfecto
    Estoy considerando OpenLibrary como alternativa

  • La app StoryGraph no me parece mala
    Me gusta su interfaz porque toma en cuenta a los usuarios que quieren evitar funciones de IA
    La búsqueda también es buena

    • Hardcover.app también es una buena alternativa
      En lo personal la uso desde 2017 y la elegí con el objetivo de salir del oligopolio
  • El ISBN incluye un identificador de editorial, así que un mismo libro puede tener ISBN distintos según el mercado

    • En Nueva Zelanda, el ISBN se emite a través de un servicio bibliotecario del gobierno y hay que registrar el nombre de la editorial
      Es un servicio gratuito, así que puede variar según el país
    • Los ISBN los compran las editoriales o empresas en bloques y luego los asignan internamente a cada sello
      Así que el nombre de la editorial no aparece directamente, pero sí puede identificarse por la estructura