- Mientras intentaba crear una app de registro de libros limpia y práctica, al estilo de Letterboxd para películas, el principal obstáculo resultó ser un problema estructural del sistema ISBN
- Descubrió que la Google Books API para la función de búsqueda de libros devuelve varias versiones de ISBN de una misma obra como entradas distintas
- Esto se debe a que, en la estructura bibliográfica (modelo FRBR), se distinguen la ‘obra (work)’, la ‘expresión (expression)’ y la ‘manifestación (manifestation)’, por lo que los datos están demasiado fragmentados incluso cuando el usuario solo quiere registrar que ‘leyó un libro’
- Aunque OpenLibrary ofrece una estructura de datos centrada en la ‘obra’, todavía existen duplicados e incompletitud, así que no logra ser una alternativa completa
- A diferencia de la base de datos de películas TMDB, en el ámbito de los libros no existe una infraestructura de metadatos públicos de alta calidad, lo que se convierte en un gran obstáculo para desarrollar plataformas sociales centradas en libros
Comparación entre Letterboxd y las plataformas de libros
- Letterboxd permite gestionar fácilmente el registro de películas vistas gracias a su interfaz limpia y sus funciones sociales no intrusivas
- Los usuarios pueden anotar de forma simple qué película vieron y cuándo
- En cambio, GoodReads hace incómodo registrar libros debido a una UI compleja y una estructura de clics en varias capas
- ‘Libros leídos’ y ‘libros por leer’ aparecen mezclados en una misma pantalla, y elementos extra como retos de lectura y newsletters ocupan espacio
- La razón de que GoodReads sea tan incómodo es que es un producto derivado de baja prioridad dentro del negocio de venta de libros de Amazon
- Storygraph también tiene problemas similares, por lo que al final los usuarios terminan gestionando sus registros personales en archivos de Obsidian
Google Books API y el problema del ISBN
- Para crear la función de búsqueda de libros se utilizó la Google Books API, pero apareció el fenómeno de que una misma obra se encuentra duplicada bajo varios ISBN
- Por ejemplo, si se busca “The Last Unicorn”, aparecen por separado tapa dura, libro de bolsillo, eBook, edición revisada, etc., cada uno con un ISBN distinto
- Cada ISBN representa un formato o edición diferente, pero el usuario solo quiere registrar el hecho de que ‘leyó un libro’
- Esta estructura dificulta la búsqueda y la integración de datos, por lo que no es adecuada para construir un sistema de registro basado en una obra única
El modelo FRBR y el enfoque por ‘obra’
- El modelo FRBR usado en bibliotecología divide los datos bibliográficos en cuatro niveles
- Work (obra): la creación abstracta en sí (ej.: la novela "The Last Unicorn")
- Expression (expresión): una edición específica
- Manifestation (manifestación): el formato físico de una edición específica (libro de bolsillo, tapa dura, etc.)
- Item (ítem): un objeto físico individual dentro de una colección
- Google Books devuelve sobre todo datos a nivel de ‘expresión’ o ‘manifestación’, pero los usuarios necesitan una unidad abstracta a nivel de ‘obra’
- OpenLibrary ofrece una estructura de datos centrada en la ‘obra’, pero aun así sigue habiendo entradas duplicadas
- Ej.: al buscar Hotel Iris de Yoko Ogawa, la misma obra aparece duplicada cuatro veces
Calidad de los datos y límites del ecosistema
- Letterboxd funciona sobre The Movie Database (TMDB), y TMDB posee datos de alrededor de 1 millón de películas
- En cambio, OpenLibrary incluye más de 40 millones de obras, pero muchos de sus datos son incompletos y no están bien depurados
- Los datos de películas tienen mayor calidad porque combinan plataformas comerciales y aportes de la comunidad, mientras que los datos de libros tienen una escala mucho mayor y menos financiamiento
- Como resultado, no existe la base de datos necesaria para crear un servicio tipo Letterboxd centrado en libros
Conclusión e intentos futuros
- Como no existe una infraestructura de metadatos bibliográficos open source completa, desarrollar una plataforma de registro de libros es una tarea mucho más difícil que en el cine
- El autor todavía planea seguir intentando construir un sistema independiente de registro de libros
- Al igual que la experiencia de descubrir gustos cinematográficos, el registro de lectura también necesita un enfoque personalizado
4 comentarios
Claro... el ISBN es un identificador de publicaciones, no un identificador del contenido...
El título es demasiado clickbait jajaja
Parece que el espacio del identificador del contenido está vacío :(
También es cierto que el sistema ISBN no considera demasiado una clasificación verdaderamente sistemática...
Según las reglas, a cada reimpresión se le debe asignar un número por separado, pero como la categoría más baja termina siendo la editorial, a pesar de la necesidad de clasificar por obra, no es fácil de gestionar.
Comentarios en Hacker News
Me recuerda a la estructura de base de datos de MusicBrainz
Por ejemplo, el álbum Nevermind de Nirvana es un solo release group, pero existen distintas versiones en cinta, CD, LP, promocionales y reediciones por país
En algunos casos se distinguen por número de catálogo o código de barras, pero en otros, aunque tengan el mismo código, en realidad son versiones diferentes
Incluso una misma grabación puede variar por remasterización, edición o censura
MusicBrainz rastrea estas diferencias con mucho detalle y distingue claramente si se trata o no de la misma grabación
En casos como versiones de otras canciones o standards grabados por varios artistas, enlaza la información de compositor y letrista a nivel de
workEste tipo de diseño refinado de base de datos relacional me parece muy útil para registrar la identidad y las diferencias entre obras creativas
Enlace relacionado
bookbrainz.org/about
Si usa un esquema similar al de MusicBrainz, espero que sea muy fácil extraer datos
Me hice una cuenta, subí los datos yo mismo y, tras varias correcciones, logré registrarlo
Encontré y usé como referencia la información del mismo CD en su edición australiana en un sitio web chino, y eso me hizo darme cuenta de que existen versiones ligeramente distintas según el mercado
Siento mucha empatía con el equipo de MusicBrainz en que la gente es demasiado descuidada al actualizar los “identificadores únicos”
La edición de 1987 y la de 1989 (la versión sin “Peace Train”) tenían el mismo número UPC
Recuerdo que a mediados de los 90 me costó trabajo encontrar en tiendas de discos usados la versión anterior a la eliminación
El resto era confuso porque había varias versiones con distinto número de pistas según la región
Si hubiera existido una función para indicar la información de artista por pista, creo que la precisión de búsqueda habría sido mayor
Incluso si la diferencia es solo corregir erratas, es difícil distinguirlas
Wikidata es una base de datos abierta compatible con FRBR, y en los últimos años la calidad relacionada con libros ha mejorado mucho
Hotel Iris de Yoko Ogawa, que se puso como ejemplo, no es la misma obra sino distintas traducciones
Una traducción debería verse como una obra derivada distinta del original
Aun así, la lista está mezclada y tiene muchos errores
En OpenLibrary se agrupan bajo un solo work, y la información de idioma y traductor se guarda en la edición
El duplicado actual parece ser un problema surgido en el proceso de fusión automática por idioma
Lo ideal es que el usuario pueda explorar juntos el original y las traducciones
Recomiendo LibraryThing
Me parece mucho mejor que Goodreads
Es importante distinguir la estructura WEMI (work, expression, manifestation, item) de un libro
“Leí Don Quijote” es algo a nivel work, mientras que “mi libro tiene una mancha de café” es algo a nivel item
En una competencia de lectura a nivel estatal, los libros se gestionaban solo por ISBN y eso hacía difícil que los estudiantes los encontraran
Así que usaron la base de datos de mapeo de ISBN de WorldCat para agregar un join SQL que conectara otros ISBN del mismo contenido
Como resultado, durante 10 años los estudiantes leyeron más de un millón de libros adicionales
Anna’s Archive ha contribuido mucho a organizar datos relacionados con ISBN
Aprovechó scraping de WorldCat, y ahora también está construyendo una base de datos de ISSN (publicaciones periódicas)
En comparación con los libros, los datos de ISSN están muy incompletos
Se recuerda que Open Library surgió a partir del trabajo inicial de Brewster Kahle (fundador de Internet Archive) y Aaron Swartz
Blog relacionado
A veces veía un libro en una librería real, lo compraba y al llegar a casa descubría que ya tenía esa misma edición
Si hubiera podido buscar mi catálogo personal por ISBN, habría evitado esas compras duplicadas
Tuve la experiencia de crear como proyecto personal un sitio de gestión de libros usando la API de ISBNDB
Al buscar por título, los resultados eran muy complejos porque se mezclaban muchísimas ediciones, idiomas y tipos de encuadernación
Organicé los resultados con similitud de Jaccard, pero no fue perfecto
Estoy considerando OpenLibrary como alternativa
La app StoryGraph no me parece mala
Me gusta su interfaz porque toma en cuenta a los usuarios que quieren evitar funciones de IA
La búsqueda también es buena
En lo personal la uso desde 2017 y la elegí con el objetivo de salir del oligopolio
El ISBN incluye un identificador de editorial, así que un mismo libro puede tener ISBN distintos según el mercado
Es un servicio gratuito, así que puede variar según el país
Así que el nombre de la editorial no aparece directamente, pero sí puede identificarse por la estructura