- La web semántica era el antiguo Web 3.0. Antes de que "Web 3.0" pasara a significar "cosas como cripto", se refería a "sitios web legibles por máquinas"
- Pensaba que el concepto de web semántica ya no se usaba, pero resulta que ahora está muy ampliamente adoptado, al punto de que no sería exagerado decir que ya estamos usando Web 3.0
- Si Web 3.0 ya existe, ¿dónde está? En su mayor parte está oculto en el marcado
Publicación de blog con JSON-LD
- Es posible incluir metadatos JSON-LD agregando un elemento
<script type="application/ld+json"> dentro del <head> de una página HTML
- JSON-LD es el formato principal para codificar metadatos de la web semántica
- Ejemplo: descripción usando el tipo BlogPosting
{
"@context": "https://schema.org",
"@type": "BlogPosting",
"headline": "From Shell to Excel - with a little bit of HTTPS",
"url": "https://csvbase.com/blog/10",
"description": "Write once, read everywhere",
"author": {
"@type": "Person",
"name": "Cal Paterson",
"email": "cal@calpaterson.com",
"url": "https://calpaterson.com/about.html"
},
"image": "https://csvbase.com/blog-static/excel.png",
"datePublished": "2024-08-12",
"dateCreated": "2024-08-12",
"dateModified": "2024-08-12"
}
- Las claves que comienzan con @ son metadatos (¿meta-metadatos?)
@context indica el espacio de nombres y @type indica el tipo de clase
- Las demás claves son elementos permitidos dentro del tipo BlogPosting
- El valor de una clave puede ser de otro tipo (como Person en la clave author)
¿Qué beneficio me trae esto?
- ¿Quién lee esto? Muchos bots analizan los metadatos JSON-LD
- Las publicaciones de blog con metadatos de web semántica pueden mostrar vistas previas de enlaces en redes sociales, aumentando la tasa de clics
- Los rastreadores de motores de búsqueda usan estos metadatos para mostrar más información en los resultados de búsqueda
- Los agregadores automáticos de enlaces usan estos datos para mostrar publicaciones a los usuarios (como cuando Android muestra varios sitios en su pantalla de noticias)
- Los metadatos de la web semántica no requieren permiso y son neutrales respecto a proveedores
¿Es difícil esto?
- No, JSON-LD es muy sencillo
- JSON-LD simplemente organiza información que ya está en la página para que una computadora pueda leerla
- Si puedes escribir una app frontend, también puedes entender JSON-LD fácilmente
Otros tipos de JSON-LD
- Además de BlogPosting, existen tipos como Event, LocalBusiness, JobPosting, Product y Recipe
- csvbase usa el tipo Dataset para describir datos tabulares
{
"@context": ["https://schema.org", {"csvw": "https://www.w3.org/ns/csvw#"}],
"@type": "Dataset",
"name": "stock-exchanges",
"url": "https://csvbase.com/meripaterson/stock-exchanges",
"isAccessibleForFree": true,
"distribution": [
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv",
"encodingFormat": "text/csv",
"contentSize": "16222"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet",
"encodingFormat": "application/parquet",
"contentSize": "10751"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx",
"encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
"contentSize": "15500"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl",
"encodingFormat": "application/x-jsonlines",
"contentSize": "38627"
}
],
"dateCreated": "2022-04-25T13:43:24.746075+01:00",
"dateModified": "2023-04-02T20:27:33.255648+01:00",
"maintainer": {
"@type": "Person",
"name": "meripaterson",
"url": "https://csvbase.com/meripaterson"
},
"description": "The world's stock exchanges...",
"mainEntity": {
"@type": "csvw:Table",
"csvw:tableSchema": {
"csvw:columns": [
{"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},
{"csvw:name": "Continent", "csvw:datatype": "string"},
{"csvw:name": "Country", "csvw:datatype": "string"},
{"csvw:name": "Name", "csvw:datatype": "string"},
{"csvw:name": "MIC", "csvw:datatype": "string"},
{"csvw:name": "Last changed", "csvw:datatype": "date"}
]
}
}
}
¿De verdad hace falta todo esto? ¿La IA no resolverá todo?
- Los modelos de lenguaje grandes (LLM) a menudo cometen errores
- Es importante proporcionar metadatos para garantizar la precisión
- Usar LLM puede ser costoso y se necesitan GPU para leer páginas web
Alternativas
- Open Graph Protocol: estándar creado por Facebook, usado principalmente para describir contenido
- Microdata: simple, pero difícil de analizar
- Twitter Cards: describe cómo mostrar contenido en Twitter
- Estándares antiguos basados en XML: tienen soporte profundo en sistemas de bibliotecas y archivos
Tecnología aburrida (Boring technology)
- Resulta muy sorprendente que la web semántica sea tan discreta. Muchísimos sitios ya tienen configurados estos metadatos
- "La web semántica ya se extendió ampliamente; simplemente nunca tuvo su momento de victoria"
Resumen de GN⁺
- La web semántica es una tecnología para crear sitios web legibles por máquinas y ya se usa ampliamente.
- JSON-LD es el formato principal para codificar metadatos de la web semántica y admite diversos tipos, como publicaciones de blog, eventos y productos.
- Los metadatos de la web semántica ayudan a mejorar las vistas previas de enlaces en redes sociales y los resultados de búsqueda.
- Usar IA para extraer metadatos automáticamente puede ser costoso y puede no ser preciso.
- Existen varias alternativas, como Open Graph Protocol, Microdata y Twitter Cards.
4 comentarios
Recomiendo este ensayo a quienes tengan curiosidad por la historia de la web semántica y su posición actual.
https://lespetitescases.net/why-I-dont-use-semantic-web-technologies-a…
No creo que JSON-LD sea el núcleo o la tecnología clave de la web semántica, pero me resulta muy acertada la idea de que "la web semántica ya está ampliamente extendida; simplemente nunca tuvo su momento de victoria"..!
Opiniones en Hacker News
Problemas de los estándares de la Web Semántica
Experiencias de intentos fallidos
Comparación entre JSON-LD y RSS
El significado de la Web Semántica y los LLM
Estado actual de la Web Semántica
Falta de conceptos importantes
Metadatos de PDF
Importancia de HTML
IA y metadatos
JSON-LD y SEO