14 puntos por GN⁺ 2024-08-22 | 4 comentarios | Compartir por WhatsApp
  • La web semántica era el antiguo Web 3.0. Antes de que "Web 3.0" pasara a significar "cosas como cripto", se refería a "sitios web legibles por máquinas"
  • Pensaba que el concepto de web semántica ya no se usaba, pero resulta que ahora está muy ampliamente adoptado, al punto de que no sería exagerado decir que ya estamos usando Web 3.0
  • Si Web 3.0 ya existe, ¿dónde está? En su mayor parte está oculto en el marcado

Publicación de blog con JSON-LD

  • Es posible incluir metadatos JSON-LD agregando un elemento <script type="application/ld+json"> dentro del <head> de una página HTML
  • JSON-LD es el formato principal para codificar metadatos de la web semántica
  • Ejemplo: descripción usando el tipo BlogPosting
{  
  "@context": "https://schema.org";,  
  "@type": "BlogPosting",  
  "headline": "From Shell to Excel - with a little bit of HTTPS",  
  "url": "https://csvbase.com/blog/10";,  
  "description": "Write once, read everywhere",  
  "author": {  
    "@type": "Person",  
    "name": "Cal Paterson",  
    "email": "cal@calpaterson.com",  
    "url": "https://calpaterson.com/about.html";  
  },  
  "image": "https://csvbase.com/blog-static/excel.png";,  
  "datePublished": "2024-08-12",  
  "dateCreated": "2024-08-12",  
  "dateModified": "2024-08-12"  
}  
  • Las claves que comienzan con @ son metadatos (¿meta-metadatos?)
    • @context indica el espacio de nombres y @type indica el tipo de clase
    • Las demás claves son elementos permitidos dentro del tipo BlogPosting
  • El valor de una clave puede ser de otro tipo (como Person en la clave author)

¿Qué beneficio me trae esto?

  • ¿Quién lee esto? Muchos bots analizan los metadatos JSON-LD
  • Las publicaciones de blog con metadatos de web semántica pueden mostrar vistas previas de enlaces en redes sociales, aumentando la tasa de clics
  • Los rastreadores de motores de búsqueda usan estos metadatos para mostrar más información en los resultados de búsqueda
  • Los agregadores automáticos de enlaces usan estos datos para mostrar publicaciones a los usuarios (como cuando Android muestra varios sitios en su pantalla de noticias)
  • Los metadatos de la web semántica no requieren permiso y son neutrales respecto a proveedores

¿Es difícil esto?

  • No, JSON-LD es muy sencillo
    • JSON-LD simplemente organiza información que ya está en la página para que una computadora pueda leerla
  • Si puedes escribir una app frontend, también puedes entender JSON-LD fácilmente

Otros tipos de JSON-LD

  • Además de BlogPosting, existen tipos como Event, LocalBusiness, JobPosting, Product y Recipe
  • csvbase usa el tipo Dataset para describir datos tabulares
{  
  "@context": ["https://schema.org";, {"csvw": "https://www.w3.org/ns/csvw#";}],  
  "@type": "Dataset",  
  "name": "stock-exchanges",  
  "url": "https://csvbase.com/meripaterson/stock-exchanges";,  
  "isAccessibleForFree": true,  
  "distribution": [  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv";,  
      "encodingFormat": "text/csv",  
      "contentSize": "16222"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet";,  
      "encodingFormat": "application/parquet",  
      "contentSize": "10751"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx";,  
      "encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",  
      "contentSize": "15500"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl";,  
      "encodingFormat": "application/x-jsonlines",  
      "contentSize": "38627"  
    }  
  ],  
  "dateCreated": "2022-04-25T13:43:24.746075+01:00",  
  "dateModified": "2023-04-02T20:27:33.255648+01:00",  
  "maintainer": {  
    "@type": "Person",  
    "name": "meripaterson",  
    "url": "https://csvbase.com/meripaterson";  
  },  
  "description": "The world's stock exchanges...",  
  "mainEntity": {  
    "@type": "csvw:Table",  
    "csvw:tableSchema": {  
      "csvw:columns": [  
        {"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},  
        {"csvw:name": "Continent", "csvw:datatype": "string"},  
        {"csvw:name": "Country", "csvw:datatype": "string"},  
        {"csvw:name": "Name", "csvw:datatype": "string"},  
        {"csvw:name": "MIC", "csvw:datatype": "string"},  
        {"csvw:name": "Last changed", "csvw:datatype": "date"}  
      ]  
    }  
  }  
}  

¿De verdad hace falta todo esto? ¿La IA no resolverá todo?

  • Los modelos de lenguaje grandes (LLM) a menudo cometen errores
  • Es importante proporcionar metadatos para garantizar la precisión
  • Usar LLM puede ser costoso y se necesitan GPU para leer páginas web

Alternativas

  • Open Graph Protocol: estándar creado por Facebook, usado principalmente para describir contenido
  • Microdata: simple, pero difícil de analizar
  • Twitter Cards: describe cómo mostrar contenido en Twitter
  • Estándares antiguos basados en XML: tienen soporte profundo en sistemas de bibliotecas y archivos

Tecnología aburrida (Boring technology)

  • Resulta muy sorprendente que la web semántica sea tan discreta. Muchísimos sitios ya tienen configurados estos metadatos
  • "La web semántica ya se extendió ampliamente; simplemente nunca tuvo su momento de victoria"

Resumen de GN⁺

  • La web semántica es una tecnología para crear sitios web legibles por máquinas y ya se usa ampliamente.
  • JSON-LD es el formato principal para codificar metadatos de la web semántica y admite diversos tipos, como publicaciones de blog, eventos y productos.
  • Los metadatos de la web semántica ayudan a mejorar las vistas previas de enlaces en redes sociales y los resultados de búsqueda.
  • Usar IA para extraer metadatos automáticamente puede ser costoso y puede no ser preciso.
  • Existen varias alternativas, como Open Graph Protocol, Microdata y Twitter Cards.

4 comentarios

 
cometkim 2024-08-22

Recomiendo este ensayo a quienes tengan curiosidad por la historia de la web semántica y su posición actual.

https://lespetitescases.net/why-I-dont-use-semantic-web-technologies-a…

 
[Este comentario fue ocultado.]
 
ipuris 2024-08-22

No creo que JSON-LD sea el núcleo o la tecnología clave de la web semántica, pero me resulta muy acertada la idea de que "la web semántica ya está ampliamente extendida; simplemente nunca tuvo su momento de victoria"..!

 
GN⁺ 2024-08-22
Opiniones en Hacker News
  • Problemas de los estándares de la Web Semántica

    • Durante décadas ha faltado una aplicación decisiva
    • La calidad de la web empeoró y no hubo un caso como Wikipedia
    • Imperfección de la visión: las consultas SPARQL y los reasoners son útiles, pero para el usuario promedio tienen un alto costo cognitivo
    • Para una web mejor, sigue siendo necesaria la dirección de la Web Semántica
  • Experiencias de intentos fallidos

    • El sitio que se intentó usar no tenía una categoría "Poem"
    • Se ha pedido desde hace 9 años, pero no se ha resuelto
  • Comparación entre JSON-LD y RSS

    • "Googlers, JSON-LD podría llegar a tener tanta notoriedad como RSS"
    • Hay opiniones de que sería bueno lanzar y cerrar apps o servicios
  • El significado de la Web Semántica y los LLM

    • El significado no debería ser definido por el publicador
    • Se duda de que el publicador promedio pueda clasificar con más precisión que un LLM
    • El SEO hack y el spam de blogs existieron porque el publicador era la única fuente de verdad
    • Hay que resolver el problema de definir el significado
  • Estado actual de la Web Semántica

    • Declarar la victoria por la integración con Facebook significa la muerte de la Web Semántica
    • OWL y otros estándares buscaban anotar el contenido de las páginas
    • La información de autor, título, foto y fecha de publicación casi no tiene significado
  • Falta de conceptos importantes

    • No se menciona linked data, RDF, federación ni consultas web
    • JSON-LD es solo un formato de serialización
    • Las tecnologías de linked data aumentan la interoperabilidad y reutilización de los datos
    • Los LLM y los linked data son complementarios
  • Metadatos de PDF

    • Los metadatos de PDF también se basan en los estándares de la Web Semántica
    • En lugar de JSON-LD, RDF se escribe en XML
  • Importancia de HTML

    • Parece que se evita HTML porque es difícil
    • El significado no está escondido dentro del marcado; el significado es el propio marcado
  • IA y metadatos

    • Hay dos razones por las que la IA no puede reemplazar los metadatos
      • Los LLM se equivocan con frecuencia
      • El tiempo de GPU es caro
    • Los LLM ya muestran una precisión del 99%
    • En el futuro, pasar texto por un LLM no será un gran problema
  • JSON-LD y SEO

    • Google ha impulsado JSON-LD durante más de 5 años para mejorar el SEO
    • La mayor parte de los metadatos relevantes de las páginas ya se captura con el protocolo Open Graph
    • No hace falta generar JSON-LD con trabajo adicional