1 puntos por GN⁺ 2026-01-01 | 1 comentarios | Compartir por WhatsApp
  • Alignment Scry de ExoPriors es una plataforma que permite buscar 60M de documentos y 22M de embeddings recopilados de arXiv, Hacker News, LessWrong y otros, mediante SQL y operaciones vectoriales a través de Claude Code
  • Proporciona una API key pública y soporta tanto búsqueda de texto basada en BM25 como búsqueda semántica basada en distancia coseno de pgvector
  • Con las funciones alignment.search() y alignment.search_exhaustive() es posible distinguir entre búsqueda rápida de muestra y búsqueda completa
  • Se puede configurar fácilmente en Claude Web o Claude Code para llamar la API, y ofrece un handle personal (@handle) y funciones para guardar embeddings
  • Está abierto gratuitamente para investigadores y es relevante como entorno experimental de consultas de datos a gran escala para la investigación en IA y la automatización de exploración de información

Resumen

  • Alignment Scry es un sistema de búsqueda que permite realizar operaciones SQL y de álgebra vectorial sobre un índice de documentos relacionado con la explosión de inteligencia
    • Sus principales fuentes de datos incluyen arXiv, Hacker News, LessWrong, community-archive.org, entre otras
    • Los usuarios pueden explorar los datos mediante consultas en lenguaje natural o comandos SQL a través de Claude Code
  • El sistema se encuentra en fase experimental Alpha e incluye también Lens Studio, una herramienta de exploración centrada en LessWrong

Integración con Claude y forma de acceso

  • Puede usarse de inmediato desde Claude Code o Claude Web mediante la configuración de acceso a la API
    • Se debe permitir la ejecución de código, la creación de archivos y el acceso a red, y agregar api.exopriors.com a la lista blanca de dominios
  • Se puede acceder sin iniciar sesión mediante la API key pública exopriors_public_readonly_v1_2025
  • Para evitar que el modelo de Claude pase por un proceso de aprobación del usuario en cada llamada a la API, puede usarse la opción --dangerously-skip-permissions (con riesgos)
  • Se recomienda usar modelos Opus 4.5 o superiores, y se indica explícitamente que existe riesgo de ataques de prompt injection

Funciones principales

  • Query: ejecutar consultas SQL sobre 60 millones de documentos
  • Embed: guardar y reutilizar embeddings para búsqueda semántica
  • Timeout: ajuste automático de aproximadamente 20 a 120 segundos según la carga
  • Objetivos de búsqueda: varios tipos de documentos como post, comment, paper y tweet
  • Lexical Search: búsqueda por palabras clave basada en BM25, con soporte para búsqueda de frases y fuzzy matching
  • Semantic Search: búsqueda por similitud semántica usando la distancia coseno de pgvector (<=>)

Consultas y gestión de rendimiento

  • alignment.search() devuelve solo los 100 mejores resultados de BM25 y es adecuado para muestreo de exploración rápida
  • alignment.search_exhaustive() realiza una búsqueda completa y soporta paginación
  • Lineamientos de rendimiento
    • Búsqueda simple: 1–5 segundos
    • Join de embeddings (hasta 500 mil filas): 5–20 segundos
    • Agregaciones complejas (hasta 2 millones de filas): 20–60 segundos
    • Escaneos a gran escala (más de 5 millones de filas): pueden agotar el tiempo en momentos de carga
  • Para evitar sobrecarga, se muestra un resumen antes de ejecutar la consulta y se requiere confirmación del usuario
  • Las consultas pesadas se identifican automáticamente según criterios como LIMIT, estimated_rows y tamaño de join

Estructura de datos y vistas

  • Dentro del esquema alignment se ofrecen materialized views
    • Ejemplos: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments, etc.
    • Columnas principales: entity_id, uri, source, kind, original_author, title, score, embedding, entre otras
  • Es posible acceder a metadatos uniéndose con la tabla alignment.entities
  • La función alignment.author_topics() permite analizar cruces entre temas específicos y autores

Operaciones vectoriales y funciones de combinación

  • <=>: operador de distancia coseno de pgvector (cuanto más cerca de 0, mayor similitud)
  • @handle: referencia a un vector guardado
  • Mezcla de vectores: combinación ponderada de conceptos en la forma scale(@rigor,.6) - scale(@hype,.3)
  • Eliminación de sesgo: debias_vector(@axis, @topic) permite quitar la influencia de un tema específico
  • El cálculo de vector centroide (centroid) permite representar el significado promedio de un autor o una época
  • El cálculo de cambio temporal (temporal delta) permite rastrear desplazamientos ideológicos o conceptuales

Búsqueda híbrida y ejemplos

  • Soporta búsqueda combinada léxica + semántica
    • Ejemplo: reordenar candidatos de texto con un vector semántico en una forma como WITH hits AS (search(...)) <=> @q
  • Ejemplos de BM25
    • alignment.search('corrigibility')
    • alignment.search('\"inner alignment\"')
  • Ejemplos de SQL
    • Cálculo de la lista de autores principales sobre un tema específico
    • Paginación de resultados a gran escala con alignment.search_exhaustive()

Escala del sistema y condiciones de uso

  • Cuenta con 65M+ documentos, 22M+ embeddings y 600GB+ de índices
  • Se ofrece gratuitamente para investigadores, incluyendo 1.5M de tokens de embeddings
  • Al crear una cuenta, se proporciona un namespace de handle personal, timeouts más largos (hasta 10 minutos) y límites de consulta ampliados

Resumen

  • Alignment Scry es una plataforma de consulta de datos a gran escala para investigación en IA integrada con Claude, con soporte para búsqueda híbrida que combina SQL y operaciones vectoriales
  • Mediante una API pública y lineamientos claros de consulta, ofrece accesibilidad experimental a datos para investigadores y desarrolladores de IA
  • Basado en un índice de 600 GB y más de 60 millones de documentos, construye un entorno que permite automatizar la exploración relacionada con alignment e investigación sobre inteligencia

1 comentarios

 
GN⁺ 2026-01-01
Comentarios en Hacker News
  • Me gusta que este proyecto no sea solo un chatbot de caja negra, sino que genere SQL
    En vez de usar un LLM como base de datos, creo que el camino correcto es usarlo como una herramienta para traducir lenguaje natural a un lenguaje de consulta estructurado
    Aun así, me pregunto si están aplicando timeouts o sandboxing para evitar abusos de la API
    También me pregunto si hay semantic bleeding entre distintos datasets; por ejemplo, “optimization” puede usarse de forma distinta en ArXiv, LessWrong y HN

    • Sí, a veces la gente quiere precisión y control
      El planificador de consultas SQL sigue siendo muy potente cuando se trata de muchas vistas e índices
      También le pusimos mucha atención a la seguridad y al rate limiting, y bloqueamos joins peligrosos con análisis de AST
      Claude puede usar combinación por centroides (centroid) para reducir diferencias semánticas entre dominios distintos
      Por ejemplo, se puede hacer un experimento comparando el promedio entre el embedding de “optimization” en LessWrong y el de ArXiv
    • Yo hice algo parecido. Convertí los historiales de conversación de Claude Code y Codex en una base de datos local para poder consultarlos directo desde la CLI
      Resumí el proceso de implementación en una entrada de blog
      Por ahora es un cliente para macOS, pero también estoy preparando un motor para Linux
    • Este tipo de enfoque es justamente la “verdadera innovación que seguirá aquí incluso si estalla la burbuja de la IA”
      El alcance de uso de la interpretación y traducción de lenguaje natural es enorme
      Al final, creo que la inversión también se moverá hacia este tipo de herramientas prácticas
    • No tengo experimentos, pero por experiencia la escala del modelo de embeddings cambia cómo se separan los significados de las palabras
      Cuanto más grande el modelo, mejor distingue los distintos sentidos de una misma palabra
  • Es un proyecto realmente genial. Pienso probarlo de inmediato para buscar variedades de Calabi–Yau en mi investigación actual sobre teoría de cuerdas
    Trabajando con Claude, encontró dos artículos sobre flux vacua con algoritmos genéticos, y la combinación de SQL + BM25 permitió búsquedas muy precisas
    Eso sí, escapar comillas en bash es incómodo, y por el límite de 100 en alignment.search(), tuve que usar search_exhaustive() para obtener resultados completos

    • Yo también usé esta herramienta hace poco para investigar el estudio de variación de la energía oscura de DESI
      Claude analizó el corpus de ExoPriors y resumió los artículos y resultados clave, sugiriendo que los resultados de DESI podrían cambiar la dirección de exploración en teoría de cuerdas
      En particular, el artículo arXiv:2511.23463 explica el fenómeno de “phantom crossing” de la energía oscura mediante una mezcla axion-dilatón
      Planeo ampliar la investigación incluyendo los parámetros (w₀, wₐ) en la función de ajuste y agregando dinámica de axiones
      Artículo relacionado: cobertura de la BBC
  • Usar la bandera “dangerously-skip-permissions” junto con texto no seguro es riesgoso
    La entrada proveniente de internet puede incluir prompt injection, así que hay que ejecutarlo sí o sí en un entorno sandbox

    • Yo también empecé hoy a correr Claude en un devcontainer, y me da curiosidad cuál opción de sandbox es la más sencilla
  • Estoy buscando una forma de consultar información de genes y proteínas dentro del material suplementario (Supplementary Material) de artículos de ciencias de la vida
    Ahora mismo el indexado es muy inconsistente, así que mucha información de investigación genómica de los últimos 15 años está quedando enterrada
    Creo que este enfoque podría funcionar aprovechando datos de acceso abierto

    • Yo hice algo parecido: papers2dataset
      Usa OpenAlex para explorar el grafo de citas y analiza PDFs de acceso abierto
      Yo lo usé para encontrar crioprotectores (cryoprotective agents) según la temperatura, pero se podría extender a tu problema
  • Expresiones como “intelligence explosion” y “ARBITRARY SQL + VECTOR ALGEBRA” suenan como jerga tecnológica exagerada

    • No es exageración. En este momento realmente estamos en una explosión de inteligencia de software
      Gracias a Opus 4.5 y GPT-5.2-Codex-xhigh, la velocidad de desarrollo se disparó
      Scry es la única herramienta que permite ejecutar SQL arbitrario sobre corpus a gran escala y experimentar libremente con combinaciones vectoriales
  • Combinar prompts con datasets externos es ahora mismo el canal de exploración más simple y potente
    Es como “curl | bash”, pero para experimentar rápido

    • Totalmente. La combinación Prompt + Tool + External Dataset tiene un potencial enorme
  • Dijeron que es una herramienta de investigación “state-of-the-art”, pero me pregunto qué tiene exactamente de tan avanzado

    • Por la escala. ¿Cuántas herramientas hay que permitan consultar el texto completo de todos los artículos de arXiv?
    • Es solo lenguaje de marketing. No es una expresión protegida, así que cualquiera puede usarla
      Por ejemplo, el modelo Gemma también fue llamado “state-of-the-art” aunque rindiera peor que la competencia
      Juicero también era de vanguardia cuando salió, pero al final era mejor exprimir a mano
    • La herramienta es de vanguardia, pero la fuente de datos es histórica
    • Me deja la duda de si “el primero” se está usando como sinónimo de “el mejor”
  • Actualmente estoy desarrollando un sistema autónomo de investigación académica y planeo integrar este proyecto
    Por ahora uso la API de Edison Scientific y prompts personalizados, y me pregunto si hay planes de open source
    Proyecto relacionado: gia-agentic-short

    • Me gustaría publicarlo como open source, pero sinceramente ahorita la situación económica está difícil
      Si consigo $5,000, creo que podría abrirlo de inmediato