‘Alignment Scry’ de ExoPriors: consulta con Claude Code un índice de 600 GB de Hacker News, arXiv y más

(exopriors.com)

1 puntos por GN⁺ 2026-01-01 | 1 comentarios | Compartir por WhatsApp

Alignment Scry de ExoPriors es una plataforma que permite buscar 60M de documentos y 22M de embeddings recopilados de arXiv, Hacker News, LessWrong y otros, mediante SQL y operaciones vectoriales a través de Claude Code
Proporciona una API key pública y soporta tanto búsqueda de texto basada en BM25 como búsqueda semántica basada en distancia coseno de pgvector
Con las funciones alignment.search() y alignment.search_exhaustive() es posible distinguir entre búsqueda rápida de muestra y búsqueda completa
Se puede configurar fácilmente en Claude Web o Claude Code para llamar la API, y ofrece un handle personal (@handle) y funciones para guardar embeddings
Está abierto gratuitamente para investigadores y es relevante como entorno experimental de consultas de datos a gran escala para la investigación en IA y la automatización de exploración de información

Resumen

Alignment Scry es un sistema de búsqueda que permite realizar operaciones SQL y de álgebra vectorial sobre un índice de documentos relacionado con la explosión de inteligencia
- Sus principales fuentes de datos incluyen arXiv, Hacker News, LessWrong, community-archive.org, entre otras
- Los usuarios pueden explorar los datos mediante consultas en lenguaje natural o comandos SQL a través de Claude Code
El sistema se encuentra en fase experimental Alpha e incluye también Lens Studio, una herramienta de exploración centrada en LessWrong

Integración con Claude y forma de acceso

Puede usarse de inmediato desde Claude Code o Claude Web mediante la configuración de acceso a la API
- Se debe permitir la ejecución de código, la creación de archivos y el acceso a red, y agregar api.exopriors.com a la lista blanca de dominios
Se puede acceder sin iniciar sesión mediante la API key pública exopriors_public_readonly_v1_2025
Para evitar que el modelo de Claude pase por un proceso de aprobación del usuario en cada llamada a la API, puede usarse la opción --dangerously-skip-permissions (con riesgos)
Se recomienda usar modelos Opus 4.5 o superiores, y se indica explícitamente que existe riesgo de ataques de prompt injection

Funciones principales

Query: ejecutar consultas SQL sobre 60 millones de documentos
Embed: guardar y reutilizar embeddings para búsqueda semántica
Timeout: ajuste automático de aproximadamente 20 a 120 segundos según la carga
Objetivos de búsqueda: varios tipos de documentos como post, comment, paper y tweet
Lexical Search: búsqueda por palabras clave basada en BM25, con soporte para búsqueda de frases y fuzzy matching
Semantic Search: búsqueda por similitud semántica usando la distancia coseno de pgvector (<=>)

Consultas y gestión de rendimiento

alignment.search() devuelve solo los 100 mejores resultados de BM25 y es adecuado para muestreo de exploración rápida
alignment.search_exhaustive() realiza una búsqueda completa y soporta paginación
Lineamientos de rendimiento
- Búsqueda simple: 1–5 segundos
- Join de embeddings (hasta 500 mil filas): 5–20 segundos
- Agregaciones complejas (hasta 2 millones de filas): 20–60 segundos
- Escaneos a gran escala (más de 5 millones de filas): pueden agotar el tiempo en momentos de carga
Para evitar sobrecarga, se muestra un resumen antes de ejecutar la consulta y se requiere confirmación del usuario
Las consultas pesadas se identifican automáticamente según criterios como LIMIT, estimated_rows y tamaño de join

Estructura de datos y vistas

Dentro del esquema alignment se ofrecen materialized views
- Ejemplos: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments, etc.
- Columnas principales: entity_id, uri, source, kind, original_author, title, score, embedding, entre otras
Es posible acceder a metadatos uniéndose con la tabla alignment.entities
La función alignment.author_topics() permite analizar cruces entre temas específicos y autores

Operaciones vectoriales y funciones de combinación

<=>: operador de distancia coseno de pgvector (cuanto más cerca de 0, mayor similitud)
@handle: referencia a un vector guardado
Mezcla de vectores: combinación ponderada de conceptos en la forma scale(@rigor,.6) - scale(@hype,.3)
Eliminación de sesgo: debias_vector(@axis, @topic) permite quitar la influencia de un tema específico
El cálculo de vector centroide (centroid) permite representar el significado promedio de un autor o una época
El cálculo de cambio temporal (temporal delta) permite rastrear desplazamientos ideológicos o conceptuales

Búsqueda híbrida y ejemplos

Soporta búsqueda combinada léxica + semántica
- Ejemplo: reordenar candidatos de texto con un vector semántico en una forma como WITH hits AS (search(...)) <=> @q
Ejemplos de BM25
- alignment.search('corrigibility')
- alignment.search('\"inner alignment\"')
Ejemplos de SQL
- Cálculo de la lista de autores principales sobre un tema específico
- Paginación de resultados a gran escala con alignment.search_exhaustive()

Escala del sistema y condiciones de uso

Cuenta con 65M+ documentos, 22M+ embeddings y 600GB+ de índices
Se ofrece gratuitamente para investigadores, incluyendo 1.5M de tokens de embeddings
Al crear una cuenta, se proporciona un namespace de handle personal, timeouts más largos (hasta 10 minutos) y límites de consulta ampliados

Resumen

Alignment Scry es una plataforma de consulta de datos a gran escala para investigación en IA integrada con Claude, con soporte para búsqueda híbrida que combina SQL y operaciones vectoriales
Mediante una API pública y lineamientos claros de consulta, ofrece accesibilidad experimental a datos para investigadores y desarrolladores de IA
Basado en un índice de 600 GB y más de 60 millones de documentos, construye un entorno que permite automatizar la exploración relacionada con alignment e investigación sobre inteligencia

1 comentarios

GN⁺ 2026-01-01

Comentarios en Hacker News

Me gusta que este proyecto no sea solo un chatbot de caja negra, sino que genere SQL
En vez de usar un LLM como base de datos, creo que el camino correcto es usarlo como una herramienta para traducir lenguaje natural a un lenguaje de consulta estructurado
Aun así, me pregunto si están aplicando timeouts o sandboxing para evitar abusos de la API
También me pregunto si hay semantic bleeding entre distintos datasets; por ejemplo, “optimization” puede usarse de forma distinta en ArXiv, LessWrong y HN
- Sí, a veces la gente quiere precisión y control
  El planificador de consultas SQL sigue siendo muy potente cuando se trata de muchas vistas e índices
  También le pusimos mucha atención a la seguridad y al rate limiting, y bloqueamos joins peligrosos con análisis de AST
  Claude puede usar combinación por centroides (centroid) para reducir diferencias semánticas entre dominios distintos
  Por ejemplo, se puede hacer un experimento comparando el promedio entre el embedding de “optimization” en LessWrong y el de ArXiv
- Yo hice algo parecido. Convertí los historiales de conversación de Claude Code y Codex en una base de datos local para poder consultarlos directo desde la CLI
  Resumí el proceso de implementación en una entrada de blog
  Por ahora es un cliente para macOS, pero también estoy preparando un motor para Linux
- Este tipo de enfoque es justamente la “verdadera innovación que seguirá aquí incluso si estalla la burbuja de la IA”
  El alcance de uso de la interpretación y traducción de lenguaje natural es enorme
  Al final, creo que la inversión también se moverá hacia este tipo de herramientas prácticas
- No tengo experimentos, pero por experiencia la escala del modelo de embeddings cambia cómo se separan los significados de las palabras
  Cuanto más grande el modelo, mejor distingue los distintos sentidos de una misma palabra
Es un proyecto realmente genial. Pienso probarlo de inmediato para buscar variedades de Calabi–Yau en mi investigación actual sobre teoría de cuerdas
Trabajando con Claude, encontró dos artículos sobre flux vacua con algoritmos genéticos, y la combinación de SQL + BM25 permitió búsquedas muy precisas
Eso sí, escapar comillas en bash es incómodo, y por el límite de 100 en alignment.search(), tuve que usar search_exhaustive() para obtener resultados completos
- Yo también usé esta herramienta hace poco para investigar el estudio de variación de la energía oscura de DESI
  Claude analizó el corpus de ExoPriors y resumió los artículos y resultados clave, sugiriendo que los resultados de DESI podrían cambiar la dirección de exploración en teoría de cuerdas
  En particular, el artículo arXiv:2511.23463 explica el fenómeno de “phantom crossing” de la energía oscura mediante una mezcla axion-dilatón
  Planeo ampliar la investigación incluyendo los parámetros (w₀, wₐ) en la función de ajuste y agregando dinámica de axiones
  Artículo relacionado: cobertura de la BBC
Usar la bandera “dangerously-skip-permissions” junto con texto no seguro es riesgoso
La entrada proveniente de internet puede incluir prompt injection, así que hay que ejecutarlo sí o sí en un entorno sandbox
- Yo también empecé hoy a correr Claude en un devcontainer, y me da curiosidad cuál opción de sandbox es la más sencilla
Estoy buscando una forma de consultar información de genes y proteínas dentro del material suplementario (Supplementary Material) de artículos de ciencias de la vida
Ahora mismo el indexado es muy inconsistente, así que mucha información de investigación genómica de los últimos 15 años está quedando enterrada
Creo que este enfoque podría funcionar aprovechando datos de acceso abierto
- Yo hice algo parecido: papers2dataset
  Usa OpenAlex para explorar el grafo de citas y analiza PDFs de acceso abierto
  Yo lo usé para encontrar crioprotectores (cryoprotective agents) según la temperatura, pero se podría extender a tu problema
Expresiones como “intelligence explosion” y “ARBITRARY SQL + VECTOR ALGEBRA” suenan como jerga tecnológica exagerada
- No es exageración. En este momento realmente estamos en una explosión de inteligencia de software
  Gracias a Opus 4.5 y GPT-5.2-Codex-xhigh, la velocidad de desarrollo se disparó
  Scry es la única herramienta que permite ejecutar SQL arbitrario sobre corpus a gran escala y experimentar libremente con combinaciones vectoriales
Combinar prompts con datasets externos es ahora mismo el canal de exploración más simple y potente
Es como “curl | bash”, pero para experimentar rápido
- Totalmente. La combinación Prompt + Tool + External Dataset tiene un potencial enorme
Dijeron que es una herramienta de investigación “state-of-the-art”, pero me pregunto qué tiene exactamente de tan avanzado
- Por la escala. ¿Cuántas herramientas hay que permitan consultar el texto completo de todos los artículos de arXiv?
- Es solo lenguaje de marketing. No es una expresión protegida, así que cualquiera puede usarla
  Por ejemplo, el modelo Gemma también fue llamado “state-of-the-art” aunque rindiera peor que la competencia
  Juicero también era de vanguardia cuando salió, pero al final era mejor exprimir a mano
- La herramienta es de vanguardia, pero la fuente de datos es histórica
- Me deja la duda de si “el primero” se está usando como sinónimo de “el mejor”
Actualmente estoy desarrollando un sistema autónomo de investigación académica y planeo integrar este proyecto
Por ahora uso la API de Edison Scientific y prompts personalizados, y me pregunto si hay planes de open source
Proyecto relacionado: gia-agentic-short
- Me gustaría publicarlo como open source, pero sinceramente ahorita la situación económica está difícil
  Si consigo $5,000, creo que podría abrirlo de inmediato

‘Alignment Scry’ de ExoPriors: consulta con Claude Code un índice de 600 GB de Hacker News, arXiv y más

Resumen

Integración con Claude y forma de acceso

Funciones principales

Consultas y gestión de rendimiento

Estructura de datos y vistas

Operaciones vectoriales y funciones de combinación

Búsqueda híbrida y ejemplos

Escala del sistema y condiciones de uso

Resumen

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News