- Alignment Scry de ExoPriors es una plataforma que permite buscar 60M de documentos y 22M de embeddings recopilados de arXiv, Hacker News, LessWrong y otros, mediante SQL y operaciones vectoriales a través de Claude Code
- Proporciona una API key pública y soporta tanto búsqueda de texto basada en BM25 como búsqueda semántica basada en distancia coseno de pgvector
- Con las funciones
alignment.search() y alignment.search_exhaustive() es posible distinguir entre búsqueda rápida de muestra y búsqueda completa
- Se puede configurar fácilmente en Claude Web o Claude Code para llamar la API, y ofrece un handle personal (
@handle) y funciones para guardar embeddings
- Está abierto gratuitamente para investigadores y es relevante como entorno experimental de consultas de datos a gran escala para la investigación en IA y la automatización de exploración de información
Resumen
- Alignment Scry es un sistema de búsqueda que permite realizar operaciones SQL y de álgebra vectorial sobre un índice de documentos relacionado con la explosión de inteligencia
- Sus principales fuentes de datos incluyen arXiv, Hacker News, LessWrong, community-archive.org, entre otras
- Los usuarios pueden explorar los datos mediante consultas en lenguaje natural o comandos SQL a través de Claude Code
- El sistema se encuentra en fase experimental Alpha e incluye también Lens Studio, una herramienta de exploración centrada en LessWrong
Integración con Claude y forma de acceso
- Puede usarse de inmediato desde Claude Code o Claude Web mediante la configuración de acceso a la API
- Se debe permitir la ejecución de código, la creación de archivos y el acceso a red, y agregar
api.exopriors.com a la lista blanca de dominios
- Se puede acceder sin iniciar sesión mediante la API key pública
exopriors_public_readonly_v1_2025
- Para evitar que el modelo de Claude pase por un proceso de aprobación del usuario en cada llamada a la API, puede usarse la opción
--dangerously-skip-permissions (con riesgos)
- Se recomienda usar modelos Opus 4.5 o superiores, y se indica explícitamente que existe riesgo de ataques de prompt injection
Funciones principales
- Query: ejecutar consultas SQL sobre 60 millones de documentos
- Embed: guardar y reutilizar embeddings para búsqueda semántica
- Timeout: ajuste automático de aproximadamente 20 a 120 segundos según la carga
- Objetivos de búsqueda: varios tipos de documentos como post, comment, paper y tweet
- Lexical Search: búsqueda por palabras clave basada en BM25, con soporte para búsqueda de frases y fuzzy matching
- Semantic Search: búsqueda por similitud semántica usando la distancia coseno de pgvector (
<=>)
Consultas y gestión de rendimiento
alignment.search() devuelve solo los 100 mejores resultados de BM25 y es adecuado para muestreo de exploración rápida
alignment.search_exhaustive() realiza una búsqueda completa y soporta paginación
- Lineamientos de rendimiento
- Búsqueda simple: 1–5 segundos
- Join de embeddings (hasta 500 mil filas): 5–20 segundos
- Agregaciones complejas (hasta 2 millones de filas): 20–60 segundos
- Escaneos a gran escala (más de 5 millones de filas): pueden agotar el tiempo en momentos de carga
- Para evitar sobrecarga, se muestra un resumen antes de ejecutar la consulta y se requiere confirmación del usuario
- Las consultas pesadas se identifican automáticamente según criterios como LIMIT, estimated_rows y tamaño de join
Estructura de datos y vistas
- Dentro del esquema
alignment se ofrecen materialized views
- Ejemplos:
mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments, etc.
- Columnas principales:
entity_id, uri, source, kind, original_author, title, score, embedding, entre otras
- Es posible acceder a metadatos uniéndose con la tabla
alignment.entities
- La función
alignment.author_topics() permite analizar cruces entre temas específicos y autores
Operaciones vectoriales y funciones de combinación
<=>: operador de distancia coseno de pgvector (cuanto más cerca de 0, mayor similitud)
@handle: referencia a un vector guardado
- Mezcla de vectores: combinación ponderada de conceptos en la forma
scale(@rigor,.6) - scale(@hype,.3)
- Eliminación de sesgo:
debias_vector(@axis, @topic) permite quitar la influencia de un tema específico
- El cálculo de vector centroide (centroid) permite representar el significado promedio de un autor o una época
- El cálculo de cambio temporal (temporal delta) permite rastrear desplazamientos ideológicos o conceptuales
Búsqueda híbrida y ejemplos
- Soporta búsqueda combinada léxica + semántica
- Ejemplo: reordenar candidatos de texto con un vector semántico en una forma como
WITH hits AS (search(...)) <=> @q
- Ejemplos de BM25
alignment.search('corrigibility')
alignment.search('\"inner alignment\"')
- Ejemplos de SQL
- Cálculo de la lista de autores principales sobre un tema específico
- Paginación de resultados a gran escala con
alignment.search_exhaustive()
Escala del sistema y condiciones de uso
- Cuenta con 65M+ documentos, 22M+ embeddings y 600GB+ de índices
- Se ofrece gratuitamente para investigadores, incluyendo 1.5M de tokens de embeddings
- Al crear una cuenta, se proporciona un namespace de handle personal, timeouts más largos (hasta 10 minutos) y límites de consulta ampliados
Resumen
- Alignment Scry es una plataforma de consulta de datos a gran escala para investigación en IA integrada con Claude, con soporte para búsqueda híbrida que combina SQL y operaciones vectoriales
- Mediante una API pública y lineamientos claros de consulta, ofrece accesibilidad experimental a datos para investigadores y desarrolladores de IA
- Basado en un índice de 600 GB y más de 60 millones de documentos, construye un entorno que permite automatizar la exploración relacionada con alignment e investigación sobre inteligencia
1 comentarios
Comentarios en Hacker News
Me gusta que este proyecto no sea solo un chatbot de caja negra, sino que genere SQL
En vez de usar un LLM como base de datos, creo que el camino correcto es usarlo como una herramienta para traducir lenguaje natural a un lenguaje de consulta estructurado
Aun así, me pregunto si están aplicando timeouts o sandboxing para evitar abusos de la API
También me pregunto si hay semantic bleeding entre distintos datasets; por ejemplo, “optimization” puede usarse de forma distinta en ArXiv, LessWrong y HN
El planificador de consultas SQL sigue siendo muy potente cuando se trata de muchas vistas e índices
También le pusimos mucha atención a la seguridad y al rate limiting, y bloqueamos joins peligrosos con análisis de AST
Claude puede usar combinación por centroides (centroid) para reducir diferencias semánticas entre dominios distintos
Por ejemplo, se puede hacer un experimento comparando el promedio entre el embedding de “optimization” en LessWrong y el de ArXiv
Resumí el proceso de implementación en una entrada de blog
Por ahora es un cliente para macOS, pero también estoy preparando un motor para Linux
El alcance de uso de la interpretación y traducción de lenguaje natural es enorme
Al final, creo que la inversión también se moverá hacia este tipo de herramientas prácticas
Cuanto más grande el modelo, mejor distingue los distintos sentidos de una misma palabra
Es un proyecto realmente genial. Pienso probarlo de inmediato para buscar variedades de Calabi–Yau en mi investigación actual sobre teoría de cuerdas
Trabajando con Claude, encontró dos artículos sobre flux vacua con algoritmos genéticos, y la combinación de SQL + BM25 permitió búsquedas muy precisas
Eso sí, escapar comillas en bash es incómodo, y por el límite de 100 en alignment.search(), tuve que usar search_exhaustive() para obtener resultados completos
Claude analizó el corpus de ExoPriors y resumió los artículos y resultados clave, sugiriendo que los resultados de DESI podrían cambiar la dirección de exploración en teoría de cuerdas
En particular, el artículo arXiv:2511.23463 explica el fenómeno de “phantom crossing” de la energía oscura mediante una mezcla axion-dilatón
Planeo ampliar la investigación incluyendo los parámetros (w₀, wₐ) en la función de ajuste y agregando dinámica de axiones
Artículo relacionado: cobertura de la BBC
Usar la bandera “dangerously-skip-permissions” junto con texto no seguro es riesgoso
La entrada proveniente de internet puede incluir prompt injection, así que hay que ejecutarlo sí o sí en un entorno sandbox
Estoy buscando una forma de consultar información de genes y proteínas dentro del material suplementario (Supplementary Material) de artículos de ciencias de la vida
Ahora mismo el indexado es muy inconsistente, así que mucha información de investigación genómica de los últimos 15 años está quedando enterrada
Creo que este enfoque podría funcionar aprovechando datos de acceso abierto
Usa OpenAlex para explorar el grafo de citas y analiza PDFs de acceso abierto
Yo lo usé para encontrar crioprotectores (cryoprotective agents) según la temperatura, pero se podría extender a tu problema
Expresiones como “intelligence explosion” y “ARBITRARY SQL + VECTOR ALGEBRA” suenan como jerga tecnológica exagerada
Gracias a Opus 4.5 y GPT-5.2-Codex-xhigh, la velocidad de desarrollo se disparó
Scry es la única herramienta que permite ejecutar SQL arbitrario sobre corpus a gran escala y experimentar libremente con combinaciones vectoriales
Combinar prompts con datasets externos es ahora mismo el canal de exploración más simple y potente
Es como “curl | bash”, pero para experimentar rápido
Dijeron que es una herramienta de investigación “state-of-the-art”, pero me pregunto qué tiene exactamente de tan avanzado
Por ejemplo, el modelo Gemma también fue llamado “state-of-the-art” aunque rindiera peor que la competencia
Juicero también era de vanguardia cuando salió, pero al final era mejor exprimir a mano
Actualmente estoy desarrollando un sistema autónomo de investigación académica y planeo integrar este proyecto
Por ahora uso la API de Edison Scientific y prompts personalizados, y me pregunto si hay planes de open source
Proyecto relacionado: gia-agentic-short
Si consigo $5,000, creo que podría abrirlo de inmediato