Consejos para buscar en internet

(gwern.net)

35 puntos por xguru 2021-04-26 | 1 comentarios | Compartir por WhatsApp

Un repaso desde lo básico hasta los consejos principales para buscar información en internet, como artículos académicos, páginas web y libros
Un texto escrito por Gwern Branwen*, que en mi opinión tiene el mejor sitio web personal que existe. Solo trasladé una parte, así que vale mucho la pena leer el original

[ Búsqueda de artículos académicos ]

Sintaxis de búsqueda: operadores booleanos y comandos principales de Google (las comillas dobles son para coincidencia exacta, el guion es para negar/excluir, site: es para buscar en un sitio web específico)
Configurar hotkeys para búsquedas rápidas: AutoHotkey, Quicksilver, XMonad, etc.
Atajos del navegador web: C-l, C-PgUp/C-PgDwn, C-w, C-t/C-T, M-[1–9]
Ver en HTML al buscar en Google Scholar
Consejos para buscar títulos de artículos

→ Recortar el título o usar AND/OR y - para reducir los resultados de búsqueda

→ Probar agregando o quitando el año

→ Usar el rango de fechas de Google

→ Agregar site:archive.org para buscar en Internet Archive

Casos difíciles

→ Citas inversas (Reverse Citations): ver "related articles" y "cited by" en Google Scholar

→ Para tesis de maestría/doctorado, ProQuest

→ Búsqueda inversa de imágenes: usar Google Images, TinEye y Yandex

Consejos de búsqueda por dominio

→ Twitter: también aparece en Google, pero si conoces información adicional, la búsqueda avanzada de Twitter también es excelente (from:, to:, since:, until:, near:, url: ..)

→ Tribunales federales de EE. UU.: requiere registro en Pacer. Es de pago ($0.1/página), pero si el total es menor a $15 es gratis. También existe un mirror público llamado Recap. Hay extensión de navegador de Recap

→ Biblioteca Wellcome: tiene muchas revistas y libros antiguos. Como su SEO es bastante malo, no aparece bien en Google y similares, pero vale la pena revisarla con cuidado

→ Revistas antiguas: site:pdf-giant.net, para búsquedas relacionadas con educación usar ERIC ( site:eric.ed.gov )

Cómo lidiar con los paywalls

→ En el caso de libros y artículos, se puede sortear usando Libgen / Sci-Hub. A través de Z-Library también se puede hacer búsqueda de texto completo

Lugares donde se puede pedir ayuda a otras personas cuando es imposible conseguir algo con todos los métodos anteriores

→ Subreddit: /r/scholar

→ Twitter: #icanhazpdf

→ Wikipedia Resource Request

→ LessWrong HelpDesk

Qué hacer después de encontrar una copia en texto completo

→ No enlazar a hosts poco confiables: Libgen/Sci-Hub, Nber, Scribed, ResearchGate..

→ Si es un escaneo, editar y hacer OCR con gscan2pdf

→ Agregar metadatos: ExifTool, pdftk

→ Si es posible, alojarlo públicamente y compartir el enlace en Wikipedia/Reddit

→ Consejo para enlaces PDF: se puede indicar una página agregando #page=N al final de la URL

Avanzado

→ Usar bots de archivado para archivar automáticamente el historial de búsquedas

→ Crear un GCSE (Google Custom Search Engine)

[ Páginas web ]

Si conoces el título, buscar solo el título
Al buscar una URL, quitar parámetros innecesarios
En Google, usar site: para limitar por dominio y por fecha
Usar buscadores además de Google

→ DuckDuckGo: la función Bangs permite usar directamente búsquedas en sitios externos (actualmente soporta más de 13000 sitios externos)

→ Bing/Yandex también son útiles

Revisar archivos: Internet Archive o el metaarchivo Memento

→ IA ofrece la función de revisar URLs de un dominio completo. Con wayback_machine_downloader (Ruby) se puede descargar todo

→ Antes del cierre de Google Reader, Archive Team respaldó bastantes RSS de Google Reader y los alojó en IA (también es posible con WARC; al final se incluyen consejos de descarga y búsqueda)

→ archive.today: un mirror similar a IA

→ Si de plano no funciona, también se puede usar Google Cache

[ Libros digitales ]

Los libros no están en Google Scholar. Usar la búsqueda de Google.
Primero buscar con filetype:pdf y luego usar Libgen
En IA también hay muchos libros, pero quizá por su mal SEO no aparecen bien en búsquedas. "título del libro site:archive.org"

→ Si un libro en IA tiene DRM, se puede usar el plugin De-DRM de Calibre

En HathiTrust también hay muchos libros escaneados

→ No es posible descargar todo directamente, pero hay un método alternativo con wget. Este método también se puede aplicar a Wellcome Library

[ Libros impresos ]

Buscar libros usados en Google Books o find-more-books.com

→ eBay y Amazon no son buenas opciones para comprar libros usados. Mejor usarlos solo para consultar información

→ AbeBooks, Thrift Books, Better World Books, B&N y otros sí son buenas opciones para comprar

Escanear libros: consejos sobre métodos destructivos vs. no destructivos, herramientas de corte, metadatos y generación de PDF

Gwern Branwen es un escritor e investigador independiente. Administra el sitio personal https://www.gwern.net/ y realmente es muy singular

En mi opinión, es de lo mejor entre las páginas personales y blogs. Su especialidad es tomar un tema específico, profundizarlo con mucho detalle, organizarlo y publicarlo.

→ Top 5 de "libros que la gente empezó a leer pero abandonó", según GoodReads: https://es.news.hada.io/topic?id=1231

1 comentarios

gguimoon 2021-04-28

También recomiendo "Consejos para buscar información para desarrolladores", que se publicó anteriormente. https://es.news.hada.io/topic?id=2932

Consejos para buscar en internet

Lecturas relacionadas

1 comentarios