Google Hacking (Buscadores)

26.10.2013 06:39

Los buscadores son una increíble fuente de clasificación, análisis, búsqueda y caché de información, confidencial o no, sobre un objetivo. Altavista fue el buscador preferido en los años 90, Yahoo lo fue más cerca del año 2000 y hoy lo es el excelente Google. Seguramente habremos escuchado hablar de Google hacking, es decir, utilizar el famoso buscador para encontrar datos relevantes del objetivo.

 

 

Google. Detalles de una búsqueda en Google relacionada con

Archivos que contienen passwords en tablas SQL.

(cursivas nuestras)

 

Entonces, veamos ahora una lista bastante completa de búsquedas determinadas que se pueden hacer para encontrar información ligada a intrusiones: archivos con información sensible, configuraciones, bases de datos, detalles de vulnerabilidades, avisos, usuarios, entradas de logueo, logins, directorios privados, errores típicos de un sistema operativo o aplicaciones en especial… Por su parte, el proyecto Google Hack Honeypot (https://ghh.sourceforge.net) merece especial atención.

 

 

GHH. Google Hack Honeypot es un proyecto para estudiar

 y analizar a script-kiddies que utilizan Google para buscar

determinados parámetros (de organizaciones al azar) en el buscador.

(cursivas nuestras)

 

 

Se denomina Honeypot al sistema (tipo carnada) cuya intención es atraer a intrusos simulando ser sistemas vulnerables o débiles a los ataques. Es una herramienta de seguridad informática usada para recoger información sobre los atacantes y sus técnicas. Los Honeypots pueden distraer a los atacantes y advertir al administrador del sistema de un ataque, además de permitir un examen en profundidad del atacante, durante y después del ataque. La gente de Google no es tonta y lo más probable es que cuando un atacante, buscando objetivos al azar, coloque algunos de los métodos descritos en la GHDB (Google Hack Database) sea redireccionado hacia alguna honeypot o a una mayoría de links con resultados 404 y a más honeypots. Esto permite controlar los ataques indiscriminados de script-kiddies, pero no así el ataque a organizaciones de modo focalizado.

 

La típica búsqueda inicial de un objetivo determinado será entonces: site:sitiovictima.com. A sitiovictima.com, lo antecede el operador avanzado site:, que dará como resultado una lista de subdominios relacionados o todas sus posibles secciones, incluso, links. A partir de allí, el intruso o el profesional comenzarán a investigar todos sus URLs, caché, sus fuentes, sus datos, aplicaciones y tecnologías. También como en la búsqueda de un e-mail, es recomendable utilizar la siguiente sintaxis:

 

@dominiovictima.com: solo el dominio para ver sus usuarios.

usuariovictima@dominiovictima.com: e-mail completo

usuario dominiovictima.com: con un espacio en blanco en el medio

usuario: el usuario solo

usuario dominiodealgunisp: para encontrar otras posibles casillas

 

La búsqueda debe pasar más por la lógica e inventiva nuestra (a mano, claro) que por los recursos automatizados con los que contemos para todo lo que comprende el chequeo. ¿Por qué? Porque tendremos infinitas posibilidades de combinación en comparación con las que tendríamos si pusiéramos una herramienta que lo hiciera por nosotros. Por otro lado, lograremos entender bien cómo se hace una investigación meticulosa vía buscador. Quizás al principio lleve más tiempo, pero a medida que éste pasa y se tiene mayor experiencia, los detalles y datos significativos serán más y mejor logrados. A continuación vemos un listado de operadores avanzados de Google:

 

site: busca todo lo relacionado al dominio.

intitle: sitios relacionados al título.

allintitle: sitios de títulos con todas las palabras definidas.

inurl: presente en el URL.

allinurl: todo presente en el URL.

filetype: tipo de archivo por buscar, extensión.

allintext: todo presente en el texto por buscar.

link: quién linkea a determinado sitio buscado.

inanchor: busca en el texto utilizado como link.

daterange: busca entre rangos de fechas.

cache: busca dentro de los sitios cacheados.

info: información sobre el sitio web buscado.

related: busca similares.

author: autor de mensaje en Google Groups.

group: busca pertenencia de grupo en Google Groups.

phonebook: busca números de teléfono.

insubject: busca titulares de mensajes en Google Groups.

define: busca el significado de determinado vocablo.

 

El uso del símbolo menos (-) para la exclusión de palabras es muy útil a la hora de buscar entre mucho material; lo mismo pasa con las comillas (“ ”) en caso de buscar una frase textual o el símbolo mas (+) para relacionar.

 

 

Goolag. Esta es la pantalla de la herramienta Goolag Scanner para Google,

Realizada por cDc (cult of the dead cow). Podemos bajarla de www.goolag.org.

(cursivas nuestras)

 

 

Para evitar problemas, en nuestros sitios web conviene utilizar un filtrador de robots de indexación, si no deseamos que Google u otro buscador cacheen el sitio o parte de ellos. Incluso, es recomendable bloquear spiders en busca de e-mails para evitar spam. Para crear archivos especiales, podemos visitar www.invision-graphics.com/robotstxt_generator.html. Es importante tener en cuenta que, si en el archivo robots.txt declaramos directorios privados o sensibles, un intruso podrá leerlo. Hay que saber que el buscador no indexa todo el contenido del sitio y que el webmaster o adminstrador puede tomar recaudos para que el spider indexador no cachee algunos paths (directorios o carpetas) del mismo sitio. De esta manera, esos paths deberán ser buscados luego sin el uso del buscador.

 

Paths. Podemos ver el robots.txt en un sitio del gobierno, indexado por

Google, que lista directorios importantes. Esto es un descuido de administración,

y su existencia es una de las primeras cosas que un intruso va a buscar en un sitio.

(cursivas nuestras)

 

 

Algunas herramientas automatizan la búsqueda a través de Google, como QGoogle, GoogleScan, Google Enum o SiteDigger de Foundstone. Incontables scripts en Perl y otras herramientas podrán ser encontradas en Secuirityfocus o Packetstorm para buscar en Google usuarios de sistemas e información relacionada al footprinting (Backtrack 2.0 tiene en su colección varias de éstas). Pero la búsqueda y el análisis manual es lo más recomendable para hacerlo de modo profesional dirigido a un objetivo en concreto. Siempre hay que revisar las caché de páginas en el resultado de las búsquedas porque quizás algún dato histórico, no existente a la fecha, sea de utilidad para un embate. Más adelante, veremos cómo clasificar esta información encontrada mediante los buscadores y analizaremos de qué forma nos puede ser útil.

 

Tomado de Hacking Etico-Carlos Tori.