mitago.net

Página web de Celso González

Metámonos con Google

Ahora que estamos en la fase en la que todo lo que huele a Google o a Apple es noticia, incluyendo vaporwares, ideaswares y rumoreswares, voy a meterme con una de las herramientas que teóricamente forman parte de lo que es el objetivo principal de Google, ser el mejor buscador.

La herramienta en cuestión se llama Google Sitemaps , anteriormente conocida como Urchin. La idea es realmente buena, para evitar que el robot de Google nos esté escaneando "a tontas y a locas", le podemos indicar en un fichero xml que es lo que tenemos en nuestro sitio y cuando ha cambiado, de esta forma mejoramos lo que Google sabe de nosotros a la vez que reducimos el ancho de banda que nos gastaría el robot en reactualizaciones inútiles.

Sitemap Generator

Lo primero que hay que hacer es bajar un programilla en python de Sitemap Generator en Sourceforge, el programa viene con un pequeño fichero de configuración que tenemos que retocar a nuestro gusto para indicar que páginas vamos a indexar, las opciones son indicar las url a mano o en un fichero, indicar un directorio y relacionarlo con la página web, o bien a través de los access logs.

La documentación es buena, pero los mecanismos son algo complejos, veamos las opciones una a una:

Indicar las URL para un sitio con pocas páginas puede estar bien, pero sin un programa auxiliar que nos genere las urls puede ser un autentico coñazo.

Indicar un directorio esta opción está algo mejor, aquí el programa se encarga de recorrer recursivamente el directorio y añadir las páginas que va encontrando, es una buena opción si tu sitio sólo tiene contenidos estáticos.

Mirar los logs creo que es la única opción válida si tu sitio tiene contenidos dinámicos, aún así no tienes mucho control sobre lo que escanea o deja de escanear ya que contenidos poco accedidos no tienen posibilidades de aparecer, así mismo tampoco sabes muy bien sobre contenidos eliminados.

Así que resumiendo ninguno de los sistema es especialmente fiable y han obviado el sistema más sencillo y a la vez más práctico para generar los contenidos de una web, el método de un spider. Empezamos mal.

En mi caso casi todo lo que tengo es contenido estático así que empleando el método de los directorios y poniendo muchas exclusiones consigo generar mi sitemap.xml.gz. La información que da el script se resume en el número de datos indexados y sus extensiones, poca cosa para tanto rollo, no se si hay enlaces rotos o si hay páginas no referenciadas, seguimos mal.

Registrar el Sitemap

Una vez generado el sitemap y subido a tu sitio web, tiene que ser accesible así que antes de subirlo es muy recomendable revisarlo para asegurarnos que no estamos subiendo algún directorio privado o datos que no deberían verse, tenemos que hacernos una cuenta de Google. Si tenemos Gmail nos valen los mismos datos, pero si tenemos una cuenta de Adsense no nos valen. Curioso ya que es una herramienta orientada a webmasters al igual que AdSense.

Una vez logeados (¿cómo se traduce esto?) tenemos que indicar la ubicación del sitemap, y nos aparece información de cuando se ha subido el fichero por última vez y cuando fue accedido por Google. Aquí viene otro problema, si pulsamos el botón de resubmit sitemap se actualiza la fecha de última vez subido, si lo hacemos a través de un ping por http la fecha no se actualiza.

A partir de este momento tenemos acceso a unas estadísticas que consisten en unos enlaces directos a búsquedas de google tipo "link:mitago.net" y nos dicen que tienes unas estadísticas muy chulas si verificas tu sitio web.

Verificar tu web

El objetivo de verificar la web es asegurarse de que las estadísticas que muestran corresponden al propietario de la web, para asegurarse lo único que tienes que hacer es incluir un fichero con un nombre aleatorio que ellos te dan en tu web y que cuando esté subido ya lo comprobarán.

Bien , es fácil y parece seguro, lo haces y das al botoncillo de verificar, te aparece un "Pending verification" y un mensaje que te dice que lo verificarán ASAP y y que vuelvas después para ver si ha cambiado el estado.

La famosa página de estadísticas parece interesante, pero aún no he podido verla, si un proceso automático me dice As soon as posible me imagino que en un par de horas lo tiene listo, ya van cuatro días y sigo con el pending verification, que en groups.google.sitemap parece bastante habitual.

Conclusiones

A pesar de anunciar que es un producto beta, que ya tiene más de seis meses de actividad, los fallos que tiene el sistema me parecen demasiado evidentes e indican muy poca preocupación de Google por arreglarlos. Se que recientemente han tenido problemas con Google Analitics y por lo que veo bastante similares con la diferencia de que analitics es un producto nuevo y sitemaps no.

Confío en que estos problemas se solucionen ya que como he dicho antes la idea me parece muy buena, pero de momento lo único que puedo hacer es ponerle un suspenso a Google.

jue 12 enero 2006 00:000 comentarios