El archivo robots.txt se utiliza para impedir que los motores de búsqueda accedan e indexen ciertas partes de tu web. Por ejemplo, en Joomla, para que no accedan a los archivos del panel de control, deberíamos tener un archivo robots.txt como el siguiente:
User-agent:*
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Debemos tener mucho cuidado para no bloquear el acceso de los motores de búsqueda a toda la web sin percatarnos de ello, como en el siguiente ejemplo:
User-agent:*
Disallow:/
Debemos comprobar que el archivo robots.txt no está bloqueando ninguna parte importante de nuestra web. Podemos acceder a la url www.disenium.es/robots.txt, o bien a través de Google Webmaster Tools para asegurarnos de no bloquear el acceso.
El archivo robots.txt también puede usarse para indicar donde se encuentra nuestro sitemap. Debemos añadirlo en la última línea del documento:
Sitemap: https://www.disenium.es/sitemap.xml
Por lo tanto, un ejemplo de robots.txt completo para WordPress se vería así:
User-agent:*
Disallow:/wp-admin
Sitemap: https://www.disenium.es/sitemap.xml