Развлекательный портал - Ramnek.RU


» Статьи для web-master: Файл robots.txt.

Управлять работой поисковых роботов можно с помощью двух способов:
1) с помощью файла robots.txt,
2) с помощью мета тега "robots".
Далее мы рассмотрим оба этих способа:

1) ROBOTS.TXT ФАЙЛ

Файл robots.txt предназначен для управления поисковыми роботами. На сайте может сущестовать только один robots.txt файл. Как правило, он должен находиться в корневой директории сайта, например: www.internet-reklama.com/robots.txt. Название файла должно быть написано маленькими буквами.

В файле robots.txt содержится перечень инструкций, с помощью которых пользователь может в некоторой степени управлять действиями поисковых роботов.

Например, ваш сайт еще находится в тестовой стадии и вы бы не хотели, чтобы он в таком виде был проиндексирован роботами или в каких-то директориях существует закрытая для широкой публики информация. Для этого в этот файл надо поместить следующую запись:

User-agent: *
Disallow: /

Для того, чтобы исключить ваш веб-сайт от индексирования только определенной поисковой системой, например AltaVista, вам надо сначала узнать имя поискового робота, который использует AltaVista (она использует поисковый робот под названием "Scooter") и подставить его в строчку "User-agent:". В данном случае запись будет выглядеть следующим образом:

User-agent: scooter
Disallow: /

Часто названия роботов отображают названия поисковых систем, например поисковый робот Ramblera носит название "StackRambler".

Вы также можете исключить от индексирования роботами определенную директорию вашего сайта. Например, вам надо исключить из индексирования директорию "/personal/secrets/" и директорию "/cgi-bin/" для всх роботов. Для этого вам надо добавить следующую строчку:

User-agent: *
Disallow: /personal/secrets/
Disallow: /cgi-bin/

2) МЕТА ТЕГ "ROBOTS"

В отличие от предыдущего способа, данный способ управляет поведением роботов для данной, конкретной странички. Управление роботами достигается с помощью двух команд: "noindex" - не индексировать страничку и "nofollow" - не следовать по ссылкам с данной странички. Например:

<meta name="robots" content="noindex,follow" > - этот тэг инструктирует роботов не индексировать данную страничку, однако следовать по ссылкам с данной странички.

<meta name="robots" content="index,nofollow" > - роботы проиндексируют данную страничку, но никуда дальше с этой странички по ссылкам не пойдут.

<meta name="robots" content="index,follow" >- данный тэг ставить нет смысла, так как роботы и так по умолчанию индексируют все страницы и следуют по ссылкам с данной страницы.