Лепесток новой цивилизации

    Robots.txt — почему так важно управлять индексацией сайта в Яндексе и Гугле.

    Поделиться
    avatar
    Лепесток
    Заслуженный пользователь
    Заслуженный пользователь

    Рыба Женщина
    Сообщения : 1040
    Возраст : 33
    Откуда : Казахстан, Караганда

    Robots.txt — почему так важно управлять индексацией сайта в Яндексе и Гугле.

    Сообщение  Лепесток в Ср Окт 12, 2011 5:17 pm

    Надо очень четко понимать, что не все содержимое сайта (файлы и директории), созданного на каком-либо движке (CMS Joomla, SMF или Вордпресс), должно быть доступно для индексации Яндексом и Гугле (другие поисковые системы я не рассматриваю, в силу их малой доли в поиске рунета).

    Если не прописать определенные правила поведения в robots.txt для ботов поисковых систем, то при индексации в поисковые системы попадет множество страниц, не имеющих отношения к содержимому сайта, а также может произойти многократное дублирование контента информации (по разным ссылкам будет доступен один и тот же материал сайта), что поисковики не любят. Хорошим решением будет запрет индексации в robots.txt.

    Для того, чтобы задать правила поведения для поисковых ботов используется файл robots.txt. С его помощью мы сможем влиять на процесс индексации сайта Яндексом и Google. Robot.txt представляет из себя обычный текстовый файл, который вы сможете создать, и в дальнейшем редактировать, в любом текстовом редакторе (например, Notepad++). Поисковый робот будет искать этот файл в корневом каталоге вашего сайта и если не найдет, то будет индексировать все до чего сможет дотянуться.

    Поэтому после написания требуемого файла robots.txt (все буквы в названии должны быть в нижнем регистре — без заглавных букв) его нужно сохранить в корневую папку сайта, так чтобы он был доступен по такому адресу: http://vash_site.ru/robots.txt.

    Кстати, если вы хотите узнать как выглядит файл robots.txt того или иного сайта, то достаточно будет дописать к адресу главной страницы этого сайта /robots.txt. Это может быть полезно для определения наилучшего варианта для вашего файла robots.txt, но при этом надо учитывать, что для разных сайтовых движков оптимальный файл robots.txt будет выглядеть по разному (запрет индексации в robots.txt нужно будет делать для разных папок и файлов движка).
    avatar
    Лепесток
    Заслуженный пользователь
    Заслуженный пользователь

    Рыба Женщина
    Сообщения : 1040
    Возраст : 33
    Откуда : Казахстан, Караганда

    Re: Robots.txt — почему так важно управлять индексацией сайта в Яндексе и Гугле.

    Сообщение  Лепесток в Ср Окт 12, 2011 5:20 pm

    Директивы и правила написания файла robots.txt (disallow, user-agent, host).

    Файл robots.txt имеет совсем не сложный синтаксис, который очень подробно описан, например, в яндексе. Обычно, в файле robots.txt указывается для какого поискового робота предназначены описанные ниже директивы (директива 'User-agent'), сами разрешающие ('Allow') и запрещающие директивы ('Disallow'), а также еще активно используется директива 'Sitemap' для указания поисковикам, где именно находится файл карты сайта.

    Еще полезно указать в файле robots.txt какое из зеркал вашего сайта является главным в директиве 'Host'. Если даже у вашего сайта нет зеркал, то полезно будет указать в этой директиве, какой из вариантов написания вашего сайта является главным с www или без него. Т.к. это тоже является своего рода зеркалированием. Об этом я подробно рассказывал в этой статье: Домены с www и без www — история появления, использование 301 редиректа для их склеивания.

    Теперь поговорим немного о правилах написания файла robots.txt. Директивы в файле robots.txt имеют следующий вид:
    <поле>:<пробел><значение><пробел>
    <поле>:<пробел><значение><пробел>


    Правильный файл robots.txt должен содержать хотя бы одну директиву «Disallow» после каждой записи «User-agent». Пустой файл robots.txt предполагает разрешение на индексирование всего сайта.

    Директива «User-agent» должна содержать название поискового робота. При помощи этой директивы в robots.txt можно настроить индексацию сайта для каждого конкретного поискового робота (например, создать запрет индексации отдельной папки только для Яндекса). Пример написания директивы «User-agent», адресованной всем поисковым роботам зашедшим на ваш ресурс, выглядит так:User-agent: *


    Если вы хотите в директиве «User-agent» задать определенные условия индексации сайта только для какого то одного поискового робота, например, Яндекс, то нужно написать так: User-agent: Yandex


    Робот каждой поисковой системы имеет своё название (например, для рамблера это StackRambler), как в приведенном выше примере. Здесь я приведу список поисковых роботов, самых известных поисковиков:
    Google http://www.google.com Googlebot
    Yahoo! http://www.yahoo.com Slurp (или Yahoo! Slurp)
    AOL http://www.aol.com Slurp
    MSN http://www.msn.com MSNBot
    Live http://www.live.com MSNBot
    Ask http://www.ask.com Teoma
    AltaVista http://www.altavista.com Scooter
    Alexa http://www.alexa.com ia_archiver
    Lycos http://www.lycos.com Lycos
    Яндекс http://www.ya.ru Yandex
    Рамблер http://www.rambler.ru StackRambler
    Мэйл.ру http://mail.ru Mail.Ru
    Aport http://www.aport.ru Aport
    Вебальта http://www.webalta.ru WebAlta (WebAlta Crawler/2.0)


    У крупных поисковых систем иногда кроме основных поисковых ботов имеются также отдельные боты для индексации блогов, новостей, изображений и т.д. Много информации по разновидностям поисковых роботов вы можете почерпнуть на этом ресурсе.

    Приведу несколько простых примеров управления индексацией сайта в Яндексе, Гугле и других поисковиках с помощью директив файла robots.txt с объяснением его действий.
    1. Приведенный ниже код для файла robots.txt разрешает всем поисковым роботам проводить индексацию всего сайта без каких-либо исключений. Это задается пустой директивой Disallow.
    User-agent: *
    Disallow:


    2. Следующий код, напротив, полностью запрещает всем поисковикам проводить индексацию сайта. Устанавливает это директива Disallow с «/» в поле значения.User-agent: *
    Disallow: /


    3. Такой файл robots.txt будет запрещать всем поисковикам проводить индексацию содержимого каталога /image/ (http://mysite.ru/image/ — путь к этому каталогу)User-agent: *
    Disallow: /image/


    4. В приведенном ниже примере, для индексации будут запрещены директория «image», а так же все файлы и директории, начинающиеся с символами «image», т. е. файлы: «image.htm», «images.htm», директории: «image», «images1», «image34» и т. д.):User-agent: *
    Disallow: /image


    5. При описании путей для директив Allow-Disallow можно использовать символы '*' и '$', задавая, таким образом, определенные логические выражения. Символ '*' означает любую (в том числе пустую) последовательность символов. Следующий пример запрещает всем поисковикам индексацию файлов на сайте с расширение «.aspx»:User-agent: *
    Disallow: *.aspx


    Во избежания возникновения неприятных проблем с зеркалами сайта (Домены с www и без www — история появления, использование 301 редиректа для их склеивания) , рекомендуется добавлять в файл robots.txt директиву Host, которая указывает роботу Яндекса на главное зеркало вашего сайта (Директива Host, позволяющая задать главное зеркало сайта для Яндекса). По правилам написания robots.txt в записи для User-agent должна быть хотя бы одна директива Disallow (обычно ставят пустую, ничего не запрещающую):User-agent: Yandex
    Disallow:
    Host: www.site.ru

    либо
    User-agent: Yandex
    Disallow:
    Host: site.ru

    в зависимости от того что для вас оптимальнее.


    Директива Sitemap указывает на местоположение карты сайта (Sitemap xml). В качестве параметра указывается путь к файлу, включая http://.
    Например:Sitemap: http://site.ru/sitemap.xml
    avatar
    Лепесток
    Заслуженный пользователь
    Заслуженный пользователь

    Рыба Женщина
    Сообщения : 1040
    Возраст : 33
    Откуда : Казахстан, Караганда

    Re: Robots.txt — почему так важно управлять индексацией сайта в Яндексе и Гугле.

    Сообщение  Лепесток в Ср Окт 12, 2011 5:21 pm

    Robots и Robots.txt — запрет индексации поисковыми системами дубликатов на сайте

    Существует еще один способ настроить индексацию отдельных страниц сайта для Яндекса и Гугле . Для этого внутри тега «HEAD» нужной страницы, прописывается МЕТА-тег Robots и так повторяется для всех страниц, к которым нужно применить то или иное правило индексации (запрет или разрешение). Пример применения мета-тега:<html>
    <head>
    <meta name="robots" content="noindex,nofollow">
    <meta name="description" content="Эта страница ....">
    <title>...</title>
    </head>
    <body>
    ...


    В этом случае роботы всех поисковых систем должны будут забыть об индексации этой страницы (об это говорит noindex в мета-теге) и анализе размещенных на ней ссылок (об этом говорит nofollow) .

    Существуют только две пары директив мета тега Robots: [no]index и [no]follow:
    Index — указывают, может ли робот проводить индексацию данной страницы
    Follow — может ли он следовать по ссылкам со страницы

    Значения по умолчанию – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность всех директив или, соответственно, наоборот: all=index,follow и none=noindex,nofollow.

    Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагина All in One SEO Pack. Ну все, с теорией покончено и пора переходить к практике, а именно, к составлению оптимальных файлов robots.txt для Joomla, SMF и WordPress.

    Как известно, у проектов, созданных на основе какого-либо движка (Joomla, WordPress, SMF и др), имеется множество вспомогательных файлов не несущих никакой информативной нагрузки.

    Если не запретить индексацию всего этого мусора в robots.txt, то время, отведенное поисковыми системами Яндекс и Гугл на индексацию вашего сайта, будет тратиться на перебор поисковыми роботами файлов движка на предмет поиска в них информационной составляющей, т.е. контента, который, кстати, в большинстве CMS хранится в базе данных, к которой поисковым роботам никак не добраться (вы можете работать с базами через PhpMyAdmin). В этом случае, времени на полноценную индексацию сайта у роботов Яндекса и Гугла может не остаться.

    Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать дублирования контента (информационного содержимого) вашего сайта при индексировании. Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам (URL). Поисковые системы Яндекс и Гугл, проводя индексацию сайта, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса при их большом количестве.

    Если ваш проект создан на основе какого-либо движка (Joomla, SMF, WordPress), то дублирование контента будет иметь место возможно с высокой вероятностью, а значит нужно с ним бороться, в том числе и с помощью запрета индексации в robots.txt.

    Например, в WordPress, страницы с очень похожим содержимым, могут попасть в индекс Яндекса и Гугле если разрешена индексация содержимого рубрик, содержимого архива тегов и содержимого временных архивов. Но если с помощью мета-тега Robots создать запрет на индексацию архива тегов и временного архива (можно теги оставить, а запретить индексацию содержимого рубрик), то дублирования контента не возникнет. Для этой цели в WordPress лучше всего будет воспользоваться возможностями плагина All in One SEO Pack.

    Еще сложнее с дублированием контента обстоит дело в форумном движке SMF. Если не производить тонкую настройку (запрет) индексации сайта в Яндексе и Гугле через robots.txt, то в индекс поисковых систем попадут многократные дубли одних и тех же постов. В Joomla иногда возникает проблема с индексацией и дублированием контента обычных страниц и их копий, предназначенных для печати.

    Robots.txt предназначен для задания глобальных правил запрета индексации в целых директориях сайта, либо в файлах и директориях, в названии которых присутствуют заданные символы (по маске). Примеры задания таких запретов индексации вы можете посмотреть в первой статье этой статьи.

    Для запрета индексации в Яндексе и Гугле одной единственной страницы, удобно использовать мета-тег Robots, который прописывается в шапке (между тегами HEAD) нужной страницы. Подробно о синтаксисе мета-тега Robots чуть выше по тексту. Для запрета индексации внутри страницы можно использовать тег NOINDEX, но он, правда, поддерживается только поисковой системой Яндекс.
    avatar
    Лепесток
    Заслуженный пользователь
    Заслуженный пользователь

    Рыба Женщина
    Сообщения : 1040
    Возраст : 33
    Откуда : Казахстан, Караганда

    Re: Robots.txt — почему так важно управлять индексацией сайта в Яндексе и Гугле.

    Сообщение  Лепесток в Ср Окт 12, 2011 5:21 pm

    Директива Host в robots.txt для Яндекса

    Теперь давайте рассмотрим конкретные примеры robots.txt, предназначенного для разных движков — Joomla, WordPress и SMF. Естественно, что все три файла robots.txt, созданные для разных движков, будут существенно (если не сказать кардинально) отличаться друг от друга. Правда, будет во всех этих robots.txt один общий момент и момент этот связан с поисковой системой Яндекс.

    Т.к. в рунете поисковик Яндекс имеет достаточно большой вес, то нужно учитывать все нюансы его работы, то для корректной индексации сайта в Яндексе нужна директива Host в robots.txt. Эта директива, в явной форме, укажет Яндексу главное зеркало вашего сайта. Более подробно почитать об этом вы можете здесь: Директива Host, позволяющая задать главное зеркало сайта для Яндекса.

    Для указания директивы Host советуют использовать отдельный блог User-agent в файле robots.txt, предназначенный только для Яндекса (User-agent: Yandex). Это связано с тем, что остальные поисковые системы могут не понимать директиву Host и, соответственно, ее включение в директиву User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям и неправильной индексации вашего сайта.

    Как обстоит дело на самом деле — сказать трудно, ибо алгоритмы работы поисковиков — это вещь в себе, поэтому лучше сделать в robots.txt все так, как советуют. Но в этом случае в файле robots.txt вам придется дублировать в директиве User-agent: Yandex все те правила, что вы задали в директиве User-agent: *. Если вы оставите директиву User-agent: Yandex с пустой директивой Disallow:, то таким образом вы в robots.txt разрешите Яндексу индексацию всего сайта.

    Прежде чем перейти к рассмотрению конкретных вариантов файла robots.txt, хочу вам напомнить, что проверить работу своего файла robots.txt вы можете в Яндекс Вебмастер и Гугл Вебмастер.
    avatar
    Лепесток
    Заслуженный пользователь
    Заслуженный пользователь

    Рыба Женщина
    Сообщения : 1040
    Возраст : 33
    Откуда : Казахстан, Караганда

    Re: Robots.txt — почему так важно управлять индексацией сайта в Яндексе и Гугле.

    Сообщение  Лепесток в Ср Окт 12, 2011 5:22 pm

    Правильный robots.txt для сайта на Joomla

    Рекомендованный файл robots.txt для Joomla выглядит так:User-agent: *
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /components/
    Disallow: /images/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Disallow: /xmlrpc/


    В принципе, здесь практически все учтено и работает этот файл robots.txt для Joomla хорошо, создавая запрет на индексацию в Яндексе и Гугле того, что индексировать не следует. Единственное, в этот правильный robots.txt следует добавить отдельное правило User-agent: Yandex для вставки директивы Host, определяющей главное зеркало сайта для Яндекса, а так же указать в robots.txt путь к файлу Sitemap. Поэтому в окончательном виде правильный robots.txt для Joomla, по-моему мнению, должен выглядеть так:User-agent: *
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Disallow: /xmlrpc/

    User-agent: Yandex
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /media/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Disallow: /xmlrpc/
    Host: vash_sait.ru
    Sitemap: http://vash_sait.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1


    Да, еще обратите внимание, что во втором варианте файла robots.txt для Joomla нет директивы Disallow: /images/, дающей запрет на индексацию картинок вашего сайта. Я забыл сначала акцентировать ваше внимание на этом, но мне об этом напомнил уважаемый Alex, написавший следующее:

    В Joomla не правильно закрывать от индексации поисковыми системами папку Images. Закрыв ее от индексации в robots.txt, вы не будете участвовать в поиске по картинкам Яндекса и Google. А если у вас еще и изображения уникальные, так вы будете терять еще один весомый аргумент, для показа поисковикам, что ваш проект интересный

    Полностью с ним согласен в том, что если изображения, используемые на вашем Joomla-проекте уникальные, и вы хотите, чтобы посетители находили ваш сайт еще и с поиска по картинкам от Яндекса и Google, то обязательно удалите это правило из своего файла robots.txt, но так же не забывайте прописывать всем вашим изображениям атрибуты Alt и Title (Для участия ваших изображений в поиске по картинкам Яндекса и Google прописываем теги ALT и TITLE). Именно по ключевым словам, прописанным в этих атрибутах и будут приходить целевые посетители на ваш проект с поиска по картинкам Яндекса и Google.

    При создании интернет магазина для Joomla на основе компонента VirtueMart я столкнулся с тем, что при индексации в Яндекс и Гугле стали попадать версии для печати страниц этого самого магазина. Кнопка, ведущая на страницу для печати, была необходима (заказчик так хотел), поэтому оставался только вариант с запрета индексации страниц для печати в robots.txt.

    Но все оказалось совсем не сложно. Дело в том, что для создания версии для печати в Joomla используется такой же адрес страницы, за исключением одного: обращение идет не к файлу index.php, а к файлу index2.php. При этом не осуществляется загрузка шаблона Joomla, т.е. выводится только содержимое страницы на весь экран. Поэтому, для запрета индексации версий страниц для печати в VirtueMart, я добавил в файл robots.txt для Joomla следующее правило:Disallow: /index2.php?page=shop


    Вы тоже можете добавлять свои правила в robots.txt, но после этого обязательно проверьте robots.txt — достигли ли вы желаемого результата. Для это используйте соответственно Яндекс Вебмастер и Гугл Вебмастер.
    avatar
    Олег
    Постоянный пользователь
    Постоянный пользователь

    Овен Мужчина
    Сообщения : 118
    Возраст : 31

    Re: Robots.txt — почему так важно управлять индексацией сайта в Яндексе и Гугле.

    Сообщение  Олег в Вт Окт 18, 2011 5:20 pm

    Лепесток, большое спасибо за тему. Очень полезная инфа.

    Спонсируемый контент

    Re: Robots.txt — почему так важно управлять индексацией сайта в Яндексе и Гугле.

    Сообщение  Спонсируемый контент


      Текущее время Вт Дек 12, 2017 9:09 pm