Настройка robots txt для яндекса и google


Здравствуйте дорогие читатели блога, вас стало на пару десятков больше за неделю.

В статье я хочу рассмотреть настройку robots txt для wordpress. Зачем я это делаю? Для того чтобы ВЫ не делали ошибок в будущем и исправили их в настоящем.

Начну я с рассказа про один мой проект на WordPress. Есть значит у меня небольшой сайтик, заточенный под несколько СЧ(среде частотные запросы), куплено на страницы сайта пару тысяч ссылок, несколько десятков страниц с НЧ(низко частотные запросы). Красивое оформление, уникальные интересные статьи, перелинковка и т.д…

Вроде все хорошо, собираешь траф. стоп! траф?
А с трафом то и косяк.

настройка robotstxt

настройка robotstxt

Это мой не первый сайт, обычно такие сайты разгоняются в среднем до 1.5к посетителей в сутки. А тут 400-500. Причем ссылок было куплено на порядок больше, тексты действительно интересные в отличии от тех сайтов, которые уже разгонял. Начал искать отличия сайта от сайта и только тогда, когда сил искать уже не осталось, я прозрел.

Сайт стоял на WordPress, до этого я ставил сайты на SatelliteX (для действительно белых проектов не удобен, предназначен больше всего для гс). Оказалось, что у статей были дубли. Яндекс с Гуглом склеили дубли и сунули в поиск дублированные, а не статьи на которые были куплены ссылки. Вот те и настройка robots txt.

Вот так! Ну я и проглядел, вообще к сайту такого рода сильное значение не даю, поэтому про настройку robots txt, а тем более его создание (не был создан на проекте) я даже не помнил :))

И так robots.txt — Служебный файл для индексации/закрытия страниц используемый yandex and over search system. Гугл не пользуется таким файлом, а просто напросто выкидывает дубли страниц из поиска(люблю этот поисковик, не то что наш).

1. Настройка robots txt / Первая строка обозначает для какой поисковой системы предназначена(Yandex, Google,*) :

User-agent: Yandex

Причем * обозначает в robots.txt все остальные поисковые системы.

Далее идет строка Allow или Disallow(Включить/исключить). Причем Allow писать не обязательно.

2.Настройка robots txt / Исключаем системные файлы:

 

Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback

3.Настройка robots.txt / Закрываем дубли, обязательно:

Dissallow: /meta
Disallow: /20 (прописывайте чтобы закрыть архив)

Эту фишку я подсмотрел на одном из форумов(обычный путь архива sait.ru/2009/01/22 и чтобы закрыть архивы можно прописать /20 т.е. первые 2 цифры от 2009 года. Внимание не будет работать в 2100 году)))

4. Закрываем RSS ленту.

Disallow: */feed

5. Закрываем комментарии. Это уже на ваше усмотрение.

Disallow: /wp-comments
Disallow: */comments

6. Закрываем категории. Обычно закрываю, чтобы убить дубли.

Disallow: /category

7. Также у меня прописан путь к карте сайта. Работая только под yandex.

Sitemap: http://webbomj.ru/sitemap.xml

Как выглядит robots txt на сайте можно посмотреть введя :

sait.ru/robots.txt

Бедьте внимательнее, как говорится: «Семь раз отмерь, а один раз отрежь». :)

Переходите далее к уроку о парсинге сайтов.

Посмотрите похожие посты: