Здравствуйте дорогие читатели блога, вас стало на пару десятков больше за неделю.
В статье я хочу рассмотреть настройку robots txt для wordpress. Зачем я это делаю? Для того чтобы ВЫ не делали ошибок в будущем и исправили их в настоящем.
Начну я с рассказа про один мой проект на WordPress. Есть значит у меня небольшой сайтик, заточенный под несколько СЧ(среде частотные запросы), куплено на страницы сайта пару тысяч ссылок, несколько десятков страниц с НЧ(низко частотные запросы). Красивое оформление, уникальные интересные статьи, перелинковка и т.д…
Вроде все хорошо, собираешь траф. стоп! траф?
А с трафом то и косяк.
Это мой не первый сайт, обычно такие сайты разгоняются в среднем до 1.5к посетителей в сутки. А тут 400-500. Причем ссылок было куплено на порядок больше, тексты действительно интересные в отличии от тех сайтов, которые уже разгонял. Начал искать отличия сайта от сайта и только тогда, когда сил искать уже не осталось, я прозрел.
Сайт стоял на WordPress, до этого я ставил сайты на SatelliteX (для действительно белых проектов не удобен, предназначен больше всего для гс). Оказалось, что у статей были дубли. Яндекс с Гуглом склеили дубли и сунули в поиск дублированные, а не статьи на которые были куплены ссылки. Вот те и настройка robots txt.
Вот так! Ну я и проглядел, вообще к сайту такого рода сильное значение не даю, поэтому про настройку robots txt, а тем более его создание (не был создан на проекте) я даже не помнил :))
И так robots.txt — Служебный файл для индексации/закрытия страниц используемый yandex and over search system. Гугл не пользуется таким файлом, а просто напросто выкидывает дубли страниц из поиска(люблю этот поисковик, не то что наш).
1. Настройка robots txt / Первая строка обозначает для какой поисковой системы предназначена(Yandex, Google,*) :
User-agent: Yandex
Причем * обозначает в robots.txt все остальные поисковые системы.
Далее идет строка Allow или Disallow(Включить/исключить). Причем Allow писать не обязательно.
2.Настройка robots txt / Исключаем системные файлы:
Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback
3.Настройка robots.txt / Закрываем дубли, обязательно:
Dissallow: /meta Disallow: /20 (прописывайте чтобы закрыть архив)
Эту фишку я подсмотрел на одном из форумов(обычный путь архива sait.ru/2009/01/22 и чтобы закрыть архивы можно прописать /20 т.е. первые 2 цифры от 2009 года. Внимание не будет работать в 2100 году)))
4. Закрываем RSS ленту.
Disallow: */feed
5. Закрываем комментарии. Это уже на ваше усмотрение.
Disallow: /wp-comments Disallow: */comments
6. Закрываем категории. Обычно закрываю, чтобы убить дубли.
Disallow: /category
7. Также у меня прописан путь к карте сайта. Работая только под yandex.
Sitemap: http://webbomj.ru/sitemap.xml
Как выглядит robots txt на сайте можно посмотреть введя :
sait.ru/robots.txt
Бедьте внимательнее, как говорится: «Семь раз отмерь, а один раз отрежь».
Переходите далее к уроку о парсинге сайтов.