Как создать Блог?
кнопка подробнее

Правильный robots.txt для wordpress

Некоторые новички, которые создают сайты на WordPress, уверены, что после установки движка можно приступать к наполнению сайта. На самом деле, существует масса тонкостей, о которых необходимо задуматься ещё до того, как поисковые роботы начнут индексировать сайт.


Файл robots.txt содержит в себе данные, которые помогают ограничить поисковых роботов от лишней информации на сайте, его присутствие и настройка является обязательным действием.

Файл robots.txt для WordPress устанавливается по умолчанию, поэтому вам остается лишь заняться его настройкой.

robots.txt для wordpress

Настройка robots для WordPress

В robots.txt, который устанавливается по умолчанию, уже присутствуют некоторые данные например, строка User-agent. Данная строчка позволяет указать, для какого поискового робота вы устанавливаете настройки. Символ * обозначает, что настройки общие для роботов всех поисковых систем.

Где находится файл Robots.txt? Ищите его на хостинге в корневой папке (Что такое корень сайта и где находится).

При необходимости, вы можете прописать в строке User-agent название одного из роботов поисковиков и тем самым установить индивидуальные параметры. Вот названия поисковых роботов:

В каждой из поисковых систем есть ещё и отдельные роботы, которые отвечают за определенный контент. В сети вы сможете найти названия каждого из них, но используются они довольно редко. Для примера представим несколько роботов Яндекса:

Следующие важные части файла robots.txt – это директивы Disallow, Host и Satemap.

Вы можете посмотреть файл Robots любого сайта, используя ссылку следующего вида workion.ru/robots.txt.

Disallow – благодаря этому значению, вы можете скрывать от поисковых роботов часть информации сайта. По умолчанию в вашем robots.txt уже должны быть закрыты от индексации следующие директории:

Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-login.php
Disallow: /wp-register.php

Это не весь список закрытых директорий, в котором находятся различные страницы плагинов, КЭШа, административной панели и прочих директорий.

Что лучше закрывать от поисковых роботов?

Это может быть не уникальный контент или дубли страниц. Как показывает практика, при использовании CMS у многих появляется проблема с дублями, которые проще всего скрыть.

Host – следующая функция позволяет указать главный адрес сайта. Даже если у вашего сайта один домен, он имеет 2 значения, например, www.workion.ru и просто workion.ru. При покупке ссылок, вы должны использовать один из видов адреса вашего сайта, а в файле robots.txt, укажите какой из них главный.

Satemap – эта строчка предназначена для указания пути к карте сайта. Создать карту сайта на WordPress не сложно, для этого есть специальные плагины. Нужна она для того, чтобы поисковики могли быстро находить новые материалы для индексации.

Вопросы по настройке Robots.txt

Мои постоянные читатели буквально засыпают разными вопросами, связанными с данным файлом. Чтобы не писать много раз одно и тоже, я решил составить подборку популярных вопросов и ответить на них:

  1. Как запретить индексацию страницы?

Чтобы запретить индексацию отдельной страницы, используйте функцию Disallow, вот пример:

Disallow: http://www.домен.ru/shop/22

  1. Как запретить индексацию сайта?

Здесь также пригодится Disallow, ссылку ставьте на корень сайта (можно устанавливать для определенных поисковых систем, используя User-agent):

Disallow: /

  1. Как указать Sitemap?

Чтобы поисковые системы правильно находили карту сайта, используйте функцию Sitemap:

Sitemap: http://sait/sitemap.xml

  1. Как запретить битые ссылки?

При работе разных плагинов, могут появиться битые ссылки. Чтобы не запрещать полностью компоненты, определяйте их и поочередно добавляйте в код Robots:

Disallow: /index.php?option=com_jreviews&Itemid=91

  1. Как запретить индексацию поддомена?

Чтобы закрыть поддомен, необходимо в корне дополнительного сайта создать Robots.txt и там прописать такой же код, как во втором вопросе (полный запрет от индексации сайта).

Вот несколько простых решений сложных вопросов. Новички часто этим интересуются, поэтому информация должна быть полезной.

Правильный Robots для WordPress, как настроить?

Для каждого сайта необходимо создавать индивидуальный файл robots.txt, для блога Workion.ru он выглядит так:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: ваш_сайт.ru

Sitemap: http://ваш_сайт.ru /sitemap.xml.gz
Sitemap: http://ваш_сайт.ru /sitemap.xml

Если уже создали сайт на CMS WordPress и вы никогда не обращали внимания на файл robots.txt, настоятельно рекомендуем вам это сделать. Чтобы даже у новичков не возникало проблем при настройке этого важного файла, давайте разберемся, для чего прописаны все эти строчки:

User-agent:  - указывает на то, что указанные правила будут учитываться всеми поисковыми системами. Если требуется задать правила для определенного поисковика, прописывается формат User-agent: Yandex.

Allow – обратная функция Disallow, она разрешает индексацию (для WordPress можно не использовать).

Звездочка * - указывает на произвольную установку символов.

Остальные функции уже описаны в данной статье. В принципе, разбираться в этом не обязательно, ведь вы можете взять готовый вариант чуть выше.

На официальном сайте Яндекса есть подробное описание всех важных моментов по настройке robots.txt (читайте здесь).

После настройки разных параметров и установке выше указанного кода, появились проблемы. Оказалось, что на сайте не настроено ЧПУ (что такое URL и ЧПУ). Если и на вашем ресурсе не настроены человекопонятные адреса, используйте следующий код в Robots.txt:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
Host: ваш_сайт.ru
Sitemap: http://ваш_сайт/sitemap.xml.gz
Sitemap: http://ваш_сайт/sitemap.xml

Каждый раз, после внесения изменений в данном файле, проводите его проверку. Для этого у поисковых систем есть специальные инструменты (проверка Robots у Яндекса).

Если не хотите вручную настраивать данный файл, можно использовать плагин для настройки Robots.txt All in One SEO Pack.

Поисковые боты не могут самостоятельно определить, в какие директории вашего сайта заходить и что именно индексировать.

Им нужно помогать с этим, а настройка Robots.txt реально помогает это сделать. Сделайте так, чтобы данный файл был идеальным для вашего ресурса, это один из важных моментов оптимизации.

Вам также будет интересно:
- Как получать естественные ссылки?
- Бесплатный конструктор сайтов Fo
- Негативное влияние прогонов по каталогам

Буду благодарен, если поделитесь этой статьей в социальных сетях:

Комментарии: 0