Основы SEO: Robots.txt

//Основы SEO: Robots.txt

Если вы еще не знаете, у каждого сайта должен быть файл robots.txt. Если у вас на сайте нет такого файла, то нужно сделать несколько вещей: уволить сеошника, создать файл, найти нового профессионала. Сделать можно в любом порядке. Сейчас я расскажу вам, что такое роботс.тхт и зачем он нужен.

Что такое robots.txt?

Это обычный файл с расширением .txt (создать можно в обычном блокноте), который содержит правила (исключения) для ограничения доступа к определенным ресурсам вашего сайта или сервера. Правила будут действовать только для поисковых роботов (Google, Yandex, Bing и другие). Проще говоря, если вы запретите страницу igry-dlya-detey.html, то она не попадет (в большинстве случаев) в выдачу поисковой системы.

Как работает файл robots?

Как работает robots.txt

Если верить википедии, Robots.txt был принят 30 января 1994 года и с тех пор поддерживается большинством поисковых систем.  Хотя использование файла является добровольным (как для поисковой системы так и для сайтов), большинство интернет-ресурсов имеют данный файл.

Для оптимизации и продвижения сайта robots.txt имеет такое же значение, как и xml карта сайта.

Проверить наличие данного файла на своем сайте очень просто. Достаточно после своего домена прописать /robots.txt. Если вы получили 404 ошибку, значит у вас нет этого файла. Инструкции для роботов нашего сайта можно посмотреть перейдя по адресу: https://seosreda.com.ua/robots.txt

Что должно быть в файле?

На изображении ниже вы видите обычный файл с небольшими изменениями, о которых расскажем немного позже.

пример файла

Стандартный вид файла robots.txt с небольшими изменениями

Файл содержит инструкции для роботов поисковых систем. Рассмотрим синтаксис и основные параметры:

  • User-agent:  — определяет поискового робота, для которого устанавливаем правила. * — правила применимы ко всем поисковым роботам. Можно прописать User-agent: Yandex или User-agent: Googlebot. В таком случае, ограничения будут прописаны для каждого робота поисковой системы.
  • Disallow: запрещает индексацию конкретного элемента, а Allow: — разрешает.
  • Конструкция *?s= запрещает индексацию всех страниц, у которых в URL присутствует параметр ?s=.
  • Правило Sitemap: http://…. указывает роботу на файл с картой сайта в формате XML. Таких файлов может быть несколько, тогда указываем путь к каждому отдельно или к общему сайтмапу, который включает несколько карт сайта.
  • Host: www.seosreda.com.ua указывает на главное зеркало сайта. Это правило понимает только Яндекс. Для Google правило бесполезно.
  • Если нужно что-то закомментировать, используем символ #. 

Вот забавный пример:

nike robots

Угадай, у какого сайта такой robots.txt?

Вариантов написания robots.txt много, а в интернете есть множество примеров, так что вы без проблем найдете пример для любой CMS.

Вот еще один забавный пример. Google хочет убедиться, что Ларри Пейдж и Сергей Брин в безопасности от нашествия терминаторов. Для этого у Google был специальный файл killer-robots.txt. Его удалили в 2018 году. Вот что в нем было:

User-Agent: T-1000
User-Agent: T-800
Disallow: /+LarryPage
Disallow: /+SergeyBrin

Забавно, не правда ли?

Что еще нужно знать о Robots.txt

  • Robots.txt должен находиться в основной папке, т.е. domain.com/robots.txt.
  • Каждому поддомену нужен свой robots.txt — www.domain.com/robots.txt не то же самое, как sub.domain.com/robots.txt.
  • Мы уже говорили, то поисковые роботы могут игнорировать robots.txt. Обычно, это происходит в том случает, если запрещенный URL имеет ценный и полезный контент (по мнению поискового робота).
  • URL-адреса и файл robots.txt чувствительны к регистру.
  • Disallow просто предлагает поисковые роботы не переходить по указанным адресам. Многие люди используют это, чтобы страницы не попадали в индекс, но это не сработает, если есть внешние или внутренние ссылки на страницу, которую вы запретили. В таком случае страница попадет в индекс.
  • Crawl-delay не работает для Google, но можно управлять частотой сканирования в Google Search Console.
  • Необходимо разрешить обработку css и js файлов.

User-Agent: Googlebot
Allow: .js
Allow: .css

  • Не запрещайте страницы, которые имеют редирект. Пауки не могут следить за редиректами.
  • Если вы запретите страницу, которая уже была проиндексирована. Она будет показываться из кеша, но не выпадет из индекса.
  • Вы можете найти в archive.org более старые версии robots.txt — просто введите URL-адрес, т.е. domain.com/robots.txt~~dobj.
  • Максимальный размер для файла robots.txt составляет 500 Кб.

Как проверить свой файл?

индексация сайта

Для проверки robots.txt можно использовать как инструменты вебмастера Яндекс, так и функции Search Console Google. Кроме того, можно использовать сторонние сервисы. Вот перечень основных из них:

  1. В Яндексе: https://webmaster.yandex.ru/tools/robotstxt/
  2. В Google — это делается в Search console. Для использования, нужно подтвердить право на сайт.
  3. Сервис для создания файла — http://pr-cy.ru/robots/
  4. Создать и проверить robots.txt можно тут: https://seolib.ru/tools/generate/robots/
  5. Утилита для проверки tools.seobook.com

Ключевыми будут первые 2 варианта. Но если нет прав на сайт в вебмастере или хочется проверить себя лишний раз, можно смело использовать сторонние сервисы. Самые распространенные ошибки в файле robots.txt можно найти тут: robotstxt.org.ru/robotstxterrors.

В статье использованы материалы searchengineland.comwikipedia.orgsupport.google.com.

Основы SEO: Robots.txt
5 / Оценили: 5
Богдан Голобородько2018-07-11T17:57:52+00:0019.01.2017|SEO|

1
Отправить ответ

avatar
1 Цепочка комментария
0 Ответы по цепочке
0 Последователи
 
Популярнейший комментарий
Цепочка актуального комментария
0 Авторы комментариев
Samantha Авторы недавних комментариев
новее старее большинство голосов
Samantha
Гость
Samantha

I’m sorry I don’t speak Russian but I think this could be relevant for you… I was reading this page and it reminded me of a tool I recently found to check robots.txt file for a website The tool you’re sharing is nice, I used to use it in the past, but sometimes it didn’t work (maybe over-used?) and it was really annoying. I’m using this new tool for a few weeks already, and it works perfectly! Plus, I love the simple and clear design. So I thought, why not share it back with you. Here it is: https://www.websiteplanet.com/ru/webtools/robots-txt/ I’m… Подробнее »