Robots.txt для сайту – яким він повинен бути?

32

Від автора: вітаю вас. У минулій статті ми розглянули такий важливий для сайту файл, як карта. Сьогодні поговоримо про не менш значимому – robots.txt. Для сайту і його просування в пошукових системах цей файл значить багато.

Навіщо потрібен robots.txt?

Це як інструкція для пошукових роботів. Саме вони читають і виконують команди, які ви в ньому пишіть. Цей текстовий документ потрібен для того, щоб пошуковий робот побачив, які сторінки і директорії потрібно індексувати, а які ні.

Наприклад, що у нас в кореневій папці? Якщо у вас встановлений WordPress, то там ви побачите директорії wp-admin, wp-content, wp-includes. Очевидно, що вони не повинні бути проіндексовані, принаймні перша і остання, тому що в wp-content зберігаються зображення і ви, можливо, хотіли б, щоб вони були проіндексовані.

Точно так само справа йде і з іншими движками. У будь cms є купа технічних папок, які ні в якому разі не повинні потрапляти в індекс. Але уявімо, що файл з інструкціями для робота немає на вашому сайті. Що тоді? А тоді бот просто може взяти і проіндексувати всі директорії і файли, що не дуже бажано.

Синтаксис

Можливо, ви хочете самі написати чи відредагувати щось в цьому файлі. Як написати команди правильно? Це нескладно, адже тут дуже простий синтаксис. Все повинно починатися з вказівки для пошукової машини будуть призначені інструкції. Наприклад:

User-agent: Yandex – інструкції тільки для бота яндекса
User-agent: * — інструкції будуть виконувати всі пошукові роботи

Ніяких точок з комою в кінці ставити не треба. А для складання команд тут є 2 основних слова: Allow – дозволити індексувати файл або каталог; і Disallow – заборона на індексацію.

Цими командами ви як би говорите: «Ей, робот, ось сюди ласкаво просимо, а туди не ходи, але-але-але». Насправді команда Allow використовується рідко, адже за замовчуванням весь сайт отже дозволений для індексації. А ось disallow потрібно нам набагато частіше. Приклади:

Disallow: wp-content
Allow: wp-content/uploads

Папка wp-content не буде індексуватися, але її підпапка uploads, що містить в собі картинки, буде. Ось так все просто. І таких команд може бути у файлі скільки завгодно, скільки ви вирішите закрити папок від індексації. За моїми спостереженнями середня довжина robots.txt становить 20-40 рядків.

Додаткові команди для Яндекса

Для бота цієї пошукової системи можна вказати ще дві директиви. По-перше, це хост, тобто просто адресу вашого веб-сайту. Для чого? Це для тих випадків, коли ви склеює кілька доменів і потрібно вказати, який з них буде головним, а інші як би його дзеркалами. Для цього всім доменам потрібно вказати один хост – посилання на основний домен.

Інша директива – sitemap і в ній вказується шлях до карти. Взагалі багато радять заповнювати його, але можна просто додати sitemap в Вебмайстер і не турбуватися більше.

Як правильно написати robots.txt для сайту

Я вам пораджу нічого самому не писати, а поступити наступним чином: вибрати ресурс, яким ви довіряєте і у якого хороші показники і потім написати в рядку браузера: url-проекта/robots.txt. Таким чином, ви зможете побачити, який robots.txt використовується тут і просто скопіювати його собі.

Можна пройтися по командам і прибрати ті, що вам не потрібні. Наприклад, якщо на вибраному ресурсі є форум, а у вас немає, то можете прибрати відповідні рядки, якщо вони звичайно є.

Мені здається, з-за сео-фахівців важливість robots.txt була перебільшена. Я спеціально дивився його наповнення на різних успішних сайтах. Десь було 10 рядків, десь- 50. Загалом, наповнення було різним, але всі сайти успішно просуваються і мають хороші позиції в пошукових системах. З цього питання:

А так важливий цей файл?

Звичайно, я раджу створити його, але занадто сильно заморочуватися з приводу складання файлу не варто. Скопіюйте з іншого авторитетного сайту, видаливши все зайве, або закрийте від індексації тільки основні технічні папки на вашому сайті.

Який правильний robots.txt для сайту вам не скаже ніхто, бо у всіх різні думки на цей рахунок. Найголовніше, перевірте файл на помилки в Яндекс.Вебмастере, там є така можливість.

Для просування його заповнення не критично, головне, не допустити серйозної помилки і не закрити, наприклад, картинки.

Взагалі, дуже часто інструкція для ботів використовується для того, щоб закрити на ресурсі дубльований контент, але як показує практика, для цього недостатньо пари рядків, потрібно застосовувати додаткові заходи, у тому числі і встановленням модулів або вставкою в движок коду, який буде запобігати те чи інше дублювання.

Про корисні плагінах для WordPress ви можете подивитися уроки тут, ну а для Joomla – тут. Все це, замість з оптимально заповненим robots.txt дасть вашому сайту хороший поштовх вгору.