Robots txt для joomla

45

Від автора: вітаю Вас, дорогий друже. Індексація пошуковими системами — дуже важливий етап у розвитку сайту так як правильні дії на даному кроці забезпечать швидке попадання сторінок в пошук і значне збільшення відвідуваності. Звичайно в даній статті ми не зможемо розглянути абсолютно всі нюанси, пов’язані з індексацією. Але ми поговоримо про найбільш важливому інструменті robots txt для joomla, який визначає необхідні інструкції для пошукових систем.

Звичайно, пошукова система, будь то Yandex або Google — це складний програмний продукт і вона, я б сказав досить розумна, в плані індексації сайтів і пошуку необхідної інформації. Але як Ви знаєте, будь-яке програмне забезпечення, або ж певний механізм, по суті самостійно не працює, завжди потребує втручання людини, або для налаштування, або для управління, або для завдання якихось початкових параметрів. І як Ви розумієте, пошуковик не виняток, а значить для кращих результатів індексування і найголовніше для забезпечення правильного індексування, був придуманий robots.txt — файл в якому власники сайтів можуть визначити інструкції для індексування сторінок.

Таким чином, robots.txt — це спеціальний текстовий файл в якому визначені інструкції для різних пошукових систем по індексуванню сторінок сайт. Якщо сказати простіше, в даному файлі вказано, що потрібно індексувати, а що ні. Як правило, вищезазначений файл розташовується в корені цікавить сайту для швидкого доступу роботу пошуковика.

При цьому зверніть увагу, що ім’я файлу регистрозависимое. Вміст цього файлу складається з так званих директив, і достатньо проста для розуміння. Директива – це інструкція, вказівка для пошукової системи.

Тепер давайте визначимося, що ж ми можемо «вказувати» пошуковим системам. В robots.txt визначаються сторінки, і навіть цілі каталоги, які заборонені до індексуванню, вказується основне дзеркало сайту, інтервал часу завантаження даних, шлях до файлу SiteMap (карта сайту) і т. д.

Зазвичай, в комплекті з найбільш популярними CMS поставляється і підозрюється нами, файл robots.txt, в якому розробники в якості прикладу, визначили коректні інструкції, завдяки яким, сайт буде нормально працювати. Joomla не виняток і в корені вихідного Ви знайдете цікавий файл:

# If the Joomla site is installed within a folder
# eg www.example.com/joomla/ then the robots.txt file
# MUST be moved to the site root
# eg www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to all of the
# paths.
# eg the Disallow rule for the /administrator/ folder MUST
# be changed to read
# Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/orig.html
#
# For syntax checking, see:
# http://tool.motoricerca.info/robots-checker.phtml
User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Відповідно давайте поговоримо про синтаксис і використовуваних директивах. Всі текстовий вміст, наступне після символу » # » і до кінця поточного рядка, вважається коментарем і сприйматися пошуковою системою не буде, таким чином можна зазначити деяке пояснення до певних правил індексації. Далі перша директива, яка визначена у файлі robots для joomla — це User-agent. Даний параметр визначає ім’я робота пошукової системи, для якої будуть застосовані правила індексації, описані нижче.

User-agent: *

У даному прикладі ми вказуємо, що такі правила будуть справедливі для абсолютно всіх роботів пошукових систем. Якщо ж необхідно задати кілька правил для робота Yandex значення директиви User-agent, потрібно вказати наступне:

User-agent: Yandex

Для Google відповідно:

User-agent: Googlebot

Далі у файлі визначена директива Disallow, яка вказує, яку папку або сторінка, за певним URL, заборонений до індексації. Відповідно забороняти індексувати Ви можете наступні сторінки: однакові за змістом (дублі), сторінки, що містять особисту або конфіденційну інформацію, керуючі або сторінки панелі адміністратора, доступ до яких дозволений тільки певним користувачам і, нарешті абсолютно будь-які сторінки, які в залежності від логіки роботи конкретного сайту, не повинні бути доступні пошуковикам.

Наприклад, заборона індексування каталогу administrator виглядає наступним чином:

Disallow: /administrator/

Або ж заборону індексації всього сайту в цілому:

Disallow: /

В протилежність директиві Disallow, придумана директива Allow, яка вказує які сторінки або каталоги можна до індексації.

Allow: /media

По суті, ми з Вами тільки що розглянули всі директиви, які використані в стандартному файлі robots txt для джумлы. Але давайте розглянемо ще декілька.

Директива Crawl-delay – використовується для визначення інтервалу часу для закачування даних певної сторінки, тобто задається пауза між скачуванням, при цьому вона актуальна тільки для Yandex. Таким чином, вказавши необхідний тайм-аут, Ви значно розвантажите використовується сервер, так як скачавши певний ресурс пошуковий робот, буде чекати стільки секунд, тобто скільки вказано в поточній директиві.

Crawl-delay: 3

Для прискорення індексації так само рекомендується згенерувати карту сайту (Site Map), в якій буде наведено список сторінок, у вигляді посилань. При цьому дана карта розташовується так само в корені вихідного CMS і шлях до неї можна визначити у файлі robots.txt, використовуючи директиву Sitemap, тим самим Ви як би вкажіть роботу список доступних сторінок сайту, які підлягають індексації.

Sitemap: шлях до карти сайту

Ну і нарешті. остання важлива директива яка дуже часто використовується у файлах robots.txt – це Host, яка використовується для пошукової системи Yandex і визначає головне дзеркало сайту.

Як Ви вже побачили, значення кожної директиви – це певний текст і в основному це певний шлях, відповідно для формування даного значення передбачені два керуючих символи, які я хотів би розглянути.

Символ «*» – вказує абсолютно будь-яку послідовність символів і буває дуже корисним, якщо необхідно задати деякий довільне значення, що йде перед заданим.

Disallow: /*admin

В даному прикладі заборонені до індексації всі сторінки в адресі яких міститься параметр admin. Символ » $ » використовується для скасування додавання до кожного правила, за замовчуванням, вище розглянутого символу.

Disallow: /page$

У даному прикладі ми забороняємо до індексації вашсайт./ru/page, але не забороняємо вашсайт./ru/page/one.

На цьому дана стаття завершена. Всього Вам доброго і вдалого кодування!!!