Від автора: вітаю Вас, дорогий друже. Індексація пошуковими системами — дуже важливий етап у розвитку сайту так як правильні дії на даному кроці забезпечать швидке попадання сторінок в пошук і значне збільшення відвідуваності. Звичайно в даній статті ми не зможемо розглянути абсолютно всі нюанси, пов’язані з індексацією. Але ми поговоримо про найбільш важливому інструменті robots txt для joomla, який визначає необхідні інструкції для пошукових систем.
Звичайно, пошукова система, будь то Yandex або Google — це складний програмний продукт і вона, я б сказав досить розумна, в плані індексації сайтів і пошуку необхідної інформації. Але як Ви знаєте, будь-яке програмне забезпечення, або ж певний механізм, по суті самостійно не працює, завжди потребує втручання людини, або для налаштування, або для управління, або для завдання якихось початкових параметрів. І як Ви розумієте, пошуковик не виняток, а значить для кращих результатів індексування і найголовніше для забезпечення правильного індексування, був придуманий robots.txt — файл в якому власники сайтів можуть визначити інструкції для індексування сторінок.
Таким чином, robots.txt — це спеціальний текстовий файл в якому визначені інструкції для різних пошукових систем по індексуванню сторінок сайт. Якщо сказати простіше, в даному файлі вказано, що потрібно індексувати, а що ні. Як правило, вищезазначений файл розташовується в корені цікавить сайту для швидкого доступу роботу пошуковика.
При цьому зверніть увагу, що ім’я файлу регистрозависимое. Вміст цього файлу складається з так званих директив, і достатньо проста для розуміння. Директива – це інструкція, вказівка для пошукової системи.
Тепер давайте визначимося, що ж ми можемо “вказувати” пошуковим системам. В robots.txt визначаються сторінки, і навіть цілі каталоги, які заборонені до індексуванню, вказується основне дзеркало сайту, інтервал часу завантаження даних, шлях до файлу SiteMap (карта сайту) і т. д.
Зазвичай, в комплекті з найбільш популярними CMS поставляється і підозрюється нами, файл robots.txt, в якому розробники в якості прикладу, визначили коректні інструкції, завдяки яким, сайт буде нормально працювати. Joomla не виняток і в корені вихідного Ви знайдете цікавий файл:
# If the Joomla site is installed within a folder
# eg www.example.com/joomla/ then the robots.txt file
# MUST be moved to the site root
# eg www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to all of the
# paths.
# eg the Disallow rule for the /administrator/ folder MUST
# be changed to read
# Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/orig.html
#
# For syntax checking, see:
# http://tool.motoricerca.info/robots-checker.phtml
User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Відповідно давайте поговоримо про синтаксис і використовуваних директивах. Всі текстовий вміст, наступне після символу ” # ” і до кінця поточного рядка, вважається коментарем і сприйматися пошуковою системою не буде, таким чином можна зазначити деяке пояснення до певних правил індексації. Далі перша директива, яка визначена у файлі robots для joomla — це User-agent. Даний параметр визначає ім’я робота пошукової системи, для якої будуть застосовані правила індексації, описані нижче.
User-agent: *
У даному прикладі ми вказуємо, що такі правила будуть справедливі для абсолютно всіх роботів пошукових систем. Якщо ж необхідно задати кілька правил для робота Yandex значення директиви User-agent, потрібно вказати наступне:
User-agent: Yandex
Для Google відповідно:
User-agent: Googlebot
Далі у файлі визначена директива Disallow, яка вказує, яку папку або сторінка, за певним URL, заборонений до індексації. Відповідно забороняти індексувати Ви можете наступні сторінки: однакові за змістом (дублі), сторінки, що містять особисту або конфіденційну інформацію, керуючі або сторінки панелі адміністратора, доступ до яких дозволений тільки певним користувачам і, нарешті абсолютно будь-які сторінки, які в залежності від логіки роботи конкретного сайту, не повинні бути доступні пошуковикам.
Наприклад, заборона індексування каталогу administrator виглядає наступним чином:
Disallow: /administrator/
Або ж заборону індексації всього сайту в цілому:
Disallow: /
В протилежність директиві Disallow, придумана директива Allow, яка вказує які сторінки або каталоги можна до індексації.
Allow: /media
По суті, ми з Вами тільки що розглянули всі директиви, які використані в стандартному файлі robots txt для джумлы. Але давайте розглянемо ще декілька.
Директива Crawl-delay – використовується для визначення інтервалу часу для закачування даних певної сторінки, тобто задається пауза між скачуванням, при цьому вона актуальна тільки для Yandex. Таким чином, вказавши необхідний тайм-аут, Ви значно розвантажите використовується сервер, так як скачавши певний ресурс пошуковий робот, буде чекати стільки секунд, тобто скільки вказано в поточній директиві.
Crawl-delay: 3
Для прискорення індексації так само рекомендується згенерувати карту сайту (Site Map), в якій буде наведено список сторінок, у вигляді посилань. При цьому дана карта розташовується так само в корені вихідного CMS і шлях до неї можна визначити у файлі robots.txt, використовуючи директиву Sitemap, тим самим Ви як би вкажіть роботу список доступних сторінок сайту, які підлягають індексації.
Sitemap: шлях до карти сайту
Ну і нарешті. остання важлива директива яка дуже часто використовується у файлах robots.txt – це Host, яка використовується для пошукової системи Yandex і визначає головне дзеркало сайту.
Як Ви вже побачили, значення кожної директиви – це певний текст і в основному це певний шлях, відповідно для формування даного значення передбачені два керуючих символи, які я хотів би розглянути.
Символ “*” – вказує абсолютно будь-яку послідовність символів і буває дуже корисним, якщо необхідно задати деякий довільне значення, що йде перед заданим.
Disallow: /*admin
В даному прикладі заборонені до індексації всі сторінки в адресі яких міститься параметр admin. Символ ” $ ” використовується для скасування додавання до кожного правила, за замовчуванням, вище розглянутого символу.
Disallow: /page$
У даному прикладі ми забороняємо до індексації вашсайт./ru/page, але не забороняємо вашсайт./ru/page/one.
На цьому дана стаття завершена. Всього Вам доброго і вдалого кодування!!!