ФАЙЛ ROBOTS.TXT ИЛИ КАК СДЕЛАТЬ РОБОТА,ФАЙЛ HTACCESS И ТЕГ NOFOLLOW СВОИМИ РУКАМИ - ВСЕ О ХОСТИНГЕ И ПО - HI-TECH - СТАТЬИ

Главная » Статьи » HI-TECH » ВСЕ О ХОСТИНГЕ И ПО

ФАЙЛ ROBOTS.TXT ИЛИ КАК СДЕЛАТЬ РОБОТА,ФАЙЛ HTACCESS И ТЕГ NOFOLLOW СВОИМИ РУКАМИ

Файл robots.txt — текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере. Как определение, Robots.txt — это стандарт исключений для роботов, который был принят консорциумом W3C 30 января 1994 года, и который добровольно использует большинство поисковых систем. Файл robots.txt состоит из набора инструкций для поисковых роботов, которые запрещают индексацию определенных файлов, страниц или каталогов на сайте. Рассмотрим описание robots.txt для случая, когда сайт не ограничивает доступ роботам к сайту.

Простой пример robots.txt:

User-agent: *
Allow: /

Здесь роботс полностью разрешает индексацию всего сайта.

Файл robots.txt необходимо загрузить в корневой каталог вашего сайта, чтобы он был доступен по адресу:

ваш_сайт.ru/robots.txt

Для размещения файла robots.txt в корне сайта обычно необходим доступ через FTP. Однако, некоторые системы управления (CMS) дают возможность создать robots.txt непосредственно из панели управления сайтом или через встроенный FTP-менеджер.

Если файл доступен, то вы увидите содержимое robots.txt в браузере.

Для чего нужен robots.txt

Roots.txt для сайта является важным аспектом поисковой оптимизации. Зачем нужен robots.txt? Например, в SEO robots.txt нужен для того, чтобы исключать из индексации страницы, не содержащие полезного контента и многое другое. Как, что, зачем и почему исключается уже было описано в статье про запрет индексации страниц сайта, здесь не будем на этом останавливаться. Нужен ли файл robots.txt всем сайтам? И да и нет. Если использование robots.txt подразумевает исключение страниц из поиска, то для небольших сайтов с простой структурой и статичными страницами подобные исключения могут быть лишними. Однако, и для небольшого сайта могут быть полезны некоторые директивы robots.txt, например директива Host или Sitemap, но об этом ниже.

Как создать robots.txt

Поскольку robots.txt — это текстовый файл, и чтобы создать файл robots.txt, можно воспользоваться любым текстовым редактором, например Блокнотом. Как только вы открыли новый текстовый документ, вы уже начали создание robots.txt, осталось только составить его содержимое, в зависимости от ваших требований, и сохранить в виде текстового файла с названием robots в формате txt. Все просто, и создание файла robots.txt не должно вызвать проблем даже у новичков. О том, как составить robots.txt и что писать в роботсе на примерах покажу ниже.

Cоздать robots.txt онлайн

Вариант для ленивых — создать роботс онлайн и скачать файл robots.txt уже в готовом виде. Создание robots txt онлайн предлагает множество сервисов, выбор за вами. Главное — четко понимать, что будет запрещено и что разрешено, иначе создание файла robots.txt online может обернуться трагедией, которую потом может быть сложно исправить. Особенно, если в поиск попадет то, что должно было быть закрытым. Будьте внимательны — проверьте свой файл роботс, прежде чем выгружать его на сайт. Все же пользовательский файл robots.txt точнее отражает структуру ограничений, чем тот, что был сгенерирован автоматически и скачан с другого сайта. Читайте дальше, чтобы знать, на что обратить особое внимание при редактировании robots.txt.

Редактирование robots.txt

После того, как вам удалось создать файл robots.txt онлайн или своими руками, вы можете редактировать robots.txt. Изменить его содержимое можно как угодно, главное — соблюдать некоторые правила и синтаксис robots.txt. В процессе работы над сайтом, файл роботс может меняться, и если вы производите редактирование robots.txt, то не забывайте выгружать на сайте обновленную, актуальную версию файла со всем изменениями. Далее рассмотрим правила настройки файла, чтобы знать, как изменить файл robots.txt и «не нарубить дров».

Правильная настройка robots.txt

Правильная настройка robots.txt позволяет избежать попадания частной информации в результаты поиска крупных поисковых систем. Однако, не стоит забывать, что команды robots.txt не более чем руководство к действию, а не защита. Роботы надежных поисковых систем, вроде Яндекс или Google, следуют инструкциям robots.txt, однако прочие роботы могут легко игнорировать их. Правильное понимание и применение robots.txt — залог получения результата.

Чтобы понять, как сделать правильный robots txt, для начала необходимо разобраться с общими правилами, синтаксисом и директивами файла robots.txt.

Правильный robots.txt начинается с директивы User-agent, которая указывает, к какому роботу обращены конкретные директивы.

Примеры User-agent в robots.txt:

# Указывает директивы для всех роботов одновременно
User-agent: *

# Указывает директивы для всех роботов Яндекса
User-agent: Yandex

# Указывает директивы для только основного индексирующего робота Яндекса
User-agent: YandexBot

# Указывает директивы для всех роботов Google
User-agent: Googlebot

Учитывайте, что подобная настройка файла robots.txt указывает роботу использовать только директивы, соответствующие user-agent с его именем.

Пример robots.txt с несколькими вхождениями User-agent:

# Будет использована всеми роботами Яндекса
User-agent: Yandex
Disallow: /*utm_

# Будет использована всеми роботами Google
User-agent: Googlebot
Disallow: /*utm_

# Будет использована всеми роботами кроме роботов Яндекса и Google
User-agent: *
Allow: /*utm_

Директива User-agent создает лишь указание конкретному роботу, а сразу после директивы User-agent должна идти команда или команды с непосредственным указанием условия для выбранного робота. В примере выше используется запрещающая директива «Disallow», которая имеет значение «/*utm_». Таким образом, закрываем все страницы с UTM-метками. Правильная настройка robots.txt запрещает наличие пустых переводов строки между директивами «User-agent», «Disallow» и директивами следующими за «Disallow» в рамках текущего «User-agent».

Пример неправильного перевода строки в robots.txt:

User-agent: Yandex

Disallow: /*utm_

Allow: /*id=

User-agent: *

Disallow: /*utm_

Allow: /*id=

Пример правильного перевода строки в robots.txt:

User-agent: Yandex
Disallow: /*utm_
Allow: /*id=

User-agent: *
Disallow: /*utm_
Allow: /*id=

Как видно из примера, указания в robots.txt поступают блоками, каждый из которых содержит указания либо для конкретного робота, либо для всех роботов

«*».

Кроме того, важно соблюдать правильный порядок и сортировку команд в robots.txt при совместном использовании директив, например «Disallow» и «Allow». Директива «Allow» — разрешающая директива, является противоположностью команды robots.txt «Disallow» — запрещающей директивы.

Пример совместного использования директив в robots.txt:

User-agent: *
Allow: /blog/page
Disallow: /blog

Данный пример запрещает всем роботам индексацию всех страниц, начинающихся с «/blog», но разрешает индексации страниц, начинающиеся с «/blog/page».

Прошлый пример robots.txt в правильной сортировке:

User-agent: *
Disallow: /blog
Allow: /blog/page

Сначала запрещаем весь раздел, потом разрешаем некоторые его части.

Еще один правильный пример robots.txt с совместными директивами:

User-agent: *
Allow: /
Disallow: /blog
Allow: /blog/page

Обратите внимание на правильную последовательность директив в данном robots.txt.

Директивы «Allow» и «Disallow» можно указывать и без параметров, в этом случае значение будет трактоваться обратно параметру «/».

Пример директивы «Disallow/Allow» без параметров:

User-agent: *
Disallow: # равнозначно Allow: /
Disallow: /blog
Allow: /blog/page

Как составить правильный robots.txt и как пользоваться трактовкой директив — ваш выбор. Оба варианта будут правильными. Главное — не запутайтесь.

Для правильного составления robots.txt необходимо точно указывать в параметрах директив приоритеты и то, что будет запрещено для скачивания роботам. Более полно использование директив «Disallow» и «Allow» мы рассмотрим чуть ниже, а сейчас рассмотрим синтаксис robots.txt. Знание синтаксиса robots.txt приблизит вас к тому, чтобы создать идеальный robots txt своими руками.

Синтаксис robots.txt

Роботы поисковых систем добровольно следуют командам robots.txt — стандарту исключений для роботов, однако не все поисковые системы трактуют синтаксис robots.txt одинаково. Файл robots.txt имеет строго определённый синтаксис, но в то же время написать robots txt не сложно, так как его структура очень проста и легко понятна.

Вот конкретные список простых правил, следуя которым, вы исключите частые ошибки robots.txt:

Каждая директива начинается с новой строки;
Не указывайте больше одной директивы в одной строке;
Не ставьте пробел в начало строки;
Параметр директивы должен быть в одну строку;
Не нужно обрамлять параметры директив в кавычки;
Параметры директив не требуют закрывающих точки с запятой;
Команда в robots.txt указывается в формате — [Имя_директивы]:[необязательный пробел][значение][необязательный пробел];
Допускаются комментарии в robots.txt после знака решетки #;
Пустой перевод строки может трактоваться как окончание директивы User-agent;
Директива «Disallow: » (с пустым значением) равнозначна «Allow: /» — разрешить все;
В директивах «Allow», «Disallow» указывается не более одного параметра;
Название файла robots.txt не допускает наличие заглавных букв, ошибочное написание названия файла — Robots.txt или ROBOTS.TXT;
Написание названия директив и параметров заглавными буквами считается плохим тоном и если по стандарту, robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файлов и директорий;
Если параметр директивы является директорией, то перед название директории всегда ставится слеш «/», например: Disallow: /category
Слишком большие robots.txt (более 32 Кб) считаются полностью разрешающими, равнозначными «Disallow: »;
Недоступный по каким-либо причинам robots.txt может трактоваться как полностью разрешающий;
Если robots.txt пустой, то он будет трактоваться как полностью разрешающий;
В результате перечисления нескольких директив «User-agent» без пустого перевода строки, все последующие директивы «User-agent», кроме первой, могут быть проигнорированы;
Использование любых символов национальных алфавитов в robots.txt не допускается.

Поскольку разные поисковые системы могут трактовать синтаксис robots.txt по-разному, некоторые пункты можно опустить. Так например, если прописать несколько директив «User-agent» без пустого перевода строки, все директивы «User-agent» будут восприняты корректно Яндексом, так как Яндекс выделяет записи по наличию в строке «User-agent».

В роботсе должно быть указано строго только то, что нужно, и ничего лишнего. Не думайте, как прописать в robots txt все, что только можно и чем его заполнить. Идеальный robots txt — это тот, в котором меньше строк, но больше смысла. «Краткость — сестра таланта». Это выражение здесь как нельзя кстати.

Как проверить robots.txt

Для того, чтобы проверить robots.txt на корректность синтаксиса и структуры файла, можно воспользоваться одной из онлайн-служб. К примеру, Яндекс и Google предлагают собственные сервисы анализа сайта для вебмастеров, которые включают анализ robots.txt:

Проверка файла robots.txt в Яндекс.Вебмастер:

Проверка файла robots.txt в Google:

Для того, чтобы проверить robots.txt онлайн необходимо загрузить robots.txt на сайт в корневую директорию. Иначе, сервис может сообщить, что не удалось загрузить robots.txt. Рекомендуется предварительно проверить robots.txt на доступность по адресу где лежит файл, например: ваш_сайт.ru/robots.txt.

Кроме сервисов проверки от Яндекс и Google, существует множество других онлайн валидаторов robots.txt.

Robots.txt vs Яндекс и Google

Есть субъективное мнение, что указание отдельного блока директив «User-agent: Yandex» в robots.txt Яндекс воспринимает более позитивно, чем общий блок директив с «User-agent: *». Аналогичная ситуация robots.txt и Google. Указание отдельных директив для Яндекс и Google позволяет управлять индексацией сайта через robots.txt. Возможно, им льстит персонально обращение, тем более, что для большинства сайтов содержимое блоков robots.txt Яндекса, Гугла и для других поисковиков будет одинаково. За редким исключением, все блоки «User-agent» будут иметь стандартный для robots.txt набор директив. Так же, используя разные «User-agent» можно установить запрет индексации в robots.txt для Яндекса, но, например не для Google.

Отдельно стоит отметить, что Яндекс учитывает такую важную директиву, как «Host», и правильный robots.txt для яндекса должен включать данную директиву для указания главного зеркала сайта. Подробнее директиву «Host» рассмотрим ниже.

Запретить индексацию: robots.txt Disallow

Disallow — запрещающая директива, которая чаще всего используется в файле robots.txt. Disallow запрещает индексацию сайта или его части, в зависимости от пути, указанного в параметре директивы Disallow.

Пример как в robots.txt запретить индексацию сайта:

User-agent: *
Disallow: /

Данный пример закрывает от индексации весь сайт для всех роботов.

В параметре директивы Disallow допускается использование специальных символов * и $:

* — любое количество любых символов, например, параметру /page* удовлетворяет /page, /page1, /page-be-cool, /page/kak-skazat и т.д. Однако нет необходимости указывать * в конце каждого параметра, так как например, следующие директивы интерпретируются одинаково:

User-agent: Yandex
Disallow: /page
User-agent: Yandex
Disallow: /page*

$ — указывает на точное соответствие исключения значению параметра:

User-agent: Googlebot
Disallow: /page$

В данном случае, директива Disallow будет запрещать /page, но не будет запрещать индексацию страницы /page1, /page-be-cool или /page/kak-skazat.

Если закрыть индексацию сайта robots.txt, в поисковые системы могут отреагировать на так ход ошибкой «Заблокировано в файле robots.txt» или «url restricted by robots.txt» (url запрещенный файлом robots.txt). Если вам нужно запретить индексацию страницы, можно воспользоваться не только robots txt, но и аналогичными html-тегами:

<meta name=»robots» content=»noindex»/> — не индексировать содержимое страницы;
<meta name=»robots» content=»nofollow»/> — не переходить по ссылкам на странице;
<meta name=»robots» content=»none»/> — запрещено индексировать содержимое и переходить по ссылкам на странице;
<meta name=»robots» content=»noindex, nofollow»/> — аналогично content=»none».

Разрешить индексацию: robots.txt Allow

Allow — разрешающая директива и противоположность директиве Disallow. Эта директива имеет синтаксис, сходный с Disallow.

Пример, как в robots.txt запретить индексацию сайта кроме некоторых страниц:

User-agent: *
Disallow: /
Allow: /page

Запрещается индексировать весь сайт, кроме страниц, начинающихся с /page.

Disallow и Allow с пустым значением параметра

Пустая директива Disallow:

User-agent: *
Disallow:

Не запрещать ничего или разрешить индексацию всего сайта и равнозначна:

User-agent: *
Allow: /

Пустая директива Allow:

User-agent: *
Allow:

Разрешить ничего или полный запрет индексации сайта, равнозначно:

User-agent: *
Disallow: /

Главное зеркало сайта: robots.txt Host

Директива Host служит для указания роботу Яндекса главного зеркала Вашего сайта. Из всех популярных поисковых систем, директива Host распознаётся только роботами Яндекса. Директива Host полезна в том случае, если ваш сайт доступен по нескольким доменам, например:

mysite.ru
mysite.com

Или для определения приоритета между:

mysite.ru
www.mysite.ru

Роботу Яндекса можно указать, какое зеркало является главным. Директива Host указывается в блоке директивы «User-agent: Yandex» и в качестве параметра, указывается предпочтительный адрес сайта без «http://».

Пример robots.txt с указанием главного зеркала:

User-agent: Yandex
Disallow: /page
Host: mysite.ru

В качестве главного зеркала указывается доменное имя mysite.ru без www. Таки образом, в результатах поиска буде указан именно такой вид адреса.

User-agent: Yandex
Disallow: /page
Host: www.mysite.ru

В качестве основного зеркала указывается доменное имя www.mysite.ru.

Директива Host в файле robots.txt может быть использована только один раз, если же директива Хост будет указана более одного раза, учитываться будет только первая, прочие директивы Host будут игнорироваться.

Если вы хотите указать главное зеркало для робота Google, воспользуйтесь сервисом Google Инструменты для вебмастеров.

Карта сайта: robots.txt sitemap

При помощи директивы Sitemap, в robots.txt можно указать расположение на сайте файла карты сайта sitemap.xml.

Пример robots.txt с указанием адреса карты сайта:

User-agent: *
Disallow: /page
Sitemap: http://www.mysite.ru/sitemap.xml

Указание адреса карты сайта через директиву Sitemap в robots.txt позволяет поисковому роботу узнать о наличии карты сайта и начать ее индексацию.

Директива Clean-param

Директива Clean-param позволяет исключить из индексации страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL страницы. Проще говоря, будто страница доступна по разным адресам. Наша задача убрать все лишние динамические адреса, которых может быть миллион. Для этого исключаем все динамические параметры, используя в robots.txt директиву Clean-param.

Синтаксис директивы Clean-param:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Путь]

Рассмотрим на примере страницы со следующим URL:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Пример robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # только для page.html

или

Clean-param: parm1&parm2&parm3 / # для всех

Директива Crawl-delay

Данная инструкция позволяет снизить нагрузку на сервер, если роботы слишком часто заходят на ваш сайт. Данная директива актуальна в основном для сайтов с большим объемом страниц.

Пример robots.txt Crawl-delay:

User-agent: Yandex
Disallow: /page
Crawl-delay: 3

В данном случае мы «просим» роботов яндекса скачивать страницы нашего сайта не чаще, чем один раз в три секунды. Некоторые поисковые системы поддерживают формат дробных чисел в качестве параметра директивы Crawl-delay robots.txt.

Комментарии в robots.txt

Комментарий в robots.txt начинаются с символа решетки — #, действует до конца текущей строки и игнорируются роботами.

Примеры комментариев в robots.txt:

User-agent: *
# Комментарий может идти от начала строки
Disallow: /page # А может быть продолжением строки с директивой
# Роботы
# игнорируют
# комментарии
Host: www.mysite.ru

Пример файла robots.txt

Рассмотрим простенький пример файла robots.txt, чтобы лучше разобраться в особенностях его синтаксиса:

User-agent: Yandex
Allow: /folder1/
Disallow: /file1.html
Host: www.site.ru

User-agent: *
Disallow: /document.php
Disallow: /folderxxx/
Disallow: /folderyyy/folderzzz
Disallow: /feed/

Sitemap: http://www.site.ru/sitemap.xml

Теперь разберем описанный пример.

Файл состоит из трех блоков: первый для Яндекса, второй для всех поисковых систем, а в третьем указан адрес карты сайта (применяется автоматически для всех поисковиков, поэтому указывать «User-Agent» не нужно). Яндексу мы разрешили индексировать папку «folder1» и все ее содержимое, но запретили индексировать документ «file1.html», находящийся в корневом каталоге на хостинге. Также мы указали главный домен сайта яндексу. Второй блок – для всех поисковиков. Там мы запретили документ «document.php», а также папки «folderxxx», «folderyyy/folderzzz» и «feed».

Обратите внимание, что мы запретили в втором блоке команд к индексу не всю папку «folderyyy», а лишь папку внутри этой папки – «folderzzz». Т.е. мы указали полный путь для «folderzzz». Так всегда нужно делать, если мы запрещаем документ, находящийся не в корневом каталоге сайта, а где-то внутри других папок.

Созданный файл роботс можно проверить на работоспособность в панели вебмастеров Яндекса. Если в файле вдруг обнаружатся ошибки, то яндекс это покажет.

Обязательно создайте файл robots.txt для вашего сайта, если его у вас до сих пор нету. Это поможет развиваться вашему сайту в поисковых системах. Также можете почитать еще одну нашу статью про способы запрета индексации методом мета-тегов и .htaccess.

Правильное использование тега и атрибута noindex, nofollow – самый первый шаг в грамотной сео-оптимизации. Ведь noindex и nofollow играют огромную роль при передаче веса с одного сайта на другой.

Тег noindex (ноиндекс)

Как можно догадаться, тег ноиндекс используется для запрета индексации какой-то части html-кода (картинки и ссылки нельзя закрыть от индексации этим тегом, а лишь текст). Если все же закрыть анкор с ссылкой этим тегом, то не проиндексируется лишь анкор, а ссылка все равно попадет в индекс. Однако тег не является валидным, поэтому некоторые html-редакторы отказываются его воспринимать (в частности, визуальный редактор в wordpress удаляет noindex). Но тегу можно придать валидность:

в такой форме тэг абсолютно валиден – так его можно прописывать в редакторе wordpress не боясь, что тег исчезнет. Ноиндекс воспринимается исключительно поисковиком Яндексом, а Гугл на него никак не реагирует.

Не стоит путать обычный тег <noindex> с мета-тегом noindex, прописываемым вначале страницы, их задачи разные. Простой тег запрещает для индексации только ту часть кода страницы, которая находится между открывающимся <noindex> и закрывающимся </noindex> тегами. Пример:

<noindex>Это предложение не видно Яндексу</noindex>

Что же касается мета-тега, то он запрещает индексировать всю страницу (запрет прописывается в файле robots.txt) – такую страницу Яндекс вообще не индексирует.

Кстати, школа Start Up ошибается, когда советует закрывать все ссылки тэгами nofollow noindex, но об этом чуть ниже.

Тег работает безотказно: вся текстовая информация внутри него не попадает в индекс яндекса. Однако некоторые оптимизаторы утверждают, что порой текст внутри ноиндекс индексируются – увы, такое действительно бывает. Дело в том, что яндекс все же изначально индексирует весь html-код, даже тот, что внутри тега, но потом проводит фильтрацию. Поэтому первое время действительно текст внутри ноиндекс может быть проиндексирован, но вскоре тег срабатывает и «все лишнее» вылетает из индекса.

Кстати, соблюдать вложенность тегов noindex совершенно необязательно — тег сработает даже при неправильной вложенности (это написано в справке Яндекса):

Внимание!!! Используя открывающийся тег (<noindex>), не забудьте поставить закрывающийся — (</noindex>), иначе весь текст, следующий после <noindex> не будет проиндексирован.

Когда нужно использовать ноиндекс, а когда нет

Этот тэг стоит использовать в тех случаях, когда мы хотим спрятать от яндекса ненужную часть html-кода страницы, дабы в индекс робота этой поисковой системы не лезла «грязь». Основываясь на этом, можно сказать, что noindex стоит использовать, чтобы:

спрятать коды различных счетчиков (liveinternet, rambler100, счетчики тИЦ и PR и т.д.);
спрятать нехорошее слово или нецензурную речь, хотя «такое» лучше вообще не употреблять;
спрятать повторяющийся или неуникальный контент (цитата, копипаст и т.д.);
закрыть от индексации слишком часто или постоянно изменяющийся контент – индексация такой информации бессмысленна;
не давать Яндексу видеть формы рассылок, подписок на почты и Rss и т.д.;
не индексировать ненужную информацию в сайдбарах (баннер, лишнюю текстовую информацию).

Но тег ноиндекс не нужен в некоторых случаях.

Не нужно закрывать от индексации рекламу от Яндекс.Директ, Гугл.Адсенс, Бегун.
Не стоит помещать внутрь тега внешние или внутренние ссылки — тег на них не работает все равно. Посмотрите на ссылки с моего сайта, ни одна из них не заключена в тег noindex — это бессмысленно!
Нет необходимости помещать в тег noindex ссылки в комментариях на блогах — опять же, он не работает!

Тэг nofollow

Атрибут nofollow предназначен для закрытия от индексации ссылок как для Гугла, так и для Яндекса. Он используется для того, чтобы не передавать вес со ссылающегося сайта на ссылаемый. То, что Яндекс не знает о нофоллоу — миф, убедитесь сами — ссылка. Кстати, тег nofollow не сохраняет вес на странице — если какая-та ссылка «нофоллоу», то вес по ней не перетекает, а сгорает, либо, если есть другие не закрытые данным тегом ссылки на странице, перераспределяется между ними. Кстати, отсюда следует, что если у вас на странице есть хотя бы одна активная внешняя гиперссылка, то вес со страницы уходит — поэтому не стоит закрывать все внешние ссылки тегом nofollow. Вес вы все равно не сохраните (он сгорит, если все внешние ссылки закрыть нофоллоу).

Принципиальное отличие между noindex nofollow: ноиндекс – тег, закрывающий от индексации текст, нофоллоу – атрибут тега <a>, запрещающий передавать вес по ссылке. Пример использования нофоллоу:

<a href="http://example.ru" rel="nofollow">анкор</a>

Бессмысленно ставить атрибут нофоллоу в ссылках, ведущих на внутренние страницы сайта — но бывает исключение из этого. Если вес со страницы необходимо передать только по определенным внутренним ссылкам, нужно лишь закрыть лишние «нофоллоу».

Использование nofollow

Использовать атрибут nofollow нужно в том случае, если нет необходимости в передаче веса со ссылающегося сайта на тот web-ресурс, на который ведет ссылка. Поэтому тег используем, чтобы:

не передавать вес по ссылкам, ведущим на «плохой» сайт с точки зрения поисковиков или просто какой-либо «левый» сайт, ничего не значащий для вас;
закрыть от передачи веса ссылку на нетематический вашему сайт — такая ссылка нежелательна;
перераспределять вес между ссылками на странице (полезно, если вы обмениваетесь постовыми или продаете ссылки с сайта через биржи);
уменьшить количество исходящих со страницы ссылок – это делается в том случае, если внешних или внутренних ссылок на странице слишком много;
не отдавать вес на ссылку, ведущую на мегапопулярный ресурс (яндекс, гугл, subscrube и все сайты, тиц которых очень большой);
закрыть ссылки в комментариях — передавать вес по ним не нужно (но только, если ваш блог не dofollow).

Совместное использование тега и атрибута noindex nofollow

Оба тега, и ноиндекс, и нофоллоу отлично чувствуют себя, когда их ставят рядом друг с другом. Пример их совместного использования:

<noindex><a href="http://example.ru" rel="nofollow">анкор</a></noindex>

Такая ссылка не передает вес по мнению поисковых систем, кроме того, Яндекс еще и не видит анкор.

Но как и было сказано выше, совсем необязательно закрывать ссылки тегом noindex, это бессмысленно. Вы так сможете запретить индексировать анкор, но не саму ссылку. Самой ссылке хватает тега nofollow. Но несмотря на это, многие оптимизаторы (в большей степени — новички), страхуясь, закрывают ссылку обеими тегами — nofollow noindex. Они лишь делают лишнюю работу — толка от нее никакого, задачи этих тегов разные. Просмотрите любую мою статью (к примеру эту — Работа копирайтинг, рерайтинг и свободная продажа статей), ни одна ссылка там не закрыта тегом ноиндекс. Не доверяете мне, загляните на блог опытного оптимизатора. И школа Старт Ап, учащая своих студентов закрывать все ссылки ноиндексом, ошибается.

На десерт: сеомания и сеомаразм современных оптимизаторов

Исключительно для тех, кто дочитал до этих строг, я делюсь эксклюзивной информацией, которая, впрочем, известна опытным оптимизаторам, они ее и не скрывают, но не особо ей афишируют.

Новички-оптимизаторы занимаются настоящим маразмом: они все внешние ссылки с сайта прячут внутрь тега и атрибута noindex, nofollow. Или хуже того: вообще на страничке нет ни одной внешней ссылки, боясь потерять «драгоценный» тИЦ. Спрашивается, зачем это делать, зачем так бояться потерять немного веса со страницы? Что, от этого действия сильно упадет тИЦ сайта или PR странички? Или страницу невозможно будет вывести в топ по СЧ или НЧ-запросам? Глупости. Не нужно жадничать: 1-2 внешние ссылки со странички только улучшат доверие к ней со стороны поисковых систем, и сейчас я вам это докажу.

СеомаразмЛюбой текст, написанный кем-либо, должен содержать ссылки на источники, которые использовались при его написании, иначе возникнут сомнения по поводу достоверности излагаемого материала. Сами посудите, вы бы стали доверять книжке, у которой в списке литературы стояло бы 1-2 источника? Вдумайтесь, даже у маленькой брошюрки в источниках находится 10-20 материалов.

Как вообще определить, можно ли доверять информации в статье? Если мысли в тексте подкрепляются авторитетным мнением, то доверять можно. Вспомните про википедию, любая статья в ней содержит море ссылок, а если их недостаточно, то модераторы удаляют материал. Также и с любой статьей на вашем сайте: если у вас не будет стоять достаточно ссылок на сторонние АВТОРИТЕТНЫЕ ресурсы, то цена такому материалу нулевая! В первую очередь, вы должны заботиться о читателях, поэтому руководствуйтесь двумя правилами:

ссылки — это основа интернета, поэтому рекомендуя (при помощи ссылок) хороший сайт/статью/информацию своим посетителям, вы тем самым и свой сайт делаете полезнее, ведь именно от вас читатель узнал про другой хороший сайт. Вывод: не бойтесь добавлять ссылки, которые действительно окажутся полезны вашим читателям.
сама собой ссылка на сайте появиться не может, следовательно, ссылку ставит владелец сайта, и если он ссылается на «нехороший», неавторитетный, забаненный Яндексом ресурс, то для пс в дальнейшем сайт такого горе-вебмастера станет неавторитетным. Вывод: ссылайтесь на АВТОРИТЕТНЫЕ, полезные ресурсы.

Поисковики всегда помогут попасть в топ сайту, который сделан для людей, поэтому ссылайтесь на хорошие ресурсы, не бойтесь — 1-2 полезные ссылки не только не помешают, а еще и укрепят позиции сайта. И не забывайте, не стоит все внешние ссылки закрывать nofollow, не бойтесь делиться весом, он же все равно уйдет со странички. Мнение «не мне, так не другим» в корне не правильное, поделитесь сейчас вы открытой ссылкой, и потом кто-нибудь поставит ссылку на вас безвозмездно.

И еще: активно перераспределяйте вес между ссылками, закрывая некоторые nofollow (но не noindex — снова напоминаю, это бессмысленно). Нужные внешние ссылки оставляйте открытыми, а ненужные закрывайте, чтобы вес доставался только первым.

Сео-оптимизация в случае с noindex nofollow должна быть правильной. Надеюсь, из моей статьи стало понятно как правильно и неправильно использовать ноиндекс и нофоллоу

СОЗДАНИЕ И НАСТРОЙКА ФАЙЛА HTACCESS

Htaccess (HyperText Access) представляет собой простой файл конфигурации, который позволяет дизайнерам, разработчикам и программистам, изменять конфигурацию веб-сервера Apache, чтобы реализовать дополнительную функциональность. Такая функциональность может включать в себя перенаправления пользователей, изменение URL, обеспечение защиты паролем директорий и многое другое

Итак, начнем ...

Создание и загрузка файла .htaccess

Создать файл .htaccess очень просто.

Откройте Блокнот или аналогичный текстовый редактор, добавьте код и сохраните файл как обычно вы это делаете.

Например, вы можете назвать его:

htaccess.txt

Затем загрузите файл в соответствующий каталог на вашем веб-сервере и переименуйте его:

.htaccess

Помните, что для файла .htaccess следует использовать права доступа 644 и загружать его в ASCII-режиме. Если ваш .htaccess файл не работает, то вам следует обратиться к системному администратору или в техподдержку вашего веб-хостинга и убедиться, что использование его разрешено для вашей учетной записи, так как некоторые хостинговые компании не позволяют его использование без предварительного разрешения, это в основном относится к бесплатным хостингам. Также, к сожалению, .htaccess не будет работать на Windows-серверах.

Использование .htaccess

Важно помнить, что файл .htaccess будет влиять на каталог в котором он находится, и на все подкаталоги. Поэтому, если вы добавили свой файл .htaccess в корневой каталог веб-сайта, то это повлияет на все имеющиеся на сайте папки:

http://www.yourdomain.com/
| -- directory1
| -- directory2
| -- directory3
| | -- directory3/childdirectory1
| | -- directory3/childdirectory2
| -- .htaccess
| -- index.html

Однако, если вы поместите файл .htaccess в директорию http://www.yourdomain.com/directory1, то функциональность .htaccess будет ограничена этой папкой и всеми вложенныеми в неё папками. Например:

http://www.yourdomain.com/
| -- directory1
| | -- directory1/childdirectory1
| | -- directory1/childdirectory2
| | -- directory1/childdirectory3
| | | -- directory1/childdirectory3/newdirectory1
| | | -- directory1/childdirectory3/newdirectory2
| | -- .htaccess
| | -- index.html

При большом количестве правил в этом файле я рекомендую использовать комментарии. Для этого просто разместите символ # в начале каждой строки следующим образом:

# Комментария
# следующий комментарий

Полезные сниппеты
Приведем примеры нескольких полезных фрагментов кода, которые, наверняка, пригодятся при создании сайта.

Directory Index

Вы можете изменить файл, который открывается по умолчанию в каталоге, обычно это файл с именем index (index.html, index.php и т.д.):

DirectoryIndex welcome.html welcome.php

Пользовательские страницы ошибок

Вы можете перенаправить пользователей на собственную страницу ошибок при их возникновении:

ErrorDocument 404 error.html

Вы можете для каждого типа ошибки сделать свою страницу:

ErrorDocument 400 /400.html
ErrorDocument 401 /401.html
ErrorDocument 403 /403.html
ErrorDocument 404 /404.html
ErrorDocument 500 /500.html
ErrorDocument 502 /502.html
ErrorDocument 504 /504.html

Только не забудьте предварительно создать страницы ошибок!

Удаляем WWW из адреса сайта

Чтобы удалить "WWW" из адреса вашего сайта, используйте следующий код:

RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} ^www.yourdomain.com [NC]
RewriteRule ^(.*)$ http://yourdomain.com/$1 [L,R=301]

Установка часового пояса для сервера

SetEnv TZ Europe/London

Управление доступом к файлам

Файл .htaccess наиболее часто используется, чтобы ограничить или запретить доступ к отдельным файлам и папкам, и вы можете сделать это следующим образом.:

deny from all

Однако, если вы хотите запретить доступ конкретному IP-адресу, то вы можете использовать этот код:

order allow,deny
deny from XXX.XXX.XXX.XXX
allow from all

или для нескольких IP-адресов, вы можете написать так:

allow from all
deny from 145.186.14.122
deny from 124.15
301 Permanent Redirects

Вы изменили адреса страниц, но не хотите терять посетителей? Тогда попробуйте:

Redirect 301 /olddirectory/file.html http://www.domainname.com/newdirectory/file.html

Установить адрес электронной почты администратора сервера

С помощью следующего кода вы можете указать адрес электронной почты, по умолчанию, для администратора сервера:

ServerSignature EMail
SetEnv SERVER_ADMIN <span id="cloak98f48fe5d5ec212d94ee1777280c23b5">Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.</span><script type='text/javascript'>
document.getElementById('cloak98f48fe5d5ec212d94ee1777280c23b5').innerHTML = '';
var prefix = 'ma' + 'il' + 'to';
var path = 'hr' + 'ef' + '=';
var addy98f48fe5d5ec212d94ee1777280c23b5 = 'webmaster' + '@';
addy98f48fe5d5ec212d94ee1777280c23b5 = addy98f48fe5d5ec212d94ee1777280c23b5 + 'domain' + '.' + 'com';
var addy_text98f48fe5d5ec212d94ee1777280c23b5 = 'webmaster' + '@' + 'domain' + '.' + 'com';document.getElementById('cloak98f48fe5d5ec212d94ee1777280c23b5').innerHTML += '<a ' + path + '\'' + prefix + ':' + addy98f48fe5d5ec212d94ee1777280c23b5 + '\'>'+addy_text98f48fe5d5ec212d94ee1777280c23b5+'<\/a>';
</script>

Определение типа устройства и перенаправление

Если вы хотите, например, перенаправить пользователей использующих планшет к определенной веб-странице или каталогу, то можно использовать следующие правила:

RewriteCond %{HTTP_USER_AGENT} ^.*iPad.*$
RewriteRule ^(.*)$ http://yourdomain.com/folderfortablets [R=301]
RewriteCond %{HTTP_USER_AGENT} ^.*Android.*$
RewriteRule ^(.*)$ http://yourdomain.com/folderfortablets [R=301]

Защита от хотлинкинга

Если вы не хотите, чтобы картинки с вашего сайта использовали на других сайтах или просто хотите уменьшить трафик. Поэкспериментируйте с этим кодом:

Options +FollowSymlinks
RewriteEngine On
RewriteCond %{HTTP_REFERER} !^$
RewriteCond %{HTTP_REFERER} !^http://(www.)?domainname.com/ [nc]
RewriteRule .*.(gif|jpg|png)$ http://domainname.com/img/hotlink_f_o.png [nc]

Вызываем окно "Файл Сохранить как"

Если вы хотите заставить пользователей загружать определенные типы файлов, а не просматривать их в браузере, то вы можете использовать это:

AddType application/octet-stream .csv
AddType application/octet-stream .xls
AddType application/octet-stream .doc
AddType application/octet-stream .avi
AddType application/octet-stream .mpg
AddType application/octet-stream .mov
AddType application/octet-stream .pdf
или упростить это так:

AddType application/octet-stream .avi .mpg .mov .pdf .xls .mp4
Rewrite URL

Если вы хотите, чтобы ваши ссылки было немного легче читать (т.е. изменить content.php?id=92 на content-92.html), Вы могли бы реализовать следующие правила «переписывания»:

RewriteEngine on
RewriteRule ^content-([0-9]+)\.html$ content.php?id=$1

Перенаправление браузера на HTTPS

Это всегда полезно для тех, кто только что установил SSL-сертификат:

RewriteEngine On
RewriteCond %{HTTPS} !on
RewriteRule (.*) https://%{HTTP_HOST}%{REQUEST_URI}

Включаем SSI

Если вы хотите активировать SSI для HTML и SHTML-файлов, то попробуйте:

AddType text/html .html
AddType text/html .shtml
AddHandler server-parsed .html
AddHandler server-parsed .shtml
AddHandler server-parsed .htm

Включение и отключение просмотра каталогов

# отключаем просмотр каталогов
Options All -Indexes
# разрешаем просмотр каталогов
Options All +Indexes

Изменение кодировки и языка заголовков

Для тех, кто хочет изменить текущую кодировку и язык:

AddDefaultCharset UTF-8
DefaultLanguage en-GB

Блокировка нежелательных поситителей

Если вы хотите заблокировать нежелательных посетителей переходящих с определенного веб-сайта или ряда сайтов, то вы можете использовать:

<IfModule mod_rewrite.c>
RewriteEngine on
RewriteCond %{HTTP_REFERER} website1.com [NC,OR]
RewriteCond %{HTTP_REFERER} website2.com [NC,OR]
RewriteRule .* - [F]
</ifModule>

Блокировка нежелательных ботов

При помощи следующего метода, вы можете сохранить траффик путем блокирования определенных роботов и пауков, которые бродят по вашему сайту:

<IfModule mod_rewrite.c>
SetEnvIfNoCase ^User-Agent$ .*(bot1|bot2|bot3|bot4|bot5|bot6|) HTTP_SAFE_BADBOT
SetEnvIfNoCase ^User-Agent$ .*(bot1|bot2|bot3|bot4|bot5|bot6|) HTTP_SAFE_BADBOT
Deny from env=HTTP_SAFE_BADBOT
</ifModule>

Заблокировать доступ к определенным файлам

Если вы хотите защитить определенные файлы, или даже заблокировать доступ к файлу .htaccess, то используйте следующий код:

<Files privatefile.jpg>
order allow,deny
deny from all
</Files>
<FilesMatch ".(htaccess|htpasswd|ini|phps|fla|psd|log|sh)$">
Order Allow,Deny
Deny from all
</FilesMatch>

И, наконец ...

По соображениям безопасности, я думаю, очень полезно переименовать файл .htaccess:

AccessFileName ht.access

При написании этой статьи я постарался выделить ряд функций .htaccess, которые могут быть полезны для вебмастера. Конечно, я не рассмотрел все возможности, но как вы видите .htaccess может быть полезным инструментом, и он по-прежнему играет важную роль в улучшении вашего сайта

В заключении

Файл robots.txt — очень важный и нужный инструмент взаимодействия с поисковыми роботами и один из важнейших инструментов SEO, так как позволяет напрямую влиять на индексацию сайта.

.htaccess файлы (или "распределенные конфигурационные файлы") позволяют задавать большое количество дополнительных параметров и разрешений для работы веб-сервера в отдельных каталогах (папках), таких как управляемый доступ к каталогам, переназначение типов файлов и т. д, без изменения главного конфигурационного файла.

Используйте robots,nofollow и htaccess правильно и с умом.

Если у вас есть вопросы — пишите в комментариях.
Рекомендуйте статью друзьям и не забывайте подписываться на блог.

Разрешается использование пресс-релизов, новостей и других информационных материалов, предназначенных для общественного пользования, с целью информирования общественности, при условии указания веб-портала «Zentrix» в качестве источника информации.

Автор материала:

Гость

Логин на сайте: Гость

Группа: Гости

Статус:

Зарегистрирован дней:

День рождения:

О материале:

Дата добавления материала: 29.03.2017 в 00:09

Материал просмотрен: 784 раза

Категория материала: ВСЕ О ХОСТИНГЕ И ПО

К материалу оставлено: 0 комментариев

Рейтинг материала

Вы находитесь на этой странице

секунд!

САМЫЕ ПОПУЛЯРНЫЕ СТАТЬИ

СРАВНЕНИЕ FAT32,NTFS,EXFAT НА ФЛЕШКАХ И ВНЕШНИХ ЖЕСТКИХ ДИСКАХ	КАК РАСКРУТИТЬ ИНТЕРНЕТ МАГАЗИН САМОСТОЯТЕЛЬНО. ПОШАГОВОЕ РУКОВОДСТВО	СЕТЕЦЕНТРИЧЕСКАЯ ВОЙНА И КИБЕРВОЙНА	ХОСТИНГ ВЕБ ПРОЕКТОВ НА БЕСПЛАТНОЙ ЛИБО ПЛАТНОЙ ОСНОВЕ	РЫНОК СИСТЕМ УПРАВЛЕНИЯ ЛОГИСТИКОЙ WMS
ФАЙЛ ROBOTS.TXT ИЛИ КАК СДЕЛАТЬ РОБОТА,ФАЙЛ HTACCESS И ТЕГ NOFOLLOW СВОИМИ РУКАМИ

Всего комментариев: 0