Всем привет.
В данной небольшой и абсолютно уникальной статье
я расскажу о том, как справиться с возможными проблемами индексации форума vB 3.8.x в ПС Google.ru
Сперва определимся с тем, какие страницы нужны тем, кто будет искать что-то через поисковую систему (ПС). Вспомните, как вы сами что-то искали и натыкались на архив форума и сразу щелкали на ссылку "показать полную версию страницы". Ведь именно в полной версии проще простого определить кто с кем общается и кто кому подмигивает.
Рекомендация: закрыть архив не только для ПС, чтобы исключить дубли страниц, но и для людей, чтобы его вообще на форуме небыло.
Как выполнить: Админка/Основные настройки/Архив форума/ выключить
Хорошо, на форуме нет дублирующего все страницы архива. Дальше, необходимо выделить то самое ценное, что мы хотим, чтобы поисковик индексировал, а это скорее всего для большинства ищущих в ПС людей, следующие страницы:
Главная: /
Разделы: /forumdisplay.php?
f=X (где "X" - номер раздела)
Темы: /showthread.php?
t=X (где "X" - номера тем)
Страницы тем: /showthread.php?
t=XXXX&
page=YY (где "X" - номера тем, а "Y" - номера страниц)
ну и страницы разделов, разумеется.
Вам хочется, чтобы в поиске Google.ru присутствовали социальные группы? Или может анкеты всех многочисленных зарегистрированных участников? Why? Зачем? Они все отличаются в подавляющем большинстве никами и больше ничем. Хотя после прочтения статьи вы легко сможете поступить по своему и открыть их.
Рекомендация: просить индексировать ботов только "Разделы" "Страницы разделов", "Темы", "Страницы тем" и главную, разумеется.
Как выполнить:
1. Для начала попробуем настроить файл robots.txt
Посмотрим, как это реализовано у меня:
Code:
User-Agent: *
Disallow: /ajax.php
Disallow: /attachment.php
Disallow: /calendar.php
Disallow: /clientscript/
Disallow: /cpstyles/
Disallow: /customavatars/
Disallow: /customprofilepics/
Disallow: /cron.php
Disallow: /editpost.php
Disallow: /global.php
Disallow: /gtsearch.php
Disallow: /image.php
Disallow: /infraction.php
Disallow: /inlinemod.php
Disallow: /joinrequests.php
Disallow: /login.php
Disallow: /memberlist.php
Disallow: /misc.php
Disallow: /moderator.php
Disallow: /newattachment.php
Disallow: /newreply.php
Disallow: /newthread.php
Disallow: /online.php
Disallow: /poll.php
Disallow: /postings.php
Disallow: /printthread.php
Disallow: /private.php
Disallow: /profile.php
Disallow: /redirector.php
Disallow: /register.php
Disallow: /report.php
Disallow: /reputation.php
Disallow: /search.php
Disallow: /sendmessage.php
Disallow: /showgroups.php
Disallow: /showpost.php
Disallow: /subscription.php
Disallow: /threadrate.php
Disallow: /usercp.php
Disallow: /usernote.php
Clean-param: s&pp&sort&order&daysprune /forumdisplay.php
Clean-param: p&s&mode /showthread.php
Host: www.ваш-домен.ru
Sitemap: http://www.ваш-домен.ru/sitemap_index.xml.gz
Кажется, что все Disallow вы и так понимаете. Впрочем, кое-что можно смело удалить, т.к. бот не обращается к image.php, например.
Далее идет директива Clean-Param -
http://help.yandex.ru/webmaster/?id=996567#1041216
Что она делает? Например, строка
Quote:
Clean-param: s&pp&sort&order&daysprune /forumdisplay.php
|
говорит Яндексу о том, что:
Следующая строка аналогично исключает из индекса Яндекса страницы дубли, вроде этих /showthread.php?
p=, поскольку "p" перебрасывает лишь в тот участок страницы, где расположен конкретный пост. Сама страница в индекс должна попадать в виде /showthread.php?
t=
Далее идет SiteMap, который
очень важен для индексации сайта в Google, но его также лучше добавить в панель Яндекса:
Генерируется сайтмап автоматически с помощью хака vbseo_sitemap-2-5 (в прикрепленном файле). vBSEO при этом ставить не обязательно.
По Яндексу это единственный способ
указать конкретно что бы мы не хотели видеть в поисковой выдаче.
По Google.ru это еще не все. Кроме того, что нужно указать в панели вебмастера (ПВ) о том, где расположена карта сайта:
,
так еще желательно зайти в "Параметры URL" (Информация о назначении каждого из параметров помогает роботу Googlebot более эффективно сканировать ваш сайт, что способствует экономии трафика и позволяет увеличить общее количество сканируемых уникальных страниц. )
Google.ru сам находит параметры и предлагает вам подсказать ему, за что они отвечают:
Выберем, например, параметр "p", о котором уже говорили ранее, что он просто перебрасывает пользователя на конкретный пост на странице. Он не нужен поисковику, если ПС ранжирует эту страницу. Иначе будет много дублирующих страниц.
Как видите, на вопрос "как этот параметр влияет на содержание страницы" я ответил "разбивает на страницы", хотя может это и неправильно. Но далее идет пункт "Какие URL, содержащие этот параметр, должен сканировать робот Googlebot?", где четко отвечаем: Никакие URL
Там же можно нажать на +, под которым появятся примеры недавно просканированных URL с таким параметром. Можно заодно удостовериться и убедиться, что эти параметры абсолютно не нужны к индексации, т.к. они лишь изменяют, реорганизуют или ограничивают содержание страницы, но не меняют ее контента.
На этом статья завершается. Чтобы вдохновить тех, кто ее читал добавлю еще две картинки:
Добавляю:
В robots.txt я уже убрал
Disallow: /member.php, т.к. на этой странице после тега <head> поставил тег:
<meta name="robots" content="noindex, nofollow"/>. И вызвано это было тем, что по запросу в Google.ru:
Code:
inurl:member site:ваш-форум.ru
мне выдавало 1 страничку пользователя, а если нажимал на "показать опущенные результаты", то видел почти 900 страниц соплей (Supplemental Index), которые тянут сайт вниз. Это страницы пользователей, которые закрыты в роботсе, но в индексе они есть. После того, как проделал то, о чем написал выше, полностью избавился от этих страниц в индексе. Поэтому убрал эту строчку из роботса.