форум vBSupport.ru > vBulletin > vBulletin 3.8.x > Вопросы по vBulletin 3.8
  • »
VBsupport перешел с домена .ORG на родной .RU Ура! Пожалуйста, обновите свои закладки - VBsupport.ru
 
 
 
 
DJ Kukstyler
Знаток
 
DJ Kukstyler's Avatar
Question Распознавание поисковых ботов
0

Ребят, такой вопрос: почему один и тот же бот (как на пример Microsoft bingbot или Googlebot) то распознаётся таковым, то нет. То есть, на пример на форуме 3 посетителя. Из них все 3 Microsoft bingbot, но распознано только 1, а 2 можно понять только по "resolveIP", что это тоже bingbot.

Bot
Yandex Bot Yandex Bot is online now
 
Join Date: 05.05.2005
Реклама на форуме А что у нас тут интересного? =)
 
 
Smalesh
В Черном списке
Default
1

Детект бота идет по UserAgent, а часть ботов ходят с человеческим UserAgent.
 
 
DJ Kukstyler
Знаток
 
DJ Kukstyler's Avatar
Default
0

Smalesh, значит, я так понимаю, без пец. скриптов (и соответствующей канители) не обойтись (?).
 
 
WEBCAT
Простоузер
Default
1

Привет.
Quote:
Originally Posted by DJ Kukstyler View Post
на форуме 3 посетителя. Из них все 3 Microsoft bingbot, но распознано только 1, а 2 можно понять только по "resolveIP", что это тоже bingbot.
Это происходит потому, что "resolveIP" определяет бота по IP-адресу, а форум определяет бота по тому имени, которым он представился и этим ботом может быть не bingbot, а, например, msnbot.
Посмотри в логфайле, по IP-адресу гостя, какое у бота название и добавь его в файл spiders_vBulletin.xml
 
 
Smalesh
В Черном списке
Default
1

Quote:
Originally Posted by DJ Kukstyler View Post
Smalesh, значит, я так понимаю, без пец. скриптов (и соответствующей канители) не обойтись (?).
Совершенное верно. UserAgent может быть любой, так проверяют клоакинг и еще кучу все подобного. И наоборот, в последнее время часть встречается ddos на уровень L7 (http флуд и т.д.), в которых боты носят UA гуглоботов (это нужно чтобы обойти фильтрацию со стороны сервера по юзерагенту и достичь цели). Внешне это выглядит как несколько сотен и тысяч гуглботов, которые на самом то деле ими не являются. Поэтому более-менее достоверно говорить можно только основываясь на AS, с которой пришел бот. К сожалению, в resolveIP тоже можно вписать все что угодно (хоть у части провайдеров уже появляется проверка от этого).
 
 
DJ Kukstyler
Знаток
 
DJ Kukstyler's Avatar
Default
0

@WEBCAT, лог выдал следующее: Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 BingPreview/1.0b
Из чего, я (интуитивно) идентифицировал название бот-а как "BingPreview", запехнул в spiders_vbulletin.xml.

HTML Code:
        <spider ident="BingPreview">
		<name>BingPreview</name>
	</spider>
Буду смотреть на плоды.

Smalesh, понятно. Фактически, гарантий на то, что форум зондирует представившиеся бот (а не подставной) никаких.
 
 
Smalesh
В Черном списке
Default
1

Quote:
Originally Posted by DJ Kukstyler View Post
Фактически, гарантий на то, что форум зондирует представившиеся бот (а не подставной) никаких.
Так и есть. Достаточно много всяких парсеров спокойно лазят под чужими UA каких нибудь поисковиков (имхо, закос под гуглбота чаще всего встречается). Смотришь как бот id тем перебирает, вроде как и должно, только ip с какого нибудь digitalocean выдает с ушами. Поэтому самое надежное - смотреть владельца автономной системы.
 
 
WEBCAT
Простоузер
Default
1

Quote:
Originally Posted by DJ Kukstyler View Post
Буду смотреть на плоды.
Это лог браузера, а скрипт форума такого браузера, BingPreview, не знает. Здесь надо указывать атрибуты браузера. Какие, сказать не могу, надо экспериментировать, когда браузер поисковика придёт на сайт. Можно поэкмперементировать с Гуглевским браузером, который приходит на сайт, когда пользуешься Вэбмастером
Проблема с браузерами от поисковика в том, чтобы их атрибуты в файле spiders_vbulletin.xml отличались от серийных браузеров. Поэтому, надо создать несколько записей в файле spiders_vbulletin.xml и помере появления браузера не с IP поисковика, удалять такие записи из файла spiders_vbulletin.xml.
 

Tags
bot, useragent


Posting Rules
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is On
Smilies are On
[IMG] code is On
HTML code is Off




All times are GMT +4. The time now is 09:58 AM.


Powered by vBulletin® Version 3.5.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Loading...