Клоакинг - прием «чёрной» поисковой оптимизации, заключающийся в том, что информация, выдаваемая пользователю и поисковым роботам на одной и той же странице, различается.
Как работают такого рода скрипты:
Если IP посетителя(бота) есть в базе поисковых(или дргуих) ботов, ему подсовываем нужный контент, а посетителю рекламу.
Проблема таких скриптов:
Если база маленькая, бот увидит рекламу, и вероятно примет меры по пессимизации сайта. По этому, такие базы у хороших дорвейщиков очень большие, а сервисы, которые предоставляют услуги такого типа, очень дорогие.
FireCloack v2 - решает эту проблему немного иначе:
Скрипт обучается на базе известных IP и User Agent поисковых ботов, и пытается предугадать к какой группе ботов принадлежит IP и User Agent.
Преимущества такого решения:
При наличии, даже не большой базы ПС, FireCloack v2 попробует предугадать кто скрывается под этим IP, даже если его нет в Базе.
Базы с IP сильно маленькие, например 50к ботов занимает база(модель) в 21 kB файл.
Есть возможность оценить и повлиять на точность определения ботов еще до начала внедрения скрипта в работу, просто обновляю базы и обучая скрипт.
Точность на базе логов с дорвеев, размером в 1Гб:
baidu; Всего IP: 17; Тестовых IP: 3; Успешно определенных IP: 2; Точность определения %: 66
bing; Всего IP: 358; Тестовых IP: 71; Успешно определенных IP: 70; Точность определения %: 98
bots; Всего IP: 953; Тестовых IP: 190; Успешно определенных IP: 185; Точность определения %: 97
curl; Всего IP: 20; Тестовых IP: 4; Успешно определенных IP: 1; Точность определения %: 25
google; Всего IP: 6133; Тестовых IP: 1226; Успешно определенных IP: 1226; Точность определения %: 100
mail; Всего IP: 84; Тестовых IP: 16; Успешно определенных IP: 15; Точность определения %: 93
yahoo; Всего IP: 1155; Тестовых IP: 231; Успешно определенных IP: 227; Точность определения %: 98
yandex; Всего IP: 732; Тестовых IP: 146; Успешно определенных IP: 145; Точность определения %: 99
Как проводилось тестирование:
База ботов разделялась 80/20 % , 80 % IP и User Agent - база для обучения, а 20 % тестовый набор. О тестовых IP и User Agent скрипт, грубо говоря, не знал и пытался определить к какому подмножеству принадлежит тот или иной IP и User Agent.
Системные требования:
php 5.6
Как работать с FireCloack v2:
1) Залейте скрипт куда либо в папку public или куда вам нужно
2) В папку /data/ положите базы IP и User Agent ботов, где название файла - это названия ПС(или нужное название категории IP и User Agent), а сами IP и User Agent - это простой список, где каждый - с новой строки.
3) Введите в адресную строку http://domain.com/test.php , где сможете оценить качество вашей базы, а так же - получить некоторые советы по корректировке скрипта для более точной работы.
4) После того как внесли нужные настройки в config.php, введите в адресную строку http://domain.com/train.php, чтобы обучить скрипт на новых IP и User Agent.
5) Подключайте скрипт в свой PHP страницу так:
require(__DIR__.'/firecloack.php');
$bot = firecloack();
в $bot - доступны следующие параметры:
$bot->isBot - true или false
$bot->class - название бота, например google
$bot->classes - название всех груп ботов на которых обчен скрипт
$bot->ip - ip Бота.
Полные примеры подключения и использование есть в example.php в корне скрипта.
ПС: скрипт находится в тестовом режиме, прошу это учитывать.
ПС: ВАЖНО: скрипт не всегда корректно обрабатывает ip 127.0.0.0 или 192.168.1.1 и тд, считая таких посетителей - ботами. Не баг, а фича)))
keyboard_arrow_leftkeyboard_arrow_leftkeyboard_arrow_left Fast Bot Farm 1.x
Adult плагин keyboard_arrow_right keyboard_arrow_right keyboard_arrow_right