Сеть дорвеев — анализ, мониторинг, схема, перлинковка, топографика.

ВСТУПЛЕНИЕ

В данной статье описан анализ одной из топовых сеток по трамадолу, представлен способ её перелинковки и метод мониторинга её развития. При анализе сети использовались программы, разработанные компанией Botmaster Labs : Xrumer, Hrefer, инструменты, поставляемые в их составе (Анализатор баз ссылок, Фильтр баз ссылок, Удаление повторных ссылок), а так же скрипты PHP, написанные специально под данные задачи.

ИССЛЕДУЕМАЯ СЕТЬ ДОРВЕВ

По запросу в Google «buy tramadol online» первое место занимает дорвей www.nationsgirl.com :
http://www.google.com/search?q=buy+tramadol+online

 

сеть дорвев

Привлёк внимание автора данный дорвей тем, что он:
1) одностраничный
2) в беклинках у него всего 17 сайтов
3) дор вышел в топ1 без спама
4) дор появился в выдаче 5 декабря 2010 сразу же на 1ом месте по очень конкурентному запросу и держится на них до сегодняшнего дня.

Задача: детально проанализировать всю сеть дорвеев, восстановить схему перелинковки всей сети.

Сначала нам необходимо решить вопрос по сбору всех дорвеев, входящих в указанную сеть. Ведь нет смысла анализировать способ перелинковки, не имея полного списка её ресурсов.

Были выделены особенности любого дорвея:
1) никаких внутренних ссылок (все сайты одностраничные)
2) всегда ровно одна внешняя ссылка на более «мощный» сайт (такими сайтами является википедия и drugs.com). Обратите внимание, что эта внешняя ссылка открыта к индексации
3) всегда от 0 до 7 ссылок на доры в сетке

Таким образом, было решено собрать все ссылки со всех дорвеев, удалить упоминания wikipedia, drugs.com и т.д. и получить в результате список сайтов сети для последующего анализа перелинковки.

Добавлен анализ локации доров:  сайты на одном IP, доменные зоны. 

I. СБОР БАЗЫ ВСЕХ ДОРОВ СЕТИ

Этап 1.
Пишем небольшой скрипт, вытягивающий все ссылки с дорвея и отфильтровывающий ненужные (ссылки на указанные скрипты размещены в начале статьи). Подаём ему на вход наш дорвей с друзьями по сетке. Получаем базу «сайтов-соседей». Фильтруем на дубли полученный список встроенным инструметом Хрумера. То, что получилось, подаём опять на вход скрипта, опять фильтруем дубли. Процесс повторяем, пока новых сайтов не перестанет добавляться на выходе скрипта.

Этап 2.
Теперь предполагаем, что, возможно, кто-то ещё остался за бортом. Т.е. кто-то ссылается на один из полученных нами сайтов, но на него никто. А это ведь может быть целая группа дорвеев, и её роль в сети может быть важна.
Значит, нужно проверить все беклинки всех вытащенных нами доров.

Открываем Hrefer. Подготавливаем ему такое задание:

link:www.nationsgirl.com
link:www.nyulawlibertarian.com
link:www.publicicletas.com
link:www.journeytomalia.com
link:www.sjgaypride.com
link:www.militarymissionsonline.com
...

Можно Hrefer заставить прибавлять к запросу 2-3 дополнительных слова типа «tramadol», «buy tramadol» и т.д.
Из полученной базы беклинков удаляем Хрумером все дубли, запускаем Анализатор базы ссылок и все беки проверяем на вхождение уникального для наших доров контента.
Тут нужно сказать, что доры этой сетки почти полностью динамичны (шаблон всегда разный, даже css!) и получить 100% признака не представляется возможным.
Поэтому фильтрацию проводим в 2 последовательных захода по надписи внизу страницы «Copyright © 2008» и части ссылки на редирект «/rx».
Например, в линках http://www.nationsgirl.com/rx/2pharmacycenterusa.php название домена и скрипта всегда меняется, а папка /rx всегда одинакова.

На выходе получаем новые сайты в нашу базу (очень много!). Для полученной базы опять повторяем Этап 1 и Этап2, до тех пор, пока в нашей базе не перестанет прибавляться новых дорвеев.

Этап 3.
Хорошо, теперь мы получили базу всех перелинкованных между собой доров. Но что, если существует часть или группа ещё не перелинкованных? А вдруг есть ещё такая же похожая замкнутая система-сеть, на которую нет выхода из нами обнаруженной сети? Мы-то их не нашли. Но что же делать?
А делать вот что. Мы предполагаем, что все эти доры (а их у нас накопилось к этому времени уже около 200 штук) продвигаются одними и теми же ресурсами: блогами, социальными сетями и т.д. Поэтому велика вероятность того, что на каком-то блоге есть сразу две ссылки на доры в разных сетях.

Надо взять нашу последнюю актуальную базу беклинков на все наши доры, подать на вход скрипту сбора ссылок уже не сами доры, а их беклинки. Полученную базу (очень большую) правильно отфильтровать:
1) на дубли Хрумером
2) на вид ссылки (наши доры одностраничны, поэтому нас интересуют только ссылки на морду, не нужны вида http://site.com/dir/dir/file.html и т.д.)

Запускаем Анализатор баз ссылок Хрумера и за несколько проходов отсеиваем по признакам, указанным в Этапе 2.
Получаем колоссальный прирост доров в сетке!  При этом мы вытягиваем даже такие, которые не ссылаются ни на один из доров: ни сами, ни на них.

Внимание! Это очень важный момент. Сетка может не быть статичной. Автор может развивать её, перелинковывая постепенно. Таким образом, получив ещё и одиночные доры, мы сможем анализировать, как происходит сама перелинковка поэтапно!

Полученную базу прогоняем опять по Этапам 1-3 до того момента, пока доров в нашей базе перестанет прибавляться.

На весь этот процесс ушло 3 дня активной работы. Мы вытащили 90% (минимум) всей сетки. Теперь можно перейти к анализу линковки.

II. АНАЛИЗ ЛИНКОВКИ

На данном этапе у нас есть сеть дорвеев из 490 доров.

Этап 4.

Пишем скрипт, который присваивает каждому дору числовой индекс, затем заходит на каждый из сайтов и показывает линковку в удобном формате без доменных имён.

Результат работы примерно такой:

(0)http://www.nationsgirl.com
[0=>1]
[0=>8]
[0=>2]
(1)http://www.nyulawlibertarian.com
(2)http://www.publicicletas.com
(3)http://www.journeytomalia.com
(4)http://www.sjgaypride.com
[4=>1]
[4=>7]
[4=>6]
[4=>5]
[4=>15]
[4=>8]
(5)http://www.militarymissionsonline.com
[5=>1]
[5=>2]
[5=>8]
(6)http://www.anti-knowledge.com
(7)http://www.trivaniteam.com
[7=>8]
[7=>2]
[7=>1]
...

Если скрипт находит неизвестную ранее нам ссылку, он её выведет с доменом:

(30)http://www.sistersnetworkcincy.org
[30=>268]
[30=>269]
[30=><font color=red>www.bestnascarracing.com</font>]
[30=>270]

Внимание! Сохраняя этот лог, допустим, раз в неделю по понедельникам, мы сможем отслеживать, как развивается и живёт сетка: как она перелинковывается, постепенно или нет, появляются ли линки на сайты не из сетки и т.д.

Этап 5 — СОСТАВЛЕНИЕ ГРАФА СЕТИ И ПОИСК ЛОГИКИ

Как же нам теперь представить все эти данные в понятном виде? Ведь нам же надо найти логику в перелинковке, определить схему и т.д. Бесплатный инструмент для работы с графами — yEd Graph Editor (скачать тут: http://www.yworks.com/en/downloads.html). Он позволяет создавать красивые графы, устанавливать связи, шевелить узлы и т.д.

Для начала добавляем все узлы и устанавливаем связи между ними. Перемещая узлы, пытаемся найти похожие, объединить их в группы. Стараемся добиться симметричности\логики,  использовуя возможности цветового выделения узлов, групп и связей.

сеть дорвев

 Как видите, это не очень информативно при таком количестве узлов. Поэтому похожие узлы сворачиваем в группах, а в заголовке пишем число узлов в группе.

сеть дорвев

 

Этап 6 — АНАЛИЗ СЕТИ И ВЫВОДЫ

Предположим, что вообще изначально у каждого сайта в сети есть определённый вес, равный единице. Т.е. это такие очки в кармане, который дор может подарить другим, но не себе.
При этом важно, что если дор дарит часть своего веса другому дору (ссылается на него), то у самого него веса меньше не становится.
Но та единица, которая есть у сайта изначально, делится между всеми дорами, на которые он ссылается.
Например, у сайта А есть вес 1. Он ссылается на B и на С. Тогда у А вес 1, а у B и С вес суммируется со своей единицей (т.е. у каждого из них будет вес 1,50). Соответственно B и C уже имеют 1,50 балла для распределения между теми, на кого они ссылаются. При этом, ссылаясь, они свои 1,50 балла не расходуют.

Таким образом мы изучим все узлы и группы графа (отдельно доры в группе не исследуем). При этом:
для узла
— изначальный вес узла равен 1
— передаваемый ссылке вес = вес узла\количество ссылок
для группы
— вес группы равен 1*количество доров в группе
— передаваемый ссылке вес = вес группы\количество ссылок

Просчитываем ручками веса по вышеописанной схеме:

сеть дорвев

 На PR прошу не обращать внимания, т.к., как было выяснено позже, хозяин сетки покупал домены уже с pr.

Первое, что бросилось в глаза — почти вся сеть дорвеев, кроме одной группы, симметрична. У каждого узла есть своя пара. Только лишь одна группа (справа из трёх узлов) не имеет пары. Автору кажется, что это сделано намерянно. Возможно, поисковики могут вычислять симметрию сетей по передаче веса от каждого сайта к сайту.
Обратите внимание, что, если бы не было этой группы, то сеть была бы симметрична по весам.

 Важно: Ни одной обратной ссылки!
Важно: Ни одного кольца в схеме! 

Так же нужно отметить, что имеет значение распределение по количеству дорвеев в группах.  Т.е, если делать свою сетку, то нужно стремиться соблюдать относительные пропорции.

Вот такая получилась сеть дорвеев, вот такой получился анализ сети.  

И хотя статья писалась в далеком 2011 году, она актуальна и сейчас , и несомнено, будет полезна и начинающим и опытным пользователям.