Борьба с уникальностью контента или повышаем индекс и выдачу в поиске

Dr_Brown

Пользователь
Как известно поисковики любят уникальный контент...Соответственно если вы пользуетесь парсером, или автоматическим грабером, вряд ли Вы редактируете раздачи на предмет наличия ссылок на сторонний ресурс, ну например ресурс с которого Вы стырили релиз.
К примеру очень часто встречается в раздачах фильмов MediaInfo, где указан:
Код:
.............
Правообладатель: специально для rutracker.org (ex torrents.ru)
..........
Имея данную строку в релизе, особенно если он был ранее залит рушку, шансы что он будет по вашему трекеру в индексе или в выдаче в поиске практически равны нулю. Редактировать сотни раздач руками, или удалять из каждой MediaInfo полный бред.
Также очень часто встречается такие моменты как :

Релиз от : картинка релиз группы

Было замечено, что например картинки релиз групп с рушки имеют ссылку вида:

Код:
http://static.rutracker.org/.....


Также в релизах очень часто присутствуют ссылки типа: источник, мои раздачи, мой супер пупер том я апрель и прочая байда.
Как же бороться с этой хренью спросите Вы ?
Ответ очень прост, наш движок имеет ряд функционала который позволяет избавиться от ненужной информации в релизах, это:
1. Автоцензор
2. Бан картинок ненужных хостингов
3. Требуется установка мода Nightmare http://torrentpier.com/threads/Атрибут-rel-nofollow-к-внешним-ссылкам.14152/

Реализация:

1. Поставить мод Nightmare

2. Зайти в админку и настроить Автоцензор, например Ваш трекер это "supertrack.ru", прописываем:

*Rutracker* - замена supertrack
*rutracker* - замена на supertrack
*rutracker.org* - замена на supertrack
*torrents.ru* - замена на supertrack

Уже после данной манипуляции в раздачах фильмов MediaInfo будет выглядеть как:
Код:
.............
Правообладатель: специально для supertrack (ex supertrack)
..........
Неплохо, да.....?

3. Боремся с картинками релиз групп рушки.......

Открываем page_header.tpl ищем:
Код:
function fixPostImage($img)
{
    var banned_image_hosts = /imagebanana|hidebehind/i;  // imageshack
    var src = $img[0].src;
    if (src.match(banned_image_hosts)) {
        $img.wrap('<a href="'+ this.src +'" target="_blank"></a>').attr({ src: "{SITE_URL}images/tr_oops.gif", title: "{L_SCREENSHOTS_RULES}" });
    }
    return $img;
}

Меняем на:

Код:
function fixPostImage($img)
{
    var banned_image_hosts = /static.supertrack |hidebehind/i;  // imageshack
    var src = $img[0].src;
    if (src.match(banned_image_hosts)) {
        $img.wrap('<a href="'+ this.src +'" target="_blank"></a>').attr({ src: "{SITE_URL}images/картинка вашей релиз группы", title: "{L_SCREENSHOTS_RULES}" });
    }
    return $img;
}

После данных манипуляций, все картинки релиз групп рушки заменятся на ваши, так как в ссылке сначала цензор поменяет static.rutracker.org на static.supertrack, а затем скрипт забанит картинку и заменит на вашу....
А на все ссылки вида, например, источник или мои релизы:

Please Login or Register to view hidden text.

т.д. цензор поменяет на

Please Login or Register to view hidden text.

...... и мод Nightmare простовит на таких ссылках тег rel="noffollow", что исключить индексацию данных ссылок, так при попытке перейти по ней вы будете переброшены на страница не найдена.
Данное решение является половинчатым, так как:
1. картинки релиз групп например, могут быть залиты например на fastpic, и было бы глупо банить полностью данный хостинг
2. Наличие битых ссылок в раздаче
Однако это решение поможет закрыть ненужную инфу в 95% раздач.
Я не призываю пользоваться данным решением, и каждый сам под себя настроит автоцензор, однако решение основано на родном функционале и без установки каких либо модов.
Спасибо за внимание, удачи!
 

ENERGY

Пользователь
Ребята не старайтесь без харошего адвоката новые фильмы выдвигать на первые страницы, а релиз группы ето хоть какое то прекрытие, поверте мне письма о правообладание не очень приятно читать.
п.с для познавательной цели могу выложить парочку.
 

Dr_Brown

Пользователь
ENERGY,тут не про борьбу с правиками

drew, все уже спарсено до нас....

дай регулярку как обрезать ?
 

ENERGY

Пользователь
Типа таго.
$text = str_replace('<noindex>', '', $text);
$text = str_replace('</noindex>', '', $text);
$text = preg_replace('/<var class="postImg" title="http:\/\/i029.*******.host\/0910\/94\/550c1e6e3954.gif">&#10;<\/var>/', '', $text);
$text = preg_replace('/<var class="postImg" title="http:\/\/i6.fastpic.ru\/big\/2010\/0408\/89\/2237bab32767c840ab9ad39b92a96f89.gif">&#10;<\/var>/', '', $text);
$text = preg_replace('/<var class="postImg" title="http:\/\/s45.*******.host\/i107\/1010\/2e\/2f23e137f42f.gif">&#10;<\/var>/', '', $text);
 
Сверху