Скрыть объявление
ВАШИ ПРАВА ОГРАНИЧЕНЫ!

Зарегистрируйтесь на форуме, чтобы стать полноценным участником сообщества!

Вопрос? Как защитить сайт от парсеров.

Тема в разделе "Вопросы- ответы", создана пользователем Roman.U, 14 май 2019.

14.05.19 в 21:23
07.06.19 в 14:50
98
4.337
0
  1. TeraMoune

    TeraMoune Бывалый

    Регистрация:
    6 апр 2019
    Сообщения:
    310
    Лучших ответов:
    3
    Рейтинги:
    +130 / 9 / -0
    Ну если помог то отлично, другой вариант тоже помог бы да еще плюс защитит от парсера который выдерает конкретные кусочки, а не весь документ.

    Хотя Вы считаете, что это прям 100% ?) Человек который сделал парсер данного сайта рано или поздно заметит редирект, и найдёт строку и вырежет её и всё дальше пойдёт как было. (я бы так и сделал и не думаю, что люди стоящие за такими клонами дураки, тоже заметят)

    С другой стороны с подгрузкой Клонны тоже будут лишь клоны пустых страниц без контента, есть такая штука как веб архив типа сохраняет снапшоты сайтов
    Wayback Machine Вот к примеру копии сайта который всё подгружал при помощи якса только живым людям, все снапшоты всех страниц за всю историю жизни выглядят однотипно, пустая страница с прелодером и никакой инфы нету. Клоны будут так же копировать ваши и любые сайты но лишь html документ и javascript который на чужых доменах работать не будет если умело написать всё.
     
    #81 TeraMoune, 30 май 2019
    Последнее редактирование: 30 май 2019
  2. hent4iboys

    Забанен

    Регистрация:
    31 авг 2018
    Сообщения:
    695
    Лучших ответов:
    2
    Рейтинги:
    +140 / 27 / -0
    но все ж,редиректы работали = сайты офнули
    и да,не считаю что способ на 100 процентов рабочий (100 процентов рабочего способа нету)
     
    • Согласен Согласен x 2
  3. ProfitGet

    PRO Users

    Регистрация:
    3 авг 2018
    Сообщения:
    1.511
    Лучших ответов:
    1
    Рейтинги:
    +233 / 104 / -0
    Эту защиту тоже легко можно обойти...
    ;)
     
    • Нравится Нравится x 1
    • Смешно Смешно x 1
  4. dr.gopher

    Команда форума VIP Кинотрафик v2

    Регистрация:
    26 июн 2015
    Сообщения:
    1.554
    Лучших ответов:
    8
    Рейтинги:
    +445 / 44 / -0
    Всё или почти всё можно обойти. Редирект это лишь превентивные меры, дабы школьники не парсили.
    Я периодически проверяю свои тексты на уникальность. Если нахожу клона, отслеживаю IP в логах и блокирую. Далее регулярно проверяю данный домен, до полного уничтожения. )))
     
  5. TopicStarter Overlay
    Roman.U

    PRO Users

    Регистрация:
    13 ноя 2015
    Сообщения:
    6.165
    Лучших ответов:
    5
    Рейтинги:
    +1.028 / 115 / -0
    В общем пока около 3 клонов удалось убрать, домены не рабочие. Остался еще 1, но тот спарсил сайт давно со старым шабом, и не обновляется. Вот ток прикол, убрал клонов, траф офигенно сел, такое ощущение, что от клонов траф+.
    А как защитить сам контент, чтобы стырить его было геморно?
     
  6. ProfitGet

    PRO Users

    Регистрация:
    3 авг 2018
    Сообщения:
    1.511
    Лучших ответов:
    1
    Рейтинги:
    +233 / 104 / -0
    Никак, все что загружено браузером с Вашего сервера - уже собственность владельцев ПК.
    ;)

    Можете разработать собственное приложение для просмотра сайта с разных устройств (Виндовс, Линукс, Андройд, Яблоко) с закрытым кодом, уж его взломать смогут только хаккеры...:)
     
  7. TopicStarter Overlay
    Roman.U

    PRO Users

    Регистрация:
    13 ноя 2015
    Сообщения:
    6.165
    Лучших ответов:
    5
    Рейтинги:
    +1.028 / 115 / -0
    А защиту от нубов, ну типо запрет на выделения текста или чтобы ставио в место контента ссылку на страницу, где такое найти?
     
  8. Romantv

    Забанен

    Регистрация:
    17 июл 2015
    Сообщения:
    6.992
    Лучших ответов:
    6
    Рейтинги:
    +2.000 / 141 / -0
    Как проверить сайт на уникальность, по тексту проверять?
     
  9. synlivcho

    PRO Users

    Регистрация:
    24 окт 2018
    Сообщения:
    749
    Лучших ответов:
    2
    Рейтинги:
    +99 / 30 / -0
    <div id="noselect">
    <script type="text/javascript">
    function disableSelection(target){
    if (typeof target.onselectstart!="undefined")
    target.onselectstart=function(){return false}
    else if (typeof target.style.MozUserSelect!="undefined")
    target.style.MozUserSelect="none"
    else
    target.onmousedown=function(){return false}
    target.style.cursor = "default"
    }
    if (document.getElementById("noselect")) {
    disableSelection(document.getElementById("noselect"));
    }
    </script>

    в самый конец страницы </div>
     
  10. Romantv

    Забанен

    Регистрация:
    17 июл 2015
    Сообщения:
    6.992
    Лучших ответов:
    6
    Рейтинги:
    +2.000 / 141 / -0
    <div class="noselect"> </div>
     
  11. hent4iboys

    Забанен

    Регистрация:
    31 авг 2018
    Сообщения:
    695
    Лучших ответов:
    2
    Рейтинги:
    +140 / 27 / -0
    [not-group=1]
    <style>
    .fullstory{
    -webkit-touch-callout: none;
    -webkit-user-select: none;
    -khtml-user-select: none;
    -moz-user-select: none;
    -ms-user-select: none;
    user-select: none;
    }
    </style>
    [/not-group]
    класс замени на свой(это в fullstory.tpl
     
    • Нравится Нравится x 1
  12. hent4iboys

    Забанен

    Регистрация:
    31 авг 2018
    Сообщения:
    695
    Лучших ответов:
    2
    Рейтинги:
    +140 / 27 / -0
    при проверки на уник на текст.ру показывает ссылки на каких сайтах есть этот текст
     
    • Нравится Нравится x 1
  13. TeraMoune

    TeraMoune Бывалый

    Регистрация:
    6 апр 2019
    Сообщения:
    310
    Лучших ответов:
    3
    Рейтинги:
    +130 / 9 / -0
    Я вот и писал как доставить проблем парсеру на php или любому другому который не исполняет javascript, сперва отдавайте страницу затем, отправляйте запрос и проверяйте ключ доступа (обычный же парсер с 99.9% при первом парсинге не будет иметь ключа, это как минимум заставит повторно запрашивать страницы и для каждой он всегда будет требовать сперва вытянуть ключ, но при смекалке получение и генерацию ключа можно сделать по разному и вообще лешить возможности его получить парсером тогда я думаю и вовсе не выйдет получить контент), при совпадении отдавайте контент в который вы вцепились зубами и не желаете отдавать автоматически. Это хоть и не защитит на 100% но будет почти как презерватив короче.
     
  14. hent4iboys

    Забанен

    Регистрация:
    31 авг 2018
    Сообщения:
    695
    Лучших ответов:
    2
    Рейтинги:
    +140 / 27 / -0
    крч,простым язык.сделать как на кинопоиске?
     
  15. TeraMoune

    TeraMoune Бывалый

    Регистрация:
    6 апр 2019
    Сообщения:
    310
    Лучших ответов:
    3
    Рейтинги:
    +130 / 9 / -0
    Не знаю как там но я знал как это было сделано id software с их сайтом игры и у Blizzard на трёх основных игровых сайтах. В обоих была подгрузка яксом только после первичного захода на сайт. Где-то можно встретить просто выебон без ключей и авторизации, а где-то можно увидеть с полноценными корягами которые усложняют любому парсеру который не исполняет javascript, а просто слизывает html документ и копирует его или разбирает и вытягивает целевые компоненты. В обоих случаях первичный парсинг где будет отложенная подгрузка контента потребует парсеру посетить как минимум один дополнительный раз если палки примитивными будут и их можно будет получить в первом парсинге. (Как в примерах авторизации в вк посредством CURL когда сперва получали хэш суммы, а во второй раз производили авторизацию с этими данными.)

    Еще вот у гугла ведь появилась новая капча которая не требует вообще ничего вводить и тыкать и в фоне вроде как работает. Прикрутить к подгрузке еще и капчу, и может будет еще лучше. А может и хуже, в любом случае нужно пробовать всё и смотреть.
     
    #95 TeraMoune, 5 июн 2019
    Последнее редактирование: 5 июн 2019
  16. hent4iboys

    Забанен

    Регистрация:
    31 авг 2018
    Сообщения:
    695
    Лучших ответов:
    2
    Рейтинги:
    +140 / 27 / -0
    ну я не думаю шо кто т будет делать такое для киносайта хд
     
  17. dr.gopher

    Команда форума VIP Кинотрафик v2

    Регистрация:
    26 июн 2015
    Сообщения:
    1.554
    Лучших ответов:
    8
    Рейтинги:
    +445 / 44 / -0
    Старые тексты проверяю на text.ru
    На клоне, как правила 100% совпадение.
     
    • Согласен Согласен x 1
  18. dr.gopher

    Команда форума VIP Кинотрафик v2

    Регистрация:
    26 июн 2015
    Сообщения:
    1.554
    Лучших ответов:
    8
    Рейтинги:
    +445 / 44 / -0
    • Согласен Согласен x 1
  19. TeraMoune

    TeraMoune Бывалый

    Регистрация:
    6 апр 2019
    Сообщения:
    310
    Лучших ответов:
    3
    Рейтинги:
    +130 / 9 / -0
    Если о парсере то Вы не представляете на что пойдут люди дабы получить инфу с вашего сайта.
    Если о реализации защиты, да много кто может сделать, я тоже могу да и любой другой человек кто разбирается так же сможет придумать как это сделать. А ajax подгрузка и вовсе почти всеми освоена. Даже школьники умеют делать ajax запросы и получать ответы и производить с ними что-то.

    И почему Вам кажется, что минификация будет преградой для парсера ?) Я сам порой принудительно пропускаю полученный документ через точно такую же функцию (может не точно но я так же убираю переносы строк и лишние пробелы между тегами, так что могу сказать это только упрощает парсинг чем усложняет.
     
Яндекс.Метрика