Dismiss Notice
ВАШИ ПРАВА ОГРАНИЧЕНЫ!

Зарегистрируйтесь на форуме, чтобы стать полноценным участником сообщества!

Вопрос? Как защитить сайт от парсеров.

Discussion in 'Вопросы- ответы' started by Roman.U, May 14, 2019.

14.05.19 в 21:23
07.06.19 в 14:50
98
5,718
0
  1. TeraMoune

    TeraMoune Бывалый

    Messages:
    310
    Likes Received:
    77
    Best Answers:
    3
    Ну если помог то отлично, другой вариант тоже помог бы да еще плюс защитит от парсера который выдерает конкретные кусочки, а не весь документ.

    Хотя Вы считаете, что это прям 100% ?) Человек который сделал парсер данного сайта рано или поздно заметит редирект, и найдёт строку и вырежет её и всё дальше пойдёт как было. (я бы так и сделал и не думаю, что люди стоящие за такими клонами дураки, тоже заметят)

    С другой стороны с подгрузкой Клонны тоже будут лишь клоны пустых страниц без контента, есть такая штука как веб архив типа сохраняет снапшоты сайтов
    Wayback Machine Вот к примеру копии сайта который всё подгружал при помощи якса только живым людям, все снапшоты всех страниц за всю историю жизни выглядят однотипно, пустая страница с прелодером и никакой инфы нету. Клоны будут так же копировать ваши и любые сайты но лишь html документ и javascript который на чужых доменах работать не будет если умело написать всё.
     
    Last edited: May 30, 2019
  2. hent4iboys

    hent4iboys Бывалый

    Messages:
    703
    Likes Received:
    93
    Best Answers:
    2
    но все ж,редиректы работали = сайты офнули
    и да,не считаю что способ на 100 процентов рабочий (100 процентов рабочего способа нету)
     
    • Согласен Согласен x 2
  3. ProfitGet

    ProfitGet PRO Users

    Messages:
    1,511
    Likes Received:
    126
    Best Answers:
    1
    Эту защиту тоже легко можно обойти...
    ;)
     
    • Нравится Нравится x 1
    • Смешно Смешно x 1
  4. dr.gopher

    dr.gopher Staff Member VIP Кинотрафик v2

    Messages:
    1,598
    Likes Received:
    346
    Best Answers:
    8
    Всё или почти всё можно обойти. Редирект это лишь превентивные меры, дабы школьники не парсили.
    Я периодически проверяю свои тексты на уникальность. Если нахожу клона, отслеживаю IP в логах и блокирую. Далее регулярно проверяю данный домен, до полного уничтожения. )))
     
  5. TopicStarter Overlay
    Roman.U

    Roman.U PRO Users

    Messages:
    6,892
    Likes Received:
    755
    Best Answers:
    5
    В общем пока около 3 клонов удалось убрать, домены не рабочие. Остался еще 1, но тот спарсил сайт давно со старым шабом, и не обновляется. Вот ток прикол, убрал клонов, траф офигенно сел, такое ощущение, что от клонов траф+.
    А как защитить сам контент, чтобы стырить его было геморно?
     
  6. ProfitGet

    ProfitGet PRO Users

    Messages:
    1,511
    Likes Received:
    126
    Best Answers:
    1
    Никак, все что загружено браузером с Вашего сервера - уже собственность владельцев ПК.
    ;)

    Можете разработать собственное приложение для просмотра сайта с разных устройств (Виндовс, Линукс, Андройд, Яблоко) с закрытым кодом, уж его взломать смогут только хаккеры...:)
     
  7. TopicStarter Overlay
    Roman.U

    Roman.U PRO Users

    Messages:
    6,892
    Likes Received:
    755
    Best Answers:
    5
    А защиту от нубов, ну типо запрет на выделения текста или чтобы ставио в место контента ссылку на страницу, где такое найти?
     
  8. Romantv

    Romantv Забанен

    Messages:
    6,946
    Likes Received:
    1,815
    Best Answers:
    6
    Как проверить сайт на уникальность, по тексту проверять?
     
  9. synlivcho

    synlivcho PRO Users

    Messages:
    749
    Likes Received:
    70
    Best Answers:
    2
    <div id="noselect">
    <script type="text/javascript">
    function disableSelection(target){
    if (typeof target.onselectstart!="undefined")
    target.onselectstart=function(){return false}
    else if (typeof target.style.MozUserSelect!="undefined")
    target.style.MozUserSelect="none"
    else
    target.onmousedown=function(){return false}
    target.style.cursor = "default"
    }
    if (document.getElementById("noselect")) {
    disableSelection(document.getElementById("noselect"));
    }
    </script>

    в самый конец страницы </div>
     
  10. Romantv

    Romantv Забанен

    Messages:
    6,946
    Likes Received:
    1,815
    Best Answers:
    6
    <div class="noselect"> </div>
     
  11. hent4iboys

    hent4iboys Бывалый

    Messages:
    703
    Likes Received:
    93
    Best Answers:
    2
    [not-group=1]
    <style>
    .fullstory{
    -webkit-touch-callout: none;
    -webkit-user-select: none;
    -khtml-user-select: none;
    -moz-user-select: none;
    -ms-user-select: none;
    user-select: none;
    }
    </style>
    [/not-group]
    класс замени на свой(это в fullstory.tpl
     
    • Нравится Нравится x 1
  12. hent4iboys

    hent4iboys Бывалый

    Messages:
    703
    Likes Received:
    93
    Best Answers:
    2
    при проверки на уник на текст.ру показывает ссылки на каких сайтах есть этот текст
     
    • Нравится Нравится x 1
  13. TeraMoune

    TeraMoune Бывалый

    Messages:
    310
    Likes Received:
    77
    Best Answers:
    3
    Я вот и писал как доставить проблем парсеру на php или любому другому который не исполняет javascript, сперва отдавайте страницу затем, отправляйте запрос и проверяйте ключ доступа (обычный же парсер с 99.9% при первом парсинге не будет иметь ключа, это как минимум заставит повторно запрашивать страницы и для каждой он всегда будет требовать сперва вытянуть ключ, но при смекалке получение и генерацию ключа можно сделать по разному и вообще лешить возможности его получить парсером тогда я думаю и вовсе не выйдет получить контент), при совпадении отдавайте контент в который вы вцепились зубами и не желаете отдавать автоматически. Это хоть и не защитит на 100% но будет почти как презерватив короче.
     
  14. hent4iboys

    hent4iboys Бывалый

    Messages:
    703
    Likes Received:
    93
    Best Answers:
    2
    крч,простым язык.сделать как на кинопоиске?
     
  15. TeraMoune

    TeraMoune Бывалый

    Messages:
    310
    Likes Received:
    77
    Best Answers:
    3
    Не знаю как там но я знал как это было сделано id software с их сайтом игры и у Blizzard на трёх основных игровых сайтах. В обоих была подгрузка яксом только после первичного захода на сайт. Где-то можно встретить просто выебон без ключей и авторизации, а где-то можно увидеть с полноценными корягами которые усложняют любому парсеру который не исполняет javascript, а просто слизывает html документ и копирует его или разбирает и вытягивает целевые компоненты. В обоих случаях первичный парсинг где будет отложенная подгрузка контента потребует парсеру посетить как минимум один дополнительный раз если палки примитивными будут и их можно будет получить в первом парсинге. (Как в примерах авторизации в вк посредством CURL когда сперва получали хэш суммы, а во второй раз производили авторизацию с этими данными.)

    Еще вот у гугла ведь появилась новая капча которая не требует вообще ничего вводить и тыкать и в фоне вроде как работает. Прикрутить к подгрузке еще и капчу, и может будет еще лучше. А может и хуже, в любом случае нужно пробовать всё и смотреть.
     
    Last edited: Jun 5, 2019
  16. hent4iboys

    hent4iboys Бывалый

    Messages:
    703
    Likes Received:
    93
    Best Answers:
    2
    ну я не думаю шо кто т будет делать такое для киносайта хд
     
  17. dr.gopher

    dr.gopher Staff Member VIP Кинотрафик v2

    Messages:
    1,598
    Likes Received:
    346
    Best Answers:
    8
    Старые тексты проверяю на text.ru
    На клоне, как правила 100% совпадение.
     
    • Согласен Согласен x 1
  18. dr.gopher

    dr.gopher Staff Member VIP Кинотрафик v2

    Messages:
    1,598
    Likes Received:
    346
    Best Answers:
    8
    • Согласен Согласен x 1
  19. TeraMoune

    TeraMoune Бывалый

    Messages:
    310
    Likes Received:
    77
    Best Answers:
    3
    Если о парсере то Вы не представляете на что пойдут люди дабы получить инфу с вашего сайта.
    Если о реализации защиты, да много кто может сделать, я тоже могу да и любой другой человек кто разбирается так же сможет придумать как это сделать. А ajax подгрузка и вовсе почти всеми освоена. Даже школьники умеют делать ajax запросы и получать ответы и производить с ними что-то.

    И почему Вам кажется, что минификация будет преградой для парсера ?) Я сам порой принудительно пропускаю полученный документ через точно такую же функцию (может не точно но я так же убираю переносы строк и лишние пробелы между тегами, так что могу сказать это только упрощает парсинг чем усложняет.