Скрыть объявление
ВАШИ ПРАВА ОГРАНИЧЕНЫ!

Зарегистрируйтесь на форуме, чтобы стать полноценным участником сообщества!

Кто умеет парсить статьи? есть работа!

Тема в разделе "Прочие услуги", создана пользователем Яло, 16 фев 2018.

16.02.18 в 16:01
17.02.18 в 17:32
16
994
0
  1. TopicStarter Overlay
    Яло

    Яло Новичок

    Регистрация:
    13 авг 2017
    Сообщения:
    27
    Лучших ответов:
    0
    Рейтинги:
    +1 / 0 / -0
    Приветствую, форумчане! Нужно спарсить очень много контента (статьи) на определенную тематику.

    Суть вопроса такая:
    1. Называю тематику
    2. Статьи могут быть как с одного сайта, так и с разных (их нужно будет большое количество, для начала 100мб)
    3. Статьи должны быть полноценными (с подзаголовками h2/h3 и т.д), но без h1. Длинна статей должна быть от 3к.
    4. Все подзаголовки должны быть обрамлены в соответствующие теги <h2/3/4>, все абзацы <p>, перечисление <ul/li> и т.д
    5. Каждая статья должна быть в отдельном txt файле.
    6. По цене не определилась. Предлагайте ту сумму, за которую готовы взяться за работу. Цена должна быть эквивалентна 100мб, чтобы в будущем (если сработаемся) я делала заказы на определенное количество мб исходя из цены за 100.

    Что не подходит:
    1. Контент из книг (нужны только спаршенные с других сайтов статьи)
    2. Дубли статей
    3. Мусорный контент (наличие посторонних символов и постороннего html кода)
    4. Контент должен быть строго тематическим!

    Это основное. По нюансам определимся в ходе работы. Так же можно обсудить ваши варианты парсинга статей.
     
    #1 Яло, 16 фев 2018
    Последнее редактирование: 16 фев 2018
  2. LisER07

    VIP Кинотрафик v2 Кодер

    Регистрация:
    4 окт 2015
    Сообщения:
    630
    Лучших ответов:
    2
    Рейтинги:
    +116 / 3 / -0
    можно сайт в лс ?
     
  3. Rik

    Rik
    Команда форума VIP Кинотрафик v2

    Регистрация:
    13 май 2016
    Сообщения:
    719
    Лучших ответов:
    0
    Рейтинги:
    +357 / 22 / -0
    Ты не понял. Сайты ты ищешь сам.
     
  4. TopicStarter Overlay
    Яло

    Яло Новичок

    Регистрация:
    13 авг 2017
    Сообщения:
    27
    Лучших ответов:
    0
    Рейтинги:
    +1 / 0 / -0
    А что там искать? Называю тему - формулируешь тематический запрос, если сайт узкотематический, то можно спарсить все статьи от туда , либо же все статьи из раздела. Я же не знаю каким парсером пользуетесь - CD, a-parser, x-parser или самопис. Может вы сумеете по ключам напарсить статей.
     
  5. uskino

    PRO Users

    Регистрация:
    20 окт 2015
    Сообщения:
    762
    Лучших ответов:
    1
    Рейтинги:
    +174 / 23 / -0
    даже не представляю откуда по любой более менее узкой тематике можно статей спарсить на 100мб, еще на постоянной основе. Это же примерно 5000 статей по 10к объемом.o_O
     
  6. TopicStarter Overlay
    Яло

    Яло Новичок

    Регистрация:
    13 авг 2017
    Сообщения:
    27
    Лучших ответов:
    0
    Рейтинги:
    +1 / 0 / -0
    Я паршу CD, но эту тему создала, чтобы делегировать своё время, которое я трачу на парсинг, и за это я готова платить. Вот например x-parser умеет парсить статьи по ключам , он может и несколько гиг по одному запросу напарсить, не то что 100 метров, но проблема в том, что он вместе со статьями парсит много мусора, поэтому не подходит.

    Тематика, которая мне нужна очень широкая.
     
  7. igrovik

    igrovik Местный

    Регистрация:
    11 дек 2016
    Сообщения:
    1.007
    Лучших ответов:
    8
    Рейтинги:
    +355 / 12 / -0
    А повторно прогнать через скрипт который очистит мусор?? Думаю для кодеров не составит труда, исполнить такой скриптик:)
     
    #7 igrovik, 16 фев 2018
    Последнее редактирование: 16 фев 2018
  8. TopicStarter Overlay
    Яло

    Яло Новичок

    Регистрация:
    13 авг 2017
    Сообщения:
    27
    Лучших ответов:
    0
    Рейтинги:
    +1 / 0 / -0
    Ну вот допустим я напарсила 10к статей и каждая в отдельном файле. Вот как в каждом из них убрать мусор. тем более, как скрипт поймет, что убирать, а что нет.
     
  9. igrovik

    igrovik Местный

    Регистрация:
    11 дек 2016
    Сообщения:
    1.007
    Лучших ответов:
    8
    Рейтинги:
    +355 / 12 / -0
    Ну к примеру если известны значения которые должны быть в статье и их нужно убрать, то в помощь str_replace или preg_replace. Файлы если находятся в папке , то можно думаю проверять папку и брать txt файлы поочерёдно, и далее сохранять их в новую папку. Во избежание дублей можно сделать проверку по названиям файлов. Ну говорю если объяснить кодеру чего нужно добиться, то вполне вероятно сделать такой скриптик.


    p/S к примеру $title = "заголовок 1 5652"; $title = str_replace("5652","",str_replace); Уберёт данные цифры 5652.

    $title = "Заголовок <br> 7898567</b>";
    $title = preg_replace("#<b>.*?</b>#","",str_replace);
    А здесь уберётся мусор между <b> и </b>

    Короче возможность есть.
     
  10. TopicStarter Overlay
    Яло

    Яло Новичок

    Регистрация:
    13 авг 2017
    Сообщения:
    27
    Лучших ответов:
    0
    Рейтинги:
    +1 / 0 / -0
    Это я понимаю. Просто дело в том, что парсер берет кроме статьи рандомный символьный контент, кроме мусора берет еще куски комментариев, какие-то подзаголовки, html код и т.д - мне кажется просто нереально создать какие-то определенные правила, потому что - что конкретно чистить я не знаю.
     
  11. TopicStarter Overlay
    Яло

    Яло Новичок

    Регистрация:
    13 авг 2017
    Сообщения:
    27
    Лучших ответов:
    0
    Рейтинги:
    +1 / 0 / -0
    Я пользуюсь Content Downoader'ом, и все отлично получается, нахожу сайт, задаю границы и он сам парсит - но это все время. Поэтому и хочу, чтобы кто-то другой этим занимался за деньги.
     
  12. igrovik

    igrovik Местный

    Регистрация:
    11 дек 2016
    Сообщения:
    1.007
    Лучших ответов:
    8
    Рейтинги:
    +355 / 12 / -0
    Скиньте в лс, пример такого файле где есть мусор, гляну своим глазом и тогда точно скажу реально или нет.
     
  13. TopicStarter Overlay
    Яло

    Яло Новичок

    Регистрация:
    13 авг 2017
    Сообщения:
    27
    Лучших ответов:
    0
    Рейтинги:
    +1 / 0 / -0
    Хорошо, позже скину в лс несколько статей для примера. Не дома сейчас.
     
  14. igrovik

    igrovik Местный

    Регистрация:
    11 дек 2016
    Сообщения:
    1.007
    Лучших ответов:
    8
    Рейтинги:
    +355 / 12 / -0
    ок
     
  15. LisER07

    VIP Кинотрафик v2 Кодер

    Регистрация:
    4 окт 2015
    Сообщения:
    630
    Лучших ответов:
    2
    Рейтинги:
    +116 / 3 / -0
    Яло под словом мусор что имеете в виду ? html, css, js код ? или что ?
     
  16. igrovik

    igrovik Местный

    Регистрация:
    11 дек 2016
    Сообщения:
    1.007
    Лучших ответов:
    8
    Рейтинги:
    +355 / 12 / -0
    Кстати данный человек LisER07 может толково это всё исполнить.
     
  17. TopicStarter Overlay
    Яло

    Яло Новичок

    Регистрация:
    13 авг 2017
    Сообщения:
    27
    Лучших ответов:
    0
    Рейтинги:
    +1 / 0 / -0
    Нашла исполнителя (тест).

    Написание скриптов не интересует (можно все делать и без них - я же как-то делаю с помощью CD)

    Под мусором я понимаю:
    - наличие стороннего html кода, не относящегося к статье;
    - наличие посторонних символов;
    - посторонний текст, который захватывает парсер со страницы (например - заголовки разделов из меня, текст из рекламных блоков, комментарии, и другой текст со страницы, не относящийся к статье).
     
Яндекс.Метрика