Скрыть объявление
ВАШИ ПРАВА ОГРАНИЧЕНЫ!

Зарегистрируйтесь на форуме, чтобы стать полноценным участником сообщества!

Кто умеет парсить статьи? есть работа!

Тема в разделе "Прочие услуги", создана пользователем Яло, 16 фев 2018.

16.02.18 в 16:01
17.02.18 в 17:32
16
1.088
0
  1. TopicStarter Overlay
    Яло

    Яло Новичок

    Сообщения:
    27
    Симпатии:
    1
    Лучших ответов:
    0
    Приветствую, форумчане! Нужно спарсить очень много контента (статьи) на определенную тематику.

    Суть вопроса такая:
    1. Называю тематику
    2. Статьи могут быть как с одного сайта, так и с разных (их нужно будет большое количество, для начала 100мб)
    3. Статьи должны быть полноценными (с подзаголовками h2/h3 и т.д), но без h1. Длинна статей должна быть от 3к.
    4. Все подзаголовки должны быть обрамлены в соответствующие теги <h2/3/4>, все абзацы <p>, перечисление <ul/li> и т.д
    5. Каждая статья должна быть в отдельном txt файле.
    6. По цене не определилась. Предлагайте ту сумму, за которую готовы взяться за работу. Цена должна быть эквивалентна 100мб, чтобы в будущем (если сработаемся) я делала заказы на определенное количество мб исходя из цены за 100.

    Что не подходит:
    1. Контент из книг (нужны только спаршенные с других сайтов статьи)
    2. Дубли статей
    3. Мусорный контент (наличие посторонних символов и постороннего html кода)
    4. Контент должен быть строго тематическим!

    Это основное. По нюансам определимся в ходе работы. Так же можно обсудить ваши варианты парсинга статей.
     
    Последнее редактирование: 16 фев 2018
  2. LisER07

    LisER07 VIP Кинотрафик v2 Кодер

    Сообщения:
    630
    Симпатии:
    99
    Лучших ответов:
    2
    можно сайт в лс ?
     
  3. Rik

    Rik Команда форума VIP Кинотрафик v2

    Сообщения:
    720
    Симпатии:
    313
    Лучших ответов:
    0
    Ты не понял. Сайты ты ищешь сам.
     
  4. TopicStarter Overlay
    Яло

    Яло Новичок

    Сообщения:
    27
    Симпатии:
    1
    Лучших ответов:
    0
    А что там искать? Называю тему - формулируешь тематический запрос, если сайт узкотематический, то можно спарсить все статьи от туда , либо же все статьи из раздела. Я же не знаю каким парсером пользуетесь - CD, a-parser, x-parser или самопис. Может вы сумеете по ключам напарсить статей.
     
  5. uskino

    uskino PRO Users

    Сообщения:
    762
    Симпатии:
    105
    Лучших ответов:
    1
    даже не представляю откуда по любой более менее узкой тематике можно статей спарсить на 100мб, еще на постоянной основе. Это же примерно 5000 статей по 10к объемом.o_O
     
  6. TopicStarter Overlay
    Яло

    Яло Новичок

    Сообщения:
    27
    Симпатии:
    1
    Лучших ответов:
    0
    Я паршу CD, но эту тему создала, чтобы делегировать своё время, которое я трачу на парсинг, и за это я готова платить. Вот например x-parser умеет парсить статьи по ключам , он может и несколько гиг по одному запросу напарсить, не то что 100 метров, но проблема в том, что он вместе со статьями парсит много мусора, поэтому не подходит.

    Тематика, которая мне нужна очень широкая.
     
  7. igrovik

    igrovik Местный

    Сообщения:
    1.005
    Симпатии:
    292
    Лучших ответов:
    8
    А повторно прогнать через скрипт который очистит мусор?? Думаю для кодеров не составит труда, исполнить такой скриптик:)
     
    Последнее редактирование: 16 фев 2018
  8. TopicStarter Overlay
    Яло

    Яло Новичок

    Сообщения:
    27
    Симпатии:
    1
    Лучших ответов:
    0
    Ну вот допустим я напарсила 10к статей и каждая в отдельном файле. Вот как в каждом из них убрать мусор. тем более, как скрипт поймет, что убирать, а что нет.
     
  9. igrovik

    igrovik Местный

    Сообщения:
    1.005
    Симпатии:
    292
    Лучших ответов:
    8
    Ну к примеру если известны значения которые должны быть в статье и их нужно убрать, то в помощь str_replace или preg_replace. Файлы если находятся в папке , то можно думаю проверять папку и брать txt файлы поочерёдно, и далее сохранять их в новую папку. Во избежание дублей можно сделать проверку по названиям файлов. Ну говорю если объяснить кодеру чего нужно добиться, то вполне вероятно сделать такой скриптик.


    p/S к примеру $title = "заголовок 1 5652"; $title = str_replace("5652","",str_replace); Уберёт данные цифры 5652.

    $title = "Заголовок <br> 7898567</b>";
    $title = preg_replace("#<b>.*?</b>#","",str_replace);
    А здесь уберётся мусор между <b> и </b>

    Короче возможность есть.
     
  10. TopicStarter Overlay
    Яло

    Яло Новичок

    Сообщения:
    27
    Симпатии:
    1
    Лучших ответов:
    0
    Это я понимаю. Просто дело в том, что парсер берет кроме статьи рандомный символьный контент, кроме мусора берет еще куски комментариев, какие-то подзаголовки, html код и т.д - мне кажется просто нереально создать какие-то определенные правила, потому что - что конкретно чистить я не знаю.
     
  11. TopicStarter Overlay
    Яло

    Яло Новичок

    Сообщения:
    27
    Симпатии:
    1
    Лучших ответов:
    0
    Я пользуюсь Content Downoader'ом, и все отлично получается, нахожу сайт, задаю границы и он сам парсит - но это все время. Поэтому и хочу, чтобы кто-то другой этим занимался за деньги.
     
  12. igrovik

    igrovik Местный

    Сообщения:
    1.005
    Симпатии:
    292
    Лучших ответов:
    8
    Скиньте в лс, пример такого файле где есть мусор, гляну своим глазом и тогда точно скажу реально или нет.
     
  13. TopicStarter Overlay
    Яло

    Яло Новичок

    Сообщения:
    27
    Симпатии:
    1
    Лучших ответов:
    0
    Хорошо, позже скину в лс несколько статей для примера. Не дома сейчас.
     
  14. igrovik

    igrovik Местный

    Сообщения:
    1.005
    Симпатии:
    292
    Лучших ответов:
    8
    ок
     
  15. LisER07

    LisER07 VIP Кинотрафик v2 Кодер

    Сообщения:
    630
    Симпатии:
    99
    Лучших ответов:
    2
    Яло под словом мусор что имеете в виду ? html, css, js код ? или что ?
     
  16. igrovik

    igrovik Местный

    Сообщения:
    1.005
    Симпатии:
    292
    Лучших ответов:
    8
    Кстати данный человек LisER07 может толково это всё исполнить.
     
  17. TopicStarter Overlay
    Яло

    Яло Новичок

    Сообщения:
    27
    Симпатии:
    1
    Лучших ответов:
    0
    Нашла исполнителя (тест).

    Написание скриптов не интересует (можно все делать и без них - я же как-то делаю с помощью CD)

    Под мусором я понимаю:
    - наличие стороннего html кода, не относящегося к статье;
    - наличие посторонних символов;
    - посторонний текст, который захватывает парсер со страницы (например - заголовки разделов из меня, текст из рекламных блоков, комментарии, и другой текст со страницы, не относящийся к статье).