Список всех существующих айдишников фильмов и сериалов КиноПоиска На данный момент 898,384 записи Данные в формате txt (id) и csv (id, url) Пригодится, например, если захотите спарсить все фильмы, добавить валидацию, проверить базу на ошибки и тд. В репозитории по ссылке есть также исходный код программы - github.com/dimskor/kpiddump/releases Список только айдишников: kp_id.txt Список айдишников и ссылок: kp_id_url.csv
Что то нет ни одной ссылки /series/, только фильмы чтоли в списке без единого сериала? К примеру, рассказ служанки _www_kinopoisk_ru/series/1007426/
/series/ меняется уже на бэкенде, через редирект, после перехода по основной ссылке. Даже внутри самого кинопоиска все ссылки на сериалы указаны через /film/ Возможно, когда-нибудь, кинопоиск будет явно разделять ссылки на фильмы/серии, потому что раньше не было этого редиректа
Всё это хорошо, но нужна более подробная инструкция как этим пользоваться. Как эти данные добавить на сайт?
это просто ссылки... В таком виде как есть. никак. писать парсер и по этим ссылкам парсить. потом импортировать в дле. только так
Как бы всё намного проще... kinopoisk.ru/sitemaps/sitemap.xml видим такую конструкцию <loc>kinopoisk.ru/sitemaps/sitemap_film1.xml.gz</loc> <loc>kinopoisk.ru/sitemaps/sitemap_film10.xml.gz</loc> <loc>kinopoisk.ru/sitemaps/sitemap_film17.xml.gz</loc> <lastmod>2021-06-16</lastmod> </sitemap> качаем файлы. распаковываем. заливаем к себе на хост потом идем в любой сервис парсинга sitemap как вариант tools.seo-zona.ru/sitemaps.html и со своего хоста кидаем ссылки на сайтмапы. и вот вам все эти ссылки... зачем че парсить где то и тд. когда всё вот оно. доступно P.S. если нужно просто список с айди кп то из полученных списков в notepad ++ делаем массово заменить Code: https://www.kinopoisk.ru/film/ на ничего и еше раз заменить / на ниче. в итоге останутся только цифры кп айди
Так чтобы не тратить время, не копировать все руками, распаковывать, загружать, вставлять-заменять на сайтах - и есть парсер и этот файл, который облегчает всю работу. Запустил программу и через 5-10 секунд файл готов. Дальше уже в своей программе можно использовать (парсить кинопоиск, валидировать айдишники фильмов в формах, искать ошибки в базе и тд.) Если нужны только айдишники, то можно просто открыть .csv файл в экселе/гугл таблице и скопировать весь столбец Файл в первую очередь предназначен для использования в каких-то своих программах. А практически в любом языке программирования есть работа с csv буквально в пару строчек кода. И будет проще взять готовый файл, чем возиться с эитм вручную
не совсем понял о какой программе речь ? в старт посте список с урл я привел пример как получать актуальные свежие данные.
ZerocooL в первом посте есть ссылка на репозиторий с программой wawe в айдишниках эта информация не хранится, поэтому для этого нужно парсить конкретно инфу по фильму. А это уже совсем другая история Сделал проверку айдишников по балансерам, к которым есть доступ. Вот результаты со списком несуществующих айдишников: alloha - 13 ошибок Code: alloha;10457140 alloha;1106570 alloha;1200302 alloha;1236462 alloha;1263325 alloha;1302464 alloha;1330912 alloha;1347266 alloha;1375745 alloha;4715652 alloha;5697728 alloha;927824 alloha;95252 bazon - 7 ошибок Code: bazon;1200302 bazon;1202115 bazon;1259454 bazon;1289701 bazon;1297218 bazon;1309384 bazon;1330912 collaps - 7 ошибок Code: collaps;1106570 collaps;1169320 collaps;1236462 collaps;1381262 collaps;1408135 collaps;34563454 collaps;869542 videocdn - 34 ошибки Code: videocdn;1001614 videocdn;1045327 videocdn;1058956 videocdn;1106570 videocdn;1141344 videocdn;1163414 videocdn;1169320 videocdn;1198009 videocdn;1200302 videocdn;1200407 videocdn;1207677 videocdn;1213286 videocdn;1236462 videocdn;1246401 videocdn;1289701 videocdn;1291998 videocdn;1297347 videocdn;1302464 videocdn;1302591 videocdn;1304540 videocdn;1330912 videocdn;1347266 videocdn;1366227 videocdn;1409709 videocdn;182487 videocdn;1907226 videocdn;2188362 videocdn;3514874 videocdn;4606210 videocdn;840352 videocdn;869542 videocdn;927824 videocdn;959566 videocdn;991610
Есть модуль граббера базы videocdn, у них самая большая база на данный момент и по нему можно грабить.