Присматривайтесь к числам

Для парсинга важно одно простое умение: приглядываться к ссылкам страничек, на которых вы находитесь. Вот пример: https://vk.com/id1.Это ссылка на страницу Павла Дурова во Вконтакте. Сразу в глаза бросается число 1. А что, если заменить на 2? Проверьте сами: vk.com/id2. Вы окажетесь на главной сайта. Но не стоит сдаваться: id5 существует.

Получается, вы только что узнали, как перебрать всех пользователей во Вконтакте: достаточно прибавлять по единице к id и рано или поздно вы найдёте все страницы.

Для ВКонтакте это довольно бесполезное знание, но оно полезно для других сайтов, где вы хотите скачать всё подряд. Например, для выкачки сайтов с книгами или фильмами, сайтов со статьями, с картинками и так далее.

Можно формировать ссылки, которых быть не должно

Разовьём пример: ссылка на переписку с Павлом Дуровым: https://vk.com/im?sel=1. В ссылке присутствует знакомая единица. А что, если заменить на 5? Оказывается, новая ссылка ведёт на переписку с человеком, у которого id = 5.

Таким образом, можно “угадывать” ссылки. Например, если на сайте с фильмами можно скачивать какой-то фильм с id=583, а у фильма с id=9842 кнопки “Скачать” почему-то нет, вы всё равно можете взять ссылку на скачивание первого и попробовать подставить туда id=9842. Вдруг, получится?


Попробуйте бесплатные уроки по Python

Получите крутое код-ревью от практикующих программистов с разбором ошибок и рекомендациями, на что обратить внимание — бесплатно.

Переходите на страницу учебных модулей «Девмана» и выбирайте тему.