Присматривайтесь к числам
Для парсинга важно одно простое умение: приглядываться к ссылкам страничек, на которых вы находитесь. Вот пример: https://vk.com/id1
.Это ссылка на страницу Павла Дурова во Вконтакте. Сразу в глаза бросается число 1
. А что, если заменить на 2
? Проверьте сами: vk.com/id2. Вы окажетесь на главной сайта. Но не стоит сдаваться: id5 существует.
Получается, вы только что узнали, как перебрать всех пользователей во Вконтакте: достаточно прибавлять по единице к id
и рано или поздно вы найдёте все страницы.
Для ВКонтакте это довольно бесполезное знание, но оно полезно для других сайтов, где вы хотите скачать всё подряд. Например, для выкачки сайтов с книгами или фильмами, сайтов со статьями, с картинками и так далее.
Можно формировать ссылки, которых быть не должно
Разовьём пример: ссылка на переписку с Павлом Дуровым: https://vk.com/im?sel=1
. В ссылке присутствует знакомая единица. А что, если заменить на 5
? Оказывается, новая ссылка ведёт на переписку с человеком, у которого id = 5.
Таким образом, можно “угадывать” ссылки. Например, если на сайте с фильмами можно скачивать какой-то фильм с id=583
, а у фильма с id=9842
кнопки “Скачать” почему-то нет, вы всё равно можете взять ссылку на скачивание первого и попробовать подставить туда id=9842
. Вдруг, получится?