Как отследить новые web страницы на сайте?

интернет программирование сайт

Пишется программа, которая считывает для обработки страницы с заданного сайта.
На некоторых сайтах количество страниц может доходить до десятков тысяч.
Сейчас часто делают динамически формируемые страницы, потому дату создания страницы невозможно определить.
Есть ли какие способы нахождения новых страниц, начиная с определенной даты?
Был вариант - вначале скачать все страницы с сайта, запомнив ссылки, а потом уже качать новые. Но для сайта со 100 тыс. страниц начальный этап затянется на очень долго.
Есть какие-нибудь идеи?
Ответы:
Это вы откуда хотите контент воровать?
Задача, как я понимаю, в создании граббера? Поскольку все нормальные сайты делаются на cms и инфа хранится в БД, на сайте, в принципе, нет никаких страниц, они формируются "на лету". Соответственно идея проверки даты создания обречена на провал.
Есть 2 варианта:
1. Кэшировать страницы
Потребует много места на хранение. Актуально для изменяющегося содержимого по одному URL.
2. Если информация для каждого URL не меняется - хранить только URL парсеных страниц.


13 лет назад

RPI.su - самая большая русскоязычная база вопросов и ответов. Наш проект был реализован как продолжение популярного сервиса otvety.google.ru, который был закрыт и удален 30 апреля 2015 года. Мы решили воскресить полезный сервис Ответы Гугл, чтобы любой человек смог публично узнать ответ на свой вопрос у интернет сообщества.

Все вопросы, добавленные на сайт ответов Google, мы скопировали и сохранили здесь. Имена старых пользователей также отображены в том виде, в котором они существовали ранее. Только нужно заново пройти регистрацию, чтобы иметь возможность задавать вопросы, или отвечать другим.

Чтобы связаться с нами по любому вопросу О САЙТЕ (реклама, сотрудничество, отзыв о сервисе), пишите на почту [email protected]. Только все общие вопросы размещайте на сайте, на них ответ по почте не предоставляется.