8 способов найти удаленный сайт или страницу

С достаточной периодичностью встречаются отзывы пользователей Google Chrome, в которых они просят внедрить возможность просматривать сайты и без соединения с интернетом. Не надо представлять футуристические картинки, да и телепатия тут ни при чем. Все банально: речь идет об использовании кэша браузера.

Если загрузить страницу в браузере, то локально в кэше сохраняются данные, которые вполне можно использовать для восстановления сайта и в условиях отсутствия сети. Разумеется, речь идет лишь о частичном восстановлении внешнего вида страницы. Но для доступа к картинкам и тексту более чем достаточно. На данный момент Google Chrome не умеет такого. Однако уже в будущем все может измениться…

Встречаем эксперимент «Enable Offline Cache Mode«, позволяющий включить данный функционал в текущих версиях Google Chrome Canary и Chromium.

Включать/выключать эксперименты можно на странице chrome:flags.

Как вам эксперимент? Полезно? Ждете внедрение?

Возможно, сайт был подвергнут блокировке из-за нарушения закона, а может этот сайт просто пока что не отвечает на запрос. Как бы ни была причина, иногда вам нужно взять какую информацию с сайта, который совсем недавно перестал работать или был взломан и лишился всего контента. В большинстве случаев удача может повернуться к вам лицом. Вы можете просмотреть кэшированную версию этого сайта в Google?

Кэшированные сайты: что это?

Для того чтобы быстро отыскать все эти сайты, Google и другие поисковые системы сохраняют внутреннюю копии этих сайтов на серверах. Эти сохраненные файлы и называются кэшем, и Google позволяет их просматривать, если такая копия существует. Раньше этот процесс был очень понятен – вам просто нужно было нажать ссылку, представленную под результатом, выданном в поиске. Сейчас все немного сложнее, но вам не стоит беспокоиться, так как кэшированные сайты по-прежнему существуют.

Смотрим кэш сайта в Гугл:

1. Попробуйте найти что-нибудь. В данном случае, мы будем искать по ключу «кеширование», и предположим, что в коем-то веке Wikipedia ушла в даун .

2. Наведите курсор мыши на результат поиска, но не кликайте.
3. Вы увидите, что рядом справа от результата появится стрелка вправо. Кликните по этой стрелке.
4. Теперь вы можете видеть миниатюру сайта. Вы также увидите ссылку Cached сверху от миниатюры. Можете кликать по этой ссылке.

Таким образом, вы будете перенаправлены к кэшированной версии сайта. И эта версия не обязательно будет содержать актуальные данные. Это просто копия сайта в том состоянии, в котором бот Google последний раз его сканировал, и на самом деле эта страница хранится на сервере Google, и поэтому ссылка будет начинаться с webcache.googleusercontent.com, а не с Wikipedia.org. Google также расскажет вам о том, насколько свежая эта копия.

Иногда бывает так, что на страницах отсутствуют изображения или фоны. Вы можете кликнуть по ссылке в верхней части страницы и увидеть текстовую версию сайта, который вы на данный момент читаете.

Иногда это помогает найти необходимую вам информацию. Вы также можете кликнуть по ссылке, которая приведет вас к актуальной странице, если вам вдруг нужно будет сравнить две эти версии.

Если вам нужно найти определенный термин, вы можете воспользоваться сочетанием клавиш Ctrl+F, и просто отыскать его при помощи вашего браузера.

Сайты, которые не кэшируются

У большинства сайтов есть кэшированные копии, но бывают и исключения.

Владельцы сайтов могут использовать файл robots.txt для того, чтобы попросить поисковую систему не индексировать сайт, либо удалять кэш. Иногда такое бывает, когда владелец хочет полностью удалить сайт, и не хочет, чтобы где-то появлялся его контент. Ведь существует довольно много сайтов с «черным» контентом или контентом, который не обязательно должен индексироваться (приватные форумы, информация о кредитных картах или сайты с платным доступом к контенту).

Вы можете проследить за тем, как изменялся сайт, воспользовавшись инструментом от Google под названием WebArchive, но функционал этого инструмента также может быть запрещен файлом robots.txt.

Алексей Повловский

11
Дек

Инструкция работает только в том случае, если apache обрабатывает статические файлы (установлен как фронтэнд). Если перед ним стоит nginx — те же действия нужно выполнять совсем по другому.

Вот так

Сначала пара слов на тему — зачем вообще нужно кеширование ресурсов сайта (изображений, css, html-файлов, архивов и прочих статических файлов).

Каждый раз как посетитель открывает Ваш сайт — скачивается не только html-код страницы, но и все сопутствующие ему файлы, которые нужны для оформления страницы (картинки, css-стили, js-скрипты и так далее).
Как результат, одно открытие страницы файла — это не один запрос к серверу, а от десяти до сотни!

Каждый такой запрос — это не только нагрузка на сервер (что важно), но и дополнительное время на загрузку страницы у пользователя (что важно как показатель качества сайта и удобства работы с ним пользователя).

К примеру, популярный сервис проверки сайтов от Google PageSpeed Insights по этому поводу всегда пишет предупреждение:

Используйте кеш браузера
Если указывать в заголовках HTTP дату или срок действия статических ресурсов, браузер будет загружать уже полученные ранее ресурсы с локального диска, а не из Интернета.
Используйте кеш браузера для следующих ресурсов:

//— список проблемных файлов —//

Включение кеширования не только уменьшает нагрузку на сервер (почти на всех страницах сайта есть повторяющиеся элементы оформления, java-скрипты и пр.) при повторном посещении сайта/страницы пользователем, но и уменьшает время загрузки страницы на его стороне. Так как браузер берёт файлы из кэша почти молниеносно и у пользователя складывается ощущение что страница загрузилась практически молниеносно!

Для решения поставленной задачи — создайте в папке сайта файл с именем .htaccess (именно с точкой в начале. Это важно!) и добавьте в него вот эти правила. Если файл уже есть — добавьте в конец существующего:

# кеширование в браузере на стороне пользователя <IfModule mod_expires.c> ExpiresActive On ExpiresDefault «access 7 days» ExpiresByType application/javascript «access plus 1 year» ExpiresByType text/javascript «access plus 1 year» ExpiresByType text/css «access plus 1 year» ExpiresByType text/html «access plus 7 day» ExpiresByType text/x-javascript «access 1 year» ExpiresByType image/gif «access plus 1 year» ExpiresByType image/jpeg «access plus 1 year» ExpiresByType image/png «access plus 1 year» ExpiresByType image/jpg «access plus 1 year» ExpiresByType image/x-icon «access 1 year» ExpiresByType application/x-shockwave-flash «access 1 year» </IfModule> # Cache-Control <ifModule mod_headers.c> # 30 дней <filesMatch «\.(ico|pdf|flv|jpg|jpeg|png|gif|swf)$»> Header set Cache-Control «max-age=2592000, public» </filesMatch> # 30 дней <filesMatch «\.(css|js)$»> Header set Cache-Control «max-age=2592000, public» </filesMatch> # 2 дня <filesMatch «\.(xml|txt)$»> Header set Cache-Control «max-age=172800, public, must-revalidate» </filesMatch> # 1 день <filesMatch «\.(html|htm|php)$»> Header set Cache-Control «max-age=172800, private, must-revalidate» </filesMatch> </ifModule> #Запрет отдачи HTTP-заголовков Vary браузерам семейства MSIE <IfModule mod_setenvif.c> BrowserMatch «MSIE» force-no-vary BrowserMatch «Mozilla/4.[0-9]{2}» force-no-vary </IfModule>

После этого проверить результат можно на странице Google PageSpeed Insights  (если всё правильно — сообщение «Используйте кеш браузера» будет помечено зелёным и размещено в секции «Выполнено правил: (подробнее)»)

Не работает, что делать?

Если кеширование не работает, то нужно проверить, установлены ли модули.

Для этого нужно создать в папке сайта файл test.php c кодом:

<?php phpinfo(); ?>

И открыв его в браузере по ссылке вида http://адрес_сайта/phpinfo.php посмотреть что есть в поле «Loaded Modules«. тем должно быть что-то вроде:

Если в списке нет mod_expires или mod_headers  — выполните в консоли сервера (подключившись по ssh) по очереди следующие команды (это установит/включит mod_expires, mod_headers):

a2enmod headers a2enmod expires service apache2 restart

Если же сайт на обычном хостинге — тут всё сложнее. Обращайтесь в техподдержку и уточняйте — почему не установлены модули и как можно обойти эту неурядицу. Так как причин по которой хостер не поставил модули — может быть достаточно много.

Добавить комментарий

Закрыть меню