Jump to content

Видеоинструкция - Как восстанавливать сайты из веб архива?


Recommended Posts

Видеогайд о том, как восстанавливать сайты из archive.org.
Введение:


Как работает вебархив и как находить там то, что вам нужно. Обзор инструментов, которые предлагает вебархив:

https://youtu.be/pCutR4Bpz5g
Как подготовить сайт к восстановлению. Как открыть сайт для индексации, если раньше он был закрыт robots.txt:

https://youtu.be/meiDQVqFNV4
Как правильно выбрать дату восстановления в веб архиве. Дата, показанная на сайте archive.org совсем не значит что весь сайт был закеширован в это время:

https://youtu.be/pJfUe3DLPx8

Link to post
Share on other sites
  • 7 months later...

Недавно мы обновили нашу систему и теперь у нас появились две новых опции.
Теперь с помощью системы скачивания существующих сайтов можно скачать даркнетовские .onion сайты. Просто введите адрес .onion сайта в поле "домен" https://ru.archivarix.com/website-downloader-cms-converter/ и сайт будет качаться из сети Tor так же как и обычный.
А ещё Archivarix может не только скачивать существующие сайты  или восстанавливать их из Веб Архива, но и вытаскивать из них контент. Для этого тут https://ru.archivarix.com/restore/ в "продвинутых параметрах" надо выбрать "Извлечь структурированный контент".
После завершения скачивания сайта вместе с полным архивом всего сайта формируется архив статей в формате xml, csv, wxr и json.
При формировании архива статей наш парсер учитывает только значащий контент исключая дубли статей, управляющие элементы и служебные страницы.

 

Link to post
Share on other sites
  • VIP

В вебархиве часто битые страницы, отсутствуют картинки, разные версии сайта и т.д. Лучше восстанавливать полные версии дроп-сайтов через сервис mydrop. Тут немного про этот сервис есть - https://sitedrop.ru/

Link to post
Share on other sites
15 минут назад, vituson сказал:

В вебархиве часто битые страницы, отсутствуют картинки, разные версии сайта и т.д. Лучше восстанавливать полные версии дроп-сайтов через сервис mydrop. Тут немного про этот сервис есть - https://sitedrop.ru/

Сомневаюсь, что сервисы качественно восстановят. Достаточно знать немного примеров комбинации find и sed, чтоб почистить самостоятельно.

Примеры:

1. Убираем различные блоки, в том числе счётчики и прочий мусор:

find site.ru/ -type f -name '*.html' -exec sed -i '/<p align="left">/,/<\/p>/d' {} \;

2. Убираем битую ссылку:

find site.ru/ -type f -iname '*.html' -exec sed -i 's|<img height=1 width=1 border=0 src="http\:\/\/www.googleadservices.com\/pagead\/conversion\/1058209190\/imp.gif\?value=1&label=pageview&script=0">||g' {} \;

3. Считаем сколько однотипных файлов в каталоге:

find . -type f -name "*.html" | wc -l

4. Если нужно добавить текст в конец каждой строки:

sed 's/^/echo "test"  | mail -s "test"/' file

5. Если нужно перекодировать из CP1251 в UTF8:

ПЕРЕКОДИРОВАТЬ РЕКУРСИВНО ИЗ CP1251 В UTF8
find . -name '*.*' -exec enconv -L russian -x UTF-8 {} \;
for FILE in $(find gsbeton.ru -name '*.html'); do mv $FILE{,.orig} && iconv -c -t UTF8 $FILE.orig -o $FILE; done
удаление файлов *.orig:
for FILE in $(find forexmoscow.ru -name '*.orig'); do rm $FILE; done
Игнорировать непонятные символы:
iconv -c

6. Если нужно добавить текст в конец каждого файла:

for FILE in $(find site.ru -name '*.html\?.*'); do echo "</tr></table></body></html>">> $FILE; done

Спиcки битых и внешних ссылок выгружает  программа Screaming Frog SEO Spider. Если на сайте тысячи битых ссылок, можно автозаменой в блокноте типа notepad++ подставить вышеуказанные команды и получиться список команд на удаление всех ненужных ссылок. Я так одному клиенту целых пол года делал сетку сателлитов из Вебархива. А для массовых замен по всем файлам отлично подходят Notepad++, Doublecmd и CodeLobsterIDE !

Edited by softuser
Добавил примеры
Link to post
Share on other sites
  • VIP
9 минут назад, softuser сказал:

Сомневаюсь, что сервисы качественно восстановят.

У них своя база, не из веб архива. Как я понимаю, они выкачивают существующие сайты целиком, когда у них (у доменов) подходит срок завершения регистрации.

Link to post
Share on other sites
  • 6 months later...

Тема с восстановлением довольно актуальная. Недавно столкнулся, нужно было найти инструмент для восстановления. На текущий момент считаю лучшими платными сервисами архивар Archivarix.com и mydrop.io.
Если самому то https://github.com/hartator/wayback-machine-downloader

Кому интересно свёл плюсы/минусы в статье https://thisis-blog.ru/chem-vosstanavlivat-sajty-iz-veb-arxiva/

Link to post
Share on other sites

Please sign in to comment

You will be able to leave a comment after signing in



Sign In Now
  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...