archivarix 1 Posted February 18, 2019 Report Share Posted February 18, 2019 Видеогайд о том, как восстанавливать сайты из archive.org. Введение: Как работает вебархив и как находить там то, что вам нужно. Обзор инструментов, которые предлагает вебархив: https://youtu.be/pCutR4Bpz5g Как подготовить сайт к восстановлению. Как открыть сайт для индексации, если раньше он был закрыт robots.txt: https://youtu.be/meiDQVqFNV4 Как правильно выбрать дату восстановления в веб архиве. Дата, показанная на сайте archive.org совсем не значит что весь сайт был закеширован в это время: https://youtu.be/pJfUe3DLPx8 Riminy 1 Link to post Share on other sites
VIP mrak7575 349 Posted February 18, 2019 VIP Report Share Posted February 18, 2019 вот что я искал )) спасибо /надеюсь годный контент , посмотрю как будет время Link to post Share on other sites
archivarix 1 Posted October 2, 2019 Author Report Share Posted October 2, 2019 Недавно мы обновили нашу систему и теперь у нас появились две новых опции. Теперь с помощью системы скачивания существующих сайтов можно скачать даркнетовские .onion сайты. Просто введите адрес .onion сайта в поле "домен" https://ru.archivarix.com/website-downloader-cms-converter/ и сайт будет качаться из сети Tor так же как и обычный. А ещё Archivarix может не только скачивать существующие сайты или восстанавливать их из Веб Архива, но и вытаскивать из них контент. Для этого тут https://ru.archivarix.com/restore/ в "продвинутых параметрах" надо выбрать "Извлечь структурированный контент". После завершения скачивания сайта вместе с полным архивом всего сайта формируется архив статей в формате xml, csv, wxr и json. При формировании архива статей наш парсер учитывает только значащий контент исключая дубли статей, управляющие элементы и служебные страницы. Link to post Share on other sites
Riminy 202 Posted October 2, 2019 Report Share Posted October 2, 2019 О CMS Archivarix тут! Годная штука, много сайтов восстановил с помощью него! Link to post Share on other sites
softuser 2 Posted October 2, 2019 Report Share Posted October 2, 2019 Я пользуюсь для этой задачи двумя программами: https://github.com/hartator/wayback-machine-downloader и https://www.webarchiverecover.com/ У обоих свои плюсы и минусы. Link to post Share on other sites
softuser 2 Posted October 2, 2019 Report Share Posted October 2, 2019 Инструкция по wayback machine downloader на русском: http://libreportal.net/sitemanagement/wayback_machine_downloader.html Link to post Share on other sites
VIP vituson 675 Posted October 2, 2019 VIP Report Share Posted October 2, 2019 В вебархиве часто битые страницы, отсутствуют картинки, разные версии сайта и т.д. Лучше восстанавливать полные версии дроп-сайтов через сервис mydrop. Тут немного про этот сервис есть - https://sitedrop.ru/ Link to post Share on other sites
softuser 2 Posted October 2, 2019 Report Share Posted October 2, 2019 (edited) 15 минут назад, vituson сказал: В вебархиве часто битые страницы, отсутствуют картинки, разные версии сайта и т.д. Лучше восстанавливать полные версии дроп-сайтов через сервис mydrop. Тут немного про этот сервис есть - https://sitedrop.ru/ Сомневаюсь, что сервисы качественно восстановят. Достаточно знать немного примеров комбинации find и sed, чтоб почистить самостоятельно. Примеры: 1. Убираем различные блоки, в том числе счётчики и прочий мусор: find site.ru/ -type f -name '*.html' -exec sed -i '/<p align="left">/,/<\/p>/d' {} \; 2. Убираем битую ссылку: find site.ru/ -type f -iname '*.html' -exec sed -i 's|<img height=1 width=1 border=0 src="http\:\/\/www.googleadservices.com\/pagead\/conversion\/1058209190\/imp.gif\?value=1&label=pageview&script=0">||g' {} \; 3. Считаем сколько однотипных файлов в каталоге: find . -type f -name "*.html" | wc -l 4. Если нужно добавить текст в конец каждой строки: sed 's/^/echo "test" | mail -s "test"/' file 5. Если нужно перекодировать из CP1251 в UTF8: ПЕРЕКОДИРОВАТЬ РЕКУРСИВНО ИЗ CP1251 В UTF8 find . -name '*.*' -exec enconv -L russian -x UTF-8 {} \; for FILE in $(find gsbeton.ru -name '*.html'); do mv $FILE{,.orig} && iconv -c -t UTF8 $FILE.orig -o $FILE; done удаление файлов *.orig: for FILE in $(find forexmoscow.ru -name '*.orig'); do rm $FILE; done Игнорировать непонятные символы: iconv -c 6. Если нужно добавить текст в конец каждого файла: for FILE in $(find site.ru -name '*.html\?.*'); do echo "</tr></table></body></html>">> $FILE; done Спиcки битых и внешних ссылок выгружает программа Screaming Frog SEO Spider. Если на сайте тысячи битых ссылок, можно автозаменой в блокноте типа notepad++ подставить вышеуказанные команды и получиться список команд на удаление всех ненужных ссылок. Я так одному клиенту целых пол года делал сетку сателлитов из Вебархива. А для массовых замен по всем файлам отлично подходят Notepad++, Doublecmd и CodeLobsterIDE ! Edited October 2, 2019 by softuser Добавил примеры Link to post Share on other sites
VIP vituson 675 Posted October 2, 2019 VIP Report Share Posted October 2, 2019 9 минут назад, softuser сказал: Сомневаюсь, что сервисы качественно восстановят. У них своя база, не из веб архива. Как я понимаю, они выкачивают существующие сайты целиком, когда у них (у доменов) подходит срок завершения регистрации. Link to post Share on other sites
shapito27 0 Posted April 17, 2020 Report Share Posted April 17, 2020 Тема с восстановлением довольно актуальная. Недавно столкнулся, нужно было найти инструмент для восстановления. На текущий момент считаю лучшими платными сервисами архивар Archivarix.com и mydrop.io. Если самому то https://github.com/hartator/wayback-machine-downloader Кому интересно свёл плюсы/минусы в статье https://thisis-blog.ru/chem-vosstanavlivat-sajty-iz-veb-arxiva/ Link to post Share on other sites
Recommended Posts
Please sign in to comment
You will be able to leave a comment after signing in
Sign In Now