archivarix

Новичок
  • Content count

    4
  • Joined

  • Last visited

About archivarix

  • Rank
    Новичок

Profile Information

  • Специализация
    SEO
  1. Недавно мы обновили нашу систему и теперь у нас появились две новых опции. Теперь с помощью системы скачивания существующих сайтов можно скачать даркнетовские .onion сайты. Просто введите адрес .onion сайта в поле "домен" https://ru.archivarix.com/website-downloader-cms-converter/ и сайт будет качаться из сети Tor так же как и обычный. А ещё Archivarix может не только скачивать существующие сайты или восстанавливать их из Веб Архива, но и вытаскивать из них контент. Для этого тут https://ru.archivarix.com/restore/ в "продвинутых параметрах" надо выбрать "Извлечь структурированный контент". После завершения скачивания сайта вместе с полным архивом всего сайта формируется архив статей в формате xml, csv, wxr и json. При формировании архива статей наш парсер учитывает только значащий контент исключая дубли статей, управляющие элементы и служебные страницы.
  2. Видеогайд о том, как восстанавливать сайты из archive.org. Введение: Как работает вебархив и как находить там то, что вам нужно. Обзор инструментов, которые предлагает вебархив: https://youtu.be/pCutR4Bpz5g Как подготовить сайт к восстановлению. Как открыть сайт для индексации, если раньше он был закрыт robots.txt: https://youtu.be/meiDQVqFNV4 Как правильно выбрать дату восстановления в веб архиве. Дата, показанная на сайте archive.org совсем не значит что весь сайт был закеширован в это время: https://youtu.be/pJfUe3DLPx8