Jump to content

Hita4

Новичок
  • Content Count

    4
  • Joined

  • Last visited

Posts posted by Hita4

  1. Приветствую, коллеги!

    Есть задача: нужно вытащить из выдачи Яндекса УРЛы одного сайта определенного УРОВНЯ вложенности.

    Например для интернет-магазина example.com, требуется найти все "мусорные" страницы 6 уровня, которые генерируются CMS внутри категорий. Пример такого УРЛ: example.com/shop/elektronika/category/televizory/televizory-price-2000-to-10000/

    Заранее скажу, что страницы закрыты от индексации метатегом robots, но робот не торопится их посещать. Поэтому хотелось бы составить список страниц, которые остались в индексе и их принудительно переобойти.

    Составил начало запроса, но не хватает знаний, чтобы собственно выделить страницы только 6 уровня (выделять по запросу не вариант).

    site:example.com inurl:category

    Прошу помочь, заранее спасибо!

  2. Есть задача, нужно вытянуть УРЛы собственного сайта (интернет-магазин) из выдачи Яндекса по определенному запросу. Хотя бы до 50 страниц, лучше вообще все.
    Для Гугла есть множество парсеров, для Яндекса ничего рабочего не нашел, кроме A-Parser. Задача на пару раз, поэтому не хотелось бы покупать софт за $200.
    Попробовал делать эту вручную с помощью расширения (граббер ссылок), но это крайне неудобный вариант.
    Может кто подскажет, каким инструментом это можно сделать?
    Заранее спасибо!

  3. Есть проект интернет-магазин, один из крупнейших в своей нише, стабильно находился в ТОП-10 по многим запросам. Обратили внимание, что с начала года нам начали активно крутить ПФ в плюс (как прямые заходы, так и из поиска), но эффекта это никакого не имело до последнего времени. После апдейта позиции упали на 20-30, как по коммерческим запросам (товарка и категории), так и по информационным. После этого стали крутить еще сильнее (уже больше 50% трафика накрутка), сайт стабильно на дне, обратно не поднимается.

    Своевременно обращались в ТП Яндекса, они говорили, что все под контролем. Сейчас присылают отписки. Есть у кого подобные кейсы, или мы одни "выиграли" в лотерею?

  4. Добрый день, господа!

    Хотел бы спросить у вас - как можно дособрать отдельные данные?

    Как все было: сканировал УРЛы из карты сайта в режиме List - собрал все необходимые данные. Через некоторый промежуток времени, потребовалось узнать блокируются ли выбранные УРЛы в файле robots.txt. Когда собирались основные данные в настройках был выбран пункт "Ignore robots.txt", соответственно фильтр "Blocked by Robots.txt" пустой. Теперь мне нужно дособрать его. Если в настройках выбрать пункт "Ignore robots.txt but report status", сканирование начинается с самого начала, т.е. заново начинают собирается title, desc и т. д. Мне же нужно чтобы эти поля остались (как и все остальные), так как я с ними работаю, но чтобы в фоне началось сканирование проверки статуса с учетом robots.txt. 

    Можно ли так сделать?

    Собрать все заново не вариант, поскольку интернет-магазин на 400к страниц, а сканировать можно только со скоростью 1 урл/с в один поток. 

×
×
  • Create New...