Как известно, украинский Интернет довольно сильно отстает от западного сегмента. Отстает он не только в хорошем смысле, но и в плохом. Распространенные на Западе методики «борьбы с конкурентами» в поиске довольно редко встречаются на Украине, и возможно этой статьи и не было, если бы за последний год с этими техниками не пришлось столкнуться 3 раза на клиентских сайтах и один раз на сайте WebPromo.
Последствия были разные: от понижения позиций до полного выпадения страниц с индекса. Как ни странно, ссылочный спам, о котором в Рунете ходят страшные легенды, играл совершенно нерешающую роль и имел значение сопутствующей проблемы. Основная проблема была вызвана попытками «доброжелателей» увеличить количество дублированного контента как на самом сайте, так и на внешних ресурсах. Если говорить о внутреннем контенте, были использованы дыры в настройках сервера и самой системе управления контентом. На данный момент в интернете есть 3 часто используемые веб-серверные платформы: Apache, ISS, NGINX. APACHE является самой уязвимой для различного рода гуру в мире хакеров, однако из-за этого представляет наименьший интерес для нас, т.к. пропатчена и заапдейтина вдоль и поперек. Как написать htaccess, прописав все SEO редиректы, и заблочить ненужные запросы, сможет рассказать каждый второй.
Основная проблема любого владельца хостинга на apache – это отсутствие htaccess как такового, что позволяет работать с любым созданным URL напрямую. Соответственно мы имеем любой готовый дубликат страниц:
- http://site.com/index.php
- http://site.com/index.html
- http://www.site.com/
- http://www.site.com/main.html
- http://www.site.com/home.html
- http://www.site.com/content/index.php и.т.д
«Доброжелатели» вгоняли в индекс эти страницы, и в результате получался полный дубликат главной страницы, на которую обычно продвигаются наиболее важные и наиболее конкурентные запросы.
Решение проблемы: Продвижение любого проекта должно начинаться с настройки стандартных SEO редиректов (301 редирект) с версии сайта без www на версию с www, с /index.php на главную и.т.д.
Если в первом случае мы боремся против существующих дубликатов, то во втором пришлось столкнуться с тем, что в индексе появились страницы, которые в принципе физически не существуют, но это совершенно не мешает им быть дубликатом главной и других основных посадочных страниц.
Создавалось несколько десятков тысяч страниц по типу http://www.site.com/?pi=1, http://www.site.com/?pi=2 и т.д., которые при помощи активного ссылочного спама вводились в индекс. В результате в поиске возникал множественный дубликат посадочных страниц.
Решение проблемы: В первую очередь закрывайте все динамические URL через robots.txt:
User-agent: * Disallow: /*?
Так вы закроете в первую очередь все URL в которых есть “?”. Но это опять же не решит проблемы. Лучшее средство – всегда возвращать 404 ответ сервера с URL, которых физически нет на вашем сайте, либо используя, мета тэг:
<meta name=”robots” content=”noindex,follow”>
Третья проблема с дубликатом, с которой пришлось столкнуться, уже использовала внешние источники для дублирования, а именно статические proxy. Объемы, с которыми подходили к вопросу на «противоположной стороне», тоже были промышленными. Из тех, которых удалось определить – это порядка 10 тысяч proxy.
Сайты пропускались через proxy, на выходе получался URL вида http://proxy.com/sitecom/, который попадал в индекс опять же благодаря обильному ссылочному спаму.
Решение проблемы: Выпарсить список прокси из индекса allinurl: http://site,com -site: http://site,com, также можно использовать обратные ссылки по MajesticSEO, после чего IP-адреса на которых расположены proxy были закрыты .htaccess.
Общая рекомендация: Переписывайте тексты сразу, не задумываясь и не медля. Все эти приемы требуют довольно длительного процесса на переиндексацию со стороны поисковых систем, которого у Вашего бизнеса нет. Ситуация довольно малоприятная, я искренне желаю Вам в нее не попадать, но лучше быть к ней заранее готовым.