Компания «Ашманов и партнеры» с помощью своей методики автоматической оценки поисковых систем AnalyzeThis проследили, как менялся поисковой рынок Рунета в 2012 году на основании разных параметров анализа. В отчете изложены главные события в жизни поисковых машин, а также изменения, которые произошли в их работе в 2012 году.
Качественное и объективное сравнение различных параметров работы поисковиков может быть интересно, в первую очередь, специалистам, так или иначе связанным с индустрией интернет-поиска.
Основные тенденции развития рынка поиска в Рунете в 2012 году:
- активное государственное регулирование интернет-рынка;
- учет в поиске персонального поведения и потребностей пользователя, его связей в социальных сетях;
- стремление поисковиков отвечать на вопросы пользователей и выдавать сразу полезную информацию, а не список страниц, на которых ее можно найти;
- стремление поисковых компаний выйти за пределы веб-поиска и открыть новые области применения своих технологий;
- не просто адаптация интерфейсов под мобильные устройства, но и создание продуктов, учитывающих особенности использования Интернета с таких устройств;
- превращение дистрибуции поиска в главное средство борьбы за рынок и вытекающая из этого необходимость заключать партнерства с производителями софта, сервисов и устройств.
Качество поиска по навигационным запросам
Данные анализаторов показывают, что лишь у Google поиск внутренних страниц сайтов (рис. 5) находится на соответствующем уровне — около 90%. По остальным навигационным запросам результаты всех поисковиков превышают 90% при поиске крупных организаций (рис. 1) и известных владельцев персональных сайтов (рис. 2); и 80% — при поиске персональных блогов (рис. 3) и некрупных региональных организаций (рис. 4).
Здесь следует сделать оговорку, что «все поисковики» употребляется в значении «все, кроме Yahoo», результаты которого заметно — и не в лучшую сторону — выделяются на фоне остальных. Дело скорее не в реальном качестве работы этого поисковика, а в технических проблемах анализаторов.
Тройка лидеров сейчас регулярно получает стопроцентные результаты, да и остальные недалеко от них ушли. Столь высокое качество поиска, воспринимаемое сейчас как должное, на момент создания анализатора в 2007 году казалось недостижимым: результаты варьировались от 90% до 30%.
Качество поиска по информационным запросам
Такие запросы преобладают в общей массе. Поисковики хорошо справляются с одними информационными запросами (например, “как оформить расписку” – оценки около 0,9) и заметно хуже — с другими (“близкие по смыслу слова к слову «запас»” – оценки около 0,4).
Похожая ситуация наблюдается и в Анализаторе ответов на вопросы. Результаты всех поисковиков в течение 2012 года улучшались, однако значения вокруг 76% оставляют немало пространства для роста (рис. 6).
Анализаторы «Поиск цитат» и «Поиск крылатых слов» исследуют поиск источников цитаты или выражения соответственно. С лета 2012 года результаты ведущих поисковиков в обоих анализаторах были весьма стабильны: около 85% в цитатном (рис. 7) и около 95% в анализаторе поиска крылатых слов (рис. 8). В обоих случаях наблюдался постепенный небольшой рост показателей «Яндекса», чуть более заметный — у Mail.ru, и весьма резкий — y Bing.
Не столько важный для пользователей поиска, сколько имеющий общее значение параметр — умение выбирать сайт-первоисточник для распространенного в Интернете текста. Результаты показывают, что с самого начала 2012 года Google радикально улучшил этот аспект своей работы. В результате лидировавший предыдущие полтора года Яндекс был вытеснен с первой позиции. Неожиданно слабые результаты поиска Mail.ru объясняются, вероятно, невысокой полнотой индекса и сравнительно низкой скоростью индексации сайтов. Тем не менее, во втором полугодии 2012 года этот поисковик показал серьезный рост (рис. 9).
Качество поиска по транзакционным запросам
Речь идет о получении доступа к определенному контенту (программы, музыка, фильмы), про который заведомо известно, что в Интернете он доступен легально. Анализатор проверяет, что именно эти легальные версии находятся по соответствующим запросам. Дополнительно учитываются и позиции, на которых найдены эталонные версии файлов.
Результаты поисковиков в этом виде поиска оставляют желать лучшего (рис. 10). В среднем поисковики находят официальные источники для скачивания контента всего в 50—55% случаев, а с учетом позиции, на которой найден сайт, еще хуже – менее чем в 53% случаев. Это отчасти связано с популярностью порталов-агрегаторов, которые одновременно хранят много версий продуктов, пусть и неофициальных. Лучше всего с транзакционными запросами обстоят дела у Google, чуть хуже — у «Яндекса». Поиск Mail.ru в декабре значительно улучшил качество поиска по транзакционным запросам.
Стоит отдельно отметить, что результаты поиска программного обеспечения по транзакционным запросам заметно выше, чем результаты поиска музыки и фильмов. Вероятно, в дальнейшем эти два вида контента будут разведены по разным анализаторам.
Актуальность результатов поиска
Здесь анализируется то, насколько быстро поисковики реагируют на изменения как в жизни, так и в сети. В настоящий момент доступны анализаторы актуальности должностей (рис. 11) и актуальности телефонов (рис. 12). Оба они вычисляют отношение количества документов, содержащих правильный ответ, к общему числу документов с правильным и неправильным ответами. Здесь прогресс заметен только у Mail.ru. Впрочем, это пока не помогло ему обогнать «Яндекс» и Google.
Другим способом оценки актуальности поисковой выдачи является изучения скорости индексации каждого из поисковиков. Как только на домене появляется новая страница, она добавляется в анализатор, после чего определяется, на какой день после появления страницы она попала в индексы каждого из поисковиков. Так, оказалось, что лишь около 40% страниц попадают в индекс в первые два дня!
Стоит отметить, что незначительное ухудшение результатов Google, заметное улучшение Mail.ru и возвращение «Яндекса» к уровню конца 2011 года позволило всем троим лидерам оказаться в шаге друг от друга по критерию скорости индексации (рис. 13).
Полнота и разнообразие результатов поиска
Требования к тому, как должна выглядеть выдача поисковиков, зависят от типа запроса, который может быть редким или, напротив, многозначным. Так, если запросу соответствует лишь ограниченное количество документов или объектов, необходимо показать их все. В то же время, по многозначному запросу стоит выдать как можно более разнообразные результаты поиска, чтобы угодить любому из пользователей вне зависимости от того, что именно он имел в виду.
Количество различных смыслов, которые предлагают поисковики по неоднозначным запросам, вычисляется в Анализаторе омонимов. Вот пример такого запроса: зенит — футбольный клуб, банк и фотоаппарат. Результаты всех поисковиков здесь очень близки (рис. 14), но для повышения разнообразия выдачи еще есть около 20 процентных пунктов.
Анализатор SEO-прессинга вычисляет показатели наполненности выдачи коммерческими страницами по запросам, не являющимся очевидно коммерческими. Стоит отметить, что уровень от 20 до 30% у всех поисковиков (рис. 15) свидетельствует об адекватной доле коммерческих сайтов в выдаче. Тем не менее, речь может идти о простом устаревании тем, по которым созданы запросы анализатора, а также о том, что в связи с постоянным развитием методов работы оптимизаторов SEO-прессинг стал менее агрессивным, но более вариативным.
Тематический анализатор проверяет, попадают ли официальные сайты искомых объектов в выдачу по соответствующему запросу. Специалисты компании подбирали тематические запросы, соответствовать которым может лишь ограниченное количество объектов (например, музеи Омска). Любопытно, что в конце 2012 года Mail.ru за счет серьезного рывка обогнал по качеству этой стороны поиска своих конкурентов.
Одним из важнейших критериев качества поисковика является полнота индекса, ведь чем больше страниц известно системе, тем больше запросов получат релевантные ответы. В 2012 году полнота индекса Google впервые стала больше, чем у «Яндекса», а в определенные моменты года — существенно ее превышала. В то же время, полнота других иностранных поисковиков — Bing и Yahoo — остается крайне низкой. Здесь же стоит обратить внимание на пока весьма заметное отставание от лидеров Mail.ru. Вероятно, это может оказывать влияние и на другие аспекты работы этого поисковика.
Поиск из регионов
По данным «Яндекса», доля геозависимых запросов составляет до 30%, поэтому умение работать с ними является одним из важнейших для поисковой системы. Очевидно, что результаты поиска по запросам вроде “верховный суд россии” или “рецепт суши” не должны зависеть от того, из какого города они заданы. В то же время, для таких запросов как “городской суд” или “доставка суши” расположение пользователя становится принципиальным. Справляются с задачей поисковики пока не блестяще: лучшие усредненные по всем городам результаты — у «Яндекса» и Google — в районе 70%.
Понимание запроса
Робот не всегда может отличить корректный запрос от некорректного. Анализаторы ежедневно задают поисковикам несколько сотен запросов с заведомыми опечатками, после чего вычисляют: насколько часто были предложены (или даже произведены) правильные замены запроса; насколько часто правильная форма встретилась в результатах поиска.
Результаты по обоим параметрам недалеки от идеальных: более 90% у тройки лидеров. Причем если предлагать качественные подсказки поисковики умеют давно (рис. 20), то умение находить при этом правильные формы в 2012 году заметно улучшилось (рис. 21). Отставание Yahoo и Bing от лидеров заметно в обоих случаях, и особенно — при поиске правильных слов.
Анализаторы ошибок
При вводе в поисковую строку достаточно редких слов (например, ботник, изоиония, магнитохрон) или словосочетаний с редкими словами (например, аэропорт гуари или княжество тубот) поисковики автоматически исправляют ошибочное на их взгляд слово на более распространенное, но имеющее мало отношения к предмету поиска. Доли таких ошибок обычно превышают 50%. Так, у Mail.ru и «Яндекса» очень высокая доля ошибок при замене редких слов — больше 60%. У Google чуть лучше — менее 50%. Но хуже всего у Yahoo — почти 90% таких ошибок.
Меньше всего ошибок при замене редких фраз допускает Google — около 30%, хотя за последние несколько месяцев ситуация ухудшилась. Совсем плохо с такими ошибками в поиске Yahoo — 85% ошибок. «Яндекс» и Mail.ru допускают ошибки при поиске редких фраз примерно в 60% случаев.
Google сохраняет связность примерно 60% словосочетаний, выступая, таким образом, заметно лучше конкурентов. Однако и ему есть куда расти. У «Яндекса» и Mail.ru результаты примерно одинаковы — около 40%.
Раздражающие факторы (спам, порнография, реклама, вирусы)
Интересной тенденцией является рост количества поискового спама за второе полугодие 2012 года показателей почти на 10% у всех поисковых систем. В среднем «Яндексу» и Google удается удерживать уровень поискового спама в пределах 6—7%. В Mail.ru поискового спама чуть больше, особенно заметен прорыв в сентябре-ноябре, когда спам был заметен в 11% случаев.
Важным результатом 2012 года стало резкое уменьшение весной количества материалов для взрослых в выдаче Google по не подразумевающим однозначного порнографического контекста, запросам. Теперь его результаты находятся на уровне «Яндекса» и Mail.ru (рис. 27). В «Яндексе» и Mail.ru сайты для взрослых нежелательно встречаются в 6% случаев.
Результаты работы анализатора качества семейного фильтра показывают, что даже при жесткой фильтрации сайты для взрослых все равно появляются в поисковой выдаче. Таких сайтов в наиболее популярных поисковых системах очень мало: в «Яндексе» — менее 1%, в Google — также примерно на уровне 1%. Чуть больше их в Mail.ru — в течение года было в среднем 3%, а к концу года уменьшилось до 1,43%. В Bing и Yahoo опасно много порносайтов в резуль татах поиска.
Показатели рекламной нагрузки за 2012 год практически не изменились для всех поисковиков. Сейчас средняя рекламная загруженность страниц, находимых лидерами поиска, оценивается в 10?12 баллов. Это соответствует одному большому рекламному баннеру и одному-двум маленьким. Количество порнорекламы за прошедший год еще немного уменьшилось.
Вероятно, самый опасный вид нежелательного контента на страницах — вирусы. Стоит признать, что таких сайтов и сейчас менее процента в выдаче абсолютно всех поисковиков, причем их результаты весьма близки.
Общие характеристики поиска
Одним из параметров, влияющих на отношение пользователя к поисковой системе, является скорость выдачи ей результатов поиска. В 2012 году все поисковики загружают результаты менее чем за секунду, самые быстрые — Google и Mail.ru (рис. 32).
Анализатор апдейтов — обновлений поисковой выдачи — сравнивает выдачу поисковиков за последние два дня. Любопытно, что за второе полугодие 2012 года «Яндекс», пусть и совсем незначительно, но смог обогнать Google по качеству асессорских оценок. Впрочем, анализатор скорее иллюстрирует общую ситуацию с качеством поиска в Рунете: «Яндекс» и Google лидируют, находясь близко друг к другу, Mail.ru стремительно догоняет (уже обогнав по отдельным параметрам); Yahoo и Bing пока заметно не дотягивают до их уровня.