Компания Google открыла исходный код своего парсера файлов robots.txt по лицензии Apache 2.0, сообщает официальный блог компании.
“Мы открываем библиотеку C++ , которую наши системы используют для парсинга и проверки правил в файлах robots.txt. Этой библиотеке — уже 20 лет, в ней содержатся куски кода, написанные еще в 90-х”, — сообщают в компании.
- Файл robots.txt — это текстовый файл, который обычно находится в корневом каталоге сайта (адрес вида www.example.com/robots.txt. Фактически, он указывает поисковым роботам, какие файлы и страницы можно сканировать, а какие — нет. Соответственно, все, что разрешено сканировать, появится в поисковой выдаче.
- Вместе с библиотекой вебмастерам также предложили код утилиты для проверки правильности правил в robots.txt. Код библиотеки и сопутствующих инструментов можно посмотреть на GitHub.