Original Material
Слишком открытый доступ: как гугл-документы оказались в выдаче «Яндекса»
Главной новостью дня, а, возможно, и недели стало появление в поиске «Яндекса» тысяч гугл-документов, которые их авторы считали приватными. Поисковик уже убрал документы из выдачи, но вопрос о том, как они там появились и не может ли это повториться, остался без аргументированного ответа. Мы попробовали разобраться, что произошло.
- С чего все началось. Информация о том, что в поисковой выдаче «Яндекса» и Google есть ссылки на документы Google Docs, разошлась после поста в твиттере интернет-паблика MDK. Опубликовавший его основатель паблика Роберто Панчвидзе, по его словам, взял информацию из телеграм-канала «Зинка-резинка». По словам автора канала Зины Маевской, первоисточником был пост в Facebook главы департамента электронной коммерции L’Oreal Михаила Браккера, опубликованный в среду в 19:17. Браккеру об уязвимости рассказали знакомые, сказал он The Bell.
- Что попало в открытый доступ. Ссылки на публичные документы Google Docs открыл для поисковиков в 2009 году, напоминает в своем хорошем разборе ситуации «Медуза». Тогда компания разъясняла, что в выдачу могут попасть только те файлы, ссылки на которые опубликованы на публично доступном веб-сайте — и специально отмечала, что документы, для которых пользователь только создал доступную всем ссылку, индексироваться не будут. Но сотрудники The Bell вчера смогли найти в выдаче «Яндекса» собственные документы, для которых только генерировались, но никогда не публиковались в открытом доступе общедоступные ссылки.
- Объяснения «Яндекса» и Google. Сегодня Google в своем русскоязычном блоге пояснил, что выдачу поисковиков может попасть любой документ — если пользователь в настройках пометил его как публичный или опубликовал ссылку в интернете. «Яндекс» лишь заявил, что не индексирует страницы, индексация которых запрещена в файле robots.txt исходного сайта (этот файл регламентирует доступ и права роботов поисковых систем). В файле robots.txt на сайте docs.google.com индексация открытых документов не запрещена. Но заявления обеих компаний никак не объясняют, как документы попали в выдачу «Яндекса» и почему другие поисковики показывали в разы меньше документов.
- Похожий случай. Бывший сотрудник крупной российской интернет-компании в разговоре с The Bell сразу вспомнил о громком инциденте, произошедшем в 2011 году. Тогда в выдаче «Яндекса» в открытом доступе появились 8 000 СМС, отправленных на номера «Мегафона» через веб-интерфейс на сайте оператора. «Яндекс» обвинил в сбое «Мегафон» — администратор его сайта не установил в разделе отправки СМС файл robots.txt, говорилось в комментарии «Яндекса» (кстати, почти дословно таком же, как сегодня). «Мегафон» с этим объяснением не согласился и обещал провести собственное расследование (о его результатах объявлено не было), а специалисты по информационной безопасности предположили, что закрытые ссылки на СМС могли попасть в базу «Яндекса» через приложение «Яндекс.Бар», собиравшее пользовательскую информацию.
- Версия: «Яндекс.браузер». Возможность похожего объяснения и у вчерашнего инцидента «осторожно предполагает «Медуза». По ее версии, «Яндекс» мог проиндексировать ссылки, которые пользователи открывали с помощью «Яндекс.браузера». В 2015 году приватные ссылки, которые (без всяких нарушений) собирал браузер, уже случайно попадали в базу индексации поискового робота. «Яндекс» это признавал и обещал, что ошибка не повторится. Сегодня в компанию эту версию комментировать не стали.
- Если ошибки не было. В индексацию не должны попадать ссылки, которые не были опубликованы на публично доступных сайтах, для проверки этого существуют специальные алгоритмы, говорит другой собеседник The Bell в крупной интернет-компании. В теории это значит, что делиться ссылками даже на открытые Google Docs в почте или, например, мессенджерах должно быть безопасно: поисковик о них узнает, но в выдаче они появляться по идее не должны. Исходя из этой версии, можно было бы предположить, что доступными стали только те документы, которые когда-либо публиковались в «открытом интернете» (например, по ошибке). Так это или нет — наверняка знают, наверное, только Google и «Яндекс», но не говорят.
Что мне с этого?
Было ли попадание гугл-документов в выдачу «Яндекса» результатом ошибки поисковика или только неосторожности самих пользователей, мы можем и не узнать. Но это хорошее предостережение. Если вы не хотите, чтобы ваши файлы попали в открытый доступ, всегда выбирайте максимально строгие настройки безопасности во всех приложениях, предполагающих совместный доступ к документам.
Петр Мироненко, Ирина Малкова, Егор Сонин