Почему поисковая выдача пестрит личными данными: мнение Яндекса, ESET и интернет-омбудсмена
Похоже, виноваты все.
За последнее время в поисковой выдаче Яндекса неоднократно всплывали личные данные россиян. Впервые мы писали об этом в контексте утечки паролей и внутренних данных из документов и таблиц Google. А в конце прошлой недели по тому же сценарию в выдачу попала персональная информация россиян с сайтов Сбербанка, ВТБ, департамента транспорта Москвы и агрегатора билетов Trip.com. Включая сканы паспортов!
Коммерсантъ FM обсудил утечки (которые, впрочем, таковыми не являются) с представителями Яндекса, ESET Russia и интернет-омбудсменом России. В Яндексе подчёркивают, что поисковый робот индексирует только те документы, которые не запрещены при помощи специального файла robots.txt. Настроить систему так, чтобы содержимое тех или иных страниц не попало в поисковые системы, — забота владельца сайта или вебмастера.
Никто не говорит, как надо
Впрочем, поисковики тоже в ответе за подобные инциденты, считает Борис Соболев из ESET Russia. Владельцы сайтов «просто не понимают сам процесс индексации, и поэтому неправильно расставляют файлики robots.txt», которые должны лежать в определённых директориях. В результате поисковые машины не находят запрещающих документов и индексируют всё подряд. Читай: выполняют свою работу.
Нет единого регламента для поисковых систем.
«У разных поисковых систем различные способы индексирования, нет определённого регламента, которого они придерживаются. Это непонятные механизмы самих поисковых машин, то есть в открытом виде нигде не написано, как именно они сканируют веб». Поэтому, заключает Соболев, владельцы сайтов и не могут их настроить таким образом, чтобы конфиденциальные файлы не попадали в выдачу Яндекса.
Компании халатно работают с личными данными
Тем временем интернет-омбудсмен Дмитрий Мариничев переносит груз вины с вебмастеров и поиска на сами компании, которые небрежно относятся к данным клиентов. Облачные технологии и мобильные устройства размывают грань между личным и публичным, считает Мариничев. «Появились сервисы типа Google Docs, где вы можете что-то хранить, кому-то предоставлять доступ — паблик смешался с корпоративными сетями. В результате большое количество сотрудников различных компаний передаёт документы путём мессенджеров, используя те же самые виртуальные диски, на которых расшаривают папки».
Паблик смешался с корпоративными сетями.
В ближайшем будущем корпорации должны закрутить гайки и изменить политику безопасности, в том числе запретить сотрудникам использовать свободные сервисы для перемещения корпоративной информации и персональной информации, резюмирует интернет-омбудсмен.
Резюме: низкая цифровая грамотность рунета
В результате у нас есть поисковые системы, которые втихаря индексируют «всё, что не запрещено», не афишируя алгоритм индексации. Есть компании, которые легкомысленно работают с данными клиентов. И проблема не в том, что «всем плевать». Просто сотрудники не до конца понимают, как работают сервисы, которые стали частью рабочего процесса.
«Время закручивать гайки?»
Наконец, есть вебмастера, которым очевидно не хватает навыков, чтобы гарантировать сохранность пользовательских данных. И тут часть вины, если верить Борису Соболеву из ESET Russia, лежит на поисковиках, которые — правильно — не афишируют принцип работы поисковых роботов.
Но и тут можно перевести стрелки: вспомните популярную то ли шутку, то ли быль о том, что даже разработчики Google, которые работают над развитием гугловских алгоритмов ранжирования, не всегда понимают, как эти алгоритмы работают.
Читайте далее: Яндекс.Директ перемешал рекламу с органической выдачей в мобильном поиске
О диджитале в удобном формате ➜ подписывайтесь на нашу рассылку
Успейте купить корпоративный пакет COSSA-2025 со скидкой!
Cossa анонсирует главный рекламный формат на весь 2025 год: сразу 8 различных опций.
Пакет идеально подходит для онлайн-сервисов, стартапов, интернет-компаний и digital-агентств.
Успейте приобрести пакет до повышения цены!