Datafold: больше 80% аналитиков и продакт-менеджеров регулярно сталкиваются с проблемами качества данных
При этом проверяют их в основном вручную. Но SQL по-прежнему остаётся интерфейсом № 1 для обработки данных, и вряд ли это изменится в ближайшем будущем. Что нового в мире аналитики данных — последние тренды и популярные инструменты.
Datafold провёл опрос производителей данных (инженеров по данным и аналитике) и потребителей (менеджеров по продуктам, специалистов по обработке данных, аналитиков и других сотрудников), и выяснилось, что более 80% респондентов регулярно сталкиваются с проблемами качества данных. При этом большинство проблем возникают за пределами компетенции команды.
По мнению различных опрошенных команд, 75% проблем с качеством данных относятся к сфере ответственности других групп и сторонних поставщиков. Причём 20% опрошенных вообще не понимают, в чём причина проблемы.
Это говорит о том, что качество данных не может зависеть от какой-то отдельной команды и должно решаться на уровне компании (так же, как и безопасность), а также требует тесного сотрудничества между командами.
51% респондентов указали, что у них нет адекватных процессов и инструментов для решения проблем с качеством данных. При этом пользователи данных в основном полагаются на ручную проверку качества данных.
Судя по тому, как команды проводят валидацию своих данных, можно сделать три важных вывода:
-
Почти никто (<10%) не принимает качество данных как должное;
-
Большинство команд по-прежнему полагаются на ручную проверку данных или опрашивают других, прежде чем использовать данные в своей работе;
-
В качестве источника подтверждения достоверности данных автоматические тесты и каталоги данных в настоящее время используют, соответственно, ~30% и 20% команд.
Большинство команд вообще ещё не внедрили инструменты проверки качества данных.
Слишком много ручной работы — вот причина № 1 низкой производительности групп обработки данных. За этим следует неэффективное сотрудничество («слишком много встреч» и «организационные вопросы») и низкое качество данных.
Обзор стека популярных инструментов для аналитики данных
SQL по-прежнему остаётся интерфейсом № 1 для обработки данных и вряд ли это изменится в ближайшем будущем. На сегодняшний день наиболее популярны SQL и Python, за ними следуют R и Scala.
Star и Snowflake — самые популярные схемы построения хранилищ данных.
Самые популярные инструменты бизнес-аналитики в 2021 году — Tableau, таблицы Google и внутренние разработки.
Segment и Snowplow доминируют среди аналитических инструментов, но их догоняют новые игроки, такие как Rudderstack (клон Segment с открытым исходным кодом) и Freshpaint (также предлагает захват событий без кода).
Читайте также: Нестандартные инструменты веб-аналитики и новые функции Яндекс.Метрики. Личный топ Андрея Безрукова, ARDA
Источник фото на тизере: Nong Vang on Unsplash
Успейте купить корпоративный пакет COSSA-2025 со скидкой!
Cossa анонсирует главный рекламный формат на весь 2025 год: сразу 8 различных опций.
Пакет идеально подходит для онлайн-сервисов, стартапов, интернет-компаний и digital-агентств.
Успейте приобрести пакет до повышения цены!