Большая проблема наблюдаемости данных: завоевать доверие в масштабе

Стоимость очистки данных часто выходит за пределы комфортной зоны бизнеса, заваленного потенциально грязными данными. Это блокирует пути к надежному и соответствующему корпоративному потоку данных.

По словам Кайла Кирвана, соучредителя и генерального директора платформы наблюдения за данными, у немногих компаний есть ресурсы, необходимые для разработки инструментов для решения таких задач, как наблюдаемость данных в масштабе. Большой глаз. В результате многие компании, по сути, действуют вслепую, реагируя, когда что-то идет не так, вместо того, чтобы заранее решать проблемы с качеством данных.

Доверие к данным обеспечивает правовую основу для управления общими данными. Он способствует сотрудничеству с помощью общих правил безопасности, конфиденциальности и конфиденциальности данных; и позволяет организациям безопасно подключать свои источники данных к общему хранилищу данных.

Bigeye объединяет инженеров данных, аналитиков, ученых и заинтересованных лиц, чтобы укрепить доверие к данным. Его платформа помогает компаниям автоматизировать мониторинг и обнаружение аномалий, а также создавать соглашения об уровне обслуживания для обеспечения качества данных и надежных конвейеров.

Благодаря полному доступу к API, удобному интерфейсу и автоматизированной, но гибкой настройке группы обработки данных могут отслеживать качество, заблаговременно выявлять и устранять проблемы и гарантировать, что каждый пользователь может положиться на данные.

Опыт работы с данными Uber

Два первых члена группы данных в Uber — Kirwan и Bigeye, соучредитель и технический директор Егор Грязнов — решили использовать то, что они узнали, создавая масштаб Uber, для создания более простых в развертывании инструментов SaaS для инженеров данных.

Кирван был одним из первых специалистов по данным в Uber и первым менеджером по метаданным. Грязнов был штатным инженером, который управлял хранилищем данных Uber Vertica и разработал несколько внутренних инструментов и сред обработки данных.

Они поняли, что инструменты, которые их команды создавали для управления огромным озером данных Uber и тысячами внутренних пользователей данных, намного опережали то, что было доступно большинству команд инженеров данных.

Автоматический мониторинг и обнаружение проблем с надежностью в тысячах таблиц в хранилищах данных — непростая задача. Такие компании, как Instacart, Udacity, Docker и Clubhouse, используют Bigeye для непрерывной работы своей аналитики и машинного обучения.

Растущее поле

Основав Bigeye в 2019 году, они осознали растущую проблему, с которой сталкиваются предприятия при развертывании данных в сценариях использования с высокой рентабельностью, таких как операционные рабочие процессы, продукты и услуги на основе машинного обучения, а также стратегическая аналитика и принятие решений на основе бизнес-аналитики.

В 2021 году в области наблюдаемости данных появилось несколько участников. Bigeye выделился из этого пакета, предоставив пользователям возможность автоматически оценивать качество данных о клиентах с помощью более чем 70 уникальных показателей качества данных.

Эти метрики обучаются с помощью тысяч отдельных моделей обнаружения аномалий, чтобы гарантировать, что проблемы с качеством данных — даже самые сложные для обнаружения — никогда не останутся незамеченными инженерами данных.

В прошлом году наблюдаемость данных ворвалась на сцену: не менее десяти стартапов, занимающихся наблюдаемостью данных, объявили о значительных раундах финансирования.

В этом году наблюдаемость данных станет приоритетом для групп данных, поскольку они стремятся сбалансировать потребность в управлении сложными платформами с необходимостью обеспечения качества данных и надежности конвейера, предсказывает Кирван.

Краткие сведения о решении

Платформа данных Bigeye больше не находится в стадии бета-тестирования. Некоторые функции корпоративного уровня все еще находятся в разработке, например полный контроль доступа на основе ролей. Но другие, такие как SSO и развертывание в VPC, доступны уже сегодня.

Приложение имеет закрытый исходный код, как и проприетарные модели, используемые для обнаружения аномалий. Bigeye является большим поклонником вариантов с открытым исходным кодом, но решил разработать свой собственный для достижения внутренних целей производительности.

РЕКЛАМНОЕ ОБЪЯВЛЕНИЕ

Машинное обучение используется в нескольких ключевых местах, чтобы обеспечить уникальное сочетание метрик в каждой таблице в подключенных источниках данных клиента. Модели обнаружения аномалий обучаются по каждой из этих метрик для обнаружения аномального поведения.

Три функции, встроенные в конце 2021 года, автоматически обнаруживают проблемы с качеством данных и предупреждают о них, а также включают SLA по качеству данных.

Первый, Deltas, упрощает сравнение и проверку нескольких версий любого набора данных.

Проблемы, во-вторых, объединяют несколько предупреждений в единую временную шкалу с ценным контекстом о связанных проблемах. Это упрощает документирование прошлых исправлений и ускоряет разрешение.

Третий, Dashboard, обеспечивает общее представление о состоянии данных, помогая выявлять проблемы с качеством данных, устранять пробелы в мониторинге охвата и количественно оценивать улучшения надежности команды.

Взгляд на хранилища данных

TechNewsWorld поговорил с Кирваном, чтобы демистифицировать некоторые сложности, которые платформа анализа данных его компании предлагает ученым.

TechNewsWorld: Что делает подход Bigeye инновационным или передовым?

Кайл Кирван Бигей Соучредитель и генеральный директор — Кайл Кирван, соучредитель и генеральный директор Bigeye

Кайл Кирван: Для наблюдения за данными требуется постоянное и полное знание того, что происходит внутри всех таблиц и конвейеров в вашем стеке данных. Это похоже на то, что SRE [site reliability engineering] и команды DevOps используют для круглосуточной работы приложений и инфраструктуры. Но он переосмыслен для мира инженерии данных и науки о данных.

Хотя качество и надежность данных были проблемой на протяжении десятилетий, приложения для работы с данными в настоящее время имеют решающее значение для работы многих ведущих компаний; потому что любая потеря данных, сбой или деградация могут быстро привести к потере доходов и клиентов.

Без наблюдаемости данных торговцы данными должны постоянно реагировать на проблемы с качеством данных и бороться с данными по мере их использования. Лучшее решение — заблаговременно выявлять проблемы и устранять их первопричины.

Как доверие влияет на данные?

Кирван: Часто проблемы обнаруживаются заинтересованными сторонами, такими как руководители, которые не доверяют своей часто ломающейся приборной панели. Или пользователи получают запутанные результаты от встроенных в продукт моделей машинного обучения. Инженеры данных могут лучше предвидеть проблемы и предотвращать влияние на бизнес, если они будут предупреждены достаточно рано.

Чем эта концепция отличается от похожих по звучанию технологий, таких как унифицированное управление данными?

Кирван: Наблюдаемость данных — одна из основных функций операций с данными (вспомните об управлении данными). Многие клиенты ищут лучшие в своем классе решения для каждой из функций операций с данными. Вот почему такие технологии, как Snowflake, Fivetran, Airflow и dbt, стремительно набирают популярность. Каждый из них считается важной частью «современного стека данных», а не универсальным решением.

Наблюдаемость данных, данные SLA, ETL [extract, transform, load] контроль версий кода, тестирование конвейера данных и другие методы должны использоваться в тандеме, чтобы обеспечить бесперебойную работу современных конвейеров данных. Так же, как высокопроизводительные инженеры-программисты и команды DevOps используют родственные методы.

Какую роль конвейер данных и DataOps играют в обеспечении видимости данных?

Кирван: Наблюдаемость данных тесно связана с DataOps и новой практикой проектирования надежности данных. DataOps относится к более широкому набору всех операционных проблем, с которыми столкнутся владельцы платформ данных. Проектирование надежности данных является частью операций с данными, но только частью, так же как проектирование надежности сайта связано с DevOps, но не охватывает его полностью.

Наблюдаемость данных может иметь преимущества для безопасности данных, поскольку ее можно использовать для выявления неожиданных изменений объема запросов в разных таблицах или изменений в поведении конвейеров ETL. Однако наблюдаемость данных сама по себе вряд ли будет полным решением для обеспечения безопасности данных.

С какими проблемами сталкивается эта технология?

Кирван: Эти проблемы охватывают такие проблемы, как обнаружение данных и управление ими, отслеживание затрат и управление ими, а также контроль доступа. В нем также рассказывается, как управлять постоянно растущим числом запросов, информационных панелей, функций и моделей машинного обучения.

Надежность и время безотказной работы, безусловно, являются проблемами, за которые несут ответственность многие команды DevOps. Но они часто также несут ответственность за другие аспекты, такие как скорость разработки и соображения безопасности. В этих двух областях наблюдаемость данных позволяет группам данных знать, безошибочны ли их данные и конвейеры данных.

Каковы проблемы внедрения и обслуживания технологии наблюдения за данными?

Кирван: Эффективные системы наблюдения за данными должны интегрироваться в рабочие процессы группы обработки данных. Это позволяет им сосредоточиться на развитии своих платформ данных, а не постоянно реагировать на проблемы с данными и тушить пожары данных. Однако плохо настроенная система наблюдения за данными может привести к потоку ложных срабатываний.

Эффективная система данных также должна во многом избавляться от обслуживания при тестировании проблем с качеством данных, автоматически адаптируясь к изменениям в бизнесе. Однако плохо оптимизированная система наблюдения за данными может не корректировать изменения в бизнесе или чрезмерно корректировать изменения в бизнесе, что требует ручной настройки, которая может занять много времени.

Наблюдаемость данных также может обременять хранилище данных, если оно не оптимизировано должным образом. Команды Bigeye имеют опыт оптимизации наблюдаемости данных в масштабе, чтобы платформа не влияла на производительность хранилища данных.

Источник