Всем привет, на связи Алексей Сидоров! В этой статье я попробовал тезисно рассказать соображения о Power BI и работе с данными, которые стали для меня актуальными в последнее время. Достаточно субъективно, моя оценка вполне может не совпадать с вашими кейсами использования и выводами…
Итак, старые читатели блога могли заметить некоторый спад нашей активности в последний год-полтора. Это характерно не только для нас, но и в целом для “спроса на рынке”, вот, к примеру, статистика запросов к Яндекс –
В начале прошлого года кривая пошла вниз и на рынке активизировался интерес к внутренним инструментам.
Но есть и позитивные тенденции – спрос к Power BI в апреле текущего года достиг исторического максимума. Конечно, это весьма грубая оценка спроса, но для веб-аналитика, как мы знаем, про тренды, а не про значения 😉
Исторически сложилось так, что деятельность моей компании очень тесно связана с Power BI и пользователями Power BI. Мы занимаемся выгрузкой данных из различных источников в аналитическое хранилище – cервис myBI Connect. Базы данных мы ранее долгое время размещали в MS Azure: наши первые пользователи и мы сами использовали Power BI для работы с этим данными в отчетах – сервис обновляет данные в облачной БД, отчет Power BI подключается к ней и по расписанию обновляется, все работает просто и прозрачно.
Но в начале прошлого года мы поняли, что что находимся под большой зависимостью от этого вендора, а его положение на нашем рынке потеряло устойчивость. На эту тему мы написали отдельную статью в нашем корпоративном блоге, о том, какие технологические “приключения” были у нас на пути, и к чему мы пришли.
О дальнейшем использовании облаков – myBI Connect – Дзен.
Здесь повторяться не буду, но отмечу некоторые наблюдения связанные именно с Power BI.
1. Первым понятным действием для продолжения работы myBI Connect было поднять БД в Яндекс.Облако под управлением PostgreSQL, протестировать его и убедиться, что этот вариант будет работать. С миграцией обработчиков данных и самих баз наши технические специалисты справились без проблем, а вот с базами в Яндексе проблемы проявились. Базы под управлением Яндекс.Облако не работают с облачной версией Power BI (по крайней мере, на момент написания статьи): сертификат безопасности, который используется в Яндекс, не устраивает Микрософт и данные обновить не получается. При этом на локальным компьютере все работает хорошо – Power BI подключается и обновляет данные, используя встроенное подключение к СУБД PostgreSQL.Это вынудило некоторых наших пользователей использовать шлюз для обновления данных, то есть держать включенным локальный компьютер, который получает данные из базы и передает их в отчет. Это, конечно, большой минус, который стоит учесть при планировании архитектуры хранения. Но в итоге нашелся более простой выход, об этом далее…
2. Еще одно предостережение, которое стало актуальным за последний год, это ужесточение законов относительно работы с персональными данными. Ранее компаниям достаточно было хранить исходные персональные данные на серверах на территории РФ, а далее можно было работать с ними по своему усмотрению; но после 1 марта 2023 года действия, направленные на трансграничную передачу персональных данных граждан РФ по умолчанию запрещены законодательством без получения разрешения от Роскомнадзора.
Поскольку Power BI – “облачный сервис” он использует разные датацентры Microsoft по всему миру, а, значит, выгрузка, публикация отчета в вебе и отправка данных в него это и есть та самая трансграничная передача данных. Осталось разобраться с тем, какие данные считаются персональными. Такими называются любые наборы данных позволяющие однозначно идентифицировать персону, например это паспортные данные, телефон и имя или e-mail (в нем же может быть и фамилия, и год рождения, и другие произвольные персональные данные).
Пользователям Power BI теперь нужно аккуратнее работать с отчетами по клиентам и сотрудникам, не хранить и не обрабатывать ПД в явном виде в сторонних аналитических базах и прочее, прочее, прочее. Мы же законопослушные, да?).
3. Тестирование новых ресурсов подтолкнуло нас посмотреть внимательнее на другие BI продукты отечественного рынка. Тут наблюдение – Power BI занимает лидирующую строчку в мировом рейтинге не просто так и конкурентам до него далеко 😉
Это даже подтолкнуло моих коллег реализовать собственную простую систему визуализации для простого отображения данных в интерфейсе, но это совсем другая история, не для этого блога.
4. Ограничения Power BI в подключении к базам Яндекса, конечно, оказались неприятной проблемой для пользователей и для нас, которая заставила коллег продолжить экспериментировать с PosgtreSQL в других облаках и конфигурациях. В итоге нужная была найдена и сейчас наши пользователи успешно используют базы myBI Conect размещенные в Яндекс.Облако под нашим управлением вместе с веб-версией Power BI.
Не буду вдаваться в технические подробности, но проблему с сертификатом получилось решить. За счет этого отчеты из наших БД обновляются в облаке Power BI почти так же нативно, как и ранее. Таким образом – не единым Azure живы 😉 Практика показала, что другие хранилища можно использовать вполне успешно.
5. Мы продолжаем наблюдать и взаимодействовать с пользователями Power BI, которые работают с нашими данными… Хочется верить, что мы наблюдаем искаженный срез аудитории, однако, вопреки раздуваемому “хайпу” вокруг аналитики данных – хороших специалистов на рынке радикально больше не становится. Мягко говоря.
Мы часто наблюдаем похожие проблемы связанные с плохим пониманием или банальным нежеланием работать с данными, используя корректные оптимальные модели. Любители собрать все в “большую сводную табличку” продолжают создавать проблемы себе, да и нам косвенно, поэтому в нескольких следующих статьях мы вернемся к теории моделирования. Первые наши теоретические статьи про модели и DAX весьма неплохо зашли судя по просмотрам – более 50к просмотров 😉 Постараемся не терять планку, на связи!