Які є найвигідніші способи з точки зору бюджету та технологій, щоб впровадити Data Driven та BI у бізнес? Яким є процес обробки від Data Engineer до кінцевого користувача та що криється в цьому «чорному ящику»?

Під час жовтневого Yalantis Meetup: BI & Big Data спікери та учасники:

  • порівняли інструменти роботи з даними в компаніях націлених на український і міжнародний ринок;
  • порівняли плагіни, які можна написати власноруч з купівлею софту зі сторони;
  • поговорили про найкращі стек та технології для BI&Data спеціалістів на ранніх етапах та в ентерпрайз-масштабі;
  • розглянули DBT, як інструмент для організації та трансформації даних;
  • познайомилися з PySpark — інструментом для аналізу даних та машинного навчання.

У кінці матеріалу ви отримаєте посилання на презентації та відео спікерів Yalantis.

Прочитайте коротке самері доповідей, щоб дізнатися найважливіші тези з мітапу.

Андрій Панченко, BI Lead у компанії Yalantis, має понад п’ять років досвіду у сфері Data Analytics, інжинірингу та BI у сферах банкінгу, медіа та фінтех. Андрій часто був першовідкривачем ролі Data Specialist і цей досвід змушував постійно шукати найвигідніші способи впровадження Data driven підходу в бізнес.

«Моя доповідь спрямована на фахівців, які зіштовхнулися з потребою впровадження Data driven підходу на проєктах, а також для управління компаній, які хочуть поступово впровадити BI у свою бізнес-екосистему. Найчастіше новачки женуться за стеком технологій, забуваючи про бізнес складову. BI – це більше про бізнес. Доповідь описує важливість розуміння бізнес-логіки та випливу BI спеціалістів на прийняття рішень. Тобто не просто, щоб бізнес-аналітик скинув тобі задачу і ти її робиш, а як і що ти маєш робити для того, щоб побудувати Data driven підхід в компанії або на проєкті», — Андрій Панченко, BI Lead у компанії Yalantis.

Для впровадження Data-експертизи в компанії або на проєкті необхідно виконати наступні кроки.

Оцінка бізнес та маркетинг потреб

Розпочніть з налаштування діалогу між командами для визначення пріоритетних цілей, розв’язання задач повʼязаних з сирими даними, а лише потім з аналізу потреб компанії чи проєкту у сфері.

Вибір технологій

Підберіть найкращі комбінації інструментів для реалізації задач з обробки даних. Наразі ринок пропонує рішення під будь-який бюджет та смак, як хмарні сервіси, так і on-premise рішення. DBT і PySpark, про які було згадано під час мітапу, можуть бути частиною вашого стека інструментів. Оберіть ті технології, які найкраще відповідають вашим потребам та бюджету.

Створення Data-фундаменту

Розробіть систему для зберігання, обробки та структурування сирої інформації.

Розробка автоматизованих процесів

Використовуйте автоматизовані алгоритми та інструменти для обробки та перетворення даних. Створіть моніторингові метрики для контролю даних, та налаштуйте процеси для обробки даних в реальному часі.

Створення інтерфейсів для користувачів

Побудуйте інтерфейси для користувачів, які дозволяють аналізувати та використовувати оброблені дані для прийняття рішень.

Навчання та документація

Забезпечте навчання нових фахівців та підтримуйте актуальну документацію, яка допомагає розуміти процеси обробки даних та структуру інформації.

У другій частині мітапу спікери оглянули дві технології — DBT і PySpark, які можуть стати корисними для компаній, які лише починають розвивати свою експертизу в обробці даних. Цей набір інструментів розроблений з урахуванням мінімальних витрат та доступу до великого обсягу даних.

«Ми пропонуємо використання широкого спектра технологій для роботи з даними на різних рівнях. Наразі розглянули дві технології, що широко застосовуються як DBT та PySpark», — Андрій Панченко, BI Lead у компанії Yalantis.

DBT розроблений для роботи з даними в компаніях будь-якого розміру, від маленьких стартапів до великих корпорацій. Він також повністю сумісний з великими сховищами даних, такими як BigQuery, Snowflake, Redshift і інші. Однією з ключових переваг DBT є його вартість. При виборі інструменту для проєкту, ключовим є визначення бюджету на програмне забезпечення. DBT – це відкритий інструмент, який може бути використаний абсолютно безкоштовно.

«DBT надає можливість відстежувати зміни в даних. Це дозволяє вам точно визначити, які дані були змінені, коли це сталося, і відстежувати історію даних. Ця функція дуже корисна під час аналізу та побудови моделей на основі даних. Нарешті, DBT є дуже кастомізованим інструментом. Ви можете використовувати додаткові пакети, які розширюють його функціональність. Це можуть бути різні розширення, такі як тести або інші функціональні особливості, що допомагають вам при роботі з даними», — Ілля Маляренко, Data\BI Engineer у компанії Yalantis.

Хоча у PySpark і DBT є спільні аспекти, ці технології можуть бути використані для різних цілей в обробці даних. PySpark зазвичай використовується на етапі обробки та аналізу даних, включаючи очищення, трансформацію та візуалізацію, тоді як DBT фокусується на побудові моделей даних та інтеграції з Data warehouse. Обидві технології можуть бути корисними в екосистемі обробки даних для різних завдань та потреб.

«Навіщо нам взагалі потрібно працювати з Big Data? Аналіз даних відіграє ключову роль у прийнятті рішень та розвитку бізнесу. Він допомагає не лише зрозуміти, що сталося в минулому, а й спрогнозувати майбутнє. Тобто аналіз даних дозволяє нам виявляти тенденції, патерни, кореляції. Всі дані, які при поверхневому аналізі можуть бути невидимі. Це допомагає бізнесу реагувати на зміни, попереджати можливі проблеми. Аналіз даних допомагає визначити найбільш ефективні маркетингові кампанії, аудиторії та канали комунікації. Дозволяє нам ефективно витрачати бюджет та залучати нових клієнтів, робити аналіз прибутковості», – Віктор Польовий, Data Engineer у компанії Yalantis.

Підходи до роботи з Big Data можуть містити використання розподілених обчислень. Розподілені обчислення – це метод, при якому велике завдання розбивається на менші підзавдання та обробляється паралельно на різних обчислювальних ресурсах. PySpark – це один з інструментів для реалізації розподілених обчислень в середовищі Python, і він часто використовується для обробки та аналізу великих обсягів даних, таких як Big Data. 

Отже, BI&Data – нероздільні поняття. Це вміння не лише працювати з даними будь-яких об’ємів, але і виявляти інсайти, пропонувати найкращі аналітичні моделі та візуалізації, способи оптимізації ресурсів для бізнесу.

Отримайте записи виступів спікерів Yalantis за посиланням, щоб дізнатися більше про впровадження Data Driven та BI підходів у бізнес.

Yalantis — українська аутсорсингова компанія, якій у 2023 році виповнюється 15 років. Команда Yalantis нараховує 500 спеціалістів. Компанія має офіси у Варшаві, Дніпрі, Києві, Львові та Ларнаці та понад 200 проєктів у своєму портфоліо. Переглянути актуальні вакансії можна на DOU.