Kategorie
hurtownia danych Raportowanie

Jak uruchomić hurtownię danych – planowanie

1. Analiza potrzeb raportowych

Analiza potrzeb raportowych powinna rozpocząć się przeglądu używanych raportów. W drugim kroku powinieneś dokonać analizy potrzeb raportowych użytkowników. Analiza to dość duże wyzwanie. W mojego doświadczenia wynika, że w wielu przypadkach trudno jest otrzymać precyzyjną odpowiedź. Dobrym sposobem jest prośba o przygotowanie draftu raportu przez użytkownika. Jeśli ma on uświadomione potrzeby będzie umiał dość szybko przygotować wzoru raportów w excelu, jeśli nie to czeka Cię dużo pracy. 

Analiza potrzeb raportowych:

  • przegląd istniejących raportów
  • analiza projektów raportów przygotowanych przez użytkowników
  • przygotowanie draftów przez analityka

Jedno jest pewne “apetyt rośnie w miarę jedzenia” i potrzeby i raporty zmienią się. Potrzeba będzie kilku iteracji, aby ustabilizować główną listę raportów.

2. Przygotowanie źródeł danych

Po wykonaniu zestawu raportów możesz przystąpić do przygotowania źródeł danych. Realizując to zadanie powinieneś pamiętać o:

  • źródło danych tj. baza danych, plik, API lub inne źródło
  • zakres danych –  z każdego źródła tzn. jakie dane będziesz używał w raportach kolumny i jeśli to konieczne odpowiednie filtry. Przygotuj dane nadmiarowe tzn. wyobraź sobie kolejne potrzeby użytkownika i od razu dodaj je do przygotowywanych zakresów.
  • uprawnienia – jeśli nie będziesz mógł określić odpowiednich uprawnień w systemie raportowym powinieneś to zrobić na tym etapie i zróżnicować źródła w zależności od późniejszych uprawnień w raportach

3. Ustalenie struktury uprawnień

Struktura uprawnień jest bardzo ważnym elementem systemu raportowego. Musisz o niej pomyśleć, już na początkowym etapie projektowania hurtowni danych. W zależności od wybranego rozwiązania raportowego implementację uprawnień możesz wykonać na różnym etapie. 

Szczególnie ważne jest to kiedy zamiast systemu raportowego używać będziesz narzędzia, które bezpośrednio łączy się z bazą danych. Do takich rozwiązań należy Excel, czy też desktopowa wersja PowerBI. Zastosowanie jako narzędzia raportowego daje możliwość po zapisaniu połączenia do bazy dostęp do wszystkich danych, do których użytkownik wykorzystany do podłączenia. Dlatego też, w takie sytuacji powinieneś, przygotować użytkowników w bazie z odpowiednimi dostępami, aby niepowołani użytkownicy nie mieli dostępu do widoków/tabel. 

Jeśli używany przez Ciebie system raportowy posiada zarządzanie uprawnieniami wówczas nie ma konieczności definiowania przy projektowaniu tabel czy widoków w bazie danych. Niemniej jednak zaprojektowanie struktury uprawnień przed przystąpieniem do realizacji pomoże Ci w skutecznym wdrożeniu systemu.

Projektowanie uprawnień należy rozpocząć od skatalogowania raportów pod względem zawartości. Mogą one mieć następującą strukturę:

Raporty:

  • sprzedażowe
  • produktowe
  • magazynowe
  • księgowe
  • zarządcze

Powyższa struktura to wyłącznie przykład, którym możesz się zainspirować. Skonsultuj dostęp do danych z biznesem i ustal prawidłową strukturę uprawnień. 

4. Wybór narzędzia do raportowania

Jednym z najważniejszych kroków w uruchomieniu hurtowni danych jest wybór narzędzia do raportowania. Tak to może wydać się nie do końca logiczne. Dlaczego przed uruchomieniem hurtowni danych powinieneś wybrać system raportowy? Odpowiedź na to pytanie jest kilku wymiarowa. Po pierwsze niektóre systemy raportowe współpracują w konkretnym silnikiem bazy danych co ma mega znaczenie zanim stworzymy hurtownię. Po drugie jak już pisałem wcześniej systemy raportowe mają niewystarczające zarządzanie uprawnieniami. Przez to powinieneś zadbać o uprawnienia w innymi miejscu budowy hurtowni danych. Ostatnie jednak bardzo ważne pytanie brzmi czy system będzie w formule saas czy zainstalowany zostanie lokalnie. Ma to także, dość duży wpływ na sposób realizacji rozwiązania. 

Do najpopularniejszych systemów raportowych należą:

5. Narzędzie do tworzenia hurtowni

Najpopularniejsi dostawcy silników baz danych w wyższych wersjach licencjonowania mają narzędzia do budowania hurtowni danych. W rozwiązaniach Microsoft jest MS Analysis Services, Oracle ma Autonomous Data Warehouse. Są też narzędzia takie jak Tabelau, czy Pentaho Data Integration, które są niezależne od dostawców silnika bazy danych. 

Ja najczęściej korzystam z Pentaho Data Integration. Jest to narzędzie świetnie współpracujące z wieloma dostawcami baz danych tj. MS SQL, Oracle, MySQL, PostgreSQL, MariaBD i innymi. Transformacje danych wykonywane w Pentaho przetwarzane są bardzo sprawnie nawet na dużych ilościach danych. Nie są wymagają przy tym dużych zasobów sprzętowych. 

Zastosowanie Pentaho daje dużą elastyczność w zastosowaniu bazy danych na jakiej będzie pracowała hurtownia. Transformacje wykonywane przez ten system mogą być realizowane przez zapytania SQL oraz dla mniej zaawansowanych użytkowników poprzez zastosowanie odpowiednich elementów aplikacji.

Interface i projektowanie transformacji opiera się system drag and drop odpowiednich elementów tj. np. pobieranie danych z bazy danych czy pliku, zapis danych do tabeli, moduły obliczeniowe czy filtrujące.

Po zaprojektowaniu transformacji można je uruchamiać ręcznie lub za pomocą harmonogramu zadań zaplanowanych windows. 

Projektowanie hurtowni danych to niezwykła przygoda usprawniająca, porządkująca pracę każdego analityka. Jak raz zaczniesz to nie będziesz mógł przestać uwaga to uzależnia. Masz chciałbyś się podzielić swoimi doświadczeniami lub masz pytania napisz do mnie  marcin@karwowski.biz.

Kategorie
Raportowanie

Narzędzia dla analityka – ETL

Narzędzia ETL

Ilość danych zbieranych czy też pozostawianych przez obecnie używane systemy jest ogromna. WIele przedsiębiorstw nie wykorzystuje w pełni możliwości podejmowania decyzji na podstawie oraz w oparciu o dane pochodzące z własnych systemów. W większości firm są dane pochodzące z:

  • systemu ERP
  • strony sprzedażowej poprzez google analytics
  • systemu magazynowego
  • systemu księgowego
  • systemy CRM
  • i wielu innych

Połączenie powyższych danych jest dużym wyzwaniem. Często zdarza się, że znajdują się one w różnych silnikach bazy danych tj. MS SQL, PostgreSQL, Oracle, SAP czy też znajdują się w plikach excel, XLM, CSV, .dbf.

Rozwiązaniem umożliwiającym połączenie danych z różnych systemów / źródeł są narzędzia ETL (z języka angielskiego extraction, transformation, loading).

ETL to proces składający się z:

  • Ekstrakcji – pobranie danych z systemu źródłowego (ERP, CRM, GoogleAnalytics itp)
  • Transformacji – podproces, w ramach którego dane mogą być czyszczone, filtrowane, oraz obliczane wg reguł biznesowych
  • Ładowanie – do zewnętrznej tabeli raportowej czy też do zewnętrznej bazy danych raportowej / hurtowni danych podłączonej do systemu raportowego.

Do najpopularniejszych narzędzi ETL należą m.in.:

Zastosowanie narzędzi ETL umożliwia zintegrowane raportowanie z wielu źródeł, a co za tym idzie możliwość wykorzystania większej ilości danych i w konsekwencji skuteczniejsze podejmowanie decyzji biznesowych.

Daj znać jakich narzędzi używasz do raportowania czy też do budowania hurtowni danych marcin@karwowski.biz

więcej narzędzi usprawniających pracę analityka na szkolaanaliz.pl