oddanychdodanych
By Marcin Siudziński
W kolejnych odcinkach opowiadam o tym, jakie znaczenie dla biznesu ma przetwarzanie informacji, patrząc oczami inżyniera danych. Dowiesz się na czym polega ta rola oraz w jaki sposób dobrze wykorzystać ją w biznesie, jak prawidłowo budować zespół i przetwarzać dane, czego się nauczyć żeby zostać inżynierem danych lub lepiej zrozumieć proces ich przetwarzania.
Nieważne, czy jesteś programistą, administratorem, architektem czy managerem - w tej audycji znajdziesz wszystko, co potrzebne, aby zacząć i rozwijać Twoją przygodę z danymi!
oddanychdodanychAug 31, 2021
005 - Czy już nadszedł odpowiedni moment, żeby pomyśleć o BigQuery?
Czy wiesz, że dzięki BigQuery można zbudować małą hurtownię danych zupełnie za darmo? Czy wyobrażasz sobie wykorzystanie BigQuery w małej rodzinnej firmie, która produkuje dania obiadowe i kanapki?
Po długiej, wakacyjnej przerwie przyszła pora na kolejny odcinek podcasu. Tym razem trochę różni się od pozostałych, ponieważ opowiem o BigQuery, ale z nieco innej perspektywy niż możesz się spodziewać. BigQuery na pewno kojarzy się z przetwarzaniem gromnych ilości danych, w petabajtowej skali, czyli klasyczne Big Data. I to wszystko się zgadza, jednak nie jest to cała prawda o BigQuery.
O tym i nie tylko usłyszysz w najnowszym odcinku podcastu. Spojrzymy na to trochę od strony biznesowej, trochę z perspektywy architekta rozwiązań, który może zbudować całkiem potężny system zarządzający procesami w przedsiębiorstwie, którego model działania nie może wykorzystać istniejących rozwiązań. A wszystko to w błyskawicznym tempie i niskim kosztem, wykorzystując w większości gotowe narzędzia.Opowiem też o tym, czym różni się BigQuery od innych narzędzi BigData, takich jak np. Hadoop oraz o tym, kiedy można czerpać największe korzyści z usług typu serverless, bo nie do końca prawdą jest, że serverless sprawdza się najlepiej w dużej skali.
A wszystko to będzie poparte realnym przykładem z życia wziętym, w którym koszty infrastruktury systemów informatycznych dla małego przedsiębiorstwa mieściły się w kwocie 5 zł miesięcznie. Tak, nie ma tu pomyłki, słownie pieć złotych miesięcznie, a konkretnie około 1$.
No i na koniec podzielę się moją prywatną opinią na temat źródła sukcesu wielu fajnych projektów i produktów z rynku IT.
Co tu więcej pisać, wszystko zostało już opowiedziane, więc posłuchaj w Twojej ulubionej aplikacji do podcastów.
Dla tych, którzy dotrwają do końca polecam uwadze 2 linki, godne uwagi:
- https://www.facebook.com/grzybekfood
- https://www.youtube.com/watch?v=DpxNEAqiIfc (odcinek serii Polimaty 2 o rodzajach motywacji - polecam w szczególności fragment rozpoczynający się około 4 minuy)
004 - Inmon, Kimball czy Lindstedt - rozmowa o hurtowniach danych z Arkiem Kasprzakiem
Hurtownie danych oraz Business Intelligence na dobre zagościły w naszej świadomości. Czy jednak zastanawialiście się kiedyś jak zbudowana jest taka hurtownia? Którą z architektur wybrać? A jaki związek będzie miała hurtownia danych i "Big Data"? Mój gość opowie o tym, jak podejś do tego tematu.
Poniżej znajduje się lista linków do materiałów, o których wspominamy podczas rozmowy:
Blog: https://oceandanych.pl/
Kurs: https://sqlanalityczny.pl
Artykuł o nowoczesnych hurtowniach: https://oceandanych.pl/hurtownie-danych-lakehouse/
Artykuły o Data Vault:
- https://blog.gft.com/pl/2019/04/15/data-vault-2-0-jako-nowa-metodyka-projektowania-i-implementowania-hurtowni-danych/
- https://blog.gft.com/pl/2019/05/06/techniczne-aspekty-modelowania-hurtowni-danych-opartej-na-metodyce-data-vault-2-0/
- https://blog.gft.com/pl/2019/05/23/zarzadzanie-projektem-opartym-na-architekturze-data-vault/
Książka o Data Vault: https://www.amazon.com/Building-Scalable-Data-Warehouse-Vault/dp/0128025107
003 - W kropki i w paski, czyli o co chodzi w kolumnowych bazach danych
Tradycyjne bazy danych wykorzystują najczęściej wierszowy tryb składowania danych, ale w ciągu ostatnich kilku lat bardzo często spotykamy się również z formatem kolumnowym. Jak najprościej wytłumaczyć różnicę pomiędzy jednym a drugim? Ja postaram się ją zaprezentować na przykładzie garderoby, w której nasze ubrania mogą być posortowane na dwa różne sposoby. W tym odcinku dowiesz się, kiedy stosować formaty kolumnowe, a kiedy należy ich unikać, bo jak to zwykle bywa, jeśli coś jest do wszystkiego, to na koniec jest do niczego. W procesie ewolucji gatunki zwierząt dopasowują się do swojego otoczenia, żeby przetrwać i z takiego wzorca warto skorzystać wybierając bazę danych do nowego systemu. Jak dopasować ją do konkretnych warunków i wymagań?
002 - Co w Big Data piszczy?
W tym odcinku dowiesz się co oznacza Big Data oraz jaki wpływ na świat Big Data miało założenie firmy Google.
W odcinku wytłumaczone zostanie do czego służy HDFS i Map Reduce, co mają wspólnego z usługami takimi jak AWS S3, Google Cloud Storage czy Azure Blob Storage oraz jak ogarnąć pliki nie mieszczące się na żadnym fizycznym nośniku danych.
001 - Data Engineer vs. Data Scientist
Pierwszy odcinek nowego podcastu opisującego nowoczesny proces przetwarzania danych.
W pierwszym odcinku dowiesz się, kim jest Data Engineer oraz Data Scientist i poznasz różnice dzielące te dwa zawody. Dowiesz się też w jaki sposób nie wtopić na projekcie, którego istotnym elementem jest przetwarzanie danych.
Poniżej znajdziesz linki do artykułów wspominanych w tym odcinku:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
- https://www.oreilly.com/radar/data-engineers-vs-data-scientists/
000 - trailer
Zapowiedź nowego podcastu opisującego proces przetwarzania danych i prezentujący punkt widzenia doświadczonego specjalisty zajmującego się tą dziedziną od wielu lat. Podcast będzie zawierał wskazówki zarówno techniczne, jak i biznesowe, będzie drogowskazem pokazującym kierunek rozwoju dla wszystkich osób, które widzą jak duże znaczenie w naszym życiu i biznesie ma przetwarzanie i interpretacja danych. Serdecznie zapraszam do słuchania.