Uncle Data
By Tomas Peluritis
A podcast about different data topics - Data Engineering, Analytics, Data Science
Talking with specialists in different fields, getting their input on different topics and just nerding out data-related matters.
Uncle DataDec 15, 2023
Data Observability and LiTech with Raiko Limmart
Summary
Raiko Limmart, CEO and co-founder of LiTech (https://LiTech.app for a prolonged demo, mention Uncle Data!), discusses the importance of data observability and its challenges. He shares his journey into data quality assurance and explains the components of data observability, including data validation, profiling, and cataloguing. Raiko highlights the need for companies to start early with data observability and offers insights into LiTech's services, which automate data validation, detect anomalies, and provide insights on data quality. He also discusses the role of machine learning and AI in data observability and emphasizes the importance of establishing a data culture within organizations.
Takeaways
- Start early with data observability to ensure accurate and reliable analytics and decision-making.
- Data observability is a collaborative process that requires the proper tooling, defined processes, and a data-driven mindset.
- LiTech offers a user-friendly data observability solution that automates data validation, detects anomalies, and provides insights on data quality.
- Companies should prioritize data literacy and SQL skills to implement data observability effectively.
- Establishing a data culture and involving the data team in decision-making is crucial for successful data observability implementation.
PyCon Lithuania with Aidis Stukas and Inga Pliavgo
Have you ever wondered what happens behind the scenes in organizing conferences? In this episode, we have Aidis and Inga, who are organizers of PyCon LT (probably the biggest Python event in the region!). Tune in to the tips on how to get your talk into the conferences, if Chat GPT can help you write an abstract and description, and what other Python conferences are a must to see!
PyCon Newsletter Registration link:
https://mailchi.mp/33c3df7619af/pyconlt-2019
PyCon.lt Website: https://pycon.lt/2024
From Code to Leadership with Tomas Ivanaitis
Welcome to another engaging episode of our podcast series! In this special edition, we're thrilled to have Tomas Ivanaitis, the head of data engineering at Surfshark and a mentor par excellence. Tomas's journey in the dynamic world of data is about technical growth and nurturing leadership qualities.
🔍 What's Inside:
- Journey Through Data: Tomas unfolds his narrative, transitioning from programming to mastering data engineering.
- Leadership in Data: Gain insights into how data engineering intertwines with effective team management and leadership skills.
- Mentoring the Next Gen: Learn from Tomas's approach to mentorship, shaping the future of data professionals.
- Crafting High-Performance Teams: Discover the art of building and leading powerful data teams in a rapidly evolving tech landscape.
📈 Why Tune In? This episode is more than just a conversation; it's a reservoir of lessons, experiences, and wisdom for anyone passionate about data, leadership, and career development. Don't miss out on these invaluable insights from one of the leading minds in data engineering!
#DataEngineering #CareerGrowth #Leadership #Mentorship #TechPodcast
Altinity, OLAP Databases, ClickHouse, and the Quest for Real-Time Insights with Robert Hodges
Join us in this enlightening episode as we sit down with Robert Hodges, a seasoned expert in databases and programming. We delve into the fascinating evolution of programming languages, discussing the rise of Rust, the dominance of Java in the US, and C++'s stronghold in Eastern Europe.
Robert offers a deep dive into ClickHouse, highlighting its unique development in C++ and its seamless integration capabilities with Kafka. We explore the universality of SQL, its enduring relevance, and the challenges its syntax presents, even to seasoned developers.
For those keen on expanding their knowledge, Robert recommends the transformative book "Java Concurrency in Practice" by Brian Goetz, which sheds light on Java's concurrency features and the intricacies of the Java memory model.
We also touch upon the evolution of Perl, drawing parallels with languages like COBOL, and reflect on the invaluable role books have played in the journey of many developers.
Whether you're a database enthusiast, a programming language aficionado, or someone keen on the intricacies of data processing, this episode promises a wealth of insights. Tune in!
Lost Art of Data Modelling and Reconfigured with Niko Korvenlaita
In this episode, Niko Korvenlaita and Tomas Peluritis discuss the importance of accurate data processing, the role of data engineers, and the significance of aligning data projects with business needs. They explore data modelling, semantic layers, and the power of metadata in making data more accessible. Plus, discover their top book recommendations for diving into the world of data.
Navigating Data Consultancy: Insights from Rytis Jonas Zolubas
In this enlightening episode of my podcast, join me, Tomas Peluritis, as I engage in a captivating conversation with Rytis Jonas Zolubas, a seasoned data professional. Together, we dive deep into the realm of data consultancy, sharing our collective wisdom and experiences to guide both data consultants and companies seeking consultancy services. Through our dialogue, we explore the pivotal moments that prompt professionals to shift from full-time roles to consultancy, the nuances of consultancy work, effective strategies for client interactions, the dynamics of holiday management in the consultancy world, and the industries that frequently leverage consultancy expertise. Rytis and I offer candid anecdotes, practical advice, and valuable insights, making this episode a must-listen for data enthusiasts considering a consultancy path or businesses in search of external data insights. Tune in to gain a comprehensive understanding of the intricacies of data consultancy from the perspectives of two seasoned industry insiders.
Beyond Senior Engineer with Jev Gamper
Exploring Career Paths in Tech: ICs vs. People Managers
Had an insightful conversation with Jev Gamper on the dynamic roles of Individual Contributors (ICs) and People Managers in the tech industry. 🔍 Here are some key takeaways from our discussion:
- Diverse Paths, Equal Impact: Both ICs and People Managers contribute significantly to decision-making and strategic direction in a company. The choice depends on personal strengths and aspirations.
- Enabling Growth: Encouraging individual growth is essential. From writing documentation to communication, both roles play a vital role in enabling teams and individuals to solve problems effectively.
- Transitioning Between Paths: The transition between IC and People Manager roles can be challenging but rewarding. Recognize when it's time to experiment and find the path that suits you best.
- Empowerment Through Sharing: Openly sharing stories and experiences breaks down stigmas. The tech community benefits from understanding and embracing different career paths.
- Long-Term vs. Short-Term Strategy: Consider long-term goals while optimizing your career path. Reflect on whether you're focusing on immediate gains or long-term growth.
- Impact of Luck: Acknowledge the role of luck in career paths. Be humble and empathetic towards others, and create safe spaces for experimentation.
- Tech Industry's Influence: The advancement of the tech industry influences the demand for specialized roles, including Senior ICs. Embrace the potential to be a deep domain expert.
Curious to dive deeper? Check out the thought-provoking post "Always Be Quitting" by JMMV, exploring career growth mindset: https://jmmv.dev/2021/04/always-be-quitting.html
Recommended reads:
- "Staff Engineer: Leadership beyond the management track" by Will Larson
- "The Staff Engineer's Path" by Tanya Reilly
Let's continue the conversation! What are your thoughts on the evolving landscape of tech roles? Share your experiences and insights below.
#TechRoles #CareerPath #IndividualContributors #PeopleManagers #TechCommunity
Developer Relations with Brian "bits" Olsen
Have you ever wondered what Developer Advocates, DevRel people do? So did I, and I got Brian on a call to talk about it. Interesting to hear his perspectives on different topics, such as Benchmarketing, the "Ice cream" funnel, what's essential for DevRel, and what angles you could pursue in this area.
Check out "Test Themselves" https://www.youtube.com/watch?v=FSy8V-R0_Zw
Subscribe to Brian's Substack, where he covers this topic more deeply:https://bitsondatadev.substack.com/
[EN] Data Team in Hostinger with Valentinas Mitalauskas
While doing my podcast in Lithuanian only, I was looking for companies who, in my eyes, should be interesting to talk about how they work. I've heard about Hostinger in different contexts, and one thing led to another, and I'm talking to Valentinas. It was very interesting to hear how they operate, their data teams structure, its position in the company and how the hiring process looks. If you want to hear it yourself - tune in to this episode, and happy listening!
[EN] Barbora's Data Team with Andrius Didžiulis
Barbora is an eCommerce business in Lithuania that delivers groceries to your doorstep. For quite a while, it was interesting to me how in such a company, a data team is operating. I approached Andrius some time ago, but then we lost touch (holidays, busy days, etc.), so after a while, we circled back and caught up on all of these topics. As usual, for these kinds of series, we covered structure, ways of working, the hiring process and how the team operates. Happy listening!
PyCon LT 2023 | Ritchie Vink (Polars) and Marc Garcia (Pandas)
PyCon LT 2023 | Samuel Colvin Pydantic
Pydantic, I didn't know about this library up until like mid of last year when one candidate sent a task with this library used, then there was a boom in Linkedin that it's being rewritten in Rust for v2. Got my opportunity to talk to its creator Samuel Colvin during PyCon LT 2023. Was a blast for me; listen in on what we talked about!
PyConLT 2023 | Justinas Kuizinas Corner Case Technologies
Corner Case Technologies started to appear in my LinkedIn feed, first because of Python meetups, then because of a Python internship. Stars aligned, and I had an opportunity to talk to Justinas Kuizinas (CTO at Corner Case Technologies) about these things and more!
[LT] Lietuvos Banko duomenų komandos. Svečiuose Edita Lukaševičiūtė
Visiems tikrai žinomas Lietuvos Bankas, bet bent man jau labai mažai kas žinoma apie jų duomenų komandas. Sprendžiau šią problemą labai paprastai, pasikalbinau Editą, kuri mielai papasakojo ir praplėtė mano žinių akiratį, kokioje duomenų brandumo situacijoje yra Lietuvos Bankas, kaip pasidalinę sritimis, kokį kelią perėjo ir begalę kitų įdomių dalykų. Paklausykit ir jūs.
[LT] Ignitis Duomenų komandos. Svečiuose Paulius Alaburda
Labai didelė įmonių grupė. Dariusi savo IPO biržoje ir su tuo daug įdomių straipsnių susijusių matėme ir dar karts nuo karto matome. Žinant įmonės mąstą, labai smalsu išgirsti kaip tokioje įmonėje sudėliotos duomenų komandos, jų atsakomybės ir darbo principai. Iš tikrųjų prieš pokalbį su Paulium negalvojau, kad tokius įrankius jie naudoja ir tikrai likau maloniai nustebintas. Jei norite išgirsti kas mane nustebino - paklausykite ir jūs.
[EN] PyCon LT 2023, Rust ❤️ Python
[LT] Trafi duomenų komandos. Svečiuose Dominykas Sedleckas
Vienas iš tikrai gerai visiems žinomų startuolių "Trafi". Su manimi sutiko pakalbėti Dominykas Sedleckas, šiuo metu einantis CTO pareigas. Smagu susipažinti ir išgirsti kokius pomėgius turi mano kalbinami žmonės. O jei jau einam prie tinklalaidės reikalų: buvo įdomu sužinoti kokia duomenų komandų istorija šioje įmonėje, kaip vyskta darbinimosi procesai. Smagu visada išgirsti apie įmonių transformacijas ir kaip jos vyksta (arba dėl ko prasidėjo), tad "Trafi" šiuo metu irgi juda prie kitokių duomenų komandos struktūrų ir veikimo principų. Na, o jūs paklausykit patys, kaip jiems sekasi, ką jie veikia.
[LT] Beyond įmonių grupė. Svečiuose Mantas Zabarauskas
[LT] Kilo.Health Duomenų komandos. Svečiuose Petras Šeika
Spalvinga ir gerai žinoma įmonė Kilo.Health, turinti daugelį produktų. Man asmeniškai pačiam buvo labai įdomu kaip struktūrizuotos komandos ir kaip jos dirba. Pamaniau puiki proga išgirsti tai iš Petro Šeikos.
[LT] CarVertical Duomenų komandos. Svečiuose Audrius Kučinskas
Tęsiu pokalbius su įvairių įmonių atstovais ir duomiuosi jų duomenų komandų sudėtimis, veikimo principais ir darbinimosi procesais. Šį kartą pakalbinau Audrių Kučinską iš CarVertical. Asmeniškai labai patiko ką išgirdau. TIkiuosi patiks ir jums!
[LT] Duomenų komandos Telia. Svečiuose Daina Rutkauskienė
[LT] High performance komandos. Svečiuose Ernestas Babachinas
[LT] Duomenų komandų struktūros. Svečiuose Grinvydas Kareiva
[LT] Duomenų departamentas nuo nulio. Svečiuose Rytis Ulys
Ar buvo kilę minčių, kaip elgtis gavus tokią įdomią, bet sudėtingą užduotį - komandos ir/ar departemento lipdymas nuo nulio? Šią temą ir bandėm pagvildenti su Ryčiu. Paklausykit ir jūs ;)
[LT] Duomenų atstovų darbo rinka ir ypatybės. Svečiuose Karolina Ustilo-Kačinauskė ir Urtė Savickienė
Nežinau kaip jums, bet man visada buvo smalsu, kaip darbo procese veikia HR/Recruitment pusė. Į ką atkreipia dėmesį, ką vertėtų, o ko nederėtų daryti. Šiam klausimui atsakyti svečiuose turėjau Karoliną Ustilo-Kačinauskę ir Urtę Savickienę. Pakalbėjom apie rinką, kas vyksta, kokios tendencijos, į ką dėmesį atkreipia in-house recruiter'iai ir kaip į tą žiūri agentūros. Dvi kaip ir tos pačios sferos atstovės, bet su skirtingais požiūriais.
[LT] Atvirojo kodo programos ir Duomenų modeliavimas. Svečiuose Gytis Repečka
Šiai tinklalaidei pasikvieičiau Gytį Repečką, kad pasidalintų savo mintimis ir požiūriu apie atvirojo kodo programas ir duomenų modeliavimą.
Atvirojo kodo programos tampa kai kurių įmonių pagrindiniu produktu. Pavydžiui Astronomer, Databricks, Preset ir daugelis kitų. Įdomu buvo bendrai sužinoti daugiau informacijos apie tai iš žmonių, kurie daugiau žino. Papildomai dar palietėme kitas temas kaip privatumas ir etiniai socialiniai tinklai.
Bet tinklalaidės pagrindinė tema buvo duomenų modeliavimas. Palietėme daugybę pasirinkimų nuo žvaigždės/snaigės schemų iki Data Vault ar normalizuoto duomenų modelio. Pakalbėjom ir apie lakehouse ir bendrai, kaip ankstesnės tiesos, kurios prasidėjus didžiųjų duomenų erai buvo nurašytos kaip atgyvenos, dabar grįžta atgal.
Gyčio minėtos knygos:
- MEIER, Andreas; KAUFMANN, Michael. (2019) SQL & NoSQL Databases. Wiesbaden: Springer Vieweg. ISBN 978-3-658-24548-1
- W.H. Inmon, Daniel Linstedt, Mary Levins (2019) Data Architecture. A Primer for the Data Scientist. Second Edition. Elsevier. ISBN 978-0-12-816916-2
- Alex Petrov (2019) Database Internals. A deep dive into how distributed data systems work. O'Reilly Media. ISBN 978-1-4920-4034-7
[LT] Duomenų žmonės Exacaster. Svečiuose Eglė Baradinskienė
Pakalbinus Egidijų, norėjosi sužinoti daugiau apie su duomenimis dirbančiais žmones. Tam pakalbinau Eglę su klausimais apie jų naudojamą data stack'ą, pareigybes (pasirodo turi penkis nestandartinius bent mano akimis lygius), kaip jiems sekasi dirbti su Šiaurės ir Pietų Amerikos klientais ir manau visais kitais man bent įdomiais klausimais.
[LT] Exacaster. Svečiuose Egidijus Pilypas
Neslėpsiu, seniai seniai, bandžiau darbintis į šią įmonę. Jau tuomet mane buvo sužavėjusi, kad naudojosi didžiųjų duomenų technologijomis. Būdamas dar pakankamai jaunas, išsigandau iššūkio ir nežinios ir pats nutraukiau procesą, bet apie įmonę ir joje dirbančius žmones girdžių iki šiol. Ši tinklalaidė yra dar kitokio pobūdžio. Labai šiltas ir nuotaikingas pokalbis su Egidijum Pilypu, vienu iš įmonės įkurėjų. Apie įmonės atsiradimo istoriją, pavadinimą, bei jų rinką ir nuo ko viskas prasidėjo.
[LT] Turing College. Svečiuose Giedrius Žebrauskas
Ar jums kaip ir man kyla klausimų ką žmonės ir kaip bendrai veikia Turing College? Mano akimis vienas iš garsesnių data ruošimo platformų. Pakalbinau Giedrių Žebrauską (Head of Education) įvairiais susijusiais klausimas. Jei įdomu ir jums - siūlau pasiklausyti.
[LT] A/B Testavimas. Agnė Reklaitė ir Jevgenij Gamper
Kaip patikrinti savo nuojautą ir pagrįsti ją skaičiais? Šį kartą tinklalaidėje kalbinau Agnę Reklaitę ir Jevgenij Gamper apie A/B testus. Kaip tai paaiškinti penkiamečiui, nuo ko pradėti ir į ką atkreipti dėmesį ir ne tik!
Agnės minėtas naujienlaiškis: https://www.getrevue.co/profile/tomvandenberg.
Jevegnij GitHub repozitorija su nuorodomis į straipsnių kolekciją: https://github.com/jgamper/experimentation-resources
Straipsnis apie grupių saveiką:
https://dl.acm.org/doi/abs/10.1145/3530019.3534978
[LT] Ką žmonės veikia per dieną? Duomenų infrstruktūros, debesijos inžinieriai. Svečiuose Saulius Grigaliūnas
Ar nekilo klausimų, ką veikia debesijos inžinieriai? Kokių sugebėjimų reikia turėti norint tokiu tapti? O Duomenų infrastruktūros inžinierius? Šį kartą į svečius pasikviečiau Saulių Grigaliūną padėti atsakyti į šiuos ir kitus eteryje skambėsiančius klausimus. Smagaus klausymo!
[LT] Duomenų svarba. Svečiuose Tomas Petras Rupšys
Pas duomenų dėdę užsuko Tomas Petras Rupšys. Kalbėjome tikrai įdomia tema - duomenų svarba įmonėje iš programuotojo ir vadovo perspektyvos. Labai patiko Tomo požiūris ir pasidalintos mintys. O knygų rekomendacijos... Siūlau ir jums paklausyti ką mes pakalbėjom.
[LT] Ką žmonės veikia per dienas? Edvin Dudinskij. Duomenų vizualizacijos
Dalis nuorodų minėtų tinklalaidėje:
Data visualization Lietuvoje: www.linkedin.com/groups/9024309
Data visualization society: www.datavisualizationsociety.org
Alberto Cairo: twitter.com/albertocairo
The Guardian data team: twitter.com/guardiandata
The Economist data team: twitter.com/econdailycharts
Data storytelling LinkedIn page: www.linkedin.com/company/storytelling-with-data-llc/
[LT] Ką žmonės veikia per dienas? Duomenų/Verslo analitikai. Svečiuose Šarūnas Kasnauskas
[LT] Ką žmonės veikia per dienas? Duomenų mokslininkai. Svečiuose Tomas Rasymas
[LT] Diskusija renkantis duomenų infrastruktūros komponentus. Svečiuose Valdas Maksimavičius
[LT] Ką veikia žmonės per dienas? Eligijus Bujokas, Mašininio mokymosi inžinierius
Naujas formatas, kur kalbinu įvairių duomenų sričių žmones. Šį kartą kalbinu Mašininio mokymosi inžinierių Eligijų Bujoką.
Jo LinkedIn: https://www.linkedin.com/in/eligijus-bujokas-a27676120/
Medium: https://eligijus-bujokas.medium.com/
[LT] Interviu
[LT] Delta Lake
Užsakomoji laida, pagal pageidavimus klausytojų. Nežinau ar labai į tą pusę nukrypau į kurią tikėjosi jie.
Trumpas intro į kas yra Delta Lake ir tris pagrindinius atvirojo kodo saugojimo formatus (Apache Iceberg, Delta, Apache Hudi)