#31 Effiziente Datenverarbeitung ~ Techtiefen Podcast

Uwe Korn ist Data Engineer und engagiert sich seit mehreren Jahren
in verschiedenen Open Source Projekten, insbesondere Apache Parquet
und Apache Arrow. Apache Parquet ist ein spaltenorientiertes
Speicherformat für tabellarische Daten, mit einer guten Schreib-
und Leseperformance für Batch-Prozesse. Parquet erfasst dazu beim
Schreiben die Datentypen und zahlreiche Metriken, um mit
eingebauter Komprimierung die Dateigröße deutlich zu komprimieren.
Dazu reden wir auch über andere Datenformate wie Avro, CSV, ORC,
Hdf5 und Feather. Apache Arrow ist ein In-Memory Speicherformat für
Daten, welches die Brücke zwischen zahlreichen den
Programmiersprachen schlägt. Dadurch wird es möglich, in C-Code,
Java, Rust oder einer der anderen implementierten Sprachen auf die
gleichen Daten zuzugreifen. Uwe erklärt uns, wie diese
Sprach-Brücke funktioniert und wie Arrow zukünftig nicht nur zur
Haltung sondern auch zur Verarbeitung von Daten eingesetzt werden
kann. Zum Abschluss befrage ich Uwe zu seinem Engagement im Open
Source Umfeld. Wie hat er den Einstieg gefunden? Wie lässt sich
Open Source mit Beruf und Privatleben vereinbaren? Und worauf
sollte man achten, wenn man selbst ein Open Source Projekt
unterstützen möchte? Weiter Links: ChanZuckerberg-Stiftung
unterstützen Arrow

#31 Effiziente Datenverarbeitung

Beschreibung

Weitere Episoden

45 Developer Advocacy

44 Big Data auf K8s mit Stackable

43 Frauen in der IT

42 AI Chatbots & Open-Assistant

#41 WebAssembly

Kommentare (0)

Abonnenten

Anmelden mit