#31 Effiziente Datenverarbeitung
1 Stunde 18 Minuten
Podcast
Podcaster
Entwicklern und Nerds spannende und innovativen Technologien näher bringen - das ist das Ziel von Techtiefen. In jeder Folge wird ein Thema in einem intensiven Gespräche mit wechselnden Experten und Expertinnen ausführlich erklärt. Dabei haben wir den...
Beschreibung
vor 3 Jahren
Uwe Korn ist Data Engineer und engagiert sich seit mehreren Jahren
in verschiedenen Open Source Projekten, insbesondere Apache Parquet
und Apache Arrow. Apache Parquet ist ein spaltenorientiertes
Speicherformat für tabellarische Daten, mit einer guten Schreib-
und Leseperformance für Batch-Prozesse. Parquet erfasst dazu beim
Schreiben die Datentypen und zahlreiche Metriken, um mit
eingebauter Komprimierung die Dateigröße deutlich zu komprimieren.
Dazu reden wir auch über andere Datenformate wie Avro, CSV, ORC,
Hdf5 und Feather. Apache Arrow ist ein In-Memory Speicherformat für
Daten, welches die Brücke zwischen zahlreichen den
Programmiersprachen schlägt. Dadurch wird es möglich, in C-Code,
Java, Rust oder einer der anderen implementierten Sprachen auf die
gleichen Daten zuzugreifen. Uwe erklärt uns, wie diese
Sprach-Brücke funktioniert und wie Arrow zukünftig nicht nur zur
Haltung sondern auch zur Verarbeitung von Daten eingesetzt werden
kann. Zum Abschluss befrage ich Uwe zu seinem Engagement im Open
Source Umfeld. Wie hat er den Einstieg gefunden? Wie lässt sich
Open Source mit Beruf und Privatleben vereinbaren? Und worauf
sollte man achten, wenn man selbst ein Open Source Projekt
unterstützen möchte? Weiter Links: ChanZuckerberg-Stiftung
unterstützen Arrow
in verschiedenen Open Source Projekten, insbesondere Apache Parquet
und Apache Arrow. Apache Parquet ist ein spaltenorientiertes
Speicherformat für tabellarische Daten, mit einer guten Schreib-
und Leseperformance für Batch-Prozesse. Parquet erfasst dazu beim
Schreiben die Datentypen und zahlreiche Metriken, um mit
eingebauter Komprimierung die Dateigröße deutlich zu komprimieren.
Dazu reden wir auch über andere Datenformate wie Avro, CSV, ORC,
Hdf5 und Feather. Apache Arrow ist ein In-Memory Speicherformat für
Daten, welches die Brücke zwischen zahlreichen den
Programmiersprachen schlägt. Dadurch wird es möglich, in C-Code,
Java, Rust oder einer der anderen implementierten Sprachen auf die
gleichen Daten zuzugreifen. Uwe erklärt uns, wie diese
Sprach-Brücke funktioniert und wie Arrow zukünftig nicht nur zur
Haltung sondern auch zur Verarbeitung von Daten eingesetzt werden
kann. Zum Abschluss befrage ich Uwe zu seinem Engagement im Open
Source Umfeld. Wie hat er den Einstieg gefunden? Wie lässt sich
Open Source mit Beruf und Privatleben vereinbaren? Und worauf
sollte man achten, wenn man selbst ein Open Source Projekt
unterstützen möchte? Weiter Links: ChanZuckerberg-Stiftung
unterstützen Arrow
Weitere Episoden
1 Stunde 38 Minuten
vor 5 Monaten
1 Stunde 14 Minuten
vor 6 Monaten
50 Minuten
vor 8 Monaten
2 Stunden 32 Minuten
vor 1 Jahr
1 Stunde 8 Minuten
vor 1 Jahr
In Podcasts werben
Abonnenten
Berlin
Kommentare (0)