#31 Effiziente Datenverarbeitung

#31 Effiziente Datenverarbeitung

1 Stunde 18 Minuten
Podcast
Podcaster
Entwicklern und Nerds spannende und innovativen Technologien näher bringen - das ist das Ziel von Techtiefen. In jeder Folge wird ein Thema in einem intensiven Gespräche mit wechselnden Experten und Expertinnen ausführlich erklärt. Dabei haben wir den...

Beschreibung

vor 4 Jahren
Uwe Korn ist Data Engineer und engagiert sich seit mehreren Jahren
in verschiedenen Open Source Projekten, insbesondere Apache Parquet
und Apache Arrow. Apache Parquet ist ein spaltenorientiertes
Speicherformat für tabellarische Daten, mit einer guten Schreib-
und Leseperformance für Batch-Prozesse. Parquet erfasst dazu beim
Schreiben die Datentypen und zahlreiche Metriken, um mit
eingebauter Komprimierung die Dateigröße deutlich zu komprimieren.
Dazu reden wir auch über andere Datenformate wie Avro, CSV, ORC,
Hdf5 und Feather. Apache Arrow ist ein In-Memory Speicherformat für
Daten, welches die Brücke zwischen zahlreichen den
Programmiersprachen schlägt. Dadurch wird es möglich, in C-Code,
Java, Rust oder einer der anderen implementierten Sprachen auf die
gleichen Daten zuzugreifen. Uwe erklärt uns, wie diese
Sprach-Brücke funktioniert und wie Arrow zukünftig nicht nur zur
Haltung sondern auch zur Verarbeitung von Daten eingesetzt werden
kann. Zum Abschluss befrage ich Uwe zu seinem Engagement im Open
Source Umfeld. Wie hat er den Einstieg gefunden? Wie lässt sich
Open Source mit Beruf und Privatleben vereinbaren? Und worauf
sollte man achten, wenn man selbst ein Open Source Projekt
unterstützen möchte? Weiter Links: ChanZuckerberg-Stiftung
unterstützen Arrow

Weitere Episoden

45 Developer Advocacy
1 Stunde 38 Minuten
vor 6 Monaten
44 Big Data auf K8s mit Stackable
1 Stunde 14 Minuten
vor 7 Monaten
43 Frauen in der IT
50 Minuten
vor 9 Monaten
42 AI Chatbots & Open-Assistant
2 Stunden 32 Minuten
vor 1 Jahr
#41 WebAssembly
1 Stunde 8 Minuten
vor 1 Jahr

Kommentare (0)

Lade Inhalte...

Abonnenten

15
15
:
: