#15 Praktisches Machine Learning mit Python
1 Stunde 54 Minuten
Podcast
Podcaster
Entwicklern und Nerds spannende und innovativen Technologien näher bringen - das ist das Ziel von Techtiefen. In jeder Folge wird ein Thema in einem intensiven Gespräche mit wechselnden Experten und Expertinnen ausführlich erklärt. Dabei haben wir den...
Beschreibung
vor 5 Jahren
In Folge 15 sind Jochen und Dominik vom Python Podcast zu Gast um
uns dem maschinellen Lernen zu widmen. Gemeinsam besprechen wir
ganz konkret die notwendigen Schritte, um Nachrichtentexte
automatisch Tags zuzuordnen. Einerseits diskutieren wir über das
richtige Tooling im Python-Umfeld, etwa Jupyter Notebooks, PyData
Tools wie numpy und pandas sowie unsere bevorzugten Plotting
Bibliotheken. Nach einer ersten Datenanalyse besprechen wir den
Umgang mit Null-Werten und wie man mit TF-IDF oder Word-Embeddings
den Text vektorisiert. Wir diskutieren verschiedene Algorithmen aus
der Scikit-Learn Bibliothek und erklären Pipelines und
Hyper-Parameter Tuning. Abschließend überprüfen wir die Güte
unserer Modelle anhand eines Klassifikations-Reports und streifen
Themen Skalierung, Deep Learning und vieles mehr. [Reuters
Dataset](https://martin-thoma.com/nlp-reuters/) [Pandas
Profiling](https://github.com/pandas-profiling/pandas-profiling)
[Pathlib](https://docs.python.org/3/library/pathlib.html)
[Modin](https://github.com/modin-project/modin)
[Pandarallel](https://github.com/nalepae/pandarallel)
[Dask](https://dask.org/) [Sklearn
Pipelines](https://www.kaggle.com/baghern/a-deep-dive-into-sklearn-pipelines)
[Management von Machine Learning
Modellen](https://www.inovex.de/blog/machine-learning-model-management/)
[kaggle](https://www.kaggle.com/)
uns dem maschinellen Lernen zu widmen. Gemeinsam besprechen wir
ganz konkret die notwendigen Schritte, um Nachrichtentexte
automatisch Tags zuzuordnen. Einerseits diskutieren wir über das
richtige Tooling im Python-Umfeld, etwa Jupyter Notebooks, PyData
Tools wie numpy und pandas sowie unsere bevorzugten Plotting
Bibliotheken. Nach einer ersten Datenanalyse besprechen wir den
Umgang mit Null-Werten und wie man mit TF-IDF oder Word-Embeddings
den Text vektorisiert. Wir diskutieren verschiedene Algorithmen aus
der Scikit-Learn Bibliothek und erklären Pipelines und
Hyper-Parameter Tuning. Abschließend überprüfen wir die Güte
unserer Modelle anhand eines Klassifikations-Reports und streifen
Themen Skalierung, Deep Learning und vieles mehr. [Reuters
Dataset](https://martin-thoma.com/nlp-reuters/) [Pandas
Profiling](https://github.com/pandas-profiling/pandas-profiling)
[Pathlib](https://docs.python.org/3/library/pathlib.html)
[Modin](https://github.com/modin-project/modin)
[Pandarallel](https://github.com/nalepae/pandarallel)
[Dask](https://dask.org/) [Sklearn
Pipelines](https://www.kaggle.com/baghern/a-deep-dive-into-sklearn-pipelines)
[Management von Machine Learning
Modellen](https://www.inovex.de/blog/machine-learning-model-management/)
[kaggle](https://www.kaggle.com/)
Weitere Episoden
1 Stunde 38 Minuten
vor 5 Monaten
1 Stunde 14 Minuten
vor 6 Monaten
50 Minuten
vor 8 Monaten
2 Stunden 32 Minuten
vor 1 Jahr
1 Stunde 8 Minuten
vor 1 Jahr
In Podcasts werben
Abonnenten
Berlin
Kommentare (0)