#40 Semantic Search
1 Stunde 2 Minuten
Podcast
Podcaster
Entwicklern und Nerds spannende und innovativen Technologien näher bringen - das ist das Ziel von Techtiefen. In jeder Folge wird ein Thema in einem intensiven Gespräche mit wechselnden Experten und Expertinnen ausführlich erklärt. Dabei haben wir den...
Beschreibung
vor 2 Jahren
Informationen sind vielfältig, sie existieren nicht nur in
geschriebenen Text, sondern auch in Bilder, Töne, Videos und vielem
mehr. Wähend klassischer a.k.a. lexikalischer Suche diese
Informationen nur mit viel Aufwand über Umwege zugänglich gemacht
werden können, so bietet semantische Suche den direkten Zugriff auf
Informationen nicht nur jeder Sprache, sondern auch jeder Modalität
wie etwa Bildern und Videos. In Folge 40 habe ich Joschka Braun von
Jina.AI zu Gast. Jina ist ein Startup aus Berlin, welches
Entwickler bei der Erstellung multi-modaler ML Anwendungen hilft.
Gemeinsam erkären wir zunächst, wieso multi-modalität, also dem
Zusammenwirken von unterschiedlichen Medientypen wie etwa Text,
Bild, Ton etc. die Zukunft gehört. Wir gehen auf Clip- und Dall-E
als erste populäre Vertreter multimodaler Machine Learning Modelle
ein und erklären wie sie Dokumenten-Vektoren generieren.
Anschließend sprechen wir über geeignete Verfahren zur performanten
Durchsuchung der generierten Vektoren mittels Approximate Nearest
Neighbor (ANN) Search. Diese können entweder direkt mittels
Bibliotheken wie etwa HNSWLib, Annoy oder Faiss genutzt werden,
oder als Retrieval-Verfahren innerhalb einer Vektordatenbank. Diese
verbinden die Transaktions- und Skalierungsqualtiäten von
Datenbanken mit der effizienten Vektorabfrage. Hier reden wir
insbesondere über die Vorzüge und Nachteile der dedizierten
Vektordatenbanken wie Weaviate, Milvus und Qdrant sowie den
klassischen Datenbanken mit Vektorsuche wie beispielsweise
ElasticSearch. Zum Abschluss sprechen wir noch einmal über JinaAI,
DocArray, ihren neuen Dienst JinaNow und NLP-Modell-Finetuning.
Links: ANN BenchmarkBuch zu Neural SearchJinaAI Bootcamp
geschriebenen Text, sondern auch in Bilder, Töne, Videos und vielem
mehr. Wähend klassischer a.k.a. lexikalischer Suche diese
Informationen nur mit viel Aufwand über Umwege zugänglich gemacht
werden können, so bietet semantische Suche den direkten Zugriff auf
Informationen nicht nur jeder Sprache, sondern auch jeder Modalität
wie etwa Bildern und Videos. In Folge 40 habe ich Joschka Braun von
Jina.AI zu Gast. Jina ist ein Startup aus Berlin, welches
Entwickler bei der Erstellung multi-modaler ML Anwendungen hilft.
Gemeinsam erkären wir zunächst, wieso multi-modalität, also dem
Zusammenwirken von unterschiedlichen Medientypen wie etwa Text,
Bild, Ton etc. die Zukunft gehört. Wir gehen auf Clip- und Dall-E
als erste populäre Vertreter multimodaler Machine Learning Modelle
ein und erklären wie sie Dokumenten-Vektoren generieren.
Anschließend sprechen wir über geeignete Verfahren zur performanten
Durchsuchung der generierten Vektoren mittels Approximate Nearest
Neighbor (ANN) Search. Diese können entweder direkt mittels
Bibliotheken wie etwa HNSWLib, Annoy oder Faiss genutzt werden,
oder als Retrieval-Verfahren innerhalb einer Vektordatenbank. Diese
verbinden die Transaktions- und Skalierungsqualtiäten von
Datenbanken mit der effizienten Vektorabfrage. Hier reden wir
insbesondere über die Vorzüge und Nachteile der dedizierten
Vektordatenbanken wie Weaviate, Milvus und Qdrant sowie den
klassischen Datenbanken mit Vektorsuche wie beispielsweise
ElasticSearch. Zum Abschluss sprechen wir noch einmal über JinaAI,
DocArray, ihren neuen Dienst JinaNow und NLP-Modell-Finetuning.
Links: ANN BenchmarkBuch zu Neural SearchJinaAI Bootcamp
Weitere Episoden
1 Stunde 38 Minuten
vor 6 Monaten
1 Stunde 14 Minuten
vor 7 Monaten
50 Minuten
vor 9 Monaten
2 Stunden 32 Minuten
vor 1 Jahr
1 Stunde 8 Minuten
vor 1 Jahr
In Podcasts werben
Abonnenten
Berlin
Kommentare (0)