#118 Wie funktioniert eine moderne Suche? Von Indexierung bis Ranking
1 Stunde 12 Minuten
Podcast
Podcaster
Beschreibung
vor 7 Monaten
Explain my like i am five: Die Grundlagen moderner Suchen
Wir, als User, erwarten heutzutage ziemlich viel von einer
Suchmaschine. Es soll “magisch” verstehen, was wir eigentlich
finden möchten. Egal ob wir das richtige Wort dafür nutzen (aka
Synonym-Suche) oder ob der Begriff einen Tippfehler hat (aka
“Meinten Sie …?”).
Oft werden Tools wie Elastic- oder OpenSearch, Solr, Algolia und
Co. für sowas eingesetzt, denn eine einfache Volltext-Suche
mittels eines Wildcard-SQL-SELECT Statement reicht dafür nicht
mehr aus. Doch was steckt eigentlich dahinter? Wie funktionieren
all diese modernen Suchen eigentlich im Inneren? In dieser
Episode geht es um die Grundlagen moderner Suchmaschinen. Wir
schmeißen mit Begriffen wie Stemming, Homonyme, BERT, Stopwords,
Inverted Index, Suffixbäume, N-Grams, Term Frequency-Inverse
Document Frequency, Vector Space Model und Co um uns und erklären
das ganze im “Explain me Like I am five”-Stil.
Bonus: Wie Konzepte des Information Retrieval mit Bälle-Bädern
erklärt werden.
**** Diese Episode wird von der HANDELSBLATT MEDIA GROUP
gesponsert.
Wirtschaft ist nicht immer einfach. Deswegen lautet die Mission
der HANDELSBLATT MEDIA GROUP: „Wir möchten Menschen befähigen,
die Wirtschaft zu verstehen.“ Mit ihren Kernprodukten, dem
Handelsblatt und der WirtschaftsWoche, sowie 160.000 Abonnements,
15 Millionen Besuchern und 3 Milliarden Anfragen in einem Monat
leisten sie einen wichtigen Beitrag zur Orientierung und
Meinungsbildung in den Bereichen Wirtschaft und Politik und
machen damit einen ausgezeichneten Job.
Wenn du Teil dieser Mission sein möchtest, schau auf
https://engineeringkiosk.dev/handelsblatt vorbei und werde ein
Teil der HANDELSBLATT MEDIA GROUP.
********
Das schnelle Feedback zur Episode:
(top) (geht
so)
Feedback
EngKiosk Community:
https://engineeringkiosk.dev/join-discord
Email: stehtisch@engineeringkiosk.dev
LinkedIn: https://www.linkedin.com/company/engineering-kiosk/
Mastodon: https://podcasts.social/@engkiosk
Twitter: https://twitter.com/EngKiosk
Gerne behandeln wir auch euer Audio Feedback in einer der
nächsten Episoden, einfach die Audiodatei per Email
an stehtisch@engineeringkiosk.dev.
Links
r/explainlikeimfive:
https://www.reddit.com/r/explainlikeimfive/
Engineering Kiosk Episode #28 O(1), O(log n), O(n^2) - Ist
die Komplexität von Algorithmen im Entwickler-Alltag relevant?:
https://engineeringkiosk.dev/podcast/episode/28-o1-olog-n-on2-ist-die-komplexit%C3%A4t-von-algorithmen-im-entwickler-alltag-relevant/
ElasticSearch: https://www.elastic.co/de/elasticsearch
OpenSearch: https://opensearch.org/
Apache Lucene: https://lucene.apache.org/
Apache Solr: https://solr.apache.org/
meilisearch: https://www.meilisearch.com/
Alogolia: https://www.algolia.com/d
HackerNews indexiert von Algolia: https://hn.algolia.com/
Term Frequency-Inverse Document Frequency:
https://de.wikipedia.org/wiki/Tf-idf-Ma%C3%9F
Bidirectional Encoder Representations from Transformers
(BERT): https://en.wikipedia.org/wiki/BERT_(language_model)
Engineering Kiosk Episode #116 KI unterstützte Software
Entwicklung: Ein Reality Check mit Birgitta Böckeler von
Thoughtworks:
https://engineeringkiosk.dev/podcast/episode/116-ki-unterst%C3%BCtzte-software-entwicklung-ein-reality-check-mit-birgitta-b%C3%B6ckeler-von-thoughtworks/
Learning to Rank:
https://en.wikipedia.org/wiki/Learning_to_rank
Vector Space Model:
https://en.wikipedia.org/wiki/Vector_space_model
Inverted Index: https://en.wikipedia.org/wiki/Inverted_index
N-Gramm: https://de.wikipedia.org/wiki/N-Gramm
Suffixbaum: https://de.wikipedia.org/wiki/Suffixbaum
Trie (Präfixbaum): https://de.wikipedia.org/wiki/Trie
Sprungmarken
(00:00:00) Buzzword-Bingo bei modernen Suchen
(00:04:40) Die Komplexität moderner Such-Systeme
(00:05:55) Die Handelsblatt Media Group (Werbung)
(00:07:00) Die Komplexität moderner Such-Systeme
(00:09:58) Wie funktioniert High-Level eine Suchmaschine?
(00:11:04) Verarbeitung der Such-Daten durch Tokens: Sprache,
Stop-Words, Lemmatisierung, Stemming
(00:20:53) Zahlen als Such-Wörter, Embeddings und Bidirektionale
Encoder-Repräsentationen von Transformers (BERT)
(00:29:34) Speichern der Daten mit einem Index: Invertierter
Index und Suffixbäume
(00:43:07) Daten wirklich finden durchs Ranking: N-Grams,
TF/IDFrequency und Vector Space Model
(00:59:54) Wie wählt man ein gutes Such-System aus?
(01:04:20) Wie beeinflusst Generative AI die aktuellen
Suchsysteme und Sucht-Grundlagen?
Hosts
Wolfgang Gassler (https://mastodon.social/@woolf)
Andy Grunwald (https://twitter.com/andygrunwald)
Feedback
EngKiosk Community:
https://engineeringkiosk.dev/join-discord
Email: stehtisch@engineeringkiosk.dev
LinkedIn: https://www.linkedin.com/company/engineering-kiosk/
Mastodon: https://podcasts.social/@engkiosk
Twitter: https://twitter.com/EngKiosk
Weitere Episoden
1 Stunde 16 Minuten
vor 5 Tagen
1 Stunde 11 Minuten
vor 1 Woche
1 Stunde 6 Minuten
vor 2 Wochen
1 Stunde 18 Minuten
vor 3 Wochen
58 Minuten
vor 1 Monat
In Podcasts werben
Kommentare (0)