Das Problem mit herkömmlichen Datenbanken
Stellen Sie sich vor: Sie suchen in Ihrer Buchhaltung nach “Reisekosten 2025” und bekommen nur die HĂ€lfte der Ergebnisse. Warum? Weil Ihre Mitarbeiter die Daten unterschiedlich abgespeichert haben – mal “Reisekosten 25”, mal “Reisekosten ’25” oder “Reisekosten-5”. Herkömmliche SQL-Datenbanken arbeiten nach dem strikten If-Then-Prinzip und finden nur exakte Ăbereinstimmungen.
Large Language Models (LLMs) funktionieren jedoch völlig anders: Sie arbeiten mit Bedeutung, nicht mit exakten Suchbegriffen. Hier kommen Embeddings ins Spiel – eine revolutionĂ€re Art, Daten zu speichern.
Was sind Embeddings?
Ein Embedding ist ein Zahlenvektor, der Bedeutungen in einem mehrdimensionalen Raum darstellt. Stellen Sie sich vor, wir haben einen dreidimensionalen Raum mit den Achsen:
- Tot (0) bis Lebend (1)
- Fest (1) bis FlĂŒssig (0)
- Kalt (0) bis Warm (1)
Menschen hĂ€tten den Vektor [1, 0.1, 0.5] – sie leben, sind gröĂtenteils nicht fest (viel Blut, Muskeln) und halbwarm. Landtiere bekĂ€men den identischen Vektor. Insekten hingegen [1, 0.5, 0.1] – sie leben, sind durch ihren Chitinpanzer fester, aber kaltblĂŒtig.
Wie funktioniert die Suche?
Wenn Sie nach “Was lebt alles?” suchen, kommen Menschen, Landtiere, Insekten und Fische zurĂŒck – alle haben eine 1 bei “lebendig”. Pudding mit [0, 0.3, 0.5] fĂ€llt raus, da er nicht lebt.
Bei einer Suche nach Ă€hnlicher Konsistenz könnte Pudding jedoch zusammen mit Menschen auftauchen đ€ – beide haben Ă€hnliche Werte bei “Konsistenz”.
Die technische RealitÀt
In der Praxis verwenden Embeddings nicht drei, sondern bis zu 8.192 Dimensionen! Standard-Systeme arbeiten mit etwa 1.536 Dimensionen, wobei jede Dimension eine 32-Bit-Float-Zahl ist. Das ergibt pro Vektor etwa 6 Kilobyte Daten.
Was diese einzelnen Dimensionen genau reprÀsentiren, bleibt jedoch ein Mysterium. Die Bedeutung entsteht erst durch den gesamten Vektorraum, nicht durch einzelne Dimensionen.
Der Gamechanger fĂŒr Ihre Datensuche
Embeddings lösen das Ausgangsproblem elegant: Suchen Sie nach “Reisekosten 2025”, findet das System alle Varianten – “Reisekosten ’25”, “Reisekosten 25” oder “Reisekosten-5”. Das System erkennt die gleiche Bedeutung und liefert vollstĂ€ndige Ergebnisse.
ZusĂ€tzlich können Sie Metadaten anhĂ€ngen: Wer hat den Eintrag erstellt? Welcher Betrag? Diese bleiben durchsuchbar via klassischem If-Then-Prinzip, wĂ€hrend die Hauptsuche ĂŒber VektorĂ€hnlichkeit lĂ€uft âĄ
Ausblick
Embeddings sind die Grundlage fĂŒr moderne KI-Anwendungen. Sie ermöglichen es Maschinen, mit Bedeutungen zu arbeiten statt nur mit exakten Begriffen. In der nĂ€chsten Episode schauen wir uns Vektordatenbanken an – die Speichersysteme fĂŒr diese revolutionĂ€re Technologie.
Bleiben Sie in FĂŒhrung
Ihr Olaf Kapinski đ