577🤖 Embeddings: Datensuche neu gedacht

Das Problem mit herkömmlichen Datenbanken

Stellen Sie sich vor: Sie suchen in Ihrer Buchhaltung nach “Reisekosten 2025” und bekommen nur die Hälfte der Ergebnisse. Warum? Weil Ihre Mitarbeiter die Daten unterschiedlich abgespeichert haben – mal “Reisekosten 25”, mal “Reisekosten ’25” oder “Reisekosten-5”. Herkömmliche SQL-Datenbanken arbeiten nach dem strikten If-Then-Prinzip und finden nur exakte Übereinstimmungen.

Large Language Models (LLMs) funktionieren jedoch völlig anders: Sie arbeiten mit Bedeutung, nicht mit exakten Suchbegriffen. Hier kommen Embeddings ins Spiel – eine revolutionäre Art, Daten zu speichern.

Was sind Embeddings?

Ein Embedding ist ein Zahlenvektor, der Bedeutungen in einem mehrdimensionalen Raum darstellt. Stellen Sie sich vor, wir haben einen dreidimensionalen Raum mit den Achsen:

Tot (0) bis Lebend (1)
Fest (1) bis Flüssig (0)
Kalt (0) bis Warm (1)

Menschen hätten den Vektor [1, 0.1, 0.5] – sie leben, sind größtenteils nicht fest (viel Blut, Muskeln) und halbwarm. Landtiere bekämen den identischen Vektor. Insekten hingegen [1, 0.5, 0.1] – sie leben, sind durch ihren Chitinpanzer fester, aber kaltblütig.

Wie funktioniert die Suche?

Wenn Sie nach “Was lebt alles?” suchen, kommen Menschen, Landtiere, Insekten und Fische zurück – alle haben eine 1 bei “lebendig”. Pudding mit [0, 0.3, 0.5] fällt raus, da er nicht lebt.

Bei einer Suche nach ähnlicher Konsistenz könnte Pudding jedoch zusammen mit Menschen auftauchen 🤔 – beide haben ähnliche Werte bei “Konsistenz”.

Die technische Realität

In der Praxis verwenden Embeddings nicht drei, sondern bis zu 8.192 Dimensionen! Standard-Systeme arbeiten mit etwa 1.536 Dimensionen, wobei jede Dimension eine 32-Bit-Float-Zahl ist. Das ergibt pro Vektor etwa 6 Kilobyte Daten.

Was diese einzelnen Dimensionen genau repräsentiren, bleibt jedoch ein Mysterium. Die Bedeutung entsteht erst durch den gesamten Vektorraum, nicht durch einzelne Dimensionen.

Der Gamechanger für Ihre Datensuche

Embeddings lösen das Ausgangsproblem elegant: Suchen Sie nach “Reisekosten 2025”, findet das System alle Varianten – “Reisekosten ’25”, “Reisekosten 25” oder “Reisekosten-5”. Das System erkennt die gleiche Bedeutung und liefert vollständige Ergebnisse.

Zusätzlich können Sie Metadaten anhängen: Wer hat den Eintrag erstellt? Welcher Betrag? Diese bleiben durchsuchbar via klassischem If-Then-Prinzip, während die Hauptsuche über Vektorähnlichkeit läuft ⚡

Ausblick

Embeddings sind die Grundlage für moderne KI-Anwendungen. Sie ermöglichen es Maschinen, mit Bedeutungen zu arbeiten statt nur mit exakten Begriffen. In der nächsten Episode schauen wir uns Vektordatenbanken an – die Speichersysteme für diese revolutionäre Technologie.

Bleiben Sie in Führung
Ihr Olaf Kapinski 🙂