Ein Vektor-Embedding ist ein Array fester Länge aus Zahlen, das die Bedeutung eines Textstücks (oder Bildes, oder Audios) repräsentiert — erzeugt von einem neuronalen Netz, sodass semantisch ähnliche Eingaben numerisch nahe Vektoren produzieren.
Warum es zählt
Embeddings sind das Substrat moderner KI-Retrieval-Systeme. OpenAIs text-embedding-3-large liefert 3072-dimensionale Vektoren; Coheres embed-v3 ähnlich. Die Dimensionalität ist ein Stellrad — kleinere Embeddings sind schneller, aber ungenauer.
Die nützliche Eigenschaft ist die **Kosinus-Ähnlichkeit**: der Winkel zwischen zwei Vektoren approximiert, wie verwandt ihre Texte sind. Genau das treibt semantische Suche, RAG-Retrieval, Clustering (Topic Maps) und Recommender-Systeme an.
Wie Pith reinpasst
Jedes Pith-Bookmark wird einmal beim Speichern embedded. Embeddings treiben das Clustering der Topic Map, das RAG-Retrieval des Wikis, die semantische Schicht der Suche und das Ähnlichkeits-Scoring des Auto-Tag-Service. Siehe das Topic-Map-Feature für die Visualisierung.
Siehe auch
Zuletzt geprüft: 10. Mai 2026 · Lizenziert CC BY 4.0 · frei zitierbar unter Namensnennung von Pith.