Die Inhaltsindexierung ist der Prozess, in dem digitale Inhalte, wie Seiten, News-Beiträge und Dateien, analysiert und organisiert werden, damit die Staffbase-Suchmaschine schnell relevante Ergebnisse liefern kann, wenn Nutzer nach etwas suchen.
Wie funktioniert die Inhaltsindexierung?
Wenn Inhalte auf der Plattform hochgeladen oder erstellt werden, analysiert der Staffbase-Algorithmus diese und extrahiert zentrale Elemente wie Titel, Text und Metadaten. Diese Elemente werden dann in einem strukturierten Index gespeichert, der der Suchmaschine hilft, schnelle und präzise Ergebnisse zu liefern.
Bei der Indexierung von Inhalten wendet Staffbase die folgenden Strategien an, um sicherzustellen, dass Nutzer Inhalte leicht finden können – selbst wenn sie nicht die exakte Formulierung verwenden. Zum Beispiel bei der Suche nach dem Titel „Internationaler Tag des Ehrenamts“:
- Phrasenindexierung
Mehrwortphrasen (meist 2–3 Wörter) werden gemeinsam indexiert, damit sie bei einer Suche als Einheit gefunden werden können.
Beispiel: „Internationaler Tag des Ehrenamts“, „Tag des Ehrenamts“, „Internationaler Ehrenamts“ - Indexierung vollständiger Wörter
Jedes Wort wird in seiner vollständigen Form indexiert, was exakte Treffer bei der Suche ermöglicht.
Beispiel: „Internationaler“, „Ehrenamts“, „Tag“ - Präfix-Indexierung
Wörter werden in mehrere Präfixe (von 1 bis 20 Zeichen) zerlegt, sodass auch der Wortanfang zu Treffern führen kann.
Beispiel: Für „Internationaler“: „I“, „In“, „Int“, „Inte“, „Inter“, … bis „Internationaler“ (1–20 Zeichen)
Dieser mehrstufige Ansatz stellt sicher, dass Nutzer relevante Ergebnisse erhalten – egal ob sie nach der vollständigen Phrase, einem einzelnen Wort oder nur dem Anfang eines Begriffs suchen.
Was wird angezeigt?
|
|
|
Seiten |
News |
Dateien |
Personen |
Apps & Links (im Launchpad) |
Plugins (z.B. Befragungen) |
|---|---|---|---|---|---|---|---|
|
Titel |
Wortgruppe |
|
|
|
|
|
|
|
Vollständiges Wort |
|
|
|
|
|
|
|
|
Präfix |
|
|
|
|
|
|
|
|
Inhalt |
Wortgruppe |
|
|
|
Profilfelder |
|
|
|
Vollständiges Wort |
|
|
|
Profilfelder |
|
|
|
|
Präfix |
|
|
|
|
|
|
|
|
Metadaten |
- |
Beschreibung |
Teaser |
- |
- |
Beschreibung |
- |
|
Wortgruppe |
|
|
|
|
|
|
|
|
Vollständiges Wort |
|
|
|
|
|
|
|
|
Präfix |
|
|
|
|
|
|
|
|
Zusätzliche Felder |
- |
|
|
|
- |
- |
- |
Titel: Bezieht sich auf den Namen einer Seite, eines News-Beitrags oder einer Datei.
Inhalt: Bezieht sich auf den Inhalt einer Seite, eines News-Beitrags oder einer Datei.
Metadaten: Bezieht sich auf Informationen, die nicht zum eigentlichen Inhalt eines News-Beitrags oder einer Seite gehören. Zum Beispiel der Teasertext für einen News-Beitrag und das Beschreibungsfeld für Seiten.
Beschreibung: Bezieht sich auf zusätzliche Informationen, die Einblick in den Kontext einer Seite geben. Die Beschreibung ist nur für Seiten verfügbar und wird in den Suchergebnissen angezeigt.
Teaser: Bezieht sich auf zusätzliche Informationen, die Einblick darin geben, welches Ziel ein News-Beitrag verfolgt. Teaser sind nur für News-Beiträge verfügbar.
Wortgruppe: Bezieht sich auf Suchanfragen, die aus mehreren Worten bestehen. Zum Beispiel: Wenn Nutzer nach „Staffbase Studio“ suchen, werden in den Suchergebnissen Inhalte angezeigt, die genau der Kombination beider Worte entsprechen.
Vollständiges Wort: Bezieht sich auf eine exakte Wortübereinstimmung. Zum Beispiel: Wenn Nutzer nach „Staffbase“ suchen, werden in den Suchergebnissen Inhalte angezeigt, die genau dem Wort „Staffbase“ entsprechen.
Präfix: Bezieht sich auf den vorangestellten Wortabgleich. Zum Beispiel: Wenn Nutzer nach „Staff“ suchen, werden in den Suchergebnissen Inhalte angezeigt, die mit dem Präfix „Staff“ übereinstimmen, wie etwa „Staffbase“.
Profilfeld: Bezieht sich auf System- und benutzerdefinierte Profilfelder, die von einem Administrator in den Studio-Einstellungen erstellt wurden.
Zusätzliche Felder: Andere strukturierte Daten, die in der Suche berücksichtigt werden. Zum Beispiel: Hashtags, die auf Seiten oder in News-Beiträgen verwendet werden.
Datenverarbeitung während der Indexierung
Während der Indexierung werden Daten verarbeitet, um das spätere Abrufen von Informationen zu erleichtern.
Bei der Indexierung analysiert die Suche den Text nach folgenden Kriterien:
- Groß- & Kleinschreibung: Alle Zeichen werden als Kleinbuchstaben betrachtet. Zum Beispiel werden die Begriffe “Arm” und “arm” als gleichwertig angesehen.
- ASCII-Zeichen: Bei der Indexierung werden alphabetische, numerische und symbolische Zeichen, die nicht im Unicode-Block „Basis-Lateinisch“ (den ersten 127 ASCII-Zeichen) enthalten sind, in ihr ASCII-Äquivalent umgewandelt, sofern ein solches existiert. Die Indexierung wandelt zum Beispiel à in a um.
- Sprachanalysator: Die Sprachanalysatoren werden auf den Inhalt und den Teasertext in News-Beiträgen und den Inhalt und die Beschreibung in Seiten angewendet. Ihr Ziel ist es, Sprachtexte nach den folgenden Punkten zu analysieren:
- Stoppwörter: Stoppwörter sind häufig verwendete Wörter in einer Sprache, die in der Regel bei Suchanfragen oder Textanalysen ignoriert werden, da sie als unwichtig für die Bedeutung eines Satzes gelten. Diese Wörter sind oft kurz und kommen häufig in einer Sprache vor, enthalten aber nur wenige spezifische Informationen über den Inhalt, wie z. B. „der“, „und“, „ist“, „in“, „von“ und „zu“.
- Stemming (Stammformreduktion): Beim Stemming werden Suffixe von Wörtern entfernt, um eine gemeinsame sprachliche Basis zu erhalten. Dies hilft dabei, Variationen eines Wortes zu gruppieren, die Dimensionalität der Daten zu reduzieren und die Effizienz der Textverarbeitung und -analyse zu verbessern.
- Sonderzeichen: Sonderzeichen wie !"#$%&'()*+,-./:;<=>?@[]^_`{|}~§° werden durch ein Leerzeichen ersetzt.
Wie werden Inhalte gerankt?
Staffbase verwendet einen Algorithmus für die Volltextsuche, der auf BM25 basiert, einem branchenüblichen Ranking-Modell. Dieser Algorithmus bestimmt, welche Ergebnisse für Ihre Suchanfrage am relevantesten sind. Zu den wichtigsten Ranking-Faktoren gehören:
- Begriffshäufigkeit: Die Anzahl, wie oft ein bestimmtes Wort (Begriff) in einem Dokument vorkommt
- Inverse Dokumenthäufigkeit: Die Wichtigkeit eines in einem Text verwendeten Begriffs unter Berücksichtigung der Begriffshäufigkeit und der Dokumenthäufigkeit
- Dokumentlänge: Die Länge eines Dokuments im Vergleich zur durchschnittlichen Länge aller Dokumente
Der Algorithmus berücksichtigt verschiedene Elemente jedes Dokuments, wie Titel, Beschreibung, Inhalt und zusätzliche Felder, und bewertet diese anhand von drei Arten von Übereinstimmungen:
- Übereinstimmung von Wortgruppen (zum Beispiel “Mitarbeiter-Handbuch”)
- Übereinstimmung von vollständigen Worten (zum Beispiel “Mitarbeiter” oder “Handbuch”)
- Übereinstimmung von Präfixen (zum Beispiel “Hand”)
Jede Art von Übereinstimmung erhält einen unterschiedlichen Boost, je nachdem, wo sie auftritt. Diese Boosts sind Multiplikatoren für den Relevanz-Score. Folgende Boosts gelten für den Seitentitel:
- Übereinstimmung von Wortgruppen: x 15
- Übereinstimmung von vollständigen Worten: x 8
- Übereinstimmung von Präfixen: x 2
Die exakten Boost-Werte für Wortgruppen-, vollständige Wort- und Präfixübereinstimmungen hängen von der Platzierung innerhalb des Inhalts ab, z. B. im Seitentitel oder in der Beschreibung.
Der Algorithmus addiert die Punktzahlen aller Übereinstimmungen innerhalb jedes Feldes. Das Feld mit der höchsten Punktzahl bestimmt den endgültigen Relevanz-Score der Seite.
Bei News-Beiträgen und Seiten wendet Staffbase Boosts an, um die neuesten Nachrichten zu priorisieren, was zu einem endgültigen Relevanz-Score führt:
- Boost für direkten Zugriff: Wenn ein Nutzer direkten Zugriff auf eine Seite oder einen News-Beitrag hat, erhält dieser einen zusätzlichen Boost, da er mit größerer Wahrscheinlichkeit relevant ist.
- Boost für Aktualität: Aktuellere Seiten und News-Beiträge erhalten einen datumsbasierten Boost:
- In den letzten 5 Wochen veröffentlicht: +30
- In den letzten 6 Monaten veröffentlicht: +20
- In den letzten 12 Monaten veröffentlicht: +10
- In den letzten 5 Wochen veröffentlicht: +30
Die Ergebnisse werden so angeordnet, dass die relevantesten Ergebnisse ganz oben angezeigt werden.
Sie können auch die Dropdown-Menüs verwenden, um Ihre Suchergebnisse zu sortieren, z. B. nach Datum oder alphabetisch.
Kommentare
0 Kommentare
Bitte melden Sie sich an, um einen Kommentar zu hinterlassen.