Cet article a été traduit à l'aide de l'IA et peut contenir des inexactitudes. Si vous avez des doutes sur une information, veuillez vous référer à la version originale en anglais pour plus de précision.
L'indexation du contenu est le processus d'analyse et d'organisation du contenu numérique, tel que les pages, les billets d'actualité et les fichiers, afin que le moteur de recherche Staffbase puisse rapidement renvoyer des résultats pertinents lorsque vous effectuez une recherche.
Comment fonctionne l'indexation du contenu ?
Lorsque le contenu est importé ou créé sur la plateforme, l'algorithme de Staffbase l'analyse et en extrait les éléments clés, tels que le titre, le texte et les métadonnées. Ces éléments sont ensuite stockés dans un index structuré qui aide le moteur de recherche à fournir des résultats rapides et précis.
Lorsque le contenu est indexé, Staffbase applique les stratégies suivantes pour s'assurer que les utilisateurs peuvent facilement le trouver, même s'ils n'utilisent pas les termes exacts. Par exemple, lors de la recherche du titre « Journée internationale des bénévoles » :
- Indexation de recherche par phrase
Les phrases de plusieurs mots (généralement 2 à 3 mots) sont indexées ensemble afin qu'elles puissent être associées comme une unité lors d'une recherche.
Exemple : « Journée internationale des bénévoles », « Journée des bénévoles », « Internationale des bénévoles » - Indexation de recherche par mot complet
Chaque mot est indexé dans sa forme complète, permettant des correspondances exactes lors d'une recherche.
Exemple : « Internationale », « Bénévole », « Journée » - Indexation de recherche par préfixe
Les mots sont décomposés en plusieurs préfixes (de 1 à 20 caractères), permettant des correspondances basées sur le début d'un mot.
Exemple : Pour « Internationale » : « I », « In », « Int », « Inte », « Inter », … jusqu'à « Internationale » (1 à 20 caractères)
Cette approche en couches garantit que les utilisateurs reçoivent des résultats pertinents qu'ils recherchent la phrase complète, un seul mot ou même juste le début d'un terme.
Qu'est-ce qui est indexé ?
|
|
|
Pages |
Actualités |
Fichiers |
Utilisateurs |
Apps & Liens |
Extensions (e.g. Formulaires et Sondages) |
|---|---|---|---|---|---|---|---|
|
Titre |
Phrase |
|
|
|
|
|
|
|
Mot complet |
|
|
|
|
|
|
|
|
Préfixe |
|
|
|
|
|
|
|
|
Contenu |
Phrase |
|
|
|
Champs utilisateur |
|
|
|
Mot complet |
|
|
|
Champs utilisateur |
|
|
|
|
Préfixe |
|
|
|
|
|
|
|
|
Métadonnées |
- |
Description |
Texte d’accroche |
- |
- |
Description |
- |
|
Phrase |
|
|
|
|
|
|
|
|
Mot complet |
|
|
|
|
|
|
|
|
Préfixe |
|
|
|
|
|
|
|
|
Champs supplémentaires |
- |
|
|
|
- |
- |
- |
Titre : Fait référence au nom donné à une page, une actualité ou un fichier.
Contenu : Fait référence à la substance d'une page, d'une actualité ou d'un fichier.
Métadonnées : Fait référence aux informations qui ne font pas partie du cœur d'une actualité ou d'une page. Par exemple, le texte d'accroche pour une actualité et le champ de description pour les pages.
Description : Cela fait référence au contexte supplémentaire d'une page. La description est disponible uniquement pour les Pages et s'affiche dans les résultats de recherche.
Texte d'accroche : Fait référence à l'objectif et au but de l'actualité. Le texte d'accroche est disponible uniquement pour les Actualités.
Mot complet : Fait référence à la correspondance exacte des mots. Exemple : Si les utilisateurs recherchent « Staffbase », les résultats de recherche montrent le contenu qui correspond exactement au mot « Staffbase ».
Phrase : Fait référence aux termes de recherche multi-mots. Exemple : Si les utilisateurs recherchent « Staffbase Studio », les résultats montrent le contenu qui correspond à la combinaison exacte des deux mots.
Préfixe : Fait référence à la correspondance des mots préfixes. Exemple : Si les utilisateurs recherchent « Staff », les résultats de recherche montrent le contenu qui correspond au préfixe « Staff », tel que « Staffbase ».
Champs utilisateur : Fait référence aux champs de profil (système et personnalisés) créés par un admin dans les paramètres du Studio.
Champs supplémentaires : Autres données structurées qui soutiennent la recherche, telles que les hashtags utilisés dans les pages ou les billets d'actualité.
Traitement des données lors de l'indexation
Lors de l'indexation, les données sont traitées pour faciliter la récupération des informations ultérieurement.
Lors de l'indexation, la recherche analyse le texte de la manière suivante :
- Sensibilité à la casse : Tous les caractères du contenu sont considérés en minuscules. Par exemple, pomme et Pomme sont considérés comme identiques.
- Caractères ASCII : L'indexation convertit les caractères alphabétiques, numériques et symboliques qui ne sont pas dans le bloc Unicode Latin de base (les 127 premiers caractères ASCII) en leur équivalent ASCII, si celui-ci existe. Par exemple, le processus d'indexation change à en a.
- Analyseur de langue : Les analyseurs de langue sont appliqués au contenu et au texte d'accroche dans les Actualités et au contenu et à la description dans les Pages. L'objectif est d'analyser des textes spécifiques à une langue. Les analyseurs traitent les éléments suivants en utilisant le contexte linguistique :
- Mots vides : Les mots vides sont des mots couramment utilisés dans une langue qui sont généralement ignorés dans les requêtes de recherche ou l'analyse de texte car ils sont considérés comme ayant peu de valeur pour représenter le sens d'une phrase. Ces mots sont souvent courts et apparaissent fréquemment dans une langue mais ne contiennent que peu d'informations spécifiques sur le contenu, tels que « le », « et », « est », « dans », « de » et « à ».
- Racinisation : La racinisation supprime les suffixes des mots pour obtenir une base linguistique commune. Cela aide à regrouper les variations d'un mot, à réduire la dimensionnalité des données et à améliorer l'efficacité du traitement et de l'analyse des textes.
- Caractères spéciaux : Les caractères spéciaux, tels que !"#$%&'()*+,-./:;<=>?@[]^_`{|}~§° sont remplacés par un espace vide.
Comment le contenu est-il classé ?
Staffbase utilise un algorithme de recherche en texte intégral basé sur BM25, un modèle de classement standard de l'industrie. Cet algorithme détermine quels résultats sont les plus pertinents pour votre requête de recherche. Les principaux facteurs de classement incluent :
- Fréquence des termes (TF) : Le nombre de fois qu'un mot donné (terme) apparaît dans un document
- Fréquence inverse des documents (IDF) : L'importance d'un terme utilisé dans un texte, en tenant compte de la fréquence des termes et de la fréquence des documents
- Longueur du document (DL) : La longueur d'un document par rapport à la longueur moyenne de tous les documents
L'algorithme prend en compte différentes parties de chaque document, telles que le titre, la description, le contenu et les champs supplémentaires, et les évalue en fonction de trois types de correspondances :
- Correspondances de phrases (par exemple, « manuel de l'employé »)
- Correspondances de mots individuels (par exemple, « employé » ou « manuel »)
- Correspondances de préfixes (par exemple, « man » correspond à « manuel »)
Chaque type de correspondance reçoit un boost différent, selon l'endroit où il apparaît. Ces boosts sont des facteurs de multiplication du score de pertinence. Par exemple, dans le titre d'une page :
- Correspondance de phrase : x 15
- Correspondance de mot : x 8
- Correspondance de préfixe : x 2
Les multiplicateurs de boost pour les correspondances de phrases, de mots et de préfixes diffèrent selon le placement dans le contenu, tel que le titre ou la description de la page.
L'algorithme additionne les scores pour toutes les correspondances dans chaque champ, et le champ avec le score le plus élevé détermine le score de pertinence final de la page.
Pour les billets d'actualité et les Pages, Staffbase applique des boosts pour prioriser les actualités les plus récentes, ce qui donne le score de pertinence final :
- Boost d'accès direct : Si un utilisateur a un accès direct à une page ou un billet d'actualité, il reçoit un boost supplémentaire, car il est plus susceptible d'être pertinent.
- Boost de fraîcheur : Pour prioriser le contenu plus récent, les pages et les billets d'actualité reçoivent des boosts basés sur la date :
- Publié au cours des 5 dernières semaines : +30
- Publié au cours des 6 derniers mois : +20
- Publié au cours des 12 derniers mois : +10
Les résultats sont ensuite classés, les plus pertinents apparaissant en haut.
Il est également possible d'utiliser les menus déroulants pour trier vos résultats de recherche, par exemple, par date ou par ordre alphabétique.
Commentaires
0 commentaire
Vous devez vous connecter pour laisser un commentaire.