インデックスとは何ですか?
|
|
|
ページ |
ニュース |
ファイル |
ユーザー |
アプリとリンク |
プラグイン(例:フォームと調査) |
|---|---|---|---|---|---|---|---|
|
タイトル |
完全な単語 |
|
|
|
|
|
|
|
接頭辞 |
|
|
|
|
|
|
|
|
コンテンツ |
完全な単語 |
|
|
|
ユーザーのフィールド |
|
|
|
接頭辞 |
|
|
|
|
|
|
|
|
メタデータ |
- |
説明 |
ティーザーテキスト |
- |
- |
説明 |
- |
|
完全な単語 |
|
|
|
|
|
|
|
|
接頭辞 |
|
|
|
|
|
|
|
|
日付 |
- |
|
|
|
|
|
|
タイトル: ページ、ニュース、またはファイルに付けられた名前を指します。
コンテンツ: ページ、ニュース、またはファイルの内容を指します。
メタデータ: ニュースやページのコア部分ではない情報を指します。例えば、ニュースのティーザーテキストやページの説明フィールドなどです。
説明: ページに関する追加のコンテキストを指します。説明はページ専用で、検索結果に表示されます。
ティーザーテキスト: ニュースの目的と意図を指します。ティーザーテキストはニュース専用です。
完全一致: 正確な単語の一致を指します。例: ユーザーが「Staffbase」を検索すると、検索結果には「Staffbase」と正確に一致するコンテンツが表示されます。
接頭辞: 接頭辞の単語一致を指します。例: ユーザーが「Staff」を検索すると、検索結果には「Staff」に一致するコンテンツが表示されます(例:「Staffbase」など)。
ユーザーフィールド: 管理者がスタジオ設定で作成したプロファイルフィールド(システムおよびカスタム)を指します。
インデックス作成中のデータ処理
インデックス作成中に、データが処理され、後で情報を取得しやすくなります。
インデックス作成時、検索は以下の方法でテキストを分析します:
- 大文字小文字の区別なし: コンテンツ内のすべての文字は小文字と見なされます。例えば、appleとAppleは同じと見なされます。
- ASCII文字: インデックス作成は、基本ラテンUnicodeブロック(最初の127のASCII文字)に含まれないアルファベット、数字、記号の文字を、存在する場合はそのASCII等価に変換します。例えば、インデックス作成プロセスはàをaに変更します。
- 言語分析器: 言語分析器は、ニュース内のコンテンツとティーザーテキスト、ページ内のコンテンツと説明に適用されます。目的は特定の言語テキストを分析することです。分析器は、言語の文脈を使用して以下を処理します:
- ストップワード: ストップワードは、通常の検索クエリやテキスト分析で無視されることが多い、言語内で一般的に使用される単語です。これらの単語は短く、言語内で頻繁に発生しますが、文の意味を表す上であまり価値がないと見なされます。例えば、「the」、「and」、「is」、「in」、「of」、「to」などです。
- ステミング: ステミングは、単語から接尾辞を取り除き、共通の言語的基盤を得ることを目的とします。これにより、単語のバリエーションをグループ化し、データの次元を減らし、テキスト処理と分析の効率を向上させます。
- 特殊文字: !"#$%&'()*+,-./:;<=>?@[]^_`{|}~§°などの特殊文字は空白に置き換えられます。
コンテンツはどのようにランク付けされますか?
Staffbaseは、以下の組み合わせである全文検索アルゴリズムを使用します:
- 用語頻度(TF): 特定の単語(用語)が文書内に出現する回数
- 逆文書頻度(IDF): テキスト内で使用される用語の重要性を、用語頻度と文書頻度を考慮して評価します
- 文書の長さ(DL): 文書の長さをすべての文書の平均長と比較します
アルゴリズムは、検索クエリ内の各キーワードに対して関連性スコアを計算します。最終スコアは、すべての関連性スコアの合計です。
さらに、Staffbaseは情報が一致する場所に基づいてブーストを適用します。これらのブーストは、キーワードが以下のコンテンツに一致する場合の関連性スコアの乗数です:
- タイトル: x 3
- ページの説明: x 2
ニュース投稿とページに対して、Staffbaseは最新のニュースを優先するためにブーストを適用し、最終的な関連性スコアを次のようにします:
- 今日または昨日に公開: +15
- 今週または先週に公開: +10
- 今月または先月に公開: +5
結果はランク付けされ、最も関連性の高いものが上位に表示されます。
検索結果を日付やアルファベット順などでソートするためにドロップダウンメニューを使用することも可能です。
コメント
0件のコメント
サインインしてコメントを残してください。