Articles

Go Search
  

Other Blogs
There are no items in this list.
XVanneste > Articles > Posts > Comprendre l’architecture de FAST
Comprendre l’architecture de FAST

L'architecture de Fast Search est composée de plusieurs parties principales, ci-dessous le diagramme des différentes parties :

Nom

Rôle

Crawler

Le crawler permet de faire la connexion à la source de données (SharePoint Site, Web Site…..)

Content Processor

Le content processor compile les données récupérées

Indexer

L'indexer stocke les informations traité par le content processor

Query Processor

Le Query processor traite les requêtes de l'utilisateur pour en ressortir les informations indexées

Federation

La fédération permet d'agréger différente source de données compatible Open Search

 

Le Content Processor permet de travailler les données inclues dans les documents. Le content processor, aussi appelé Pipeline de Fast Search, peut entièrement être personnalisé par code. Chaque partie peut être customisée pour les besoins de la recherche.
Par exemple des dictionnaires propres à la société peuvent être insérés dans l'entity extractor, des formats spécifiques peuvent être appris et transformés par le format conversion.

 

 

Format Conversion : Transforme différents type de fichiers en format texte

Language Encoding et Detection : Détecte le langage du document et l'encodage de celui-ci ce qui permettra le traitement sur la langue par la suite

Tokenisation : par rapport à la culture et a la langue du texte, retrouve les dates, numéro de téléphone, currency etc….

Lemmatization : Recherche les synonymes des mots et regroupe ceux-ci, par exemple résoudre, résolve, résolution.

Entity Extraction : Extrait des termes par rapport au contenu et a un ou plusieurs dictionnaires, OOTB extrait les compagnies, les personnes, la localité.

Date and Time Normalization : normalise les dates, par exemple 10/05/2010, 10 mai 2010, 10-05-2010, Lundi 10 mai 2010.

Document Vector : vectorise les documents pour retrouver les documents similaires voir les doublons.

Web Links Analysis : analyse le nombre de fois qu'un document est pris en référence pour augmenter le ranking de celui-ci.

Map Crawled Properties : Finit par mapper les métadonnées qui ont été trouvées dans les documents

Comments

There are no comments yet for this post.