Fast index les documents PDF OOTB, mais cela n'est pas configuré par défaut sous SharePoint.
Sous Fast dans le répertoire Bin de Fast Search il y a un programme qui s'appelle PdfToText. Ce programme est le « iFilter » PDF pour fast.
Si dans une commande dos on tape, par exemple :
On retrouve notre fichier :
Le contenu n'est certes pas très beau pour nous mais le principal c'est que cela soit « indexable ».
Si l'on demande directement à fast d'indexer un document PDF avec l'utilitaire docpush :
Docpush –c sp pathfilepdf :
Alors on retrouve bien le fichier dans le résultat de la recherche (l'url qui est présente n'étant pas la bonne dû à l'utilisation de docpush et pas du crawl de SharePoint).
Comme on peut le voir le contenu est bien indexé.
Pareil si je fais une recherche sur une phrase du fichier :
Le souci c'est que si je mets le fichier dans un Library de SharePoint, et que je lance un full crawl alors je ne retrouve pas mon fichier.
Pour cela il faut en fait vérifier deux choses.
Dans l'administration centrale de SharePoint / Manage Service Applications / Fast Search Query
Dans File type il faut PDF :
En effet en haut de la page il est marqué :Use this page to specify file types to include in the content index
Par contre dans administration centrale de SharePoint / Manage Service Applications / Fast Search Connector
Dans File type il ne faut pas PDF, hors par défaut il l'est :
En effet en haut cette fois ci il est marqué : Use this page to specify file types to exclude in the content index
Et voilà pourquoi par défaut les PDF ne sont pas indexés.
Apres un full crawl :
On retrouve nos fichiers PDF et l'indexation du contenu a eu lieu. Par contre on n'a pas de miniatures J