Point de situation : les moteurs de recherche
Par Catherine LAO, samedi 17 janvier 2004 à 18:54 :: Lu sur le Web :: #475 :: rss
Un site Internet ne s'envisage plus sans un moteur de recherche. Cet outil permet d’indexer des fichiers, puis de publier des résultats de recherche. Mais quels sont les outils les plus performants ? Notons qu’ils ne sont pas forcément codés et inféodés à PHP. Certains sont écrits en C, en Perl, etc. Nous allons tenter de lister les principaux.
PhpDig (1.6.5) est écrit en PHP, et repose sur une base MySql. Au fil des indexations, PhpDig construit un dictionnaire de mots-clefs à partir de ceux rencontrés dans les pages indexées. Ce moteur suit les liens situés dans le contenu html pour explorer un site.
MnoGoSearch (3.1.21 version stable) est un moteur de recherche complet, distribué sous licence GNU (GPL). Il propose la recherche interne à votre site Web, la recherche dans un site FTP, dans les NewsGroups, etc. De plus, il offre un système d'indexation de textes pour les fichiers HTML, PDF et les documents textes. Il faut mentionner que MnoGoSearch est disponible également sous Windows (v3.1.15.15).
Swish-e (2.4.0) (Simple Web Indexing System for Humans – Enhanced) peut facilement et rapidement indexé les fichiers ou les sites Web distants. Il indexe également les fichiers textes, les mailing listes ou encore les données d’une base. Dans sa dernière version, l’API C a été réécrit ainsi que le module Perl.
Ht://Dig (3.2.0b5) se distingue des autres logiciels en étant l'un des plus performants (et le plus ancien sur le marché de l’open source avec Swish-e). Une particularité : la recherche en intranet ; Ht://Dig offre la possibilité de rechercher sur plusieurs serveurs en jouant le rôle de navigateur Web.
Passons maintenant aux outils payants. Ils sont nombreux à se disputer le marché. Nous n’allons donc pas en faire ici la liste exhaustive.
Inktomi (racheté par Yahoo!) n’est pas vraiment un moteur de recherche. Il s’agit en fait d’une technologie permettant d’archiver des sites Web et ensuite, nourrir les moteurs de recherche.
Verity Portal One SE se spécifie par son mode de recherche en texte intégral.
Index Server est un outil proposé par Microsoft. Microsoft Index Server (IIX) permet la création d'un moteur de recherche interne. Il permet de retrouver des pages d'un site Web par l'intermédiaire de critères prédéfinis.
Tous ces outils offrent les mêmes fonctionnalités demandées à un moteur de recherche. Les particularités supplémentaires, mais aussi les performances, la popularité, ou encore la gratuité (ou non) orienteront certainement votre choix.






Commentaires
Aucun commentaire pour le moment.
Ajouter un commentaire
Vous pouvez soumettre un commentaire en remplissant le formulaire ci-dessous. Toutes les contributions font l'objet d'une étape de modération par notre équipe.
Le code HTML dans le commentaire sera affiché comme du texte, les adresses internet seront converties automatiquement.