Moteur de recherche : le grand vide ?
Par Armel FAUVEAU, vendredi 30 juin 2006 à 03:43 :: Actualités PHP :: #2228 :: rss
J’ignore si je suis le seul à me poser la question, mais je trouve un peu préoccupante la situation des moteurs de recherche.
Le moteur mnoGoSearch, (anciennement appelé UdmSearch) était probablement le mieux intégré à PHP. En particulier, il présentait l'avantage de disposer d’une extension dédiée. Mais si, aujourd’hui, vous prenez le temps de consulter la documentation, vous y apprendrez que l’extension mnoGoSearch ne fait plus partie des extensions standards et qu’elle a été déplacée dans PECL depuis PHP 5.1.0.
Au passage, une fois sur PECL, on nous explique que cette extension a fait partie de PHP jusqu’à la version 5.1.2 - ce qui est faux, je l’ai vérifié – et on nous suggère d’aller sur le CVS où l’on découvre que rien n’a bougé depuis au moins 17 mois ! Pour diverses raisons, je dirais que je n’ai pas été profondément surpris par l’état poussiéreux dans lequel j’ai donc (re)découvert cette extension. Après tout PECL est, à mes yeux, tout à fait comparable à une énorme poubelle à extension et je doute des chances de survie de la moindre d’entre elle une fois déplacé. Restons lucide, PECL est comparable, au pire à une sorte de purgatoire pour extensions désormais jugées inutiles, obsolètes, sans avenir ou plus du tout supportées, au mieux à un...musée !
J’ai tout de même tenté de déployer mnoGoSearch en essayant diverses combinaisons avec PHP 5 (via la procédure phpize, configure, etc.). Echec ! J’ai ensuite opté pour la solution consistant à downgrader PHP en retournant sous PHP4 et en utilisant l’extension « bundle ». Semi echec ! J’arrive à faire une recherche, puis je suis obligé d’arrêter et redémarrer Apache pour pouvoir recommencer ! On croit rêver. Ce problème de stabilité est peut-être, entre autre, l’une des raisons du déplacement de l’extension mnoGoSearch sous PECL. Après tout, c’était peut-être justifié !
Oui, mais ensuite ? Quelles sont les alternatives ? On pourrait citer ht://Dig ou encore Switch-e. Mais aucun des deux n’offrent, à ma connaissance, d’interface avec PHP. De toutes facons, ht://Dig semble profondément endormi...ne le réveillons pas ! On pourrait alors citer phpDig (salut Antoine) qui présente l’intérêt d’être totalement inféodé à PHP (et MySQL). Mais si cette solution peut probablement répondre à 75% des besoins, j’ai tout de même quelques doutes quant à ses capacités à pouvoir répondre aux besoins d’un site un peu volumineux. La documentation est, du reste, tout à fait objective sur ce point : “Make sure your web server is not set to timeout quickly, as indexing can take some time. PhpDig can work in a shard hosting environment, but note that it can take a fair amount of CPU time so your host may kill the process or become unhappy with you”. Ensuite, si l’indexation de documents PDF, Excel, Word etc. est envisageable, il faudra prévoir de déployer tout un tas de petits binaires secondaires. C’est déjà bien, mais pas forcement idéal non plus.
Alors quoi d’autre ? Après un rapide tour sur, par exemple, le guide IDEALX des logiciels Open Source, on retrouve encore mnoGoSearch et ht://Dig ainsi que Lucene avec pour commentaire “Moteur et toolkit reconnu pour les développement J2EE”. Désolé, cela ne m’intéresse pas.
Non, décidément, je trouve surprenant la pauvreté des alternatives en particulier Open Source en la matière. Surprenant mais aussi préoccupant d’autant plus que, sur le Net, la problématique d’indexation et de recherche est plutôt récurrente. Faudra t-il se résoudre à opter pour une solution commerciale dans le genre de Google Mini au moindre projet un peu ambitieux ?
Le cahier des charges semble pourtant assez simple et tiendrait en une phrase : “pouvoir indexer et effectuer des recherches dans des documents appartenant aux types les plus courants (HTML, PDF, Texte, RTF, Word, Excel, etc.) en utilisant un SGBD Open Source (tels MySQL, PostgreSQL, etc.) et offrant une API accessible via les principaux langages de scripting (tels PHP, Python, etc.)”.
Entendons nous bien ! Je ne prétends pas qu'il soit simple d'apporter une réponse à cette problématique. Mais je ne vois pas, non plus, d’obstacle technique infranchissable ici. Et cela permettrait de combler, à mon humble avis, un grand vide ! Disposer d’une brique logicielle d’indexation et de recherche fiable et digne de ce nom me semble, à ce titre, hautement prioritaire.
Armel.
Ajout du 17 juillet 2006
J'ignore si cela est l'une des concéquences de la publication de cet article, mais une mise à jour du module mnoGoSeach est dispo sur PECL depuis le 15 juillet 2006. Une version taguée 1.0.0 alpha (c'est réconfortant...) est donc téléchargeable. Au passage on s'étonnera (quoique...) de constater que ce package est curieusement classé, actuellement, dans la rubrique Multimedia, sous rubrique Audio. C'est d'une logique abyssale...
Et vous savez quoi ? Et bien non, je ne vais pas tester !






Commentaires
#1 - Le vendredi 30 juin 2006 à 07:59, par j0k3r
#2 - Le vendredi 30 juin 2006 à 09:35, par Jb
#3 - Le vendredi 30 juin 2006 à 10:36, par Lolo Irie
#4 - Le vendredi 30 juin 2006 à 13:05, par Armel FAUVEAU
#5 - Le vendredi 30 juin 2006 à 15:42, par Hesiode
#6 - Le vendredi 30 juin 2006 à 23:27, par Philippe
#7 - Le samedi 1 juillet 2006 à 00:02, par Armel FAUVEAU
#8 - Le dimanche 2 juillet 2006 à 03:21, par Armel FAUVEAU
#9 - Le dimanche 2 juillet 2006 à 12:17, par Roland
#10 - Le lundi 3 juillet 2006 à 11:30, par Lolo Irie
#11 - Le lundi 3 juillet 2006 à 13:05, par Armel FAUVEAU
#12 - Le lundi 3 juillet 2006 à 21:09, par rami
#13 - Le lundi 3 juillet 2006 à 21:47, par Armel FAUVEAU
#14 - Le lundi 3 juillet 2006 à 22:35, par Arnaud
#15 - Le mardi 4 juillet 2006 à 02:33, par Armel FAUVEAU
#16 - Le mardi 4 juillet 2006 à 06:54, par Arnaud
#17 - Le mardi 4 juillet 2006 à 07:24, par Armel FAUVEAU
#18 - Le mardi 4 juillet 2006 à 23:10, par John
#19 - Le jeudi 6 juillet 2006 à 19:55, par Guillaume Grosjean
#20 - Le vendredi 7 juillet 2006 à 03:22, par plumber
#21 - Le vendredi 7 juillet 2006 à 20:40, par Robert Viseur
#22 - Le vendredi 7 juillet 2006 à 20:48, par Armel FAUVEAU
#23 - Le vendredi 7 juillet 2006 à 20:49, par Robert Viseur
#24 - Le vendredi 7 juillet 2006 à 21:20, par Robert Viseur
#25 - Le samedi 8 juillet 2006 à 00:22, par Armel FAUVEAU
#26 - Le dimanche 16 juillet 2006 à 09:07, par David
#27 - Le lundi 17 juillet 2006 à 04:54, par Armel FAUVEAU
#28 - Le lundi 17 juillet 2006 à 21:58, par Perrich
#29 - Le lundi 17 juillet 2006 à 22:05, par Perrich
#30 - Le mercredi 2 août 2006 à 06:35, par Olivier Huet
#31 - Le lundi 7 août 2006 à 00:46, par GML
#32 - Le mardi 22 août 2006 à 10:59, par Gavroche
#33 - Le dimanche 3 septembre 2006 à 13:18, par Olivier
#34 - Le mercredi 14 février 2007 à 16:24, par Defjay
#35 - Le jeudi 15 février 2007 à 06:10, par Armel
#36 - Le jeudi 15 février 2007 à 09:49, par Defjay
#37 - Le jeudi 15 février 2007 à 16:26, par Defjay
#38 - Le vendredi 23 février 2007 à 10:06, par defjay
#39 - Le vendredi 30 mars 2007 à 09:39, par Mouloud
#40 - Le vendredi 30 mars 2007 à 13:10, par Armel
#41 - Le jeudi 5 avril 2007 à 13:53, par sKiPoU
Ajouter un commentaire
Vous pouvez soumettre un commentaire en remplissant le formulaire ci-dessous. Toutes les contributions font l'objet d'une étape de modération par notre équipe.
Le code HTML dans le commentaire sera affiché comme du texte, les adresses internet seront converties automatiquement.