 |
|
PhpDig.net
|
What is PhpDig?
PhpDig is a PHP MySQL based
Web Spider & Search Engine.
|
Périmé [visite ceci lien au lieu de ceci page]
Ce qui est PhpDig
PhpDig est un moteur de recherche et d'indexation http écrit en Php reposant sur
une base MySql.
Au fil des indexations, PhpDig construit un dictionnaire de mots-clefs à partir
de ceux rencontrés dans les pages indexées. Sur une requête, PhpDig affiche une page de
résultats contenant les mots recherchés, classée par pertinence.
Testez PhpDig
Seulement une portion de PhpDig.net a été indexed pour ce modèle de demonstration. Si vous souhaitez exécuter une recherche complète des forums, s'il vous plaît utiliser ce lien.
Entrez un ou plusieurs mots dans la boîte de dialogue,
et cliquez sur le bouton.
Pour l'instant, PhpDig effectue un AND entre les termes de recherche.
On peut exclure un terme de la recherche en le faisant précéder d'un "-".
Avant de la version 1.8.0 le OU l'opérateur n'était pas disponible avec PhpDig.
Fonctionnalités de PhpDig
Exploration HTTP : PhpDig suit les liens contenus dans les documents fournis
par un serveur web, comme n'importe quel navigateur,
afin de constituer sa liste de pages à indexer. Les liens peuvent
être contenus dans des AreaMap, résulter d'une redirection, ou être contenus dans des
frames. Toute écriture, même approximative, des liens HREF est supportée.
PhpDig ne suit pas les liens externes au site défini comme racine lors de la recherche.
La profondeur de recherche dans les liens peut être paramétrée.
Tout le contenu html servi par le site distant est parcouru, que ce soit du html simple,
ou des pages créées dynamiquement. PhpDig se base sur le Mime-Type ou la présence d'une
balise <HTML> au début du document.
Indexation Full Text : PhpDig indexe exhaustivement les mots contenus dans un
document, exceptés ceux de moins de 3 lettres (par défaut), et ceux contenus dans une
liste de mots considérés comme courants.
Les nombres seuls ne sont pas indexés. En revanche, les mots contenant des chiffres le sont.
Les underscores dans les mots sont considérés faisant partie des mots, comme des noms de
fonctions dans une documentation technique.
Le nombre d'occurences d'un mot dans une page est conservé dans l'index pour une meilleure
pertinence des résultats. Les mots du titre des pages peuvent être pondérés.
Types de fichiers pouvant être indexés :
PhpDig indexe nativement les fichiers HTML et texte.
De plus, PhpDig est capable d'indexer les fichiers PDF, MS-Word et MS-Excel si vous installez sur la machine
qui effectue l'indexation des exécutables externes
capables d'extraire le contenu textuel de ces documents.
Pour tester la fonctionnalité, vous pouvez effectuer des recherches sur
Hamlet, tragedie de Shakespeare,
au format MS-Word, et L'Avare,
comedie de Molière, au format Pdf.
Autres fonctions :
PhpDig prend en compte un éventuel fichier robots.txt contenant les chemins
des répertoires à exclure de l'indexation. Les balises meta robots sont aussi
examinées.
Si le serveur renvoie un header Last-Modified, la valeur est mémorisée afin
de ne pas effectuer de réindexation inutile.
La balise meta revisit-after est également prise en compte pour la mise à jour
de l'index.
Limitations : PhpDig ne gère pas la recherche par expression exacte. Cela impliquerait
un index au moins de la taille des documents indexés (ce qui n'est pas le but), sans compter
le ralentissement de la recherche.
Les instances de Php qui réalisent l'indexation ne peuvent être configurés en safe_mode, sans
quoi la limite de temps des scripts empêcherait le moteur de fonctionner. L'indexation ne
peut donc être lancée à partir d'un serveur de production (qui DOIT être configuré en safe_mode).
L'indexation est relativement lente. En revanche, la recherche, même sur un contenu assez
étendu, reste suffisament rapide pour ne pas gêner l'utilisateur.
|