PhpDig.net

What is PhpDig?
PhpDig is a PHP MySQL based
Web Spider & Search Engine.
 


Périmé [visite ceci lien au lieu de ceci page]
Ce qui est PhpDig
PhpDig est un moteur de recherche et d'indexation http écrit en Php reposant sur une base MySql.
Au fil des indexations, PhpDig construit un dictionnaire de mots-clefs à partir de ceux rencontrés dans les pages indexées. Sur une requête, PhpDig affiche une page de résultats contenant les mots recherchés, classée par pertinence.
Testez PhpDig
Seulement une portion de PhpDig.net a été indexed pour ce modèle de demonstration. Si vous souhaitez exécuter une recherche complète des forums, s'il vous plaît utiliser ce lien.
 
Rechercher
afficher résultats
Opérateur et  Phrase entier  Opérateur ou 
 
Entrez un ou plusieurs mots dans la boîte de dialogue, et cliquez sur le bouton.
Pour l'instant, PhpDig effectue un AND entre les termes de recherche. On peut exclure un terme de la recherche en le faisant précéder d'un "-". Avant de la version 1.8.0 le OU l'opérateur n'était pas disponible avec PhpDig.
Fonctionnalités de PhpDig
Exploration HTTP : PhpDig suit les liens contenus dans les documents fournis par un serveur web, comme n'importe quel navigateur, afin de constituer sa liste de pages à indexer. Les liens peuvent être contenus dans des AreaMap, résulter d'une redirection, ou être contenus dans des frames. Toute écriture, même approximative, des liens HREF est supportée.
PhpDig ne suit pas les liens externes au site défini comme racine lors de la recherche. La profondeur de recherche dans les liens peut être paramétrée.
Tout le contenu html servi par le site distant est parcouru, que ce soit du html simple, ou des pages créées dynamiquement. PhpDig se base sur le Mime-Type ou la présence d'une balise <HTML> au début du document.

Indexation Full Text : PhpDig indexe exhaustivement les mots contenus dans un document, exceptés ceux de moins de 3 lettres (par défaut), et ceux contenus dans une liste de mots considérés comme courants.
Les nombres seuls ne sont pas indexés. En revanche, les mots contenant des chiffres le sont. Les underscores dans les mots sont considérés faisant partie des mots, comme des noms de fonctions dans une documentation technique.
Le nombre d'occurences d'un mot dans une page est conservé dans l'index pour une meilleure pertinence des résultats. Les mots du titre des pages peuvent être pondérés.

Types de fichiers pouvant être indexés : PhpDig indexe nativement les fichiers HTML et texte.
De plus, PhpDig est capable d'indexer les fichiers PDF, MS-Word et MS-Excel si vous installez sur la machine qui effectue l'indexation des exécutables externes capables d'extraire le contenu textuel de ces documents.
Pour tester la fonctionnalité, vous pouvez effectuer des recherches sur Hamlet, tragedie de Shakespeare, au format MS-Word, et L'Avare, comedie de Molière, au format Pdf.

Autres fonctions : PhpDig prend en compte un éventuel fichier robots.txt contenant les chemins des répertoires à exclure de l'indexation. Les balises meta robots sont aussi examinées.
Si le serveur renvoie un header Last-Modified, la valeur est mémorisée afin de ne pas effectuer de réindexation inutile.
La balise meta revisit-after est également prise en compte pour la mise à jour de l'index.

Limitations : PhpDig ne gère pas la recherche par expression exacte. Cela impliquerait un index au moins de la taille des documents indexés (ce qui n'est pas le but), sans compter le ralentissement de la recherche.
Les instances de Php qui réalisent l'indexation ne peuvent être configurés en safe_mode, sans quoi la limite de temps des scripts empêcherait le moteur de fonctionner. L'indexation ne peut donc être lancée à partir d'un serveur de production (qui DOIT être configuré en safe_mode).
L'indexation est relativement lente. En revanche, la recherche, même sur un contenu assez étendu, reste suffisament rapide pour ne pas gêner l'utilisateur.


Powered by: vBulletin Version 3.0.7
Copyright ©2000 - 2005, Jelsoft Enterprises Ltd.
Copyright © 2001 - 2005, ThinkDing LLC. All Rights Reserved.