|
11-09-2004, 12:55 AM | #1 |
Orange Mole
Join Date: Sep 2004
Location: Nantes (44) FRANCE
Posts: 31
|
re-indexing immediately
Bonjour,
mon spider plante très régulièrement. Je n'ai pas trouvé pourquoi, ni comment reprendre l'indexation lÃ* où le spider s'est arrêté avec la même profondeur de recherche. En fait quand je reprends il vérifie uniquement la date des fichiers déjÃ* indexés qui n'a évidemment pas changé mais il ne parcoure pas les liens existants dans ces fichiers et donc je n'arrive pas Ã* avoir toutes les pages de mon site. ----------------------------------------------------------------------- Hello, my spider crash very regularly. I did not find why, nor how to start again indexing where the spider has stopped with the same depth of research. In fact when I begin again it check only the date of the already indexed files which obviously did not change but it does not traverse the existing links in these files and thus I do not manage to have all the pages of my site. (traduction Lycos...) |
11-09-2004, 02:01 AM | #2 |
Green Mole
Join Date: Oct 2004
Location: Senlis (60) France
Posts: 18
|
Bonjour,
Peut-être pourrais-tu essayer de modifier le paramètre : define('LIMIT_DAYS',7); //Nombre de jours par défaut avant de revisiter une page dans le fichier de configuration : [PHPDIG_DIR]/include/config.php Je ne sais pas s'il accepterait "0" ??? |
11-09-2004, 02:20 AM | #3 | |
Orange Mole
Join Date: Sep 2004
Location: Nantes (44) FRANCE
Posts: 31
|
DéjÃ* fait, c'est pas ça (snif)
Quote:
|
|
11-09-2004, 02:47 AM | #4 | |
Green Mole
Join Date: Oct 2004
Location: Senlis (60) France
Posts: 18
|
Dommage !! Evidemment c'était trop simple.
J'en profite pour t'informer que j'ai trouvé comment exclure des répertoires lors de l'indexation. En fait PhDig utilise la technique des robots. Il suffit donc de créer un fichier "robots.txt" Ã* la racine du site et d'y enregistrer les noms des répertoires Ã* exclure. La structure est la suivante : User-agent: nom du robot (PhpDig) ou * (tous les robots) Disallow: Nom répertoire 1 . . . Disallow: Nom répertoire n Voici celui que j'utilise : Quote:
http://www.robotstxt.org/wc/norobots.html Le site sur lequel je travaille actuellement est celui d'une école de musique. La présidente l'a créé avec FrontPage. J'interviens pour dynamiser certaines pages et aussi pour tout ce qui concerne l'environnement Internet. Accessoirement je suis également élève de l'école dans la classe de chant !!! Il ne me reste plus maintenant qu'Ã* intégrer PhpDig dans une page de recherche. Merci de m'avoir remis sur les rails de PhpDig !!! Je continue de plancher sur ton pb |
|
11-09-2004, 03:36 AM | #5 |
Orange Mole
Join Date: Sep 2004
Location: Nantes (44) FRANCE
Posts: 31
|
Merci pour le tuyau
Vais tester ça. Ce n'est pas évident pour moi non plus de m'y retrouver dans le site Ã* indexer...C'est le site intranet de mon entreprise, il y a plein de pdf Ã* référencer et je ne maîtrise pas encore l'architecture du site qui doit d'ailleurs être remanié bientôt... Si tu te lances dans l'indexation des .pdf, .doc ou .xls je veux bien que tu me fasses part de ton expérience car j'ai des petits soucis de ce côté lÃ* aussi. @++ PS : juste pour savoir, on ne peut pas mettre par exemple dissallow: *_fichiers dans le fichier robot (ce serait trop simple hein ?) Last edited by mleray; 11-09-2004 at 03:39 AM. |
11-09-2004, 04:36 AM | #6 |
Green Mole
Join Date: Oct 2004
Location: Senlis (60) France
Posts: 18
|
Ce protocole d'exclusion des robots est très rudimentaire. J'avais trouvé une option permettant d'exprimer "tout sauf" je n'arrive plus Ã* remettre la main dessus. Je crois me souvenir que cela ressemblait Ã* :
Disallow: -/repertoire On peut aussi exclure des fichiers : Disallow: /repertoire/fichier.ext Pour l'instant je n'ai ni .doc ni .xls ni .pdf Ã* indexer. Mais j'ai un autre site que j'ai créé, moi-même surtout pas avec FronPage !!!). C'est celui de la chorale dans laquelle je chante (ténor). C'est un site Ã* l'usage exclusif des choristes, une sorte d'Intranet. Et dans ce site j'ai vraiment de tout: documents, sons, images. Il lui manque une fonction recherche et j'ai l'intention d'y intégrer PhpDig quand j'en aurai terminé avec l'école de musique !! Tu as raison, ce n'est pas simple de reprendre un projet qu'on ne connait pas, qui n'est pas toujours très bien documenté et qui est opérationnel. Mais cela a un petit goût d'aventure et de challenge. On apprend pas mal de chose et surtout Ã* chercher. Bon courage. @++ |
11-09-2004, 04:50 AM | #7 | |
Orange Mole
Join Date: Sep 2004
Location: Nantes (44) FRANCE
Posts: 31
|
Tiens j'ai trouvé ce que tu voulais :
Quote:
|
|
11-09-2004, 08:56 AM | #8 |
Green Mole
Join Date: Oct 2004
Location: Senlis (60) France
Posts: 18
|
OK mais c'est vraiment un protocole très sommaire, mais son usage est limité aux robots. Malgré tout, avec un peu de patience, cela nous permet, de décrire précisément Ã* PhpDig le périmètre des recherches.
En ce qui concerne tes problèmes de réindexation immédiate, quand le spider se plante tu relances le "Dig it" immédiatement après avoir dévérouillé sans rien faire d'autre ? Je suis en train de simuler cela pour voir. |
11-10-2004, 12:55 AM | #9 |
Orange Mole
Join Date: Sep 2004
Location: Nantes (44) FRANCE
Posts: 31
|
J'indexe, ça plante. Je vais dans la mise Ã* jour, je déverouille et je clique sur la coche verte de Racine/Root pour réindexer...
Je sais plus si j'ai essayé en remettant l'adresse de la racine et en relançant le Dig It dans la page d'admin mais je crois que oui... Bon ben je vais m'en assurer de ce pas |
11-10-2004, 02:12 AM | #10 |
Green Mole
Join Date: Oct 2004
Location: Senlis (60) France
Posts: 18
|
Comme promis j'ai lancé l'indexation une première fois complètement.
Ensuite j'ai ait un "install" dans une autre base et j'ai relancé l'indexation en l'interrompant Ã* trois reprise en fermant IE, pour simuler un plantage. A chaque fois je suis reparti en ne faisant que déverrouiller sans toucher Ã* autre chose et relançant "Dig this". Cela se passe bien. D'après l'affichage du log le spider semble repartir lÃ* où il avait été interrompu. Dans le "Database Status" j'ai le même nombre de "Keywords" que lors de l'indexation sans interruption. Essaie voir si cela se passe de la même façon chez toi. |
11-11-2004, 01:56 AM | #11 |
Green Mole
Join Date: Oct 2004
Location: Senlis (60) France
Posts: 18
|
Post scriptum !
J'ai trouvé très intelligente la façon bilingue dont tu as formulé ta requête. Je me suis permis de l'adopter, espérant que tu ne m'en tiendrais pas rigueur. |
|
|
Similar Threads | ||||
Thread | Thread Starter | Forum | Replies | Last Post |
Spidering from shell - returns immediately, with nothing | ciaran@clissman | Troubleshooting | 1 | 06-17-2005 03:14 AM |