PhpDig.net

Go Back   PhpDig.net > PhpDig Forums > Troubleshooting

Reply
 
Thread Tools
Old 11-09-2004, 12:55 AM   #1
mleray
Orange Mole
 
Join Date: Sep 2004
Location: Nantes (44) FRANCE
Posts: 31
re-indexing immediately

Bonjour,
mon spider plante très régulièrement. Je n'ai pas trouvé pourquoi, ni comment reprendre l'indexation lÃ* où le spider s'est arrêté avec la même profondeur de recherche. En fait quand je reprends il vérifie uniquement la date des fichiers déjÃ* indexés qui n'a évidemment pas changé mais il ne parcoure pas les liens existants dans ces fichiers et donc je n'arrive pas Ã* avoir toutes les pages de mon site.

-----------------------------------------------------------------------
Hello,
my spider crash very regularly. I did not find why, nor how to start again indexing where the spider has stopped with the same depth of research. In fact when I begin again it check only the date of the already indexed files which obviously did not change but it does not traverse the existing links in these files and thus I do not manage to have all the pages of my site.
(traduction Lycos...)
mleray is offline   Reply With Quote
Old 11-09-2004, 02:01 AM   #2
philbihr
Green Mole
 
Join Date: Oct 2004
Location: Senlis (60) France
Posts: 18
Bonjour,

Peut-être pourrais-tu essayer de modifier le paramètre :

define('LIMIT_DAYS',7); //Nombre de jours par défaut avant de revisiter une page

dans le fichier de configuration :

[PHPDIG_DIR]/include/config.php

Je ne sais pas s'il accepterait "0" ???
philbihr is offline   Reply With Quote
Old 11-09-2004, 02:20 AM   #3
mleray
Orange Mole
 
Join Date: Sep 2004
Location: Nantes (44) FRANCE
Posts: 31
DéjÃ* fait, c'est pas ça (snif)
Quote:
define('SEARCH_DEFAULT_LIMIT',10); //results per page

define('SPIDER_MAX_LIMIT',30); //max recurse levels in spider
define('RESPIDER_LIMIT',30); //recurse respider limit for update
define('LINKS_MAX_LIMIT',0); //max links per each level
define('RELINKS_LIMIT',0); //recurse links limit for an update

//for limit to directory, URL format must either have file at end or ending slash at end
//e.g., http://www.domain.com/dirs/ (WITH ending slash) or http://www.domain.com/dirs/dirs/index.php
define('LIMIT_TO_DIRECTORY',true); //limit index to given (sub)directory, no sub dirs of dirs are indexed

define('LIMIT_DAYS',0);
Merci quand même phil
mleray is offline   Reply With Quote
Old 11-09-2004, 02:47 AM   #4
philbihr
Green Mole
 
Join Date: Oct 2004
Location: Senlis (60) France
Posts: 18
Dommage !! Evidemment c'était trop simple.

J'en profite pour t'informer que j'ai trouvé comment exclure des répertoires lors de l'indexation. En fait PhDig utilise la technique des robots. Il suffit donc de créer un fichier "robots.txt" Ã* la racine du site et d'y enregistrer les noms des répertoires Ã* exclure.

La structure est la suivante :

User-agent: nom du robot (PhpDig) ou * (tous les robots)
Disallow: Nom répertoire 1
.
.
.
Disallow: Nom répertoire n

Voici celui que j'utilise :

Quote:
User-agent: PhpDig
Disallow: /_borders
Disallow: /_derived
Disallow: /_fpclass
Disallow: /_overlay
Disallow: /_private
Disallow: /_themes
Disallow: /_vti_cnf
Disallow: /_vti_pvt
Disallow: /activites_fichiers
Disallow: /ADMIN
Disallow: /affiliations_fichiers
Disallow: /associations_d'associations_fichiers
Disallow: /batterie_fichiers
Disallow: /bref_historique_de_lecole_fichiers
Disallow: /calendrier_de_lannee_scolaire_fichiers
Disallow: /catalogue_photo_fichiers
Disallow: /chant_fichiers
Disallow: /clarinette_et_saxo_fichiers
Disallow: /compteurs
Disallow: /cursus_musical_fichiers
Disallow: /decouverte_musicale_fichiers
Disallow: /echo guitare_fichiers
Disallow: /echo violoncelle_fichiers
Disallow: /ensembles_fichiers
Disallow: /faq_fichiers
Disallow: /feedback_fichiers
Disallow: /figaro_fichiers
Disallow: /flutancienne_fichiers
Disallow: /flute_traversiere_fichiers
Disallow: /formation_musicale_fichiers
Disallow: /guitare_fichiers
Disallow: /images
Disallow: /index_fichiers
Disallow: /infos familles_fichiers
Disallow: /inscriptions_fichiers
Disallow: /instruments_fichiers
Disallow: /location_fichiers
Disallow: /moteur_ed
Disallow: /newactivites_fichiers
Disallow: /news_fichiers
Disallow: /nos_liens_preferes_fichiers
Disallow: /objectifs et valeurs_fichiers
Disallow: /ou_et_quand_ecouter_les_profs_de_lems_fichiers
Disallow: /pannonces_fichiers
Disallow: /percussions_a_main_fichiers
Disallow: /photogallery
Disallow: /photos_2002-3_fichiers
Disallow: /photosete03_fichiers
Disallow: /photosete04_fichiers
Disallow: /photosfm03_fichiers
Disallow: /PHPDIG_DIR
Disallow: /piano_fichiers
Disallow: /plan_dacces_fichiers
Disallow: /presjournal_fichiers
Disallow: /reglement_fichiers
Disallow: /renspratiques_fichiers
Disallow: /search_fichiers
Disallow: /sommaire_fichiers
Disallow: /tarifs_fichiers
Disallow: /vie_associative_et_partenaires_fichiers
Disallow: /violon_fichiers
Disallow: /violoncelle_fichiers
Voici une adresse où tu trouveras des informations intéressantes concernant les robots :

http://www.robotstxt.org/wc/norobots.html

Le site sur lequel je travaille actuellement est celui d'une école de musique. La présidente l'a créé avec FrontPage. J'interviens pour dynamiser certaines pages et aussi pour tout ce qui concerne l'environnement Internet. Accessoirement je suis également élève de l'école dans la classe de chant !!!

Il ne me reste plus maintenant qu'Ã* intégrer PhpDig dans une page de recherche.

Merci de m'avoir remis sur les rails de PhpDig !!!

Je continue de plancher sur ton pb
philbihr is offline   Reply With Quote
Old 11-09-2004, 03:36 AM   #5
mleray
Orange Mole
 
Join Date: Sep 2004
Location: Nantes (44) FRANCE
Posts: 31
Merci pour le tuyau
Vais tester ça.

Ce n'est pas évident pour moi non plus de m'y retrouver dans le site Ã* indexer...C'est le site intranet de mon entreprise, il y a plein de pdf Ã* référencer et je ne maîtrise pas encore l'architecture du site qui doit d'ailleurs être remanié bientôt...

Si tu te lances dans l'indexation des .pdf, .doc ou .xls je veux bien que tu me fasses part de ton expérience car j'ai des petits soucis de ce côté lÃ* aussi.

@++

PS : juste pour savoir, on ne peut pas mettre par exemple dissallow: *_fichiers dans le fichier robot (ce serait trop simple hein ?)

Last edited by mleray; 11-09-2004 at 03:39 AM.
mleray is offline   Reply With Quote
Old 11-09-2004, 04:36 AM   #6
philbihr
Green Mole
 
Join Date: Oct 2004
Location: Senlis (60) France
Posts: 18
Ce protocole d'exclusion des robots est très rudimentaire. J'avais trouvé une option permettant d'exprimer "tout sauf" je n'arrive plus Ã* remettre la main dessus. Je crois me souvenir que cela ressemblait Ã* :

Disallow: -/repertoire

On peut aussi exclure des fichiers :

Disallow: /repertoire/fichier.ext

Pour l'instant je n'ai ni .doc ni .xls ni .pdf Ã* indexer.

Mais j'ai un autre site que j'ai créé, moi-même surtout pas avec FronPage !!!). C'est celui de la chorale dans laquelle je chante (ténor). C'est un site Ã* l'usage exclusif des choristes, une sorte d'Intranet. Et dans ce site j'ai vraiment de tout: documents, sons, images.

Il lui manque une fonction recherche et j'ai l'intention d'y intégrer PhpDig quand j'en aurai terminé avec l'école de musique !!

Tu as raison, ce n'est pas simple de reprendre un projet qu'on ne connait pas, qui n'est pas toujours très bien documenté et qui est opérationnel.
Mais cela a un petit goût d'aventure et de challenge. On apprend pas mal de chose et surtout Ã* chercher.

Bon courage.

@++
philbihr is offline   Reply With Quote
Old 11-09-2004, 04:50 AM   #7
mleray
Orange Mole
 
Join Date: Sep 2004
Location: Nantes (44) FRANCE
Posts: 31
Tiens j'ai trouvé ce que tu voulais :
Quote:
To exclude all files except one
This is currently a bit awkward, as there is no "Allow" field. The easy way is to put all files to be disallowed into a separate directory, say "docs", and leave the one file in the level above this directory:
User-agent: *
Disallow: /~joe/docs/

Alternatively you can explicitly disallow all disallowed pages:
User-agent: *
Disallow: /~joe/private.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html
mleray is offline   Reply With Quote
Old 11-09-2004, 08:56 AM   #8
philbihr
Green Mole
 
Join Date: Oct 2004
Location: Senlis (60) France
Posts: 18
OK mais c'est vraiment un protocole très sommaire, mais son usage est limité aux robots. Malgré tout, avec un peu de patience, cela nous permet, de décrire précisément Ã* PhpDig le périmètre des recherches.

En ce qui concerne tes problèmes de réindexation immédiate, quand le spider se plante tu relances le "Dig it" immédiatement après avoir dévérouillé sans rien faire d'autre ?

Je suis en train de simuler cela pour voir.
philbihr is offline   Reply With Quote
Old 11-10-2004, 12:55 AM   #9
mleray
Orange Mole
 
Join Date: Sep 2004
Location: Nantes (44) FRANCE
Posts: 31
J'indexe, ça plante. Je vais dans la mise Ã* jour, je déverouille et je clique sur la coche verte de Racine/Root pour réindexer...
Je sais plus si j'ai essayé en remettant l'adresse de la racine et en relançant le Dig It dans la page d'admin mais je crois que oui... Bon ben je vais m'en assurer de ce pas
mleray is offline   Reply With Quote
Old 11-10-2004, 02:12 AM   #10
philbihr
Green Mole
 
Join Date: Oct 2004
Location: Senlis (60) France
Posts: 18
Comme promis j'ai lancé l'indexation une première fois complètement.

Ensuite j'ai ait un "install" dans une autre base et j'ai relancé l'indexation en l'interrompant Ã* trois reprise en fermant IE, pour simuler un plantage.

A chaque fois je suis reparti en ne faisant que déverrouiller sans toucher Ã* autre chose et relançant "Dig this".

Cela se passe bien. D'après l'affichage du log le spider semble repartir lÃ* où il avait été interrompu.

Dans le "Database Status" j'ai le même nombre de "Keywords" que lors de l'indexation sans interruption.

Essaie voir si cela se passe de la même façon chez toi.
philbihr is offline   Reply With Quote
Old 11-11-2004, 01:56 AM   #11
philbihr
Green Mole
 
Join Date: Oct 2004
Location: Senlis (60) France
Posts: 18
Post scriptum !

J'ai trouvé très intelligente la façon bilingue dont tu as formulé ta requête. Je me suis permis de l'adopter, espérant que tu ne m'en tiendrais pas rigueur.
philbihr is offline   Reply With Quote
Reply


Posting Rules
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is On
Smilies are On
[IMG] code is Off
HTML code is Off
Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
Spidering from shell - returns immediately, with nothing ciaran@clissman Troubleshooting 1 06-17-2005 03:14 AM


All times are GMT -8. The time now is 07:13 PM.


Powered by vBulletin® Version 3.7.3
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © 2001 - 2005, ThinkDing LLC. All Rights Reserved.