re-indexing immediately

mleray · 11-09-2004, 12:55 AM

Bonjour,
mon spider plante trÃ¨s rÃ©guliÃ¨rement. Je n'ai pas trouvÃ© pourquoi, ni comment reprendre l'indexation lÃ* oÃ¹ le spider s'est arrÃªtÃ© avec la mÃªme profondeur de recherche. En fait quand je reprends il vÃ©rifie uniquement la date des fichiers dÃ©jÃ* indexÃ©s qui n'a Ã©videmment pas changÃ© mais il ne parcoure pas les liens existants dans ces fichiers et donc je n'arrive pas Ã* avoir toutes les pages de mon site.

-----------------------------------------------------------------------
Hello,
my spider crash very regularly. I did not find why, nor how to start again indexing where the spider has stopped with the same depth of research. In fact when I begin again it check only the date of the already indexed files which obviously did not change but it does not traverse the existing links in these files and thus I do not manage to have all the pages of my site.
(traduction Lycos...)

philbihr · 11-09-2004, 02:01 AM

Bonjour,

Peut-Ãªtre pourrais-tu essayer de modifier le paramÃ¨tre :

define('LIMIT_DAYS',7); //Nombre de jours par dÃ©faut avant de revisiter une page

dans le fichier de configuration :

[PHPDIG_DIR]/include/config.php

Je ne sais pas s'il accepterait "0" ???

mleray · 11-09-2004, 02:20 AM

DÃ©jÃ* fait, c'est pas Ã§a (snif)

Quote:

define('SEARCH_DEFAULT_LIMIT',10); //results per page

define('SPIDER_MAX_LIMIT',30); //max recurse levels in spider
define('RESPIDER_LIMIT',30); //recurse respider limit for update
define('LINKS_MAX_LIMIT',0); //max links per each level
define('RELINKS_LIMIT',0); //recurse links limit for an update

//for limit to directory, URL format must either have file at end or ending slash at end
//e.g., http://www.domain.com/dirs/ (WITH ending slash) or http://www.domain.com/dirs/dirs/index.php
define('LIMIT_TO_DIRECTORY',true); //limit index to given (sub)directory, no sub dirs of dirs are indexed

define('LIMIT_DAYS',0);

Merci quand mÃªme phil

philbihr · 11-09-2004, 02:47 AM

Dommage !! Evidemment c'Ã©tait trop simple.

J'en profite pour t'informer que j'ai trouvÃ© comment exclure des rÃ©pertoires lors de l'indexation. En fait PhDig utilise la technique des robots. Il suffit donc de crÃ©er un fichier "robots.txt" Ã* la racine du site et d'y enregistrer les noms des rÃ©pertoires Ã* exclure.

La structure est la suivante :

User-agent: nom du robot (PhpDig) ou * (tous les robots)
Disallow: Nom rÃ©pertoire 1
.
.
.
Disallow: Nom rÃ©pertoire n

Voici celui que j'utilise :

Quote:

User-agent: PhpDig
Disallow: /_borders
Disallow: /_derived
Disallow: /_fpclass
Disallow: /_overlay
Disallow: /_private
Disallow: /_themes
Disallow: /_vti_cnf
Disallow: /_vti_pvt
Disallow: /activites_fichiers
Disallow: /ADMIN
Disallow: /affiliations_fichiers
Disallow: /associations_d'associations_fichiers
Disallow: /batterie_fichiers
Disallow: /bref_historique_de_lecole_fichiers
Disallow: /calendrier_de_lannee_scolaire_fichiers
Disallow: /catalogue_photo_fichiers
Disallow: /chant_fichiers
Disallow: /clarinette_et_saxo_fichiers
Disallow: /compteurs
Disallow: /cursus_musical_fichiers
Disallow: /decouverte_musicale_fichiers
Disallow: /echo guitare_fichiers
Disallow: /echo violoncelle_fichiers
Disallow: /ensembles_fichiers
Disallow: /faq_fichiers
Disallow: /feedback_fichiers
Disallow: /figaro_fichiers
Disallow: /flutancienne_fichiers
Disallow: /flute_traversiere_fichiers
Disallow: /formation_musicale_fichiers
Disallow: /guitare_fichiers
Disallow: /images
Disallow: /index_fichiers
Disallow: /infos familles_fichiers
Disallow: /inscriptions_fichiers
Disallow: /instruments_fichiers
Disallow: /location_fichiers
Disallow: /moteur_ed
Disallow: /newactivites_fichiers
Disallow: /news_fichiers
Disallow: /nos_liens_preferes_fichiers
Disallow: /objectifs et valeurs_fichiers
Disallow: /ou_et_quand_ecouter_les_profs_de_lems_fichiers
Disallow: /pannonces_fichiers
Disallow: /percussions_a_main_fichiers
Disallow: /photogallery
Disallow: /photos_2002-3_fichiers
Disallow: /photosete03_fichiers
Disallow: /photosete04_fichiers
Disallow: /photosfm03_fichiers
Disallow: /PHPDIG_DIR
Disallow: /piano_fichiers
Disallow: /plan_dacces_fichiers
Disallow: /presjournal_fichiers
Disallow: /reglement_fichiers
Disallow: /renspratiques_fichiers
Disallow: /search_fichiers
Disallow: /sommaire_fichiers
Disallow: /tarifs_fichiers
Disallow: /vie_associative_et_partenaires_fichiers
Disallow: /violon_fichiers
Disallow: /violoncelle_fichiers

Voici une adresse oÃ¹ tu trouveras des informations intÃ©ressantes concernant les robots :

http://www.robotstxt.org/wc/norobots.html

Le site sur lequel je travaille actuellement est celui d'une Ã©cole de musique. La prÃ©sidente l'a crÃ©Ã© avec FrontPage. J'interviens pour dynamiser certaines pages et aussi pour tout ce qui concerne l'environnement Internet. Accessoirement je suis Ã©galement Ã©lÃ¨ve de l'Ã©cole dans la classe de chant !!!

Il ne me reste plus maintenant qu'Ã* intÃ©grer PhpDig dans une page de recherche.

Merci de m'avoir remis sur les rails de PhpDig !!!

Je continue de plancher sur ton pb

mleray · 11-09-2004, 03:36 AM

Merci pour le tuyau

Vais tester Ã§a.

Ce n'est pas Ã©vident pour moi non plus de m'y retrouver dans le site Ã* indexer...C'est le site intranet de mon entreprise, il y a plein de pdf Ã* rÃ©fÃ©rencer et je ne maÃ®trise pas encore l'architecture du site qui doit d'ailleurs Ãªtre remaniÃ© bientÃ´t...

Si tu te lances dans l'indexation des .pdf, .doc ou .xls je veux bien que tu me fasses part de ton expÃ©rience car j'ai des petits soucis de ce cÃ´tÃ© lÃ* aussi.

@++

PS : juste pour savoir, on ne peut pas mettre par exemple dissallow: *_fichiers dans le fichier robot (ce serait trop simple hein ?)

philbihr · 11-09-2004, 04:36 AM

Ce protocole d'exclusion des robots est trÃ¨s rudimentaire. J'avais trouvÃ© une option permettant d'exprimer "tout sauf" je n'arrive plus Ã* remettre la main dessus. Je crois me souvenir que cela ressemblait Ã* :

Disallow: -/repertoire

On peut aussi exclure des fichiers :

Disallow: /repertoire/fichier.ext

Pour l'instant je n'ai ni .doc ni .xls ni .pdf Ã* indexer.

Mais j'ai un autre site que j'ai crÃ©Ã©, moi-mÃªme surtout pas avec FronPage !!!). C'est celui de la chorale dans laquelle je chante (tÃ©nor). C'est un site Ã* l'usage exclusif des choristes, une sorte d'Intranet. Et dans ce site j'ai vraiment de tout: documents, sons, images.

Il lui manque une fonction recherche et j'ai l'intention d'y intÃ©grer PhpDig quand j'en aurai terminÃ© avec l'Ã©cole de musique !!

Tu as raison, ce n'est pas simple de reprendre un projet qu'on ne connait pas, qui n'est pas toujours trÃ¨s bien documentÃ© et qui est opÃ©rationnel.
Mais cela a un petit goÃ»t d'aventure et de challenge. On apprend pas mal de chose et surtout Ã* chercher.

Bon courage.

@++

mleray · 11-09-2004, 04:50 AM

Tiens j'ai trouvÃ© ce que tu voulais :

Quote:

To exclude all files except one
This is currently a bit awkward, as there is no "Allow" field. The easy way is to put all files to be disallowed into a separate directory, say "docs", and leave the one file in the level above this directory:
User-agent: *
Disallow: /~joe/docs/

Alternatively you can explicitly disallow all disallowed pages:
User-agent: *
Disallow: /~joe/private.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

philbihr · 11-09-2004, 08:56 AM

OK mais c'est vraiment un protocole trÃ¨s sommaire, mais son usage est limitÃ© aux robots. MalgrÃ© tout, avec un peu de patience, cela nous permet, de dÃ©crire prÃ©cisÃ©ment Ã* PhpDig le pÃ©rimÃ¨tre des recherches.

En ce qui concerne tes problÃ¨mes de rÃ©indexation immÃ©diate, quand le spider se plante tu relances le "Dig it" immÃ©diatement aprÃ¨s avoir dÃ©vÃ©rouillÃ© sans rien faire d'autre ?

Je suis en train de simuler cela pour voir.

mleray · 11-10-2004, 12:55 AM

J'indexe, Ã§a plante. Je vais dans la mise Ã* jour, je dÃ©verouille et je clique sur la coche verte de Racine/Root pour rÃ©indexer...
Je sais plus si j'ai essayÃ© en remettant l'adresse de la racine et en relanÃ§ant le Dig It dans la page d'admin mais je crois que oui... Bon ben je vais m'en assurer de ce pas

philbihr · 11-10-2004, 02:12 AM

Comme promis j'ai lancÃ© l'indexation une premiÃ¨re fois complÃ¨tement.

Ensuite j'ai ait un "install" dans une autre base et j'ai relancÃ© l'indexation en l'interrompant Ã* trois reprise en fermant IE, pour simuler un plantage.

A chaque fois je suis reparti en ne faisant que dÃ©verrouiller sans toucher Ã* autre chose et relanÃ§ant "Dig this".

Cela se passe bien. D'aprÃ¨s l'affichage du log le spider semble repartir lÃ* oÃ¹ il avait Ã©tÃ© interrompu.

Dans le "Database Status" j'ai le mÃªme nombre de "Keywords" que lors de l'indexation sans interruption.

Essaie voir si cela se passe de la mÃªme faÃ§on chez toi.

philbihr · 11-11-2004, 01:56 AM

Post scriptum !

J'ai trouvÃ© trÃ¨s intelligente la faÃ§on bilingue dont tu as formulÃ© ta requÃªte. Je me suis permis de l'adopter, espÃ©rant que tu ne m'en tiendrais pas rigueur.

11-09-2004, 12:55 AM	#1
mleray Orange Mole Join Date: Sep 2004 Location: Nantes (44) FRANCE Posts: 31	re-indexing immediately Bonjour, mon spider plante trÃ¨s rÃ©guliÃ¨rement. Je n'ai pas trouvÃ© pourquoi, ni comment reprendre l'indexation lÃ* oÃ¹ le spider s'est arrÃªtÃ© avec la mÃªme profondeur de recherche. En fait quand je reprends il vÃ©rifie uniquement la date des fichiers dÃ©jÃ* indexÃ©s qui n'a Ã©videmment pas changÃ© mais il ne parcoure pas les liens existants dans ces fichiers et donc je n'arrive pas Ã* avoir toutes les pages de mon site. ----------------------------------------------------------------------- Hello, my spider crash very regularly. I did not find why, nor how to start again indexing where the spider has stopped with the same depth of research. In fact when I begin again it check only the date of the already indexed files which obviously did not change but it does not traverse the existing links in these files and thus I do not manage to have all the pages of my site. (traduction Lycos...)

11-09-2004, 03:36 AM	#5
mleray Orange Mole Join Date: Sep 2004 Location: Nantes (44) FRANCE Posts: 31	Merci pour le tuyau Vais tester Ã§a. Ce n'est pas Ã©vident pour moi non plus de m'y retrouver dans le site Ã* indexer...C'est le site intranet de mon entreprise, il y a plein de pdf Ã* rÃ©fÃ©rencer et je ne maÃ®trise pas encore l'architecture du site qui doit d'ailleurs Ãªtre remaniÃ© bientÃ´t... Si tu te lances dans l'indexation des .pdf, .doc ou .xls je veux bien que tu me fasses part de ton expÃ©rience car j'ai des petits soucis de ce cÃ´tÃ© lÃ* aussi. @++ PS : juste pour savoir, on ne peut pas mettre par exemple dissallow: _fichiers dans le fichier robot (ce serait trop simple hein ?) Last edited by mleray; 11-09-2004 at 03:39 AM.*

Similar Threads
Thread	Thread Starter	Forum	Replies	Last Post
Spidering from shell - returns immediately, with nothing	ciaran@clissman	Troubleshooting	1	06-17-2005 03:14 AM

11-09-2004, 02:01 AM	#2
philbihr Green Mole Join Date: Oct 2004 Location: Senlis (60) France Posts: 18	Bonjour, Peut-Ãªtre pourrais-tu essayer de modifier le paramÃ¨tre : define('LIMIT_DAYS',7); //Nombre de jours par dÃ©faut avant de revisiter une page dans le fichier de configuration : [PHPDIG_DIR]/include/config.php Je ne sais pas s'il accepterait "0" ???

11-09-2004, 04:36 AM	#6
philbihr Green Mole Join Date: Oct 2004 Location: Senlis (60) France Posts: 18	Ce protocole d'exclusion des robots est trÃ¨s rudimentaire. J'avais trouvÃ© une option permettant d'exprimer "tout sauf" je n'arrive plus Ã* remettre la main dessus. Je crois me souvenir que cela ressemblait Ã* : Disallow: -/repertoire On peut aussi exclure des fichiers : Disallow: /repertoire/fichier.ext Pour l'instant je n'ai ni .doc ni .xls ni .pdf Ã* indexer. Mais j'ai un autre site que j'ai crÃ©Ã©, moi-mÃªme surtout pas avec FronPage !!!). C'est celui de la chorale dans laquelle je chante (tÃ©nor). C'est un site Ã* l'usage exclusif des choristes, une sorte d'Intranet. Et dans ce site j'ai vraiment de tout: documents, sons, images. Il lui manque une fonction recherche et j'ai l'intention d'y intÃ©grer PhpDig quand j'en aurai terminÃ© avec l'Ã©cole de musique !! Tu as raison, ce n'est pas simple de reprendre un projet qu'on ne connait pas, qui n'est pas toujours trÃ¨s bien documentÃ© et qui est opÃ©rationnel. Mais cela a un petit goÃ»t d'aventure et de challenge. On apprend pas mal de chose et surtout Ã* chercher. Bon courage. @++

11-09-2004, 08:56 AM	#8
philbihr Green Mole Join Date: Oct 2004 Location: Senlis (60) France Posts: 18	OK mais c'est vraiment un protocole trÃ¨s sommaire, mais son usage est limitÃ© aux robots. MalgrÃ© tout, avec un peu de patience, cela nous permet, de dÃ©crire prÃ©cisÃ©ment Ã* PhpDig le pÃ©rimÃ¨tre des recherches. En ce qui concerne tes problÃ¨mes de rÃ©indexation immÃ©diate, quand le spider se plante tu relances le "Dig it" immÃ©diatement aprÃ¨s avoir dÃ©vÃ©rouillÃ© sans rien faire d'autre ? Je suis en train de simuler cela pour voir.

11-10-2004, 12:55 AM	#9
mleray Orange Mole Join Date: Sep 2004 Location: Nantes (44) FRANCE Posts: 31	J'indexe, Ã§a plante. Je vais dans la mise Ã* jour, je dÃ©verouille et je clique sur la coche verte de Racine/Root pour rÃ©indexer... Je sais plus si j'ai essayÃ© en remettant l'adresse de la racine et en relanÃ§ant le Dig It dans la page d'admin mais je crois que oui... Bon ben je vais m'en assurer de ce pas

11-10-2004, 02:12 AM	#10
philbihr Green Mole Join Date: Oct 2004 Location: Senlis (60) France Posts: 18	Comme promis j'ai lancÃ© l'indexation une premiÃ¨re fois complÃ¨tement. Ensuite j'ai ait un "install" dans une autre base et j'ai relancÃ© l'indexation en l'interrompant Ã* trois reprise en fermant IE, pour simuler un plantage. A chaque fois je suis reparti en ne faisant que dÃ©verrouiller sans toucher Ã* autre chose et relanÃ§ant "Dig this". Cela se passe bien. D'aprÃ¨s l'affichage du log le spider semble repartir lÃ* oÃ¹ il avait Ã©tÃ© interrompu. Dans le "Database Status" j'ai le mÃªme nombre de "Keywords" que lors de l'indexation sans interruption. Essaie voir si cela se passe de la mÃªme faÃ§on chez toi.

11-11-2004, 01:56 AM	#11
philbihr Green Mole Join Date: Oct 2004 Location: Senlis (60) France Posts: 18	Post scriptum ! J'ai trouvÃ© trÃ¨s intelligente la faÃ§on bilingue dont tu as formulÃ© ta requÃªte. Je me suis permis de l'adopter, espÃ©rant que tu ne m'en tiendrais pas rigueur.