PhpDig.net

PhpDig.net (http://www.phpdig.net/forum/index.php)
-   Troubleshooting (http://www.phpdig.net/forum/forumdisplay.php?f=22)
-   -   no spider my file links (http://www.phpdig.net/forum/showthread.php?t=1085)

lolodev 07-15-2004 02:17 AM

no spider my file links
 
hello

there 's something wrong that i can't explian:

i've put somes doculents(MSWORD) in tree file of my wwwroot apache.

http://quito.citipro.fr/documents


i run an index from this url: phpdif sees first dir but not the MSWORD in this dir ??

lolodev 07-15-2004 03:46 AM

ok it's good

lolodev 07-15-2004 08:19 AM

quelqu'un a t il une solution pour eviter que phpdig indexe autre chose que l'url donnée ...

si je lui donne quito.citipro.fr/documents, il remonte ensuite Ã* la racine du site quito.citipro.fr et indexe les pages en dessous ...

SITE : http://quito.citipro.fr/
Chemins exclus :
- @NONE@
1:http://quito.citipro.fr/documents/
(temps : 00:00:05)
+ + +
niveau 1...
2:http://quito.citipro.fr/index/pages/fr/20.htm
(temps : 00:00:16)
+ + + + + + + + + + + +
3:http://quito.citipro.fr/documents/lolo/
(temps : 00:00:21)
+
4:http://quito.citipro.fr/documents/lolo2/
(temps : 00:00:26)
+
niveau 2...
5:http://quito.citipro.fr/index/pages/fr/101.htm
(temps : 00:00:36)
+ + + + + + + + + + + + + + + +
6:http://quito.citipro.fr/index/pages/fr/99.htm
(temps : 00:00:42)
+ + + + +
7:http://quito.citipro.fr/index/pages/...tter/index.php
(temps : 00:00:47)
8:http://quito.citipro.fr/index/pages/.../news/news.php
(temps : 00:00:52)
niveau 3...
9:http://quito.citipro.fr/index/pages/fr/119.htm
(temps : 00:01:02)
+ + + + + +
10:http://quito.citipro.fr/index/pages/fr/41.htm
(temps : 00:01:08)
+ + +
11:http://quito.citipro.fr/index/pages/...ipt=affdoc.php
(temps : 00:01:13)
+ + +
12:http://quito.citipro.fr/index/pages/fr/120.
(temps : 00:01:18)
niveau 4...
13:http://quito.citipro.fr/index/pages/fr/127.htm
(temps : 00:01:29)
14:http://quito.citipro.fr/index/pages/fr/130.htm%20clas
(temps : 00:01:34)
15:http://quito.citipro.fr/index/pages/fr/129.htm%20clas
(temps : 00:01:39)
16:http://quito.citipro.fr/index/pages/fr/128.htm%20clas
(temps : 00:01:44)

Charter 07-15-2004 08:29 AM

Hi. If LIMIT_TO_DIRECTORY is true then you need to have an ending slash to stay within that directory:

e.g., http://quito.citipro.fr/documents/lolo/ (only indexes documents within documents/lolo/)

e.g., http://quito.citipro.fr/documents/lolo2/lolo3/ (only indexes documents within documents/lolo2/lolo3/)

PHP Code:

//for limit to directory, URL format must either have file at end or ending slash at end
//e.g., http://www.domain.com/dirs/ (WITH ending slash) or http://www.domain.com/dirs/dirs/index.php
define('LIMIT_TO_DIRECTORY',true);      //limit index to given (sub)directory, no sub dirs of dirs are indexed 


lolodev 07-15-2004 10:20 PM

ok

LIMIT_TO_DIRECTORY was always TRUE

:-

lolodev 07-15-2004 10:23 PM

but this define limit index to given (sub)directory, no sub dirs of dirs are indexed - My pb is not in sub dir but prevously dir

lolodev 07-15-2004 10:26 PM

with TRUE or FALSE , i've the same result

Charter 07-15-2004 10:38 PM

Hi. Make sure the tempspider table is empty and then index http://quito.citipro.fr/directory/ (with ending slash).

lolodev 07-15-2004 10:49 PM

hi- my temspider table is empty

Charter 07-15-2004 11:11 PM

There has to be links to the WORD documents, but all http://quito.citipro.fr/documents/ has in it is folders:
Code:

Index of /documents
 Name                    Last modified      Size  Description
--------------------------------------------------------------------------------
 Parent Directory        15-Jul-2004 14:20      - 
 lolo/                  13-Jul-2004 21:23      - 
 lolo2/                  13-Jul-2004 21:38      - 
--------------------------------------------------------------------------------


lolodev 07-15-2004 11:21 PM

i don't unsterstand so good ...

PHPDIG can crawl directory, sub-directory and doc.
i've tested that, and it runs -


(do you speak french ?)

lolodev 07-15-2004 11:23 PM

folder and sub folders are like pages or link in a html page

Charter 07-15-2004 11:29 PM

What version are you using?

lolodev 07-15-2004 11:30 PM

1.8.3

Charter 07-15-2004 11:32 PM

Quelle URI voulez-vous indexer?

lolodev 07-15-2004 11:35 PM

ben uniquement quito.citipro.fr/documents, avec les sous-rep et doc dedans. j'ajoute une fonction Ã* phpdig pour typer l'info dans la base d'indexe afin de pouvoir apposer des filtres Ã* la recherche (les droits/doc par exemple)

j'ai travailler avec VERITY et il fct bien comme ça

j'essaie donc d'isoler la focntion INDEXATIon et ajouter cette colonne afin d'avoir plusieurs indexation /type dans la meme table ou plusieurs tables (Ã* voir)

lolodev 07-15-2004 11:36 PM

(j m'absence 3 heures)

lolodev 07-16-2004 01:53 AM

ok ...

lolodev 07-16-2004 02:28 AM

ce que je ne comprends pas c pourquoi il m'indexe la pahe http://quito.citipro.fr/index/pages/fr/20.htm.

si cette page est indexée, c que PHPDIG indexe la racine web quito.citipro.fr, qui redirige vers http://quito.citipro.fr/index/pages/fr/20.htm

PHPDIG sait il se comporter correctemetn avec des sites qui utilisent le mod REWRITING URL d'apache (ce qui est mon cas)
ce qui explique le chemin /index/ qui est virtuel

lolodev 07-16-2004 02:31 AM

le fait qu'il index http://quito.citipro.fr/index/pages/fr/20.htm provient du chemin "Parent Directory" sous quito.citipro.fr/documents/, mais pourquoi remonte t il sous quito.citipro.fr ? devrais je peut être interdire ce chemin ?

lolodev 07-16-2004 03:35 AM

dans la cadre d'une indexation de repertoire de documents, il n'est pas possible de limiter la pronfondeur de recherche car il n'est pas possible de connaitre le nombre de repertoires ou de sous repertoires créés avant indexation.

donc comment ne pas limiter la profondeur ? et le nombre de liens /niveau ?

Charter 07-16-2004 06:31 PM

Ne pas limiter: augmenter le profondeur de recherche et diminuer le nombre de liens par Ã* zéro.

Eviter que phpdig indexe autre chose que l'url donnée: diminuer le nombre par Ã* zéro pour les deux.

Interdire remonte: effacer et exclure la branche dans le admin ou robots.txt document.

quito.citipro.fr/index/pages/fr/20.htm provient du chemin "Parent Directory" sous quito.citipro.fr/documents/: S'il vous plaît voir ceci lien.


(l'exemple de non "parent directory")
Quelle URI voulez-vous indexer: http://quito.citipro.fr/documents/
LIMIT_TO_DIRECTORY: true (seulement documents/)
Profondeur de recherche: 5
Liens par: 5


Exploration des liens en cours...

--------------------------------------------------------------------------------
SITE : http://quito.citipro.fr/
Chemins exclus :
- http
1:http://quito.citipro.fr/documents/
(time : 00:00:11)

Pas de liens dans la table temporaire

--------------------------------------------------------------------------------

Liens trouvés : 1
http://quito.citipro.fr/documents/
Optimizing tables...
Indexation terminée !


J'espère que ceci est compréhensible. :)


All times are GMT -8. The time now is 08:27 PM.

Powered by vBulletin® Version 3.7.3
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Copyright © 2001 - 2005, ThinkDing LLC. All Rights Reserved.