PhpDig.net

PhpDig.net (http://www.phpdig.net/forum/index.php)
-   Troubleshooting (http://www.phpdig.net/forum/forumdisplay.php?f=22)
-   -   not correct link collecting (http://www.phpdig.net/forum/showthread.php?t=1736)

zaartix 01-13-2005 09:02 PM

not correct link collecting
 
On my site links are like this:
/index.php?razdel=about&mach[2]=20

But spider gets only /index.php?razdel=about&mach

How to fix it?

Charter 01-13-2005 10:22 PM

There are two regexs in robot_functions.php to edit:

- One
Code:

while (eregi("(<frame[^>]*src[[:blank:]]*=|href[[:blank:]]*=|http-equiv=['\"]refresh['\"] *content=['\"][0-9]+;[[:blank:]]*url[[:blank:]]*=|window[.]location[[:blank:]]*=|window[.]open[[:blank:]]*[(])[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*([:%/?=&;\\,._a-zA-Z0-9\|+ ()~-]*))(#[.a-zA-Z0-9-]*)?[\'\" ]?",$eval,$regs)) {
- Two
Code:

while(eregi("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*([:%/?=&;\\,._a-zA-Z0-9 ()~-]*))[#\'\" ]?)",$line,$regs)) {
You need to add the [ and ] characters to the following character classes.

- One
Code:

[:%/?=&;\\,._a-zA-Z0-9\|+ ()~-]
- Two
Code:

[:%/?=&;\\,._a-zA-Z0-9 ()~-]
Note, though, that more things may look like links that are not links, like JavaScript and what not.

zaartix 01-13-2005 11:39 PM

THX, man!
- TWO
Code:

[:%/?=&;\\,._a-zA-Z0-9 ()~-]
doesn't working :(
PHP Code:



eregi
("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*([:%/?=&;\\,._a-zA-Z0-9\[\] ()~-]*))[#\'\" ]?)",$line,$regs); 

or

PHP Code:



eregi
("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*([:%/?=&;\\,._a-zA-Z0-9[\] ()~-]*))[#\'\" ]?)",$line,$regs); 

or

PHP Code:



eregi
("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*([:%/?=&;\\,._a-zA-Z0-9[] ()~-]*))[#\'\" ]?)",$line,$regs); 


Charter 01-14-2005 01:08 AM

Not working as in it throws an error?

zaartix 01-14-2005 02:47 AM

no, spider gets only /index.php?razdel=about&mach without [] symbols

Charter 01-14-2005 12:44 PM

Okay, I see. The right bracket doesn't like being in a character class.

To get PhpDig to accept [ and ] in links, incorporate the following:
PHP Code:

$link "http://www.domain.com/dir/index.php?razdel=about&mach[2]=20";
$no_one "[:%/?=&;\\,._a-zA-Z0-9\|+ ()~-]*";
$no_two "[:%/?=&;\\,._a-zA-Z0-9 ()~-]*";

if (
eregi("($no_one\[?$no_one\]?$no_one)",$link,$regs)) {
    echo 
$regs[1];
}
if (
eregi("($no_two\[?$no_two\]?$no_two)",$link,$regs)) {
    echo 
$regs[1];
}

// both print http://www.domain.com/dir/index.php?razdel=about&mach[2]=20 

For example, you can probably replace both character classes with:
Code:

[:%/?=&;\\,._a-zA-Z0-9|+ ()~-]
And then assign a variable like so:
PHP Code:

$no_brackets "[:%/?=&;\\,._a-zA-Z0-9|+ ()~-]*"

And then use the following:
Code:

($no_brackets\[?$no_brackets\]?$no_brackets)
in place of:
Code:

([:%/?=&;\\,._a-zA-Z0-9\|+ ()~-]*)
and in place of:
Code:

([:%/?=&;\\,._a-zA-Z0-9 ()~-]*)
in the two regexs.

zaartix 01-14-2005 10:01 PM

thx man for excellent support

zaartix 01-18-2005 08:12 PM

it's working for links like
http://www.domain.com/dir/index.php?razdel=about&mach[2]=20

so what if links will be like
http://www.domain.com/dir/index.php?razdel=about&mach[2]=20&mach[2]=20&mach[2]=20&mach[2]=20

PHP Code:

 $link "http://www.domain.com/dir/index.php?razdel=about&mach[/url][2]=20&mach[2]=20&mach[2]=20&mach[2]=20";
$no_one "[:%/?=&;\\,._a-zA-Z0-9\|+ ()~-]*";
$no_two "[:%/?=&;\\,._a-zA-Z0-9 ()~-]*";

if (
eregi("($no_one\[?$no_one\]?$no_one)",$link,$regs)) {
    echo 
$regs[1];
}
if (
eregi("($no_two\[?$no_two\]?$no_two)",$link,$regs)) {
    echo 
$regs[1];
}

// both print [url]http://www.domain.com/dir/index.php?razdel=about&mach[/url][2]=20 

return only this:
http://www.domain.com/dir/index.php?razdel=about&mach[2]=20&mach

Charter 01-18-2005 09:27 PM

($allowed_link_chars\[?$allowed_link_chars\]?$allowed_link_chars)+

zaartix 01-19-2005 01:32 AM

delete this post plz

zaartix 01-19-2005 01:36 AM

delete this post plz

zaartix 01-19-2005 01:55 AM

i'll make small example

zaartix 01-19-2005 02:08 AM

PHP Code:

<?
$line
[] = '<a href="http://www.domain.com/dir/index.php?razdel=about">test1</a>';
$line[] = '<a href="http://www.domain.com/dir/index.php?razdel=about&mach[2]=20">test2</a><table><tr><td></td></tr></table>';
$line[] = '<a href="http://www.domain.com/dir/index.php?razdel=about&mach[2]=20&mach[3]=01">test3</a><table><tr><td></td></tr></table>';
$line[] = '<table><tr><td></td></tr></table><a href="http://www.domain.com/dir/index.php?razdel=about&mach[2]=20&mach[3]=01&mach[4]=02">test4</a>';
$i=0;
$allowed_link_chars "[:%/?=&;\\,._a-zA-Z0-9|+~-]*";
while (
$line[$i]) {
if (
eregi("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*($allowed_link_chars\[?$allowed_link_chars\]?$allowed_link_chars))(#[.a-zA-Z0-9-]*)?[\'\" ]?)",$line[$i],$regs)) {
        echo 
$regs[2]." - example null<br>";
}
if (
eregi("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*($allowed_link_chars\[?$allowed_link_chars\]?$allowed_link_chars)?)(#[.a-zA-Z0-9-]*)?[\'\" ]?)",$line[$i],$regs)) {
        echo 
$regs[2]." - example ?<br>";
}
if (
eregi("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*($allowed_link_chars\[?$allowed_link_chars\]?$allowed_link_chars)*)(#[.a-zA-Z0-9-]*)?[\'\" ]?)",$line[$i],$regs)) {
        echo 
$regs[2]." - example *<br>";
}
if (
eregi("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*(($allowed_link_chars\[?$allowed_link_chars\]?$allowed_link_chars)+))(#[.a-zA-Z0-9-]*)?[\'\" ])",$line[$i],$regs)) {
        echo 
$regs[2]." - example +<br>";
}
$i++;
}
?>

correct results only in '*' and '+' examples

zaartix 01-19-2005 02:14 AM

another trouble:

phpdig get links from this code:
PHP Code:

<script language='Javascript'>
function 
showDetail(code,type)
{
    if (
type=='all') {
        
width=600;
        
height=400;
    } else {
        
width=600;
        
height=200;
    }
    
window.open('/detail.php?mach[1]=ost&mach[2]='+code+'&mach[3]='+type,'_blank','scrollbars, resizable, width='+width+',height='+height+', left=200, top=200');
}
function 
cartAdd(code)
{
    
width=600;
    
height=350;
    
    
window.open('/detail.php?mach[1]=cart&mach[2]=add&mach[3]='+code,'_blank','scrollbars, resizable, width='+width+',height='+height+', left=200, top=200');
}
</script> 

and from this:
PHP Code:

<noindex>
<
a href="http://www.domain.com/dir/index.php?razdel=about">test1</a>
</
noindex


Charter 01-19-2005 03:02 AM

  • So + works for your type of [ ] links, right? I'm not sure if you are still having a problem with [ ] type links, but remember to use + in those two regexs.
  • PhpDig tries to follow simple window.location and window.open JavaScript links, even if the links are like those you posted. There is no nice and simple way to deal with JavaScript, as people can script in different ways. If you don't want PhpDig to deal with JavaScript, then either remove the related window.whatever stuff from the regex, edit the $allowed_link_chars variable, or use the FORBIDDEN_EXTENSIONS constant to exclude links.

zaartix 01-19-2005 03:08 AM

Quote:

So + works for your type of [ ] links, right? I'm not sure if you are still having a problem with [ ] type links, but remember to use + in those two regexs.
i think that in 1.8.7 of phpdig all should be work?

working only if link contain only one pair of [] :(

zaartix 01-19-2005 03:12 AM

first regexp doesn't needed becourse site have'nt frames

Charter 01-19-2005 04:09 AM

>> working only if link contain only one pair of []

So it works in example but not with PhpDig? What's a link to a page containing multiple [ ] in its links?

>> first regexp doesn't needed becourse site have'nt frames

Other people might have frames though. ;)

The RFC2732 protocol states in part:
Quote:

Code:

  (3) Add "[" and "]" to the set of 'reserved' characters:

      reserved    = ";" | "/" | "?" | ":" | "@" | "&" | "=" | "+" |
                    "$" | "," | "[" | "]"

  and remove them from the 'unwise' set:

      unwise      = "{" | "}" | "|" | "\" | "^" | "`"


Sometimes using reserved characters in links, other than for their intended purpose, can cause problems as was the case in this thread (colon used outside of <user>:<pass>@<host>:<port> meaning so the PHP parse_url function did not understand).

You might want to consider encoding your URIs according to this rather than use literal square brackets in your links.

zaartix 01-19-2005 07:24 PM

>>So it works in example but not with PhpDig? What's a link to a page containing multiple [ ] in its links?
Yep.
Just try to dig this page:
http://zaartix.ru/krit

Sorry for russian on that page

Charter 01-19-2005 07:40 PM

That page contains tons of links to 404 pages.

zaartix 01-19-2005 09:01 PM

they are all to 404 :)
so phpdig extract not all links from main page

zaartix 01-19-2005 09:08 PM

i'am not upload other pages, only one page.
for what other pages? if phpdig find all links which are on that page and all links are correct, then extractng regexp working right. Is it so?

Charter 01-20-2005 03:07 AM

PhpDig tests links, and if PhpDig gets a 404 from a link, then PhpDig does not index that link. The + works in example, so maybe try setting up an online demo with a few links.

zaartix 01-20-2005 03:23 AM

so, phpdig, when it parsing page, trying to open each of link? on first step? i think, that phpdig extracting all links and paste it in tempspider table. at next step phpdig try to open each of links.
I'am wrong?

Charter 01-20-2005 03:53 AM

Nope, that is not how it works. PhpDig does not insert server response 404s in the tempspider table. With all the links currently returning 404s, the only thing inserted into the tempspider table is the zaartix.ru/krit/ page.

zaartix 01-20-2005 08:51 PM

at now you can try to dig http://zaartix.ru/krit
plz, help to solve this problem

Charter 01-20-2005 09:31 PM

There are no regular links with more than one set of [ ] square brackets in them. :confused:

zaartix 01-21-2005 03:05 AM

There are many levels of pages. Just try to dig all aviable pages, mane different types of links :)
http://zaartix.ru/krit

Charter 01-21-2005 04:33 AM

Here's a one-page test...

Spider:

http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=79.htm

Results:

Spidering in progress... [Stop spider]
SITE : http://zaartix.ru/
Exclude paths :
- @NONE@
1:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=79.htm
(time : 00:00:09)
No link in temporary table
links found : 1
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=79.htm
Optimizing tables...
Indexing complete ! [Back] to admin interface.

Charter 01-21-2005 04:55 AM

Here's a multi-page test...

Spider:

http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news.htm

Results:

Spidering in progress... [Stop spider]
SITE : http://zaartix.ru/
Exclude paths :
- @NONE@
1:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news.htm
(time : 00:00:10)
+ + + + + + + + + + + + + + + + + + + + + +
level 1...
2:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=23.htm
(time : 00:00:34)

3:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=24.htm
(time : 00:00:46)

4:http://zaartix.ru/krit/index.php-razdel=price.htm
(time : 00:01:04)

5:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=34.htm
(time : 00:01:13)

6:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=19.htm
(time : 00:01:23)

Duplicate of an existing document
7:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
(time : 00:01:40)

8:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=22.htm
(time : 00:01:50)

9:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=21.htm
(time : 00:01:59)

10:http://zaartix.ru/krit/index.htm
(time : 00:02:08)

11:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=20.htm
(time : 00:02:17)

12:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=ost.htm
(time : 00:02:25)

13:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech.htm
(time : 00:02:34)

14:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert.htm
(time : 00:02:43)

15:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=27.htm
(time : 00:02:51)

16:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=32.htm
(time : 00:03:00)

17:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=33.htm
(time : 00:03:09)

18:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=16.htm
(time : 00:03:17)

19:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=17.htm
(time : 00:03:26)

20:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=vacancies.htm
(time : 00:03:35)

21:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=79.htm
(time : 00:03:43)

22:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=78.htm
(time : 00:03:51)

23:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=2.htm
(time : 00:04:01)

No link in temporary table
links found : 23
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=23.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=24.htm
http://zaartix.ru/krit/index.php-razdel=price.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=34.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=19.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=22.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=21.htm
http://zaartix.ru/krit/index.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=20.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=ost.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=27.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=32.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=33.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=16.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=17.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=vacancies.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=79.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=78.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=2.htm
Optimizing tables...
Indexing complete ! [Back] to admin interface.

Charter 01-21-2005 05:06 AM

In both one-page and multi-page tests, the + seems to work just fine. :confused:

zaartix 01-23-2005 07:40 PM

try to dig this page:
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
and then look at it by browser.

PhpDig skipping a lot of links wich have looks like
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=01.htm

Charter 01-23-2005 10:12 PM


Spidering in progress... [Stop spider]
SITE : http://zaartix.ru/
Exclude paths :
- @NONE@
1:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
(time : 00:00:17)
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
level 1...
2:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=20.htm
(time : 00:01:58)

3:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=16.htm
(time : 00:02:11)

4:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=32.htm
(time : 00:02:21)

5:http://zaartix.ru/krit/
(time : 00:02:32)

6:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=vacancies.htm
(time : 00:02:44)

7:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=17.htm
(time : 00:02:55)

8:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=33.htm
(time : 00:03:05)

9:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=27.htm
(time : 00:03:17)

10:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=20.htm
(time : 00:03:27)

11:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=21.htm
(time : 00:03:41)

12:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=24.htm
(time : 00:03:54)

13:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news.htm
(time : 00:04:05)

14:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=19.htm
(time : 00:04:18)

15:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=34.htm
(time : 00:04:35)

Duplicate of an existing document
16:http://zaartix.ru/krit/index.php-razdel=price.htm
(time : 00:04:52)

17:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=22.htm
(time : 00:05:04)

18:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert.htm
(time : 00:05:14)

19:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech.htm
(time : 00:05:25)

20:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=ost.htm
(time : 00:05:37)

21:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=23.htm
(time : 00:05:49)

22:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=cartShow.htm
(time : 00:06:00)

Duplicate of an existing document
23:http://zaartix.ru/krit/index.htm
(time : 00:06:12)

24:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=20.htm
(time : 00:06:24)

25:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=20.htm
(time : 00:06:34)

26:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=01.htm
(time : 00:06:46)

27:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=01.htm
(time : 00:06:57)

28:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=01.htm
(time : 00:07:09)

29:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=15.htm
(time : 00:07:20)

30:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=15.htm
(time : 00:07:31)

31:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=15.htm
(time : 00:07:46)

32:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=46.htm
(time : 00:07:57)

33:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=46.htm
(time : 00:08:09)

34:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=46.htm
(time : 00:08:22)

35:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=36.htm
(time : 00:08:36)

36:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=36.htm
(time : 00:08:48)

37:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=36.htm
(time : 00:09:01)

38:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=35.htm
(time : 00:09:13)

39:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=35.htm
(time : 00:09:24)

40:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=35.htm
(time : 00:09:38)

41:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=48.htm
(time : 00:09:49)

42:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=48.htm
(time : 00:10:03)

43:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=48.htm
(time : 00:10:13)

44:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=47.htm
(time : 00:10:26)

45:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=47.htm
(time : 00:10:36)

46:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=47.htm
(time : 00:10:46)

47:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=40.htm
(time : 00:10:58)

48:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=40.htm
(time : 00:11:08)

49:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=40.htm
(time : 00:11:20)

50:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=30.htm
(time : 00:11:31)

51:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=30.htm
(time : 00:11:41)

52:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=30.htm
(time : 00:11:53)

53:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=28.htm
(time : 00:12:04)

54:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=28.htm
(time : 00:12:16)

55:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=28.htm
(time : 00:12:28)

56:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=29.htm
(time : 00:12:40)

57:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=29.htm
(time : 00:12:51)

58:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=29.htm
(time : 00:13:02)

59:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=25.htm
(time : 00:13:16)

60:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=25.htm
(time : 00:13:27)

61:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=25.htm
(time : 00:13:38)

62:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=26.htm
(time : 00:13:53)

63:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=26.htm
(time : 00:14:04)

64:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=26.htm
(time : 00:14:15)

65:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=10.htm
(time : 00:14:26)

66:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=10.htm
(time : 00:14:37)

67:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=10.htm
(time : 00:14:52)

68:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=33.htm
(time : 00:15:03)

69:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=33.htm
(time : 00:15:14)

70:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=33.htm
(time : 00:15:27)

71:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=86.htm
(time : 00:15:39)

72:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=86.htm
(time : 00:15:49)

73:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=86.htm
(time : 00:16:00)

74:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=83.htm
(time : 00:16:14)

75:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=83.htm
(time : 00:16:23)

76:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=83.htm
(time : 00:16:37)

77:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=64.htm
(time : 00:16:50)

78:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=64.htm
(time : 00:17:01)

79:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=64.htm
(time : 00:17:13)

80:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=59.htm
(time : 00:17:24)

81:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=59.htm
(time : 00:17:35)

82:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=59.htm
(time : 00:17:44)

83:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=54.htm
(time : 00:17:58)

84:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=54.htm
(time : 00:18:09)

85:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=54.htm
(time : 00:18:23)

86:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=53.htm
(time : 00:18:35)

87:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=53.htm
(time : 00:18:48)

88:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=53.htm
(time : 00:19:01)

89:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=58.htm
(time : 00:19:12)

90:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=58.htm
(time : 00:19:24)

91:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=58.htm
(time : 00:19:36)

92:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=57.htm
(time : 00:19:48)

93:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=57.htm
(time : 00:20:01)

94:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=57.htm
(time : 00:20:12)

95:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=55.htm
(time : 00:20:23)

96:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=55.htm
(time : 00:20:33)

97:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=55.htm
(time : 00:20:45)

98:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=61.htm
(time : 00:20:57)

99:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=61.htm
(time : 00:21:08)

100:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=61.htm
(time : 00:21:20)

Charter 01-23-2005 10:13 PM


No link in temporary table
links found : 100
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=20.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=16.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=32.htm
http://zaartix.ru/krit/
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=vacancies.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=17.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=33.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=27.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=20.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=21.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=24.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=19.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=34.htm
http://zaartix.ru/krit/index.php-razdel=price.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=22.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=ost.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=23.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=cartShow.htm
http://zaartix.ru/krit/index.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=20.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=20.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=01.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=01.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=01.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=15.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=15.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=15.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=46.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=46.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=46.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=36.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=36.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=36.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=35.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=35.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=35.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=48.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=48.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=48.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=47.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=47.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=47.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=40.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=40.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=40.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=30.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=30.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=30.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=28.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=28.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=28.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=29.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=29.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=29.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=25.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=25.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=25.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=26.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=26.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=26.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=10.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=10.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=10.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=33.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=33.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=33.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=86.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=86.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=86.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=83.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=83.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=83.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=64.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=64.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=64.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=59.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=59.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=59.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=54.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=54.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=54.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=53.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=53.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=53.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=58.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=58.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=58.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=57.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=57.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=57.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=55.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=55.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=55.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=61.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=61.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=61.htm
Optimizing tables...
Indexing complete ! [Back] to admin interface.

Charter 01-23-2005 10:19 PM

So I test again, and + works just fine. I purposely stopped the spider after 100 links, but 100 links is enough to see that + works. Now you try using the following options...

Text box: http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
Radio button: no
Search depth: 1
Links per: 0

See section 6 of the documentation for a description of the options.

zaartix 01-24-2005 01:00 AM

????
How?? :)

Before posting here i tested a new installation of 1.8.7 to dig that link. Php dig report:

SITE : http://zaartix.ru/
Exclude paths :
- @NONE@
1:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
(time : 00:00:14)
+ + + + + + + + + + + + + + + + + + + + +

The num of Symbols "+" are much less than you.
Are you testing clean 1.8.7 or made some changes in robot_functions.php?
$allowed_link_chars = "[:%/?=&;\\,._a-zA-Z0-9|+~-]*"; is it correct?

Sorry, if i take a lot of time from you :(

Can you test by yourself plz?
http://1ya.ru/search/admin

Charter 01-24-2005 02:24 AM

I used the following:
Code:

// default setting in config.php file
$allowed_link_chars = "[:%/?=&;\\,._a-zA-Z0-9|+~-]*";

// change two spots in robot_functions.php file
(($allowed_link_chars\[?$allowed_link_chars\]?$allowed_link_chars)+)

BTW, you get a "set_time_limit() has been disabled" warning.

zaartix 01-24-2005 09:03 PM

>BTW, you get a "set_time_limit() has been disabled" warning.
Yep, my hosting provider has been disable this feature.

A lot of thanks, man!!! Problem has been solved:)


All times are GMT -8. The time now is 09:19 AM.

Powered by vBulletin® Version 3.7.3
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Copyright © 2001 - 2005, ThinkDing LLC. All Rights Reserved.