PDA

View Full Version : not correct link collecting


zaartix
01-13-2005, 09:02 PM
On my site links are like this:
/index.php?razdel=about&mach[2]=20

But spider gets only /index.php?razdel=about&mach

How to fix it?

Charter
01-13-2005, 10:22 PM
There are two regexs in robot_functions.php to edit:

- One

while (eregi("(<frame[^>]*src[[:blank:]]*=|href[[:blank:]]*=|http-equiv=['\"]refresh['\"] *content=['\"][0-9]+;[[:blank:]]*url[[:blank:]]*=|window[.]location[[:blank:]]*=|window[.]open[[:blank:]]*[(])[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*([:%/?=&;\\,._a-zA-Z0-9\|+ ()~-]*))(#[.a-zA-Z0-9-]*)?[\'\" ]?",$eval,$regs)) {

- Two

while(eregi("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*([:%/?=&;\\,._a-zA-Z0-9 ()~-]*))[#\'\" ]?)",$line,$regs)) {

You need to add the [ and ] characters to the following character classes.

- One

[:%/?=&;\\,._a-zA-Z0-9\|+ ()~-]

- Two

[:%/?=&;\\,._a-zA-Z0-9 ()~-]

Note, though, that more things may look like links that are not links, like JavaScript and what not.

zaartix
01-13-2005, 11:39 PM
THX, man!
- TWO

[:%/?=&;\\,._a-zA-Z0-9 ()~-]


doesn't working :(



eregi("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*([:%/?=&;\\,._a-zA-Z0-9\[\] ()~-]*))[#\'\" ]?)",$line,$regs);




or




eregi("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*([:%/?=&;\\,._a-zA-Z0-9[\] ()~-]*))[#\'\" ]?)",$line,$regs);




or




eregi("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*([:%/?=&;\\,._a-zA-Z0-9[] ()~-]*))[#\'\" ]?)",$line,$regs);

Charter
01-14-2005, 01:08 AM
Not working as in it throws an error?

zaartix
01-14-2005, 02:47 AM
no, spider gets only /index.php?razdel=about&mach without [] symbols

Charter
01-14-2005, 12:44 PM
Okay, I see. The right bracket doesn't like being in a character class.

To get PhpDig to accept [ and ] in links, incorporate the following:

$link = "http://www.domain.com/dir/index.php?razdel=about&mach[2]=20";
$no_one = "[:%/?=&;\\,._a-zA-Z0-9\|+ ()~-]*";
$no_two = "[:%/?=&;\\,._a-zA-Z0-9 ()~-]*";

if (eregi("($no_one\[?$no_one\]?$no_one)",$link,$regs)) {
echo $regs[1];
}
if (eregi("($no_two\[?$no_two\]?$no_two)",$link,$regs)) {
echo $regs[1];
}

// both print http://www.domain.com/dir/index.php?razdel=about&mach[2]=20

For example, you can probably replace both character classes with:

[:%/?=&;\\,._a-zA-Z0-9|+ ()~-]

And then assign a variable like so:

$no_brackets = "[:%/?=&;\\,._a-zA-Z0-9|+ ()~-]*";

And then use the following:

($no_brackets\[?$no_brackets\]?$no_brackets)

in place of:

([:%/?=&;\\,._a-zA-Z0-9\|+ ()~-]*)

and in place of:

([:%/?=&;\\,._a-zA-Z0-9 ()~-]*)

in the two regexs.

zaartix
01-14-2005, 10:01 PM
thx man for excellent support

zaartix
01-18-2005, 08:12 PM
it's working for links like
http://www.domain.com/dir/index.php?razdel=about&mach[2]=20

so what if links will be like
http://www.domain.com/dir/index.php?razdel=about&mach[2]=20&mach[2]=20&mach[2]=20&mach[2]=20


$link = "http://www.domain.com/dir/index.php?razdel=about&mach[/url][2]=20&mach[2]=20&mach[2]=20&mach[2]=20";
$no_one = "[:%/?=&;\\,._a-zA-Z0-9\|+ ()~-]*";
$no_two = "[:%/?=&;\\,._a-zA-Z0-9 ()~-]*";

if (eregi("($no_one\[?$no_one\]?$no_one)",$link,$regs)) {
echo $regs[1];
}
if (eregi("($no_two\[?$no_two\]?$no_two)",$link,$regs)) {
echo $regs[1];
}

// both print http://www.domain.com/dir/index.php?razdel=about&mach[2]=20


return only this:
http://www.domain.com/dir/index.php?razdel=about&mach[2]=20&mach

Charter
01-18-2005, 09:27 PM
($allowed_link_chars\[?$allowed_link_chars\]?$allowed_link_chars)+

zaartix
01-19-2005, 01:32 AM
delete this post plz

zaartix
01-19-2005, 01:36 AM
delete this post plz

zaartix
01-19-2005, 01:55 AM
i'll make small example

zaartix
01-19-2005, 02:08 AM
<?
$line[] = '<a href="http://www.domain.com/dir/index.php?razdel=about">test1</a>';
$line[] = '<a href="http://www.domain.com/dir/index.php?razdel=about&mach[2]=20">test2</a><table><tr><td></td></tr></table>';
$line[] = '<a href="http://www.domain.com/dir/index.php?razdel=about&mach[2]=20&mach[3]=01">test3</a><table><tr><td></td></tr></table>';
$line[] = '<table><tr><td></td></tr></table><a href="http://www.domain.com/dir/index.php?razdel=about&mach[2]=20&mach[3]=01&mach[4]=02">test4</a>';
$i=0;
$allowed_link_chars = "[:%/?=&;\\,._a-zA-Z0-9|+~-]*";
while ($line[$i]) {
if (eregi("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*($allowed_link_chars\[?$allowed_link_chars\]?$allowed_link_chars))(#[.a-zA-Z0-9-]*)?[\'\" ]?)",$line[$i],$regs)) {
echo $regs[2]." - example null<br>";
}
if (eregi("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*($allowed_link_chars\[?$allowed_link_chars\]?$allowed_link_chars)?)(#[.a-zA-Z0-9-]*)?[\'\" ]?)",$line[$i],$regs)) {
echo $regs[2]." - example ?<br>";
}
if (eregi("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*($allowed_link_chars\[?$allowed_link_chars\]?$allowed_link_chars)*)(#[.a-zA-Z0-9-]*)?[\'\" ]?)",$line[$i],$regs)) {
echo $regs[2]." - example *<br>";
}
if (eregi("<a([^>]*href[[:blank:]]*=[[:blank:]]*[\'\"]?((([a-z]{3,5}://)+(([.a-zA-Z0-9-])+(:[0-9]+)*))*(($allowed_link_chars\[?$allowed_link_chars\]?$allowed_link_chars)+))(#[.a-zA-Z0-9-]*)?[\'\" ])",$line[$i],$regs)) {
echo $regs[2]." - example +<br>";
}
$i++;
}
?>


correct results only in '*' and '+' examples

zaartix
01-19-2005, 02:14 AM
another trouble:

phpdig get links from this code:

<script language='Javascript'>
function showDetail(code,type)
{
if (type=='all') {
width=600;
height=400;
} else {
width=600;
height=200;
}
window.open('/detail.php?mach[1]=ost&mach[2]='+code+'&mach[3]='+type,'_blank','scrollbars, resizable, width='+width+',height='+height+', left=200, top=200');
}
function cartAdd(code)
{
width=600;
height=350;

window.open('/detail.php?mach[1]=cart&mach[2]=add&mach[3]='+code,'_blank','scrollbars, resizable, width='+width+',height='+height+', left=200, top=200');
}
</script>


and from this:

<noindex>
<a href="http://www.domain.com/dir/index.php?razdel=about">test1</a>
</noindex>

Charter
01-19-2005, 03:02 AM
So + works for your type of [ ] links, right? I'm not sure if you are still having a problem with [ ] type links, but remember to use + in those two regexs.


PhpDig tries to follow simple window.location and window.open JavaScript links, even if the links are like those you posted. There is no nice and simple way to deal with JavaScript, as people can script in different ways. If you don't want PhpDig to deal with JavaScript, then either remove the related window.whatever stuff from the regex, edit the $allowed_link_chars variable, or use the FORBIDDEN_EXTENSIONS constant to exclude links.


See http://www.phpdig.net/forum/showthread.php?t=1430 for how phpdigExclude and phpdigInclude work, and for alternative methods to exclude links.

zaartix
01-19-2005, 03:08 AM
So + works for your type of [ ] links, right? I'm not sure if you are still having a problem with [ ] type links, but remember to use + in those two regexs.

i think that in 1.8.7 of phpdig all should be work?

working only if link contain only one pair of [] :(

zaartix
01-19-2005, 03:12 AM
first regexp doesn't needed becourse site have'nt frames

Charter
01-19-2005, 04:09 AM
>> working only if link contain only one pair of []

So it works in example but not with PhpDig? What's a link to a page containing multiple [ ] in its links?

>> first regexp doesn't needed becourse site have'nt frames

Other people might have frames though. ;)

The RFC2732 (http://www.faqs.org/rfcs/rfc2732.html) protocol states in part:


(3) Add "[" and "]" to the set of 'reserved' characters:

reserved = ";" | "/" | "?" | ":" | "@" | "&" | "=" | "+" |
"$" | "," | "[" | "]"

and remove them from the 'unwise' set:

unwise = "{" | "}" | "|" | "\" | "^" | "`"


Sometimes using reserved characters in links, other than for their intended purpose, can cause problems as was the case in this (http://www.phpdig.net/forum/showthread.php?t=1720) thread (colon used outside of <user>:<pass>@<host>:<port> meaning so the PHP parse_url function did not understand).

You might want to consider encoding your URIs according to this (http://www.php.net/manual/en/faq.html.php#faq.html.encoding) rather than use literal square brackets in your links.

zaartix
01-19-2005, 07:24 PM
>>So it works in example but not with PhpDig? What's a link to a page containing multiple [ ] in its links?
Yep.
Just try to dig this page:
http://zaartix.ru/krit

Sorry for russian on that page

Charter
01-19-2005, 07:40 PM
That page contains tons of links to 404 pages.

zaartix
01-19-2005, 09:01 PM
they are all to 404 :)
so phpdig extract not all links from main page

zaartix
01-19-2005, 09:08 PM
i'am not upload other pages, only one page.
for what other pages? if phpdig find all links which are on that page and all links are correct, then extractng regexp working right. Is it so?

Charter
01-20-2005, 03:07 AM
PhpDig tests links, and if PhpDig gets a 404 from a link, then PhpDig does not index that link. The + works in example, so maybe try setting up an online demo with a few links.

zaartix
01-20-2005, 03:23 AM
so, phpdig, when it parsing page, trying to open each of link? on first step? i think, that phpdig extracting all links and paste it in tempspider table. at next step phpdig try to open each of links.
I'am wrong?

Charter
01-20-2005, 03:53 AM
Nope, that is not how it works. PhpDig does not insert server response 404s in the tempspider table. With all the links currently returning 404s, the only thing inserted into the tempspider table is the zaartix.ru/krit/ page.

zaartix
01-20-2005, 08:51 PM
at now you can try to dig http://zaartix.ru/krit
plz, help to solve this problem

Charter
01-20-2005, 09:31 PM
There are no regular links with more than one set of [ ] square brackets in them. :confused:

zaartix
01-21-2005, 03:05 AM
There are many levels of pages. Just try to dig all aviable pages, mane different types of links :)
http://zaartix.ru/krit

Charter
01-21-2005, 04:33 AM
Here's a one-page test...

Spider:

http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=79.htm

Results:

Spidering in progress... [Stop spider]
SITE : http://zaartix.ru/
Exclude paths :
- @NONE@
1:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=79.htm
(time : 00:00:09)
No link in temporary table
links found : 1
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=79.htm
Optimizing tables...
Indexing complete ! [Back] to admin interface.

Charter
01-21-2005, 04:55 AM
Here's a multi-page test...

Spider:

http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news.htm

Results:

Spidering in progress... [Stop spider]
SITE : http://zaartix.ru/
Exclude paths :
- @NONE@
1:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news.htm
(time : 00:00:10)
+ + + + + + + + + + + + + + + + + + + + + +
level 1...
2:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=23.htm
(time : 00:00:34)

3:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=24.htm
(time : 00:00:46)

4:http://zaartix.ru/krit/index.php-razdel=price.htm
(time : 00:01:04)

5:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=34.htm
(time : 00:01:13)

6:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=19.htm
(time : 00:01:23)

Duplicate of an existing document
7:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
(time : 00:01:40)

8:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=22.htm
(time : 00:01:50)

9:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=21.htm
(time : 00:01:59)

10:http://zaartix.ru/krit/index.htm
(time : 00:02:08)

11:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=20.htm
(time : 00:02:17)

12:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=ost.htm
(time : 00:02:25)

13:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech.htm
(time : 00:02:34)

14:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert.htm
(time : 00:02:43)

15:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=27.htm
(time : 00:02:51)

16:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=32.htm
(time : 00:03:00)

17:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=33.htm
(time : 00:03:09)

18:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=16.htm
(time : 00:03:17)

19:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=17.htm
(time : 00:03:26)

20:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=vacancies.htm
(time : 00:03:35)

21:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=79.htm
(time : 00:03:43)

22:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=78.htm
(time : 00:03:51)

23:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=2.htm
(time : 00:04:01)

No link in temporary table
links found : 23
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=23.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=24.htm
http://zaartix.ru/krit/index.php-razdel=price.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=34.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=19.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=22.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=21.htm
http://zaartix.ru/krit/index.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=20.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=ost.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=27.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=32.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=33.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=16.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=17.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=vacancies.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=79.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=78.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news&mach[3]=2.htm
Optimizing tables...
Indexing complete ! [Back] to admin interface.

Charter
01-21-2005, 05:06 AM
In both one-page and multi-page tests, the + seems to work just fine. :confused:

zaartix
01-23-2005, 07:40 PM
try to dig this page:
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
and then look at it by browser.

PhpDig skipping a lot of links wich have looks like
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=01.htm

Charter
01-23-2005, 10:12 PM
Spidering in progress... [Stop spider]
SITE : http://zaartix.ru/
Exclude paths :
- @NONE@
1:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
(time : 00:00:17)
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
level 1...
2:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=20.htm
(time : 00:01:58)

3:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=16.htm
(time : 00:02:11)

4:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=32.htm
(time : 00:02:21)

5:http://zaartix.ru/krit/
(time : 00:02:32)

6:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=vacancies.htm
(time : 00:02:44)

7:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=17.htm
(time : 00:02:55)

8:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=33.htm
(time : 00:03:05)

9:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=27.htm
(time : 00:03:17)

10:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=20.htm
(time : 00:03:27)

11:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=21.htm
(time : 00:03:41)

12:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=24.htm
(time : 00:03:54)

13:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news.htm
(time : 00:04:05)

14:http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=19.htm
(time : 00:04:18)

15:http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=34.htm
(time : 00:04:35)

Duplicate of an existing document
16:http://zaartix.ru/krit/index.php-razdel=price.htm
(time : 00:04:52)

17:http://zaartix.ru/krit/index.php-razdel=about&mach[2]=22.htm
(time : 00:05:04)

18:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert.htm
(time : 00:05:14)

19:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech.htm
(time : 00:05:25)

20:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=ost.htm
(time : 00:05:37)

21:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=23.htm
(time : 00:05:49)

22:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=cartShow.htm
(time : 00:06:00)

Duplicate of an existing document
23:http://zaartix.ru/krit/index.htm
(time : 00:06:12)

24:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=20.htm
(time : 00:06:24)

25:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=20.htm
(time : 00:06:34)

26:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=01.htm
(time : 00:06:46)

27:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=01.htm
(time : 00:06:57)

28:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=01.htm
(time : 00:07:09)

29:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=15.htm
(time : 00:07:20)

30:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=15.htm
(time : 00:07:31)

31:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=15.htm
(time : 00:07:46)

32:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=46.htm
(time : 00:07:57)

33:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=46.htm
(time : 00:08:09)

34:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=46.htm
(time : 00:08:22)

35:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=36.htm
(time : 00:08:36)

36:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=36.htm
(time : 00:08:48)

37:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=36.htm
(time : 00:09:01)

38:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=35.htm
(time : 00:09:13)

39:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=35.htm
(time : 00:09:24)

40:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=35.htm
(time : 00:09:38)

41:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=48.htm
(time : 00:09:49)

42:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=48.htm
(time : 00:10:03)

43:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=48.htm
(time : 00:10:13)

44:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=47.htm
(time : 00:10:26)

45:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=47.htm
(time : 00:10:36)

46:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=47.htm
(time : 00:10:46)

47:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=40.htm
(time : 00:10:58)

48:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=40.htm
(time : 00:11:08)

49:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=40.htm
(time : 00:11:20)

50:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=30.htm
(time : 00:11:31)

51:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=30.htm
(time : 00:11:41)

52:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=30.htm
(time : 00:11:53)

53:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=28.htm
(time : 00:12:04)

54:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=28.htm
(time : 00:12:16)

55:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=28.htm
(time : 00:12:28)

56:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=29.htm
(time : 00:12:40)

57:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=29.htm
(time : 00:12:51)

58:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=29.htm
(time : 00:13:02)

59:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=25.htm
(time : 00:13:16)

60:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=25.htm
(time : 00:13:27)

61:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=25.htm
(time : 00:13:38)

62:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=26.htm
(time : 00:13:53)

63:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=26.htm
(time : 00:14:04)

64:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=26.htm
(time : 00:14:15)

65:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=10.htm
(time : 00:14:26)

66:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=10.htm
(time : 00:14:37)

67:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=10.htm
(time : 00:14:52)

68:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=33.htm
(time : 00:15:03)

69:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=33.htm
(time : 00:15:14)

70:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=33.htm
(time : 00:15:27)

71:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=86.htm
(time : 00:15:39)

72:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=86.htm
(time : 00:15:49)

73:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=86.htm
(time : 00:16:00)

74:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=83.htm
(time : 00:16:14)

75:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=83.htm
(time : 00:16:23)

76:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=83.htm
(time : 00:16:37)

77:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=64.htm
(time : 00:16:50)

78:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=64.htm
(time : 00:17:01)

79:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=64.htm
(time : 00:17:13)

80:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=59.htm
(time : 00:17:24)

81:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=59.htm
(time : 00:17:35)

82:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=59.htm
(time : 00:17:44)

83:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=54.htm
(time : 00:17:58)

84:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=54.htm
(time : 00:18:09)

85:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=54.htm
(time : 00:18:23)

86:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=53.htm
(time : 00:18:35)

87:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=53.htm
(time : 00:18:48)

88:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=53.htm
(time : 00:19:01)

89:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=58.htm
(time : 00:19:12)

90:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=58.htm
(time : 00:19:24)

91:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=58.htm
(time : 00:19:36)

92:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=57.htm
(time : 00:19:48)

93:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=57.htm
(time : 00:20:01)

94:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=57.htm
(time : 00:20:12)

95:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=55.htm
(time : 00:20:23)

96:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=55.htm
(time : 00:20:33)

97:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=55.htm
(time : 00:20:45)

98:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=61.htm
(time : 00:20:57)

99:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=61.htm
(time : 00:21:08)

100:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=61.htm
(time : 00:21:20)

Charter
01-23-2005, 10:13 PM
No link in temporary table
links found : 100
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=20.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=16.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=32.htm
http://zaartix.ru/krit/
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=vacancies.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=17.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=33.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=27.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=20.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=21.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=24.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=news.htm
http://zaartix.ru/krit/index.php-razdel=contact&mach[2]=19.htm
http://zaartix.ru/krit/index.php-razdel=quality&mach[2]=34.htm
http://zaartix.ru/krit/index.php-razdel=price.htm
http://zaartix.ru/krit/index.php-razdel=about&mach[2]=22.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=ost.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=23.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=cartShow.htm
http://zaartix.ru/krit/index.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=20.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=20.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=01.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=01.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=01.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=15.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=15.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=15.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=46.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=46.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=46.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=36.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=36.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=36.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=35.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=35.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=35.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=48.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=48.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=48.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=47.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=47.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=47.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=40.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=40.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=40.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=30.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=30.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=30.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=28.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=28.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=28.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=29.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=29.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=29.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=25.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=25.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=25.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=26.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=26.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=26.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=10.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=10.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=10.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=33.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=33.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=33.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=86.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=86.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=86.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=83.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=83.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=83.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=64.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=64.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=64.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=59.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=59.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=59.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=54.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=54.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=54.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=53.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=53.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=53.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=58.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=58.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=58.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=57.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=57.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=57.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=55.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=55.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=55.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view&mach[3]=61.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=sert&mach[3]=61.htm
http://zaartix.ru/krit/index.php-razdel=price&mach[2]=tech&mach[3]=61.htm
Optimizing tables...
Indexing complete ! [Back] to admin interface.

Charter
01-23-2005, 10:19 PM
So I test again, and + works just fine. I purposely stopped the spider after 100 links, but 100 links is enough to see that + works. Now you try using the following options...

Text box: http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
Radio button: no
Search depth: 1
Links per: 0

See section 6 of the documentation (http://www.phpdig.net/navigation.php?action=doc#toc6) for a description of the options.

zaartix
01-24-2005, 01:00 AM
????
How?? :)

Before posting here i tested a new installation of 1.8.7 to dig that link. Php dig report:

SITE : http://zaartix.ru/
Exclude paths :
- @NONE@
1:http://zaartix.ru/krit/index.php-razdel=price&mach[2]=view.htm
(time : 00:00:14)
+ + + + + + + + + + + + + + + + + + + + +

The num of Symbols "+" are much less than you.
Are you testing clean 1.8.7 or made some changes in robot_functions.php?
$allowed_link_chars = "[:%/?=&;\\,._a-zA-Z0-9|+~-]*"; is it correct?

Sorry, if i take a lot of time from you :(

Can you test by yourself plz?
http://1ya.ru/search/admin

Charter
01-24-2005, 02:24 AM
I used the following:

// default setting in config.php file
$allowed_link_chars = "[:%/?=&;\\,._a-zA-Z0-9|+~-]*";

// change two spots in robot_functions.php file
(($allowed_link_chars\[?$allowed_link_chars\]?$allowed_link_chars)+)

BTW, you get a "set_time_limit() has been disabled" warning.

zaartix
01-24-2005, 09:03 PM
>BTW, you get a "set_time_limit() has been disabled" warning.
Yep, my hosting provider has been disable this feature.

A lot of thanks, man!!! Problem has been solved:)