PhpDig.net

Go Back   PhpDig.net > PhpDig Forums > Mod Requests

Reply
 
Thread Tools
Old 12-08-2003, 03:04 PM   #1
fr :: anonymus
Green Mole
 
fr :: anonymus's Avatar
 
Join Date: Dec 2003
Location: Lyon, France
Posts: 17
Some ideas (in french) for synonyms & Aptness(?)

Hi,

i was made a mail for a search_engine's webmaster. If it can help you, it's about synonyms and aptness (fr : pertinence) of results.

It's all in french, so you can use the translator you want. (and i'm uncapable to translate all of this.) if you have questions, ... i'm here .


Cite ::
je pense que l'on ne peut pas inventer des synonymes Ă* partir d'une base de donnĂ©es. A moins de rĂ©Ă©crire le dico des synonymes...
Par contre, il peut etre possible, en effet, de trouver des correlations entre les mots. Je m'explique :

1-
Il y a 87.5% de similitude entre le mot 'musique' et le mot 'musiques'. On peut dire qu'ils sont similaires. D'autant que lorsque l'un d'eux apparait dans les métas, il y a toujours (ou presque) l'autre.
2-
Sur un site, lorsque l'on parle de MP3, on parle de musique. Il y a donc une relation entre les deux.
3-
Sur un site de cirque, on parle parfois de la musique. Mais rarement de MP3.
4-
Lorsque l'on parle de Jenifer Lopez, on parle d'artiste, de MP3, de musique.
5-
on parle d'artiste pour la peinture.

Concl-
Il n'y a pas de relation entre MP3 et peinture, pourtant il y en a une entre MP3 et musique, entre musique et artiste, entre artiste et peinture.

Il y a lĂ* matière Ă* travail, mon principe est le suivant =>

Soit une table reprenant tous les mots rencontrĂ©s ici ou lĂ*.
id | mot |
-------------|------------------------|
1 |musique |
2 |musiques |
3 |cheval |
4 |artiste |
5 |MP3 |
6 |cirque |
7 | jenifer Lopez |
8 |dessin |
---------------------------------------

et une autre table regroupant les similitudes entre les mots, ainsi que les correlations, remplie Ă* chaque page visitĂ©e. Pour deux mots, on remplit une ligne (ou on complete la ligne , en incrĂ©mentant correlation de 1pt.). Si les mots s'Ă©crivent presque pareil, c'est la ligne similitude qui est remplie.

id_mot |id_mot |correlation |similitude|
1 2 1 87.5
1 4 1
1 5 1
2 4 1
2 5 1
3 4 1
4 5 1
6 3 1
6 4 1
6 1
6 2
etc... (elle n'est pas complete, mais bon, tu comprendras...)

On voit que sur un site, il y a deux mots. Le mot id 1 et le mot id 2. Ils se ressemblent beaucoup. Ce sont probablement les memes. De plus, a chaque fois que l'un apparait, l'autre aussi. Donc, quelqu'un qui demande le mot 1 (musique) a de fortes chances de désirer aussi les résultats du mot 2.
Quelqu'un qui demande le mot .. cirque ? On regarde : cirque id 6 . Il a de fortes chances de dĂ©sirer aussi l'id 3, mais aussi les id : 1,2,3,4. On se retrouve avec les mots : musique(s), cheval, artiste, et cirque. Mais bien que artiste soit associĂ© Ă* cirque, on ne demande pas jenifer lopez (id 7).

Tu me suis ?

En fait, si tu fais un schĂ©ma de relations entre les numĂ©ros, tu t'apercois que pour un numĂ©ro donnĂ©, apparaissent d'autres numĂ©ros 'proches'. LĂ*, il y a je pense quelque chose Ă* en tirer. De plus, je ne pense pas que ce serait difficile.
Dis moi dĂ©jĂ* ce que tu penses de cela.
---------------------------------------------------------------------
Autre chose : Les gens remplissent un peu n'importe comment les balises mĂ©ta. Certes. Mais un peu seulement. Et lĂ*, il y a aussi un Ă©norme contenu qui n'est que très peu employĂ©. Et pourtant, il est source de mots synonymes : Pour dĂ©signer un theme, on le dĂ©signe sous toutes ses coutures. Par exemple, pour mon site (qui ne marche pas, pour l'instant, je sais pas pourquoi, mais il plante..), j'ai la balise mĂ©ta comme ceci :
---
gite, rural, chambre, hote, gites, ruraux, chambres, hotes, maison, maisons, vacances, maisons, location, locations, hebergement, tourisme, annuaire, portail, ville, professionnel, france, terroir, cultures, tradition, voyage, conseil, annonceurs, forum, paca, provence, bretagne
--
(l'idée n'est pas de dire s'ils sont pertinents, ou pas, l'idée est de donner des méta d'un site au hasard..)
Il y a lĂ* tout une gamme de mots clĂ© sur un sujet prĂ©cis, sur un theme prĂ©cis, avec tous les synonymes possibles.
Bien sur, les méta sont assez mal remplis, mais : Ils ne le sont pas tant que cela.
Un site parlant de musique aura des méta partant dans.. pas mal de directions, parce que le sujet est vaste.
Mais pour des themes comme ceux dont tu parles dans ton post sur le forum (médecin/batiment/etc.. tous ces corps de métiers assez mal représentés sur internet)
les méta sont assez bien remplis, et correspondent bien au site.
Jettes un oeil au site 'podologie.fr'. Il est spĂ©cialisĂ©, et ses mĂ©tas correspondent bien Ă* un theme particulier, il y a bien corrĂ©lation entre les mots. Pourtant, j'y vois : sport, marche, etc... Jettes un oeil au site de Monique : sport, course, etc... Il y a les memes themes, mais vus sous un angle diffĂ©rent.
Si tu tapes sport dans google, pourquoi google devrait il te renvoyer les sites parlant de la pratique du sport plutot que les sites parlant de la médecine du sport ?
Il te renvoie les deux, me diras tu . Mais il se trompe. Il se veut pertinent, mais.. il n'est pas capable de différencier la médecine et le sport ? Il devrait mettre deux colonnes, l'une pour la médecine, l'autre pour la pratique, avec les liens qui vont avec, et mettre en gros, tout en haut : choisissez une sous catégorie, pour plus de pertinence.

Qu'en penses tu, de cela aussi ?

VoilĂ*.

Nicolas."
fr :: anonymus is offline   Reply With Quote
Old 12-08-2003, 03:09 PM   #2
fr :: anonymus
Green Mole
 
fr :: anonymus's Avatar
 
Join Date: Dec 2003
Location: Lyon, France
Posts: 17
And =>

Isn't it possible to incorporate a graph of stats, with number of hosts, number of pages(spider), nb of keywords, etc ? with recording of evolution between 2 scan of urls. ?

That's all for today

A+, Anonymus.
fr :: anonymus is offline   Reply With Quote
Reply

Thread Tools

Posting Rules
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is On
Smilies are On
[IMG] code is Off
HTML code is Off
Forum Jump

Similar Threads
Thread Thread Starter Forum Replies Last Post
PhpDig in French Nipioko Mod Requests 1 04-18-2007 01:45 AM
Url part after & is ignored on spider (1.8.9 RC1 and earliers) obottek Bug Tracker 1 08-24-2006 04:52 AM
translate in french ENTHALPIE Bug Tracker 3 11-02-2005 12:38 AM
How use a cronjon (In french ... :o ) logo2 How-to Forum 3 01-09-2005 11:40 PM
Version 1.6.3 and some bugs/ideas manfred Troubleshooting 6 11-17-2003 11:06 AM


All times are GMT -8. The time now is 09:47 PM.


Powered by vBulletin® Version 3.7.3
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright © 2001 - 2005, ThinkDing LLC. All Rights Reserved.