PDA

View Full Version : Some ideas (in french) for synonyms & Aptness(?)


fr :: anonymus
12-08-2003, 03:04 PM
Hi,

i was made a mail for a search_engine's webmaster. If it can help you, it's about synonyms and aptness (fr : pertinence) of results.

It's all in french, so you can use the translator you want. (and i'm uncapable to translate all of this.) if you have questions, ... i'm here ;) .


Cite ::
je pense que l'on ne peut pas inventer des synonymes Ă* partir d'une base de donnĂ©es. A moins de rĂ©Ă©crire le dico des synonymes...
Par contre, il peut etre possible, en effet, de trouver des correlations entre les mots. Je m'explique :

1-
Il y a 87.5% de similitude entre le mot 'musique' et le mot 'musiques'. On peut dire qu'ils sont similaires. D'autant que lorsque l'un d'eux apparait dans les métas, il y a toujours (ou presque) l'autre.
2-
Sur un site, lorsque l'on parle de MP3, on parle de musique. Il y a donc une relation entre les deux.
3-
Sur un site de cirque, on parle parfois de la musique. Mais rarement de MP3.
4-
Lorsque l'on parle de Jenifer Lopez, on parle d'artiste, de MP3, de musique.
5-
on parle d'artiste pour la peinture.

Concl-
Il n'y a pas de relation entre MP3 et peinture, pourtant il y en a une entre MP3 et musique, entre musique et artiste, entre artiste et peinture.

Il y a lĂ* matière Ă* travail, mon principe est le suivant =>

Soit une table reprenant tous les mots rencontrĂ©s ici ou lĂ*.
id | mot |
-------------|------------------------|
1 |musique |
2 |musiques |
3 |cheval |
4 |artiste |
5 |MP3 |
6 |cirque |
7 | jenifer Lopez |
8 |dessin |
---------------------------------------

et une autre table regroupant les similitudes entre les mots, ainsi que les correlations, remplie Ă* chaque page visitĂ©e. Pour deux mots, on remplit une ligne (ou on complete la ligne , en incrĂ©mentant correlation de 1pt.). Si les mots s'Ă©crivent presque pareil, c'est la ligne similitude qui est remplie.

id_mot |id_mot |correlation |similitude|
1 2 1 87.5
1 4 1
1 5 1
2 4 1
2 5 1
3 4 1
4 5 1
6 3 1
6 4 1
6 1
6 2
etc... (elle n'est pas complete, mais bon, tu comprendras...)

On voit que sur un site, il y a deux mots. Le mot id 1 et le mot id 2. Ils se ressemblent beaucoup. Ce sont probablement les memes. De plus, a chaque fois que l'un apparait, l'autre aussi. Donc, quelqu'un qui demande le mot 1 (musique) a de fortes chances de désirer aussi les résultats du mot 2.
Quelqu'un qui demande le mot .. cirque ? On regarde : cirque id 6 . Il a de fortes chances de dĂ©sirer aussi l'id 3, mais aussi les id : 1,2,3,4. On se retrouve avec les mots : musique(s), cheval, artiste, et cirque. Mais bien que artiste soit associĂ© Ă* cirque, on ne demande pas jenifer lopez (id 7).

Tu me suis ?

En fait, si tu fais un schĂ©ma de relations entre les numĂ©ros, tu t'apercois que pour un numĂ©ro donnĂ©, apparaissent d'autres numĂ©ros 'proches'. LĂ*, il y a je pense quelque chose Ă* en tirer. De plus, je ne pense pas que ce serait difficile.
Dis moi dĂ©jĂ* ce que tu penses de cela.
---------------------------------------------------------------------
Autre chose : Les gens remplissent un peu n'importe comment les balises mĂ©ta. Certes. Mais un peu seulement. Et lĂ*, il y a aussi un Ă©norme contenu qui n'est que très peu employĂ©. Et pourtant, il est source de mots synonymes : Pour dĂ©signer un theme, on le dĂ©signe sous toutes ses coutures. Par exemple, pour mon site (qui ne marche pas, pour l'instant, je sais pas pourquoi, mais il plante..), j'ai la balise mĂ©ta comme ceci :
---
gite, rural, chambre, hote, gites, ruraux, chambres, hotes, maison, maisons, vacances, maisons, location, locations, hebergement, tourisme, annuaire, portail, ville, professionnel, france, terroir, cultures, tradition, voyage, conseil, annonceurs, forum, paca, provence, bretagne
--
(l'idée n'est pas de dire s'ils sont pertinents, ou pas, l'idée est de donner des méta d'un site au hasard..)
Il y a lĂ* tout une gamme de mots clĂ© sur un sujet prĂ©cis, sur un theme prĂ©cis, avec tous les synonymes possibles.
Bien sur, les méta sont assez mal remplis, mais : Ils ne le sont pas tant que cela.
Un site parlant de musique aura des méta partant dans.. pas mal de directions, parce que le sujet est vaste.
Mais pour des themes comme ceux dont tu parles dans ton post sur le forum (médecin/batiment/etc.. tous ces corps de métiers assez mal représentés sur internet)
les méta sont assez bien remplis, et correspondent bien au site.
Jettes un oeil au site 'podologie.fr'. Il est spĂ©cialisĂ©, et ses mĂ©tas correspondent bien Ă* un theme particulier, il y a bien corrĂ©lation entre les mots. Pourtant, j'y vois : sport, marche, etc... Jettes un oeil au site de Monique : sport, course, etc... Il y a les memes themes, mais vus sous un angle diffĂ©rent.
Si tu tapes sport dans google, pourquoi google devrait il te renvoyer les sites parlant de la pratique du sport plutot que les sites parlant de la médecine du sport ?
Il te renvoie les deux, me diras tu . Mais il se trompe. Il se veut pertinent, mais.. il n'est pas capable de différencier la médecine et le sport ? Il devrait mettre deux colonnes, l'une pour la médecine, l'autre pour la pratique, avec les liens qui vont avec, et mettre en gros, tout en haut : choisissez une sous catégorie, pour plus de pertinence.

Qu'en penses tu, de cela aussi ?

VoilĂ*.

Nicolas."

fr :: anonymus
12-08-2003, 03:09 PM
And =>

Isn't it possible to incorporate a graph of stats, with number of hosts, number of pages(spider), nb of keywords, etc ? with recording of evolution between 2 scan of urls. ?

That's all for today ;)

A+, Anonymus.