Combattre le spam: Statistiques Web résistantes au spam
- Quelques mots en avance
- Des statistiques de référent et le spam
- Le problème du lien
- Le problème du moteur de recherche
- Des conséquences pour des sites faisant référence
- Le nofollow inefficace
- Comment JavaScript entre en jeu
- Lorsque des moteurs de recherche ne trouvent plus les sites annoncés par spam...
- Inclure une fonction de signalisation à l'abri des moteurs de recherche
Quelques mots en avance
Ces instructions présupposent que vous déjà sachiez comment conserver les
données que sont produites en accès à un serveur Web et les préparer pour des
autres usagers à une manière qu'on obtient des statistiques utilisables. Il
faut que vous seriez en état à configurer Apache tant qu'il transmet les
données log à un script que disjoint ces données aux individuels champs et les
enregistre dans une base de données MySQL. Il faut de plus lire cette base de
données à un autre point et préparer les données contenues là-dedans à une
manière qu'on peut les présenter dans un navigateur Web.
Ces instructions décrivent comment modifier le script transmettant les
statistiques au navigateur Web que des moteurs de recherche ne peuvent plus
analyser les liens montrés et donc n'incluent plus les pages ciblées dans leurs
indexes.
Des statistiques de référent et le spam
Tout le monde bien sûr connaît ce problème assez bien: Des facultés à laisser
un message, elles ne sont guère offertes (au sens large des statistiques Web
sont aussi des messages comme ils reseignent des informations sur la page de
laquelle un visiteur est venu, de quelle adresse IP il visite le site, quel est
le navigateur qu'il utilise, etc.) que des spammeurs entrent en lice et
contaminent le site en question avec des entrées indésirables. Ceci fonctionne
aussi dans le contexte des statistiques Web cependant notamment le
spam au
référent pose problème.
En faisant cela l'en-tête Referer est manipulé
par un visiteur à une manière que l'URL d'une page ainsi annoncée est transmis
au lieu de la page de laquelle il est venu, donc le faire apparaître dans la
statistique. Le spammeur vise aux cibles de deux sortes: Il veut au premier
établir une faculté pour des visiteurs à accéder à un site annoncé par spam et
donc la faire connaître tout d'abord, et deuxièmement il espère que le site
annoncé par spam est aussi inclus dans l'index des moteurs de recherche, donc
augmenter sa popularité. Cette action en part cible en outre à transposer le
PageRank du site en question au site si annoncé pour qu'il soit perçu comme
important par des moteurs de recherche et donc avance dans les résultats de la
recherche – et en faisant cela probablement supplante des autres pages que sont
fortement plus signifiants. Le spameur seulement prends intérêt seulement pour
autant qu'il puisse «trouver preneur» pour la page annoncé par lui. En règle
générale il est intéressé par des autres pages dans la mesure qu'il puisse les
abuser por ses propres buts.
Malheureusement le travail des spammeurs est rendu plus facile par le fait que
des scripts utilisés pour créer des statistiques sont tenus le plus facile
possible et donc ne sont pas garnis des contre-mesures que p. ex. empêchent
l'inclusion des pages auxquelles les statistiques font référence dans l'index
des moteurs de recherche.
Le problème du lien
Le pivot de ce problème est le fait qu'un lien conduit à quelque part selon sa
définition. C'est normalement effectué par l'attribut
href que spécifie la destination d'un lien.
C'est exactement ça que donne un coup de main aux spammeurs: On peut exploiter
des adresses spécifiées par cet attribut standard sans additionnel effort, et
en règle générale il n'y a aucunes vérifications de la destination du lien non
plus. Les moteurs de recherche peuvent donc trouver les pages ciblées et les
inclure dans leur index, que conduit à ce que les pages y annoncées se font
connaître plus rapidement. Le spammeur donc accède à son but presque
immédiatement.
Le problème du moteur de recherche
Lorsqu'on permet des moteurs de recherche évaluer des statistiques de référence, il y a un problème qui se pose: Outre des pages raisonnables il n'est que trop souvent qu'il y a des immondices dans la liste des référents, mais les moteurs de recherche ne peuvent pas ce découvrir au premier abord. Il y faut des algorithmes performants de la part du moteur de recherche ainsi que l'intervention manuelle pour découvrir des sites tant annoncés par spam et les délier de l'index. Mais elles sont des opérations superflues et les heures de travail et de calculation en employé, il pourrait être mieux utilisé pour des autres opérations, par exemple pour régulièrement nettoyer de l'index du moteur de recherche ou pour le traitement des pages vraiment raisonnables. En fin de compte des spammeurs y font mal aux opérateurs des moteurs de recherche aussi.
en hautDes conséuquences pour des sites faisant référence
Mais j'en passe et des meilleurs: Il devient particulièrement grave quand un
moteur de recherche tout à coup classifie un site bénin en soi comme un
distributeur de spam parce qu'il y a des liens exubérants sur des sites
annoncés par spam dans sa statistique de référents. Il en a inévitablement des
conséquences dans ce cas pour le domaine faisant référence que se trouve
dégradé dans les résultats des moteurs de recherche ou, dans le cas extrème,
est est éliminé desquels. En revanche ça fait du mal aux des opérateurs de tels
sites Web que se trouvent dans le cas extrème tranchés des affluces de
visiteurs, qui normalement viendraient sur le site Web d'un moteur de
recherche. Lorsqu'ils sont des entreprises que sont concernées par ces
machinations, il y a le danger que ce se fait senti comme des pertes sur le
chiffre d'affaires.
Il deviendra problématique pour des opérateurs des sites affectés par ailleurs:
Comme spam est normalement indésirable, il pourrait se produire rapidement que
des visiteurs d'un site perçu comme un distrbuteur de spam en partent et
jettent un coup d'œil ailleurs.
Le nofollow inefficace
Pour dégoûter des spammeurs de spammer, l'attribut
rel eut changé qu'on pourrait indiquer pour des liens
si le PageRank d'un site serait passé de la page faisant référence à la page
ciblée, mais cette méthode s'a révélée inefficace. La page à laquelle on fait
référence certes n'est pas considérée de plus haut rang, mais le but
prioritaire est néanmoins satisfait comme ça: Garantir l'accessibilité du site
et veiller à la mettre dans l'index des moteurs de recherche. On ne put pas
constater une réduction l'apparition de spam.
Le seul aspect positif de la valeur nofollow, c'est
le fait que la page faisant référence n'est pas châtiée parce qu'elle fait
référence aux pages annoncées par spam et retient son PageRank – mais ça ne
va pas empêcher des moteurs de recherche de classifier un site comme un
distributeur de spam lorsqu'il contient trop des liens sur des pages annoncées
par spam.
Comment JavaScript entre en jeu
Pour torpiller au moins un but de spam au référent il faut une méthode
entièrement différente comme mettre le lien à la page ciblée par l'attribut
href. On met cet attribut au valeur
javascript:void(0); pour commencer, donc empêchant
des moteurs de recherche d'exploiter le lien en question: Pour le moteur de
recherche il ne contient aucune destination valide!
On pourrait argumenter qu'on pourrait simplement supprimer l'attribut
href et met seulement un lien vide, mais ça produit
le problème tel lien mort n'est pas montré comme un lien, mais comme du texte
régulier. On pourrait bien sûr cliquer sur lequel, et comme planifié il ne
produit aucune action, mais un visiteur ne peut plus le percevoir comme un
lien. Donc cette méthode fait défaillance. On pourrait maintenant argumenter
qu'on puisse mettre le contenu de cet attribut au #,
mais cette ancre fait la même page être connue par deux différentes adresses
dans l'index du moteur de recherche, soit quelque chose qu'il faut éviter si
possible! Mais javascript:void(0); par contre veille
à ce que le moteur de recherche perçoit tel lien comme non valide et ne se met
pas en devoir de chercher pour une destination potentielle, et en plus le
problème avec le lien vide ne se produit plus.
Mais on voudrait quand même relayer ses visiteurs à la page ciblée lorsqu'ils cliquent sur les liens montrés. Il y est nécessaire de simuler le comportement prévu du lien avec JavaScript pour que le navigateur relaie le visiteur à la page ciblée lorsqu'il y clique. Vous parvenez auquel moyennant de l'attribut onclick inséré dans le lien par le script qu'élabore les statistiques de référents. Un lien si modifié apparaît dans le code HTML comme suivant:
Le navigateur est ordonné par le traitement des évennements y inséré d'exécuter le JavaScript là-dedans – que veille seulement à charger le document qui se trouve à l'adresse spécifiée comme s'il serait un lien normal. Mais dans la perspective d'un moteur de recherche, c'est pas de la tarte: Parce qu'une adresse non valide était spécifiée, il n'y a rien que serait intéressant pour le moteur de recherche, donc il ne trouve pas la page ciblée.
Si désiré, vous pouvez bien sûr enrichir votre script qu'un lien est placé
normalement, soit l'adresse de destination est régulièrement placé dans
l'attribut href si vous marquez le lien en question
appropriément dans votre base de données. Mais il faut que vous ne le fassiez
qu'après une vérification suffisante comme vous permettez des moteurs de
recherche encore une fois d'accéder à la page ciblée, mais nous voulons
l'éviter dans le cas du spam au référent. Lorsque la page ciblée se montre
bénin vous pouvez permettre des moteurs de recherche de les trouver avec cet
additif, donc faire passer votre PageRank aux pages ciblées – que fait
l'opérateur du site ciblé indirectement duquel.
Mais lorsqu'il y a des liens indésirés qui apparaissent dans vos statistiques
vous pouvez les éliminer facilement de votre base de données sans qu'ils
produisent trop de dommage avec leur présence.
Lorsque des moteurs de recherche ne trouvent plus des sites annoncés par spam...
Vous avez gagné dans ce cas et dégoûté des spammeurs d'atteindre leur but principal, soit inclure les sites annoncées par eux dans l'index des moteurs de recherche, avec profondeur. Vos visiteurs pourraient encore accéder aux pages auxquelles vous faites référence, mais le fait que des moteurs de recherche ne peuvent pas trouver rend les trouver plus et plus difficile. Ça veille à ce que moins visiteurs arrivent aux pages annoncées par spam et refuse l'expérience positive aux spammeurs comme il n'y a aucuns visiteurs en masse sur ces pages. Il en plus épargne des pages dont personne n'a pas besoin aux moteurs de recherche, donc éliminer des opérations superflues côté des moteurs de recherche et l'espace pas congestionné par des pages insensées est encore autrement disponible.
en hautInclure une fonction de signalisation à l'abri des moteurs de recherche
Pour faciliter trouver des référents intésirés dans vos statistiques vous avez
l'option à inclure une fonction de signalisation que permet signaliser des
liens indésirés à vos visiteurs. Il faut qu'ils soient marqués appropriément
dans votre base de données, et en plus vous recevez une courriel indiquant à
vous qu'il y a des liens qui furent signalés. Mais il faut éviter au même temps
que des moteurs de recherche puissent suivre les liens de signalisation et
donc signalent quelconques liens sans le vouloir.
Pour l'atteindre vous pouvez utiliser la même méthode que vous utilisâtes pour
empêcher des moteurs de recherche à suivre des liens non vérifiés mine de rien.
Il est en outre aidant que vous incluez une option que vous permet à débrancher
la fonction de signalisation lorsque vous détectez qu'il y a des liens signalés
malvenument, par exemple par quelconques bouffons ou des gens qui veulent
atteindre pour n'importe quelle raison qu'aucuns liens sont mis aux certains
sites.