» home » ICT
Welcome Googlebot
door Jeroen op maandag 12 juli 2004 23:36
Soms lees je wel eens iets waarvan je denkt: ik heb altijd al geweten, maar ben nooit op de gedachte gekomen er iets mee te doen. Vandaag kwam ik weer zoiets tegen. Webwereld publiceerde een leuk verhaal over de achterdeurtjes die websitebouwers maken voor Google.
Bij vele websites heeft Google (en andere search engines) een voorkeurspositie verworven. Dat is ook niet zo vreemd. Als Google een website juist en volledig indexeert, kan dat een grote hoeveelheid bezoekers tot gevolg hebben. Daarom bouwen veel bedrijven een achterdeurtje in. Als de zoekrobot zich identificeert, is registratie of betaling niet nodig. Google kan dan de gehele website indexeren. De pagina's binnen de website zullen hierdoor wel opduiken binnen de zoekresultaten, maar internetters moeten zich registreren om de pagina daadwerkelijk te kunnen bekijken. Dat is erg vervelend. Zo zijn alle pagina's binnen het Algemeen Dagblad opgenomen in Google, maar als je het betreffende artikel wil zien, moet je eerst inloggen.

Zoals alles heeft deze methode van informatie aanbieden ook een keerzijde. Wie de verplichte registratie of betaling op sites wil omzeilen, kan zich natuurlijk voordoen als Google.
Het voor de gek houden van een website is in de meeste gevallen niet zo moeilijk. In de browser moet de user agent gewijzigd worden in de string waarmee Google zich identificeert. Deze is af te lijden uit de webstatistieken. Op dit moment is dat "Googlebot/2.1 (+http://www.googlebot.com/bot.html)". In Internet Explorer kan het aanpassen van de user agent bijvoorbeeld via het programma WinGuides Tweak Manager. Voor Firefox/Mozilla is er de gratis extention User Agent Switcher.
Nadat iemand de user agent heeft aangepast, kan deze artikelen op de sites van de Volkskrant, Trouw, Algemeen Dagblad en NRC Handelsblad bekijken. Ook diverse sites waarvoor normaal abonnementsgeld moet worden betaald leggen, bezoekers geen strobreed meer in de weg als zij zich voordoen als Google-bot. Deze 'truc' werkt overigens niet altijd. Er zijn dus websites die ook naar andere kenmerken kijken, bijvoorbeeld het ip-adres van de afzender.
 |
1.211 maal gelezen, score 3,3/5.
Services
Reacties