Mindenekelőtt! Nem egy teljesen új problémáról van szó. Sem a duplikált tartalom, sem a proxyk, sem pedig a negativ SEO tekintetében. A kiélezett konkurenciaharcban, vannak akik nem riadnak vissza nem teljesen etikus módszerek alkalmazásától, annak érdekében, hogy a versenytársat kellemetlen helyzetbe hozzák. Már pedig a SERP-ből (Search Engine Result Page) való kikerülés elég kellemetlen tud lenni. Vagy gondoljunk csak akár a Google Bowling-ra.
Augusztus 16-án, Dan Thies úgy gondolta, hogy nem bírja tovább, és széles körben is nyilvánosságra hozta a Google Proxy Hacking elméletét, mely nagyon úgy tűnik, hogy nem egy hibás gondolkozási mechanizmus eredmémye. hanem nagyon is igaza van. (Hozzáteszem, hogy ekkora már a Google is értesítve lett a problémáról bőven. Más kérdés, hogy egyelőre nem sokat csinált ezügyben.)
Miről is van szó? Konkrétan arról, hogy “jószándékú” emberek fognak egy szimpatikus és nyitott proxy-t – esetleg felhúznak egyet maguknak -, majd elhelyeznek egy linket valahol, ami a proxy-n keresztűl az adott oldalra mutat, pl. így: http://openproxy.com/010110A/www.azenoldalam.hu. A GoogleBot megtalálja ezt a linket, és ezen keresztül leindexeli a siteunk tartalmát. (A proxy okos, és a kódban található linkeket is átirja.)
Ebben az esetben ugyebár a Google indexében duplikált tartalom jön létre, 2 különböző domain alatt. Jöhet a büntetés! Ha nem mi vagyunk a szerencsések, akkor az oldalunk kikerül az indexből. Ha szerencsénk van, akkor bentmaradunk. Röviden kb. ennyi a lényeg. Egyáltalán nem nehéz a megvalósítása a fent leírtaknak, gyakorlatilag bárki meg tudja csinálni. A következmények viszont már annál súlyosabbak.
Elméletileg a Google ilyen esetekben ugye vizsgálja, hogy melyik domain a régebbi, melyik oldalnak nagyobb a PR-je – ergo van több bejövő linkje -, és figyelembe vesz még egyéb tényezőket is, de valamiért úgy tűnik, hogy ez nem teljesen korrektűl működik.
A védekezés kétoldalú. Vannak egyrészt a proxy tulajdonosok, akiknek azt javasolják, hogy tiltsák ki a robotokat:
User-agent: *
Disallow: /proxy/
A másik oldal dolga nehezebb. A site tulajdonosoknak egyértelműen be kell azonosítani, hogy az adott crawler megfelelő IP címről jön e. A reverse cloaking eljárás tűnik egyelőre egy járható útnak, aminek alkalmazásával azt csinálják, hogy egy “nonindex, nofollow” robot meta tag-et tesznek a kódba, ha azt egy nem valid robot akarja leszedni. Ellenkező esetben mehet az “index, follow”. A dolgot nehezíti, hogy az adott site statikus e vagy dinamikus, milyen nyelven iródott, ésatöbbi.
Érdemes átolvasni az írást, valamint a hozzá tartozó kommenteket is, nagyon sokat lehet belőle tanulni.