Spam referrer, czyli niechciane linkujące

Co jakiś czas przeglądam statystyki odwiedzających moje strony internetowe, wśród których znajdują się m.in. informacje o stronach, na których internauta znalazł link, poprzez który wszedł na moją stronę lub jej część. Przykładowo, kto wpisze w Google moje imię i nazwisko, a następnie z wyników wyszukiwania wybierze moją stronę, zostawi w logach serwera ślad zawierający adres referrer (linkujący) z którego właśnie wszedł, czyli adres google.com z parametrami wyszukiwania. Jeśli strona A linkuje do strony B, to w statystykach strony B i logach jej serwera będzie informacja o tym, że internauta do strony B przyszedł ze strony A. W założeniu stronie B nic nie powinno się stać (wręcz odwrotnie, zyskała nowego odwiedzającego). Nic złego się nie dzieje dopóki nikt nie nadużywa tego mechanizmu. No właśnie. [akapit przeredagowany 02.08.2011]

Z drugiej bowiem strony, wyszukiwarki internetowe, takie jak wspomniana Google, ważność strony i jej wysokość w wynikach wyszukiwania opierają właśnie na linkach pomiędzy stronami. Co do zasady, im więcej linków do strony z innych stron, tym wyżej link pojawi się w wyszukiwarce. Oczywiście to uproszczony model, dziś bardziej skomplikowany m.in. poprzez słowa kluczowe w tekście odsyłacza, w tekście wokół niego czy adresie URL. Niektóre wyszukiwarki zbudowały cały system rankingowania stron, np. Google PageRank.

Wysoka pozycja w wynikach wyszukiwania to mocna pokusa dla wielu uczciwych i nieuczciwych osób. To również biznes, na którym można zarobić. Nie dziwią mnie więc coraz bardziej wyrafinowane mechanizmy preparujące strony dolinkowujące do tej, którą ktoś chce dobrze wypozycjonować. W tym celu wykorzystuje się — zazwyczaj bezprawnie (naruszenie praw autorskich poza prawem cytatu) — całość lub fragmenty cudzych stron. Niegdyś kopiowano katalog DMOZ. Dziś bardzo często jest to kopia Wikipedii, która choć umożliwia redystrybucję kopii, to jednak z przytoczeniem licencji, źródła i autorów, czego zazwyczaj się nie dochowuje.

Coraz jednak częściej pozycjonerzy, a raczej napisane przez nich automatyczne skrypty, wykorzystują również strony prywatne, tj. takie o stosunkowo małym ruchu, jak blogi, fora dyskusyjne czy strony domowe. Kopiują najbardziej przydatne fragmenty bez podania źródła, byle tylko indeksujący robot (bot, crawler) wyszukiwarki internetowej zaliczył podlinkowaną pośród cudzych fragmentów stronę jako wartą pokazania wyżej pośród późniejszych wyników wyszukiwania. Co ciekawe, mechanizmy te są na tyle przebiegłe, że fragmenty cudzych stron często zmieniają się, zapewne doczekują jedynie pierwszego lub kilku pierwszych wejść robota.

Kiedy po jakimś czasie autor strony internetowej przegląda statystyki referrerów, widzi różne dziwne linki, pod którymi już dawno nie ma ani fragmentu na temat podlinkowanej jego strony. Jak na przykład:

Fragment statystyk referrerów mojego bloga za czerwiec

Fragment statystyk referrerów mojego bloga za czerwiec

Muszę przyznać, że po samych adresach widać, że chodzi o spam, a właściwie udaną próbę promowania cudzych stron kosztem mojej strony. I to niekoniecznie promowania tych stron, które widać powyżej. Niektóre adresy są tak podejrzane, że tam nigdy nie klikam, a nuż załapię jakiegoś wirusa.

Nie tylko ja dostrzegłem, że  zjawisko zaczęło przybierać na sile i w dodatku niewiele można z tym zrobić. Blokada URL niewiele pomoże, gdyż co miesiąc adresy są inne. Pozostaje tylko irytacja i ostrożność przy sprawdzaniu, kto mnie podlinkował. Na to, że ktoś krótkotrwale (lecz jakże komercyjnie) naruszył moje prawa autorskie, również mogę tylko rozłożyć ręce. I tak dobrze, że trzymam jeszcze kontrolę nad komentarzami pod blogiem, wątkami na forum i formularzem kontaktowym — gdyby nie CAPTCHA i ręczne zatwierdzanie, już dawno roiłoby się tu od spamlinków.

5 Komentarzy

  1. seo

    ehh ja właśnie w google wpisałem sobie webmastering blog aby dodać gdzieś komentarzyk :) mam nadzieje że nie wyleci
    pozdro

  2. Adriano

    Refy są przydatne – właśnie dzięki nim tutaj przypadkiem trafiłem :)

    Te spamerskie refy nie pochodzą z kopiowania treści – na tych stronach najprawdopodobniej nigdy nie było żadnego linka dla Twojej strony, nawet przez chwilę. To tylko bot, który udaje wejścia z tych stron.

    Cel jest taki, abyśmy zaciekawieni tym że ktoś nas linkuje, zajrzeli na podane strony przeglądając statystyki.

  3. wawerski

    Czy wie ktoś, gdzie najlepiej sprawdzać wszystkie linki przychodzące? Analityk Google’a chyba nie indeksuje wszystkich

  4. Bruno

    Przeczytałem Spam referer…, gdzie podajesz przykład mojego linka do swojej strony. Nie jest dla mnie jasne, czy sobie tego nie życzysz. Jeśli powinienem link usunąć, to mogę natychmiast to zrobić. Podłączyłem go, bo uważam Twoją stronę za świetną, a skrypt lepszy od wielu programów genealogicznych.
    Pozdrawiam
    Bruno

    Bruno!

    Absolutnie, nie miałem takiego zamiaru, odwrotnie, jestem zaszczycony obecnością linka do mojej strony na Twojej stronie (na prawdę).

    Jeśli w kontekście tego artykułu zabrzmiało to głupio (jak rozumiem, poczytałeś moją notkę jakby wskazywała na spam), to przepraszam, wieczorem poprawię artykuł, jeszcze nie wiem na co.

    Spamu dotyczy dalsza część artykułu, a fragment o Twojej stronie był przykładem pozytywnym do tego, do czego referrer powinien służyć. Przykład Twojej strony (w zamiarze) miał być przykładem dobrej praktyki, podczas gdy technika ta jest używana również do złych celów, ale absolutnie nie miałem na myśli Twojej strony.
  5. Bruno

    Kamień spadł mi z serca. Dziękuję! Pozdrawiam :)

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *