Op de vraag 'Wat hebben een Nederlandse gemeente, de overheid van België, een universiteit in Washington en een hotel in Finland met elkaar gemeen?', zullen niet veel mensen het antwoord weten. De sites van deze organisaties en bedrijven worden namelijk dagelijks besmet met duizenden spamberichten.
Nu zal je denken 'daar hebben toch meer mensen last van?', maar dit ligt toch net iets anders. In plaats van spamreacties op blogberichten, zorgen deze zogenaamde ‘PDF-hackers’ dat er duizenden pagina’s met vervuilde content op je webserver terechtkomen, waarna zij deze laten indexeren door zoekmachines als Google. De genoemde voorbeelden hebben dat soms weken niet in de gaten!
Het gevolg?
De universiteit in Washington wordt in verband gebracht met de nieuwste aflevering van Game of Thrones of de Eredivisie voetbalwedstrijd tussen Feyenoord en Excelsior.
Om aan te geven hoe groot dit probleem is, hebben we het volgende al onderzocht:
- 2.000 URL’s per website per dag met vervuilde content (dat zijn 60.000 URL’s per maand 😉)
- Meer dan 100 toonaangevende organisaties in Nederland zijn besmet
- Meer dan 1.000.000 websites wereldwijd zijn een potentieel doelwit van deze hackers
Hoe kan dat?
Dat hebben wij uitgezocht! In dit artikel leggen we de werkwijze uit van deze hackers, alsook het gevolg voor de besmette websites.
Hun doel
Hackers proberen via omwegen zoveel mogelijk traffic naar hun website te genereren. Deze bezoekers worden doorgestuurd naar websites waarop een stream of een aflevering van een serie tegen betaling wordt aangeboden, waaraan door de hackers geld verdiend kan worden.
Ze focussen zich vooral op voetbalwedstrijden, series en tv-programma’s die massaal online bekeken worden. Voorbeelden zijn:
- Livestream Ajax – Feyenoord
- Watch Game of Thrones Season 7 Episode 4 Online FREE
Even voor de beeldvorming: op de dag van de kraker tussen Ajax en Feyenoord wordt er in Nederland gemiddeld door 200.000 mensen via Google gezocht naar een stream. Bij Game of Thrones spreken we – wereldwijd – over enkele miljoenen zoekopdrachten een half uur na elke nieuwe aflevering!
Waarom moeilijk doen? Waarom zetten ze geen eigen site op?
De hackers kiezen doelbewust onbeveiligde websites uit met een hoge autoriteit. Autoriteit van een website wordt opgebouwd door onder andere de leeftijd van een domein en zogenoemde backlinks die de website heeft verkregen door de jaren heen. Ze gebruiken deze websites als hefboom om hun zoekresultaten zo hoog mogelijk te laten ranken in de zoekmachines. Ondanks dat de inhoud van deze PDF-bestanden geen enkele link heeft met de inhoud van de besmette websites, weten ze de bovenste posities in de zoekmachines te veroveren.
Zo gaan ze te werk
Als je content op een website wilt plaatsen, moet je normaal gesproken toegang hebben tot het CMS-systeem. De hackers hebben echter ‘mazen in de wet’ gevonden van grote autoritaire organisaties. Ze maken namelijk niet voor niets gebruik van content in PDF-formaat.
Via invulformulieren op websites kun je in vele gevallen een bestand bijvoegen. Denk bijvoorbeeld aan een vacaturesite of aan een webshop die een online retourservice heeft. Als bestanden worden geüpload via zo’n formulier, worden deze op de server van de website geplaatst en krijgen deze een webadres. Over het algemeen wordt dit webadres geblokkeerd voor mensen die niet ingelogd zijn, maar in sommige gevallen zijn deze gewoon via je webbrowser te bereiken. Zo kan het dus zijn dat je geüploade sollicitatiebrief voor iedereen bereikbaar is. Daarvoor moet je dan wel de exacte URL weten en dat is doorgaans niet gemakkelijk.
Terug naar de hackers. Zij kiezen ervoor om PDF-bestanden te uploaden via formulieren. PDF-bestanden kunnen namelijk uitgelezen worden door zoekmachines. Zodra er een link wordt gelegd (vanaf bijvoorbeeld een andere website) naar het webadres waar de PDF zich bevindt, kan deze gecrawld worden door de robots van de zoekmachines. Vervolgens kan deze – als de beveiliging van de website niet op orde is – geïndexeerd worden en is hij voor jou en mij bereikbaar via de zoekbalk van bijvoorbeeld Google.
Voor de SEO guru’s onder ons:
Beveiligde websites waar je – zonder in te hoeven loggen – bestanden kan uploaden via een contact form, zorgen ervoor dat deze bestanden geblokkeerd worden voor zoekmachines middels hun robots.txt of Webmasterhulpprogramma van de zoekmachines (Google Search Console bijvoorbeeld). Bij enkele CMS systemen – zoals Drupal (version 7) – worden de binary’s (PDF’s, word docs) geplaatst in ../files/.., een pad dat niet automatisch wordt uitgesloten tot indexatie door crawl bots. Zonder interne links of opname in de sitemap.xml, zijn de URL’s onbereikbaar voor de bot en kunnen deze niet geïndexeerd worden. Maar met voldoende backlinks (deze PDF-hackers hebben meer dan 150 domeinen in bezit waarop ze deze backlinks plaatsen) vanuit andere websites worden de PDF’s uiteindelijk toch geïndexeerd.
Wat is het gevolg voor je website?
In eerste instantie wordt je website besmet met content waar je niet geassocieerd mee wilt worden. Daarnaast zien de PDF-bestanden er spammy uit, wat kan overkomen alsof je website niet betrouwbaar is. Het laatste wat je wilt is dat je (betaalde) bezoekers de site verlaten omdat deze niet betrouwbaar overkomt.
Als we spreken over SEO, kunnen deze duizenden URL’s aan vervuilde content bijzondere gevolgen hebben voor je huidige vindbaarheid. Zoekmachines als Google beoordelen websites – met de komst van Google Panda in 2011 – op de toegevoegde waarde aan het web. Wanneer pagina’s binnen een site beoordeeld worden als van lage kwaliteit, dan kunnen je bestaande pagina’s hier negatieve gevolgen van ondervinden. Dat betekent dat je bestaande rankings negatief beïnvloed kunnen worden, wat dan weer directe invloed kan hebben op jouw organische bezoekersaantallen en de daaruit voortkomende omzet.
Daarnaast wordt de content niet alleen op jouw site, maar exact dezelfde PDF’s worden geüpload (en geïndexeerd door zoekmachines) op tientallen andere websites. Dat zorgt ervoor dat jouw website ook in verband wordt gebracht met duplicate content.
Of jouw website besmet of een potentieel target is, hangt af van verschillende (technische) factoren. Ga daarom op zoektocht uit of laat je site nakijken door experts. Bij sommigen, zoals Yonego, kan dat zelfs helemaal gratis.