It’s so cunning you can brush your teeth with it

10111011 | 2010-05-19 (onsen) | 9:51

Botar är inte bra så länge de inte kommer från Google. Botar som försöker se ut som vanliga surfare med en generisk useragent är ännu värre. Driver Database råkar ut för några sådana då och då. Botar som man inte riktigt vet vad de gör, men som av någon anledning laddar ner / samlar info från min webbsajt. Givetvis kan man ju lägga till deras IP i .htaccess och på så vis blockera dem, men det upptäcker de ju snabbt och kommer snart tillbaka från ett nytt ställe.

Varför inte jävlas lite? Det gör jag nu. Dessa botar hamnar i en egen liten tabell i databasen och om de dyker upp på sidan visas inte originalsidan utan en annan sida med lite information om att jag inte vill ha dem där. Där finns även uppgifter om hur de gör för att få fortsätta använda sajten (om de faktiskt inte är botar, eller har en jävligt bra anledning till att köra sin bot). Dessutom genereras en slumpvist stor lorem ipsum-text i HTML-koden. Varför? Jo, på så vis kommer varje fil boten laddar ner vara olika stor och de kommer antagligen inte märka att något är snett. De fortsätter antagligen ladda ner hela sajten tills de är färdiga (vilket nog tar några dagar). När de då senare ska använda all min data upptäcker de att de bara laddat ner skit. Oj då.

Dagens elaka bot har nu laddat ner 286 skräpfiler. Den här gånger har de försökt gömma sig lite genom att skruva ner tempot på boten, men det sket sig lite ändå för dem.

Helst av allt skulle jag bara vilja modifiera all nuvarande information på sidan de försöker hämta så att den är helt galen, kanske översätta allt till egenpåhittade språk, byta ut alla jämna tal till små bilder på apor och sånt, men då skulle jag inte komma ifrån problemet att de använder för mycket resurser och att servern segar ihop.

Man kan inte få allt.

Babsan är min målgrupp

10111001 | 2010-05-18 (tisen) | 13:46

För någon månad sedan samlar Quantcast information om besökarna till Driver Database. Tanken är att potentiella annonsörer lite lätt ska kunna få relevant information. Döm om min förvåning när jag upptäckte att min målgrupp tydligen är “somewhat male”. Det hade jag ingen aning om, nu måste jag nog tänka om i min strategi lite för att casha in på detta faktum.

“The site is popular among a more educated, somewhat male crowd.”

Här finns Quantcasts trafik- och målgruppsinfo:
driverdb.com – Quantcast Audience Profile

Trodde jag bannade en spambot

10111000 | 2010-05-13 (torsen) | 22:43

Har haft en intressant vecka. I måndags gick Driver Database segt som sirap. Jag upptäckte en skum bot i loggarna som verkade gå igenom hela sajten. Vet inte riktigt vad den pysslade med, men det kunde ju troligtvis inte vara något bra. Jag satte en liten deny på botens user-agent i htaccess och problemet var löst för stunden. Servern återgick till sin normala hastighet. Dagen efter var boten tillbaka, med modifierad user-agent. Jag lade då en deny på subdomänen hosten, som var en proxy till en domän ägd av Symantec. Dagen efter detta var boten tillbaka på en ny subdomän på samma domän. Då var det ju dags att ta till med hårdhanskarna och hela domänen förbjöds.

Fem timmar senare får jag epost. Det är en “strategy analyst” på McLaren F1 som undrar om jag har gått och portat dem och de ber så hemskt mycket om ursäkt till om deras användade av sajten varit felaktigt. De bönar och ber om att få komma tillbaka eftesom de tycker sajten är ett mycket bra verktyg för att hålla koll på unga lovande förartalanger.

Jag lät dem komma tillbaka, om de kör sin bot (som jag inte riktigt vet vad den gör, men något skoj lär de ju göra med all data iaf) på nätterna och om de skruvar ner hastigheten på boten.

Så kan det gå.