Skydda din webbplats effektivt från AI botar
AI-robotar och s.k scrapers kan vara en stor huvudvärk för webbplatsägare. Dessa automatiserade verktyg kan stjäla innehåll, överbelasta servrar och till och med imitera mänskligt beteende, vilket gör det svårt att skilja dem från verkliga användare. Lyckligtvis finns det flera effektiva metoder för att skydda din webbplats mot oönskad AI-aktivitet. Här kommer en lång, men väldigt användbar artikel på hur du bäst skyddar dig mot AI botar som försöker stjäla ditt webbplatsinnehåll.
Tips – Innan ni adderar hela listan så kolla om det är några botar ni faktiskt behöver som gå igenom er webbplats på data.
Innehållsförteckning
Säkerställ i era Terms of Use (TOU) vad man inte får göra
Det är sällan vi ser i Terms of Use på en webbplats vad botar eller de som scrapar inte får göra. Det är en mer legal aspekt av vad som är en gråzon men det finns vägledande domar. Så alltid bra att inkludera från ett legalt perspektiv i TOU. Men det effektivaste sättet är att blocka botar direkt från webbservern.
Exempel på Youtubes TOU som har en restriktion på hur scrapers/botar får användas
Permissions and Restrictions
You may access and use the Service as made available to you, as long as you comply with this Agreement
and applicable law. You may view or listen to Content for your personal. non-commercial use. You may also
show YouTube videos through the embeddable YouTube player.
The following restrictions apply to your use of the Service. You are not allowed to:
1. access, reproduce, download, distribute, transmit, broadcast, display, sell, license, alter, modify or
otherwise use any part of the Service or any Content except: (a) as express ly authorized by the Service;
or (b) with prior written permission from YouTube and, if applicable, the respective rights holders;
2. circumvent, disable, fraudulently engage with, or otherwise interfere with any part of the Service (or
attempt to do any of these things), including security-related features or features that (a) prevent or
restrict the copying or other use of Content or (b) lim it the use of the Service or Content;
3. access the Service using any automated means (such as robots, botnets or scrapers) except (a) in the
case of public search engines, in accordance with YouTube's robots.txt flle; or (b) with YouTube's prior
written permission;
4. collect or harvest any information that might identify a person (for example, usernames or faces),
unless permitted by that person or allowed under section (3) above.
5. use the Service to distribute unsolicited promotional or commercial content or other unwanted or mass
solicitations.
6. cause or encourage any inaccurate measurements of genuine user engagement with the Service,
including by paying people or providing them with incentives to increase a video's views, likes, or
dis likes, or to increase a channel's subscribers, or otherwise manipulate metrics in any manner;
ai.txt fil kan få stort inflytande på AI botar
Filen ai.txt är ett koncept som liknar robots.txt, men är särskilt avsett att hantera hur artificiella intelligenser (AI) interagerar med webbinnehåll. Syftet med denna fil är att ge webbplatsägare kontroll över hur deras data används av AI-teknologier, särskilt inom områden som automatisk innehållsgenerering och maskininlärning. ai.txt är en fil som placeras i roten på en webbserver.
Den här filtypen är ny och man vet inte riktigt hur de stora bolagen ställer sig till den. Fler och fler bolag ansluter sig till Spawning som är intiativtagarna.
Fördelarna med ai.txt
Kontroll över datadelning: Webbplatsägare kan exakt kontrollera vilken data som får användas av AI-system, skydda känsligt innehåll och personuppgifter.
Skydd mot missbruk: Genom att begränsa hur AI interagerar med webbplatsen kan ägarna förhindra missbruk av deras innehåll för opålitliga eller oetiska AI-applikationer.
Anpassning till etiska riktlinjer: ai.txt kan hjälpa organisationer att följa etiska normer och riktlinjer för AI-användning, vilket är särskilt viktigt i en tid där AI-etik blir alltmer diskuterat.
Så blockerar du innehåll med ai.txt
Skapa en ny fil som du döper till ai.txt och kopiera raderna nedan. Ladda upp i roten på din webbserver.
User-Agent: *
Disallow: /
Disallow: *
Vill du tillåta att AI botar plockar upp en del av ditt innehåll så kan vi rekommendera tjänsten Spawning som är gratis. Tjänsten gör en skräddarsydd ai.txt fil av dina önskemål helt gratis.
robots.txt det vanligaste sättet att förhindra AI botar
robots.txt är en vanlig fil som placerats i roten på din webbserver och ger instruktioner till robotar om vilka delar av din webbplats de får eller inte får ladda ner data från. Genom att specificera vilka robotar som har tillåtelse att besöka specifika sidor, kan du effektivt blockera oönskade AI-robotar från att nå känsligt eller värdefullt innehåll.
Viktigt att veta är att robots.txt är ett önskemål till botarna. De kan helt förbise robots.txt och plocka upp datan. De stora bolagen som Google, Meta och Open AI brukar i regel följa robots.txt
Lista på AI botar att blockera i robots.txt
Kopiera listan eller plocka ut de botar som du vill blockera och lägg in i din robots.txt
# Blockera en av OpenAIs GPTbotar
User-agent: ChatGPT-User
Disallow: /
# Blockera Googles AI för Gemini
User-agent: Google-Extended
Disallow: /
# Blockera En av Googles generella botar
User-agent: GoogleOther
Disallow: /
# Blockera Commoncrawl CCBot
User-agent: CCBot
Disallow: /
# Blockera Perplexity AI
User-agent: PerplexityBot
Disallow: /
# Blockera Anthropic AI
User-agent: anthropic-ai
Disallow: /
# Blockera en av Claude botarna
User-agent: ClaudeBot
Disallow: /
# Blockera en av Claude botarna
User-agent: Claude-Web
Disallow: /
User-agent: Bytespider
Disallow: /
# Blockera Apples AI-robot Siri
User-agent: Applebot
Disallow: /
# Blockera Amazons AI-robot Alexa
User-agent: Alexa
Disallow: /
# Blockera Microsofts AI-robot Tay
User-agent: bingbot/2.0
Disallow: /
# Blockera Facebook
User-agent: FacebookBot
Disallow: /
# Blockera ImageSiftBot
User-agent: ImagesiftBot
Disallow: /
# Blockera Omgili
User-agent: ImagesiftBot
Disallow: /
# Blockera Omgili
User-agent: omgili
Disallow: /
# Blockera Omgili
User-agent: omgilibot
Disallow: /
# Blockera Friendly crawler denna är sneaky och kan kräva mer än bara robots.txt
User-agent: FriendlyCrawler
Disallow: /
# Blockera
User-agent: AwarioRssBot
Disallow: /
# Blockera
User-agent: AwarioSmartBot
Disallow: /
# Blockera
User-agent: DataForSeoBot
Disallow: /
# Blockera
User-agent: Diffbot
Disallow: /
# Blockera
User-agent: img2dataset
Disallow: /
# Blockera
User-agent: ImagesiftBot
Disallow: /
# Blockera
User-agent: magpie-crawler
Disallow: /
# Blockera
User-agent: Meltwater
Disallow: /
# Blockera
User-agent: peer39_crawler
Disallow: /
# Blockera
User-agent: PiplBot
Disallow: /
# Blockera
User-agent: scoop.it
Disallow: /
# Blockera
User-agent: Seekr
Disallow: /
# Blockera
User-agent: YouBot
Disallow: /
# Blockera
User-agent: cohere-ai
Disallow: /
Blockera user agents
User Agents spelar en viktig roll i hur nätverkstrafik hanteras och identifieras på internet. Genom att förstå och manipulera hur User Agents interagerar med din webbplats, kan du effektivt förhindra att oönskade botar får tillgång till ditt webbinnehåll.
Vad är en User Agent?
En User Agent är en mjukvaruidentifierare som berättar för webbservrar om typen av enhet och webbläsare som försöker få tillgång till en webbplats. Den här informationen hjälper servrar att leverera rätt typ av innehåll anpassat för användarens enhet. Exempel på User Agents inkluderar webbläsare som Chrome eller Firefox, men även botar som Googlebot (som används av Google för att indexera webbsidor) har specifika User Agents.
Analysera User Agent-strängar för att identifiera botar
För att blockera botar kan du analysera inkommande trafiks User Agent-strängar. Många aggressiva eller skadliga botar använder ofta generiska eller misstänkt utformade User Agents, och genom att övervaka dessa kan du effektivt identifiera och blockera dem. Verktyg som logganalysatorer och säkerhetsplugins kan hjälpa dig att spåra dessa User Agents automatiskt.
Skapa regler för att blockera specifika User Agents
Du kan skapa serverregler som specifikt nekar åtkomst baserat på User Agent-strängar. Det här kan göras genom att modifiera din webbservers konfigurationsfiler (som .htaccess på Apache-servrar).
Exempel på hur man skapar en regel i htacess filen:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Textbot [NC]
RewriteRule .* - [F,L]
Vill du blocka flera user agents så här här ett exempel:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.*(SCspider|Textbot|s2bot).*$ [NC]
RewriteRule .* - [F,L]
Finns även bra funktioner inbyggda i AWS och Cloudflare där man direkt kan lägga till vilka useragents man vill blockera:
Fördelar och nackdelar med att blockera via User Agents
Blockering baserat på User Agents är kraftfullt men har sina begränsningar. Fördelarna inkluderar enkel implementering och förmågan att snabbt stoppa kända botar. Nackdelarna är att det är relativt lätt för avancerade botar att kringgå genom att maskera eller ändra sin User Agent-sträng. Därför bör denna metod kombineras med andra säkerhetsåtgärder för att ge en mer robust säkerhet mot botar.
Blockera IP adresser
Att blockera IP-intervaller är en effektiv metod för att skydda din webbplats från oönskad eller skadlig trafik. Genom att begränsa åtkomsten för specifika IP-adresser eller hela nätverk kan du effektivt minska risken för attacker och störningar från kända skadliga källor.
Vad innebär IP-baserad blockering?
IP-baserad blockering innebär att du nekar åtkomst till din webbplats för trafik från specifika IP-adresser eller adressintervaller. Detta kan vara särskilt användbart för att stoppa bot-besök från specifika regioner eller nätverk.
Så här ställer du in IP-blockering
För att implementera IP-blockering kan du konfigurera inställningar direkt på din webbserver eller via säkerhetsplugins som erbjuds i olika CMS-plattformar som WordPress. Ett exempel är htaccess filen som finns i roten på webbservern.
Ett annat sätt för htaccess är att använda reguljära uttryck.
Exempel:
<IfModule mod_rewrite.c>
RewriteCond %{REMOTE_ADDR} ^214.53.25.(6[4-9]|7[0-9]|8[0-9]|9[0-9])$ [OR]
RewriteCond %{REMOTE_ADDR} ^214.53.25.1([0-1][0-9]|2[0-8])$
RewriteRule .* - [F]
</IfModule>
Vill man vara lite sneaky så kan man alltid redirecta en bot via htaccess 🙂
Exempel
<IfModule mod_rewrite.c>
RewriteCond %{REMOTE_ADDR} ^111\.111\.111\.111$
RewriteRule .* /duarenbot.php [R=301,L]
</IfModule>
Använder ni Cloudflare eller AWS så finns bra dokumentation hur ni kan ställa in ipblockering i deras gränssnitt
Varför är IP-blockering effektivt?
IP-blockering är effektivt eftersom det skapar en omedelbar barriär mot identifikation av botar som visat sig vara skadliga. Det är ett kraftfullt verktyg för att förhindra DDoS-attacker, spam och obehörig dataåtkomst.
Utmaningar och överväganden
Medan IP-blockering är ett kraftfullt verktyg, finns det några överväganden och potentiella nackdelar att tänka på:
Dynamiska IP-adresser: Användare med dynamiska IP-adresser kan oavsiktligt blockeras om de tilldelas en adress som tidigare varit skadlig.
VPN och proxyanvändning: Användare som använder VPN-tjänster eller proxyservrar kan verka komma från de IP-adresser du har blockerat, vilket kan hindra legitima användare från att nå din webbplats.
Övervaka loggarna: IP-intervaller kan ändras och nya skadliga källor kan dyka upp, vilket kräver regelbunden uppdatering och underhåll av din blocklista. Enklast är att gå in i webbserverloggarna och se om det finns nya botar.
Använd IP-blockering som en del av en större säkerhetsstrategi
För bästa skydd bör IP-blockering användas som en del av en större, flerlagers säkerhetsstrategi. Kombinera denna teknik med andra säkerhetsåtgärder såsom användarautentisering, CAPTCHA-tester, och regelbunden säkerhetsgranskning för att skapa ett robust försvar mot olika typer av hot.
Att blockera IP-intervaller är en viktig säkerhetsåtgärd som kan hjälpa till att skydda din webbplats från potentiella hot och garantera en säker och tillförlitlig miljö för dina användare.
Värdefulla länkar
En uppdaterad lista på AI botar – https://github.com/ai-robots-txt/ai.robots.txt
Stor lista på botar – https://udger.com/resources/ua-list/crawlers
Bot dokumention OpenAI – https://platform.openai.com/docs/plugins/bot
Bot dokumention Google – https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers
Bot dokumention Perplexity – https://docs.perplexity.ai/docs/perplexitybot
Bot dokumention Meta – https://developers.facebook.com/docs/sharing/bot
Bot dokumention ImageSift – https://imagesift.com/about
CCBOT – https://commoncrawl.org/ccbot

Kristina Ponting
https://github.com/tinaponting/protect-wordpress/blob/main/Ai%20scrapers.txt