Back to Question Center
0

Semalt pruža savjete o tome kako se nositi s robotima, paukovima i robotima

1 answers:

Osim stvaranja tražilice prijateljske URL-ove, .htaccess datoteka omogućuje webmasterima da blokiraju određene botove pristupajući njihovoj web stranici. Jedan od načina za blokiranje tih robota je datoteka robots.txt. Međutim, Ross Barber, upravitelj uspjeha korisnika Semalt navodi da je vidio neke alat za indeksiranje koji ignoriraju taj zahtjev. Jedan od najboljih načina je da koristite .htaccess datoteku kako bi ih zaustavili indeksiranje vašeg sadržaja.

Koji su ti roboti

To je vrsta softvera koji koriste tražilice za brisanje novih sadržaja s interneta za svrhe indeksiranja.

Obavljaju sljedeće zadatke:

  • Posjetite web stranice koje ste povezali s
  • Provjerite pogreške vašeg HTML koda
  • Spremaju web stranice na koje se povezujete i vide koje web stranice povezuju vaš sadržaj
  • Indeksiraju vaš sadržaj

Međutim, neki robota zlonamjerni su i pretražuju vašu web-lokaciju za adrese e-pošte i obrasce koji se obično koriste za slanje neželjenih poruka ili neželjene pošte. Drugi čak traže sigurnosne rupe u vašem kodu.

Što je potrebno za blokiranje web alata za indeksiranje?

Prije korištenja .htaccess datoteke, trebate provjeriti sljedeće:

1. Vaša web lokacija mora biti pokrenuta na Apache poslužitelju. Danas, čak i one web hosting tvrtke pola pristojan u svom poslu, daju vam pristup potrebne datoteke.

2. Trebali biste imati pristup tome da ste zapisnici sirovih poslužitelja vaše web-lokacije kako biste mogli pronaći ono što roboti posjećuju vaše web stranice.

Imajte na umu da nećete moći blokirati sve štetne botove osim ako ih blokirate, čak i one koje smatrate korisnima. Svaki dan dolaze novi botovi, a starije se mijenjaju. Najučinkovitiji je način osigurati vaš kôd i učiniti ga robom zabrinuti za vas.

Identificiranje botova

Botovi se mogu identificirati pomoću IP adrese ili iz njihovog "User Agent Stringa", koje šalju u HTTP zaglavlja. Na primjer, Google koristi "Googlebot".

Možda vam je potreban ovaj popis s 302 robota ako već imate naziv bota koji biste željeli zadržati koristeći .htaccess

Drugi je način preuzimanja svih log datoteka s poslužitelja i njihovo otvaranje pomoću uređivača teksta, a njihova lokacija na poslužitelju može se promijeniti ovisno o konfiguraciji poslužitelja. pomoć svog web domaćina.

Ako znate koja je stranica posjetila ili vrijeme posjeta, lakše je doći s neželjenim botom. Možete pretražiti log datoteku s tim parametrima.

Jednom, primijetili ste koje robote morate blokirati; zatim ih možete uključiti u .htaccess datoteku. Napominjemo da blokiranje bot nije dovoljno za zaustavljanje. Može se vratiti novom IP adresom ili imenom.

Kako ih blokirati

Preuzmite kopiju .htaccess datoteke. Izvršite sigurnosne kopije ako je potrebno.

Metoda 1: blokiranje IP

Ovaj isječak koda blokira bot upotrebom IP adrese 197.0.0.1

Naredba uskratiti, dopustiti

odbiti od 197.0.0.1

Prva linija znači da će poslužitelj blokirati sve zahtjeve koji odgovaraju obrascima koje ste naveli i omogućiti svim ostalima.

Druga linija kaže poslužitelju izdavanje 403: zabranjene stranice

Metoda 2: Blokiranje korisnika

Najjednostavniji način je korištenje Apacheovog softvera za prepisivanje

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Prva linija osigurava omogućavanje modula prepisivanja. 2. redak je uvjet za koji se odnosi pravilo. "F" u retku 4 govori poslužitelju da vrati 403: Zabranjeno dok "L" znači da je to posljednje pravilo.

Tada ćete prenijeti .htaccess datoteku na svoj poslužitelj i prebrisati postojeći. S vremenom, morat ćete ažurirati bot IP-a. U slučaju da napravite pogrešku, samo prenesite sigurnosnu kopiju koju ste napravili.

November 29, 2017
Semalt pruža savjete o tome kako se nositi s robotima, paukovima i robotima
Reply