Jak zablokować witrynę przed indeksowaniem w pliku robots.txt: instrukcje i zalecenia

Spisu treści:

Jak zablokować witrynę przed indeksowaniem w pliku robots.txt: instrukcje i zalecenia
Jak zablokować witrynę przed indeksowaniem w pliku robots.txt: instrukcje i zalecenia
Anonim

Praca optymalizatora SEO jest bardzo zakrojona na szeroką skalę. Początkującym zaleca się zapisanie algorytmu optymalizacji, aby nie pominąć żadnych kroków. W przeciwnym razie promocja nie zostanie nazwana sukcesem, ponieważ witryna będzie stale doświadczać niepowodzeń i błędów, które będą musiały być poprawiane przez długi czas.

Jednym z kroków optymalizacji jest praca z plikiem robots.txt. Każdy zasób powinien mieć ten dokument, ponieważ bez niego trudniej będzie poradzić sobie z optymalizacją. Wykonuje wiele funkcji, które będziesz musiał zrozumieć.

Asystent robota

Plik robots.txt to zwykły dokument tekstowy, który można przeglądać w standardowym Notatniku systemu. Tworząc go, musisz ustawić kodowanie na UTF-8, aby można było go poprawnie odczytać. Plik działa z protokołami http, https i FTP.

Ten dokument jest asystentem wyszukiwania robotów. Jeśli nie wiesz, każdy system używa „pająków”, które szybko przemierzają sieć WWW w celu zwracania odpowiednich witryn dla zapytań.użytkowników. Te roboty muszą mieć dostęp do danych zasobów, do tego służy plik robots.txt.

Aby pająki znalazły drogę, musisz wysłać dokument robots.txt do katalogu głównego. Aby sprawdzić, czy witryna zawiera ten plik, wpisz „https://site.com.ua/robots.txt” w pasku adresu przeglądarki. Zamiast „site.com.ua” musisz wprowadzić zasób, którego potrzebujesz.

Praca z robots.txt
Praca z robots.txt

Funkcje dokumentów

Plik robots.txt dostarcza robotom indeksującym kilku rodzajów informacji. Może dać częściowy dostęp, aby „pająk” skanował określone elementy zasobu. Pełny dostęp umożliwia sprawdzenie wszystkich dostępnych stron. Całkowity zakaz uniemożliwia robotom nawet rozpoczęcie kontroli i opuszczenie witryny.

Po odwiedzeniu zasobu „pająki” otrzymują odpowiednią odpowiedź na żądanie. Może być ich kilka, wszystko zależy od informacji w robots.txt. Na przykład, jeśli skanowanie się powiodło, robot otrzyma kod 2xx.

Być może witryna została przekierowana z jednej strony na drugą. W takim przypadku robot otrzymuje kod 3xx. Jeśli ten kod wystąpi wiele razy, pająk będzie go śledził, dopóki nie otrzyma kolejnej odpowiedzi. Chociaż z reguły używa tylko 5 prób. W przeciwnym razie pojawi się popularny błąd 404.

Jeśli odpowiedź to 4xx, robot może indeksować całą zawartość witryny. Ale w przypadku kodu 5xx sprawdzanie może się całkowicie zatrzymać, ponieważ często oznacza to tymczasowe błędy serwera.

Wyszukaj roboty
Wyszukaj roboty

Po copotrzebujesz robots.txt?

Jak można się domyślić, ten plik jest przewodnikiem robotów do katalogu głównego witryny. Teraz służy do częściowego ograniczenia dostępu do nieodpowiednich treści:

  • strony z danymi osobowymi użytkowników;
  • odbicie lustrzane;
  • wyniki wyszukiwania;
  • formularze przesyłania danych itp.

Jeśli w katalogu głównym witryny nie ma pliku robots.txt, robot przeszuka absolutnie całą zawartość. W związku z tym w wynikach wyszukiwania mogą pojawić się niechciane dane, co oznacza, że ucierpi zarówno Ty, jak i witryna. Jeśli w dokumencie robots.txt znajdują się specjalne instrukcje, „pająk” podąży za nimi i poda informacje pożądane przez właściciela zasobu.

Praca z plikiem

Aby użyć pliku robots.txt do zablokowania indeksowania witryny, musisz dowiedzieć się, jak utworzyć ten plik. Aby to zrobić, postępuj zgodnie z instrukcjami:

  1. Utwórz dokument w Notatniku lub Notepad++.
  2. Ustaw rozszerzenie pliku ".txt".
  3. Wprowadź wymagane dane i polecenia.
  4. Zapisz dokument i prześlij go do katalogu głównego serwisu.

Jak widać, na jednym z etapów konieczne jest ustawienie poleceń dla robotów. Są dwojakiego rodzaju: zezwalające (Zezwalaj) i zabraniające (Nie zezwalaj). Ponadto niektóre optymalizatory mogą określać prędkość indeksowania, hosta i łącze do mapy strony zasobu.

Jak zamknąć witrynę przed indeksowaniem
Jak zamknąć witrynę przed indeksowaniem

Aby rozpocząć pracę z plikiem robots.txt i całkowicie zablokować witrynę przed indeksowaniem, musisz również zrozumieć używane symbole. Na przykład w dokumencieużyj "/", co oznacza, że wybrana jest cała witryna. Jeśli użyto "", to wymagana jest sekwencja znaków. W ten sposób będzie można określić konkretny folder, który może być skanowany lub nie.

Funkcja botów

"Pająki" dla wyszukiwarek są różne, więc jeśli pracujesz dla kilku wyszukiwarek jednocześnie, będziesz musiał wziąć ten moment pod uwagę. Ich nazwy są różne, co oznacza, że jeśli chcesz skontaktować się z konkretnym robotem, musisz podać jego nazwę: „Agent użytkownika: Yandex” (bez cudzysłowów).

Jeśli chcesz ustawić dyrektywy dla wszystkich wyszukiwarek, musisz użyć polecenia: "Agent użytkownika: " (bez cudzysłowów). Aby poprawnie zablokować witrynę przed indeksowaniem za pomocą robots.txt, musisz znać specyfikę popularnych wyszukiwarek.

Faktem jest, że najpopularniejsze wyszukiwarki Yandex i Google mają kilka botów. Każdy z nich ma swoje zadania. Na przykład Yandex Bot i Googlebot to główne „pająki”, które przemierzają witrynę. Znając wszystkie boty, łatwiej będzie dostroić indeksowanie twojego zasobu.

Jak działa plik robots.txt
Jak działa plik robots.txt

Przykłady

Za pomocą pliku robots.txt możesz zamknąć witrynę przed indeksowaniem za pomocą prostych poleceń, najważniejsze jest zrozumienie, czego konkretnie potrzebujesz. Na przykład, jeśli chcesz, aby Googlebot nie zbliżał się do Twojego zasobu, musisz wydać mu odpowiednie polecenie. Będzie wyglądać tak: „User-agent: Googlebot Disallow: /” (bez cudzysłowów).

Teraz musimy zrozumieć, co jest w tym poleceniu i jak ono działa. Więc "agent użytkownika"służy do skorzystania z bezpośredniego połączenia z jednym z botów. Następnie wskazujemy do którego, w naszym przypadku jest to Google. Polecenie „Nie zezwalaj” musi zaczynać się w nowej linii i uniemożliwiać robotowi wejście na stronę. Symbol ukośnika w tym przypadku wskazuje, że wszystkie strony zasobu są wybrane do wykonania polecenia.

Do czego służy plik robots.txt?
Do czego służy plik robots.txt?

W pliku robots.txt możesz wyłączyć indeksowanie dla wszystkich wyszukiwarek za pomocą prostego polecenia: „User-agent:Disallow: /” (bez cudzysłowów). Gwiazdka w tym przypadku oznacza wszystkie roboty wyszukujące. Zazwyczaj takie polecenie jest potrzebne w celu wstrzymania indeksowania witryny i rozpoczęcia kardynalnych prac nad nią, co w przeciwnym razie mogłoby wpłynąć na optymalizację.

Jeśli zasób jest duży i ma wiele stron, często zawiera informacje zastrzeżone, których ujawnianie jest niepożądane lub może negatywnie wpłynąć na promocję. W takim przypadku musisz zrozumieć, jak zamknąć stronę przed indeksowaniem w pliku robots.txt.

Możesz ukryć folder lub plik. W pierwszym przypadku musisz zacząć od nowa, kontaktując się z konkretnym botem lub wszystkimi, dlatego używamy polecenia „User-agent”, a poniżej określamy polecenie „Disallow” dla określonego folderu. Będzie to wyglądać tak: „Disallow: / folder /” (bez cudzysłowów). W ten sposób ukryjesz cały folder. Jeśli zawiera jakiś ważny plik, który chcesz pokazać, musisz napisać poniższe polecenie: „Zezwól: /folder/plik.php” (bez cudzysłowów).

Sprawdź plik

Jeśli używasz pliku robots.txt do zamykania witryny zUdało Ci się indeksowanie, ale nie wiesz, czy wszystkie Twoje dyrektywy działały poprawnie, możesz sprawdzić poprawność pracy.

Najpierw musisz ponownie sprawdzić położenie dokumentu. Pamiętaj, że musi znajdować się wyłącznie w folderze głównym. Jeśli znajduje się w folderze głównym, to nie zadziała. Następnie otwórz przeglądarkę i wpisz tam następujący adres: „https://twoja witryna. com/robots.txt” (bez cudzysłowów). Jeśli w przeglądarce internetowej pojawi się błąd, oznacza to, że plik nie jest tam, gdzie powinien.

Jak zamknąć folder z indeksowania
Jak zamknąć folder z indeksowania

Dyrektywy można sprawdzić w specjalnych narzędziach używanych przez prawie wszystkich webmasterów. Mówimy o produktach Google i Yandex. Na przykład w Google Search Console znajduje się pasek narzędzi, na którym należy otworzyć „Crawl”, a następnie uruchomić „Narzędzie do sprawdzania plików Robots.txt”. Musisz skopiować wszystkie dane z dokumentu do okna i rozpocząć skanowanie. Dokładnie to samo sprawdzenie można wykonać w Yandex. Webmaster.

Zalecana: