Jak poprawnie skonfigurować plik Robots.txt?

Spisu treści:

Jak poprawnie skonfigurować plik Robots.txt?
Jak poprawnie skonfigurować plik Robots.txt?
Anonim

Prawidłowy plik Robots txt dla witryny html tworzy makiety akcji dla robotów wyszukiwarek, informując je, co mogą sprawdzić. Ten plik jest często nazywany protokołem Robot Exclusion Protocol. Pierwszą rzeczą, jakiej boty szukają przed zaindeksowaniem witryny, jest plik robots.txt. Może wskazywać lub informować mapę witryny, aby nie sprawdzała niektórych subdomen. Jeśli chcesz, aby wyszukiwarki szukały tego, co jest najczęściej znajdowane, plik robots.txt nie jest wymagany. W tym procesie bardzo ważne jest, aby plik był poprawnie sformatowany i nie indeksował strony użytkownika z danymi osobowymi użytkownika.

Zasada skanowania robota

Zasada skanowania robota
Zasada skanowania robota

Gdy wyszukiwarka napotka plik i zobaczy zabroniony adres URL, nie przeszukuje go, ale może go zaindeksować. Dzieje się tak, ponieważ nawet jeśli roboty nie mogą przeglądać treści, pamiętają linki zwrotne wskazujące na zabroniony adres URL. Ze względu na zablokowany dostęp do linku adres URL pojawi się w wyszukiwarkach, ale bez fragmentów. Jeśliw przypadku przychodzącej strategii marketingowej wymagany jest prawidłowy plik Robots txt dla bitrix (Bitrix), zapewniają weryfikację witryny na żądanie użytkownika za pomocą skanerów.

Z drugiej strony, jeśli plik nie jest prawidłowo sformatowany, może to spowodować, że witryna nie będzie wyświetlana w wynikach wyszukiwania i nie zostanie znaleziona. Wyszukiwarki nie mogą ominąć tego pliku. Programista może wyświetlić plik robots.txt dowolnej witryny, przechodząc do jej domeny i podążając za nią za pomocą pliku robots.txt, na przykład www.domain.com/robots.txt. Korzystanie z narzędzia takiego jak sekcja optymalizacji SEO firmy Unamo, gdzie można wprowadzić dowolną domenę, a usługa pokaże informacje o istnieniu pliku.

Ograniczenia dotyczące skanowania:

  1. Użytkownik ma nieaktualne lub poufne treści.
  2. Obrazy w witrynie nie będą uwzględniane w wynikach wyszukiwania grafiki.
  3. Strona nie jest jeszcze gotowa do zindeksowania wersji demonstracyjnej przez robota.

Pamiętaj, że informacje, które użytkownik chce otrzymać z wyszukiwarki, są dostępne dla każdego, kto wprowadzi adres URL. Nie używaj tego pliku tekstowego do ukrywania poufnych danych. Jeśli w domenie występuje błąd 404 (nie znaleziono) lub 410 (powodzenie), wyszukiwarka sprawdza witrynę pomimo obecności pliku robots.txt, w którym to przypadku uznaje, że brakuje pliku. Inne błędy, takie jak 500 (wewnętrzny błąd serwera), 403 (zabronione), przekroczenie limitu czasu lub „niedostępny”, dotyczą instrukcji robots.txt, jednak obejście można opóźnić do momentu udostępnienia pliku.

Tworzenie pliku wyszukiwania

Tworzenie pliku wyszukiwania
Tworzenie pliku wyszukiwania

WieleProgramy CMS, takie jak WordPress, mają już plik robots.txt. Przed prawidłową konfiguracją Robots txt WordPress, użytkownik musi zapoznać się z jego możliwościami, aby dowiedzieć się, jak uzyskać do niego dostęp. Jeśli programista sam tworzy plik, musi on spełniać następujące warunki:

  1. Musi być pisany małymi literami.
  2. Użyj kodowania UTF-8.
  3. Zapisz w edytorze tekstu jako plik (.txt).

Gdy użytkownik nie wie, gdzie go umieścić, kontaktuje się z dostawcą oprogramowania serwera WWW, aby dowiedzieć się, jak uzyskać dostęp do katalogu głównego domeny lub przejść do konsoli Google i pobrać. Dzięki tej funkcji Google może również sprawdzić, czy bot działa poprawnie oraz listę witryn, które zostały zablokowane przy użyciu pliku.

Główny format poprawnego pliku txt Robots dla bitrix (Bitrix):

  1. Legend robots.txt.
  2. , dodaje komentarze, które są używane tylko jako notatki.
  3. Te komentarze będą ignorowane przez skanery wraz z wszelkimi literówkami użytkownika.
  4. User-agent - wskazuje, w której wyszukiwarce znajdują się instrukcje dotyczące pliku.
  5. Dodanie gwiazdki () informuje skanery, że instrukcje są dla wszystkich.

Wskazuje konkretnego bota, na przykład Googlebota, Baiduspider, Applebot. Disallow informuje roboty, które części witryny nie powinny być indeksowane. Wygląda to tak: User-agent:. Gwiazdka oznacza „wszystkie boty”. Możesz jednak określić strony dla konkretnychboty. Aby to zrobić, musisz znać nazwę bota, dla którego ustawione są rekomendacje.

Prawidłowy plik robots txt dla Yandex może wyglądać tak:

Poprawny tekst robota dla Yandex
Poprawny tekst robota dla Yandex

Jeżeli bot nie powinien indeksować witryny, możesz ją określić, a aby znaleźć nazwy agentów użytkownika, zaleca się zapoznanie się z możliwościami online useragentstring.com.

Optymalizacja strony

Optymalizacja strony
Optymalizacja strony

Następujące dwa wiersze są uważane za kompletny plik robots.txt, a jeden plik robots może zawierać wiele wierszy programów użytkownika i dyrektyw, które wyłączają lub umożliwiają indeksowanie. Główny format poprawnego txt robota:

  1. Agent użytkownika: [nazwa użytkownika agenta].
  2. Disallow: [ciąg adresu URL, który nie jest indeksowany].

W pliku każdy blok dyrektyw jest wyświetlany jako oddzielny, oddzielony linią. W pliku obok katalogu użytkownika agenta każda reguła jest stosowana do określonego zestawu wierszy oddzielonych sekcjami. Jeśli plik ma regułę wielu agentów, robot rozważy tylko najbardziej konkretną grupę instrukcji.

Składnia techniczna

Składnia techniczna
Składnia techniczna

Może być traktowany jako „język” plików robots.txt. W tym formacie może istnieć pięć terminów, z których główne to:

  1. User-agent - przeszukiwacz sieci Web z instrukcjami indeksowania, zwykle wyszukiwarka.
  2. Disallow to polecenie używane do nakazania klientowi użytkownika ominięcia(pominięcie) określonego adresu URL. Dla każdego istnieje tylko jeden zakazany warunek.
  3. Zezwól. W przypadku Googlebota, który uzyskuje dostęp, nawet strona użytkownika jest odrzucana.
  4. Crawl-delay - określa, ile sekund będzie potrzebować robotowi indeksującemu. Gdy bot tego nie potwierdzi, prędkość jest ustawiana w konsoli Google.
  5. Mapa witryny - Służy do lokalizowania dowolnych map XML powiązanych z adresem URL.

Dopasowanie wzorców

Jeśli chodzi o faktyczne blokowanie adresów URL lub zezwalanie na poprawny plik Robots txt, operacje mogą być dość skomplikowane, ponieważ pozwalają na użycie dopasowania wzorców do pokrycia wielu możliwych parametrów adresu URL. Google i Bing używają dwóch znaków, które identyfikują strony lub podfoldery, które SEO chce wykluczyć. Te dwa znaki to gwiazdka () i znak dolara ($), gdzie:to symbol wieloznaczny reprezentujący dowolną sekwencję znaków. $ - pasuje do końca adresu URL.

Google oferuje dużą listę możliwych składni szablonów, które wyjaśniają użytkownikowi, jak prawidłowo skonfigurować plik txt Robots. Niektóre typowe przypadki użycia to:

  1. Zapobiegaj pojawianiu się zduplikowanych treści w wynikach wyszukiwania.
  2. Zachowaj prywatność wszystkich sekcji witryny.
  3. Zapisz wewnętrzne strony wyników wyszukiwania na podstawie otwartego oświadczenia.
  4. Wskaż lokalizację.
  5. Uniemożliwianie wyszukiwarkom indeksowania niektórychpliki.
  6. Określanie opóźnienia indeksowania, aby zatrzymać ponowne ładowanie podczas jednoczesnego skanowania wielu obszarów treści.

Sprawdzanie obecności pliku robota

Jeśli w witrynie nie ma obszarów, które wymagałyby zindeksowania, plik robots.txt w ogóle nie jest potrzebny. Jeśli użytkownik nie jest pewien, czy ten plik istnieje, musi wprowadzić domenę główną i wpisać ją na końcu adresu URL, coś takiego: moz.com/robots.txt. Wiele botów wyszukiwania ignoruje te pliki. Jednak z reguły te roboty nie należą do renomowanych wyszukiwarek. Jest to rodzaj spamerów, agregatorów poczty i innego rodzaju zautomatyzowanych botów, które można znaleźć w obfitości w Internecie.

Bardzo ważne jest, aby pamiętać, że stosowanie standardu wykluczania robotów nie jest skutecznym środkiem bezpieczeństwa. W rzeczywistości niektóre boty mogą zaczynać od stron, na których użytkownik ustawia je w trybie skanowania. Istnieje kilka części, które znajdują się w standardowym pliku wyjątków. Zanim powiesz robotowi, na których stronach nie powinien działać, musisz określić, z którym robotem ma rozmawiać. W większości przypadków użytkownik użyje prostej deklaracji, która oznacza „wszystkie boty”.

Optymalizacja SEO

Optymalizacja SEO
Optymalizacja SEO

Przed optymalizacją użytkownik musi upewnić się, że nie blokuje żadnych treści ani sekcji witryny, które należy ominąć. Łącza do stron zablokowanych przez poprawny plik Robots txt nie będą respektowane. Oznacza to:

  1. Jeśli nie są połączone z innymi stronami dostępnymi dla wyszukiwarek, tj. strony,nie są blokowane przez plik robots.txt lub metarobot, a powiązane zasoby nie będą przeszukiwane, a zatem nie mogą być indeksowane.
  2. Żadnego linku nie można przekazać z zablokowanej strony do miejsca docelowego linku. Jeśli taka strona istnieje, lepiej użyć innego mechanizmu blokowania niż robots.txt.

Ponieważ inne strony mogą prowadzić bezpośrednio do strony zawierającej dane osobowe i chcesz zablokować tę stronę w wynikach wyszukiwania, użyj innej metody, takiej jak ochrona hasłem lub metadane noindex. Niektóre wyszukiwarki mają wielu agentów użytkownika. Na przykład Google używa Googlebota do bezpłatnych wyszukiwań, a Googlebota-Image do wyszukiwania grafiki.

Większość programów klienckich w tej samej wyszukiwarce stosuje te same reguły, więc nie ma potrzeby określania dyrektyw dla każdego z kilku przeszukiwaczy, ale możliwość wykonania tego może precyzyjnie dostosować przeszukiwanie zawartości witryny. Wyszukiwarka buforuje zawartość pliku i zazwyczaj aktualizuje zawartość pamięci podręcznej co najmniej raz dziennie. Jeśli użytkownik zmieni plik i chce go zaktualizować szybciej niż zwykle, może przesłać adres URL pliku robots.txt do Google.

Wyszukiwarki

Sprawdzanie istnienia pliku robota
Sprawdzanie istnienia pliku robota

Aby zrozumieć, jak Robots txt działa poprawnie, musisz znać możliwości wyszukiwarek. Krótko mówiąc, ich zdolność polega na tym, że wysyłają „skanery”, czyli programy, które:przeglądanie Internetu w poszukiwaniu informacji. Następnie przechowują niektóre z tych informacji, aby później przekazać je użytkownikowi.

Dla wielu osób Google to już internet. W rzeczywistości mają rację, ponieważ jest to być może jego najważniejszy wynalazek. I chociaż wyszukiwarki bardzo się zmieniły od czasu ich powstania, podstawowe zasady są nadal takie same. Roboty indeksujące, znane również jako „boty” lub „pająki”, znajdują strony z miliardów witryn. Wyszukiwarki dają im wskazówki, gdzie się udać, podczas gdy poszczególne witryny mogą również komunikować się z botami i informować ich, na które konkretnie strony powinni zajrzeć.

Ogólnie rzecz biorąc, właściciele witryn nie chcą pojawiać się w wyszukiwarkach: stronach administracyjnych, portalach zaplecza, kategoriach i tagach oraz innych stronach informacyjnych. Plik robots.txt może również służyć do uniemożliwienia wyszukiwarkom sprawdzania stron. W skrócie, plik robots.txt mówi robotom indeksującym, co mają robić.

Zablokuj strony

To jest główna część pliku wykluczenia robota. Za pomocą prostej deklaracji użytkownik mówi botowi lub grupie botów, aby nie indeksowały niektórych stron. Składnia jest prosta, na przykład, aby odmówić dostępu do wszystkiego w katalogu „admin” witryny, napisz: Disallow: /admin. Ten wiersz uniemożliwi botom indeksowanie yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html i czegokolwiek innego w katalogu admin.

Aby zabronić jednej strony, po prostu określ ją w wierszu disallow: Disallow: /public/exception.html. Teraz strona „wyjątek”nie przeprowadzi migracji, ale wszystko inne w folderze „public” zostanie.

Aby dołączyć wiele stron, po prostu je wymień:

Katalogi i strony
Katalogi i strony

Te cztery wiersze poprawnego pliku Robots txt dla symfonii będą miały zastosowanie do każdego klienta użytkownika wymienionego na górze sekcjirobots.txt dla

Banuj strony
Banuj strony

Mapa witryny:

Inne polecenia:live - nie zezwalaj robotom indeksującym na indeksowanie cpresources/ lub provider/.

Agent użytkownika:Disallow: /cpresources/.

Odmów: / sprzedawca / Odrzuć: /.env.

Ustalanie standardów

Użytkownik może określić konkretne strony dla różnych botów, łącząc dwa poprzednie elementy, tak to wygląda. Poniżej przedstawiono przykład poprawnego pliku Robots txt dla wszystkich wyszukiwarek.

Wyznaczanie standardów
Wyznaczanie standardów

Sekcje „admin” i „private” będą niewidoczne dla Google i Bing, ale Google nadal będzie widzieć „tajny” katalog, podczas gdy Bing nie. Możesz określić ogólne reguły dla wszystkich botów za pomocą agenta użytkownika z gwiazdką, a następnie podać szczegółowe instrukcje botom w poniższych sekcjach. Posiadając powyższą wiedzę, użytkownik może napisać przykładowy poprawny txt Robots dla wszystkich wyszukiwarek. Po prostu uruchom swój ulubiony edytor tekstu i powiedz robotom, że nie są mile widziane w niektórych częściach witryny.

Wskazówki dotyczące poprawy wydajności serwera

SublimeText jestwszechstronny edytor tekstu i złoty standard dla wielu programistów. Jego wskazówki programistyczne opierają się ponadto na efektywnym kodowaniu. użytkownicy doceniają obecność skrótów w programie. Jeśli użytkownik chce zobaczyć przykładowy plik robots.txt, powinien przejść do dowolnej witryny i dodać na końcu „/robots.txt”. Oto część pliku robots.txt GiantBicycles.

Program umożliwia tworzenie stron, których użytkownicy nie chcą wyświetlać w wyszukiwarkach. A także ma kilka ekskluzywnych rzeczy, o których niewiele osób wie. Na przykład, podczas gdy plik robots.txt mówi botom, gdzie mają nie iść, plik mapy witryny działa odwrotnie i pomaga im znaleźć to, czego szukają, a chociaż wyszukiwarki prawdopodobnie już wiedzą, gdzie znajduje się mapa witryny, nie w drodze.

Istnieją dwa typy plików: strona HTML lub plik XML. Strona HTML to taka, która pokazuje odwiedzającym wszystkie dostępne strony w witrynie. W swoim własnym pliku robots.txt wygląda to tak: Sitemap://www.makeuseof.com/sitemap_index.xml. Jeśli witryna nie jest indeksowana przez wyszukiwarki, chociaż była wielokrotnie indeksowana przez roboty internetowe, musisz upewnić się, że plik jest obecny i że jego uprawnienia są ustawione poprawnie.

Domyślnie dzieje się to we wszystkich instalacjach SeoToaster, ale w razie potrzeby możesz go zresetować w ten sposób: Plik robots.txt - 644. W zależności od serwera PHP, jeśli to nie działa dla użytkownika, zaleca się wypróbowanie następującego: Plik robots.txt - 666.

Ustawianie opóźnienia skanowania

Dyrektywa bypass delay informuje pewnewyszukiwarki, jak często mogą indeksować stronę w witrynie. Jest mierzony w sekundach, chociaż niektóre wyszukiwarki interpretują go nieco inaczej. Niektóre osoby widzą opóźnienie indeksowania 5, gdy po każdym skanowaniu kazano im czekać pięć sekund, aby rozpocząć następne.

Inni interpretują to jako instrukcję, aby skanować tylko jedną stronę co pięć sekund. Robot nie może skanować szybciej, aby oszczędzać przepustowość serwera. Jeśli serwer musi dopasować się do ruchu, może ustawić opóźnienie obejścia. Ogólnie rzecz biorąc, w większości przypadków użytkownicy nie muszą się tym martwić. W ten sposób ustawiane jest ośmiosekundowe opóźnienie indeksowania - Opóźnienie indeksowania: 8.

Ale nie wszystkie wyszukiwarki będą przestrzegać tej dyrektywy, więc blokując strony, możesz ustawić różne opóźnienia indeksowania dla niektórych wyszukiwarek. Po skonfigurowaniu wszystkich instrukcji w pliku możesz przesłać go do witryny, najpierw upewnij się, że jest to prosty plik tekstowy o nazwie robots.txt i można go znaleźć pod adresem twojawitryna.com/robots.txt.

Najlepszy bot WordPress

Najlepszy bot WordPress
Najlepszy bot WordPress

Są pewne pliki i katalogi w witrynie WordPress, które należy za każdym razem blokować. Katalogi, których użytkownicy powinni zabronić, to katalog cgi-bin i standardowe katalogi WP. Niektóre serwery nie zezwalają na dostęp do katalogu cgi-bin, ale użytkownicy muszą uwzględnić go w dyrektywie disallow przed prawidłową konfiguracją pliku Robots txt WordPress

Standardowe katalogi WordPress,które powinny blokować to wp-admin, wp-content, wp-includes. Katalogi te nie zawierają danych, które początkowo są przydatne dla wyszukiwarek, ale istnieje wyjątek, tj. w katalogu wp-content znajduje się podkatalog o nazwie uploads. Ten podkatalog musi być dozwolony w pliku robot.txt, ponieważ zawiera wszystko, co jest ładowane za pomocą funkcji przesyłania multimediów WP. WordPress używa tagów lub kategorii do struktury treści.

Jeżeli używane są kategorie, to w celu utworzenia poprawnego pliku Robots txt dla Wordpress, określonego przez producenta programu, konieczne jest zablokowanie archiwów tagów przed wyszukiwaniem. Najpierw sprawdzają bazę danych, przechodząc do panelu „Administracja”> „Ustawienia”> „Permalink”.

Domyślnie podstawą jest tag, jeśli pole jest puste: Disallow: / tag /. Jeśli używana jest kategoria, musisz ją wyłączyć w pliku robot.txt: Disallow: /category/. Domyślnie podstawą jest tag, jeśli pole jest puste: Disallow: / tag /. Jeśli używana jest kategoria, musisz wyłączyć kategorię w pliku robot.txt: Disallow: / category /.

Pliki używane głównie do wyświetlania treści, zostaną zablokowane przez poprawny plik txt Robots dla Wordpress:

txt robotów dla wordpress
txt robotów dla wordpress

Podstawowa konfiguracja Joomla

Gdy użytkownik zainstaluje Joomla, musisz wyświetlić prawidłowe ustawienie Joomla Robots txt w konfiguracji globalnej, która znajduje się w panelu sterowania. Niektóre ustawienia tutaj są bardzo ważne dla SEO. Najpierw znajdź nazwę strony i upewnij się, żeużywana jest skrócona nazwa strony. Następnie znajdują grupę ustawień po prawej stronie tego samego ekranu, która nazywa się ustawieniami SEO. Ten, który na pewno będzie musiał się zmienić, to ten drugi: użyj przepisywania adresu URL.

Brzmi to skomplikowanie, ale zasadniczo pomaga Joomla tworzyć czystsze adresy URL. Najbardziej zauważalne, jeśli usuniesz linię index.php z adresów URL. Jeśli zmienisz to później, adresy URL ulegną zmianie i Google się to nie spodoba. Jednak przy zmianie tego ustawienia należy wykonać kilka kroków jednocześnie, aby utworzyć poprawny plik robots txt dla Joomla:

  1. Znajdź plik htaccess.txt w głównym folderze Joomla.
  2. Oznacz to jako.htaccess (bez rozszerzenia).
  3. Uwzględnij nazwę witryny w tytułach stron.
  4. Znajdź ustawienia metadanych na dole ekranu konfiguracji globalnej.

Robot w chmurze MODX

Robot w chmurze MODX
Robot w chmurze MODX

Wcześniej MODX Cloud zapewniał użytkownikom możliwość kontrolowania zachowania zezwalającego na serwowanie pliku robots.txt na podstawie przełącznika na pulpicie nawigacyjnym. Chociaż było to przydatne, można było przypadkowo zezwolić na indeksowanie w witrynach przejściowych/dla deweloperów, przełączając opcję w panelu. Podobnie łatwo było wyłączyć indeksowanie w witrynie produkcyjnej.

Dzisiaj usługa zakłada obecność plików robots.txt w systemie plików z następującym wyjątkiem: każda domena kończąca się na modxcloud.com będzie służyć jako zakaz: /dyrektywa dla wszystkich programów użytkownika, niezależnie od ich obecności lub brak pliku. Witryny produkcyjne, które otrzymują rzeczywisty ruch odwiedzających, będą musiały korzystać z własnej domeny, jeśli użytkownik chce zaindeksować ich witrynę.

Niektóre organizacje używają poprawnego pliku Robots txt dla modx do uruchamiania wielu witryn z jednej instalacji przy użyciu kontekstów. Przypadek, w którym można by to zastosować, to publiczna witryna marketingowa połączona z mikrowitrynami ze stronami docelowymi i ewentualnie niepublicznym intranetem.

Tradycyjnie było to trudne do wykonania w przypadku instalacji wielu użytkowników, ponieważ współdzielą one ten sam główny sieciowy. Z MODX Cloud jest to łatwe. Po prostu prześlij dodatkowy plik do witryny o nazwie robots-intranet.example.com.txt z następującą zawartością, a zablokuje on indeksowanie za pomocą dobrze działających robotów, a wszystkie inne nazwy hostów powrócą do standardowych plików, chyba że istnieją inne konkretne węzły nazw.

Robots.txt to ważny plik, który pomaga użytkownikowi utworzyć łącze do witryny w Google, głównych wyszukiwarkach i innych witrynach. Znajdujący się w katalogu głównym serwera internetowego plik instruuje roboty internetowe, aby przeszukały witrynę, określiły, które foldery powinny, a które nie powinny być indeksowane, za pomocą zestawu instrukcji zwanego protokołem wykluczania botów. Przykład poprawnego pliku Robots txt dla wszystkich wyszukiwarek obots.txt jest szczególnie łatwy do wykonania w SeoToasterze. Stworzono dla niego specjalne menu w panelu sterowania, dzięki czemu bot nigdy nie będzie musiał się przemęczać, aby uzyskać dostęp.

Zalecana: