Video: Mio MiVue 798 Dual test 2024
Du kan bruke en roboter tekstfil for å blokkere en søkemotor edderkopp fra å crawle ditt nettsted eller en del av nettstedet ditt. For eksempel kan du ha en utviklingsversjon av nettstedet ditt der du jobber med endringer og tillegg for å teste dem før de blir en del av ditt live-nettsted. Du vil ikke at søkemotorer skal indeksere denne "i gang" -kopien av nettstedet ditt fordi det ville føre til konflikt med duplikatinnhold med ditt faktiske nettsted. Du vil heller ikke at brukerne skal finne fremgangssidene dine. Så du må blokkere søkemotorene fra å se disse sidene.
Den roboten tekst filens jobb er å gi søkemotorene instruksjoner om hva ikke til edderkoppen på ditt nettsted. Dette er en enkel tekstfil som du kan opprette ved hjelp av et program som Notisblokk, og deretter lagres med filnavnrobotene. tekst. Plasser filen på roten til nettstedet ditt (for eksempel www. yourdomain .no / robots. Txt), som er hvor edderkoppene forventer å finne den. Faktisk, når søkemotoren edderkoppene kommer til nettstedet ditt, er det første du ser etter, din robots tekstfil. Det er derfor du bør alltid ha en roboter tekstfil på nettstedet ditt, selv om det er tomt. Du vil ikke at edderkoppenes første inntrykk av at nettstedet ditt skal være en 404 feil (feilen som kommer opp når en fil ikke kan plasseres).
Med en robots tekstfil kan du selektivt ekskludere bestemte sider, kataloger eller hele nettstedet. Du må skrive HTML-koden akkurat slik, eller edderkoppene ignorerer den. Kommandosyntaxen du må bruke kommer fra Robots Exclusion Protocol (REP), som er en standardprotokoll for alle nettsteder. Og det er veldig nøyaktig; Bare bestemte kommandoer er tillatt, og de må skrives riktig med bestemt plassering, store bokstaver, små bokstaver, tegnsetting og mellomrom. Denne filen er et sted hvor du ikke vil at webansvarlig skal bli kreativ.
En svært enkel roboter tekstfil kan se slik ut:
Brukeragent: * Tillat: / personlig /
Denne roboter tekstfilen forteller alle søkemotor roboter som de er velkommen å krype hvor som helst på ditt nettsted unntatt for katalogen som heter / personlig /.
Før du skriver en kommandolinje (for eksempel Disallow: / personal /), må du først identifisere hvilken robot (e) du adresserer. I dette tilfellet bruker linjebrukeren: * alle robotene fordi den bruker en stjerne, som kalles wildcard , fordi det representerer et hvilket som helst tegn. Hvis du vil gi forskjellige instruksjoner til forskjellige søkemotorer, skriver du så mange nettsteder som separate nettsteder, etterfulgt av deres spesifikke kommandolinjer.I hver brukeragent: -linje erstatter du stjernen (*) -tegnet med navnet på en bestemt robot:
Brukeragent: Googlebot vil få Guds oppmerksomhet.
Brukeragent: Slurp vil adressere Yahoo!.
Brukeragent: MSNBot vil adressere Microsoft Live Search.
Merk at hvis din roboter tekstfil har brukeragent: * instruksjoner samt en annen brukeragent: linje som spesifiserer en bestemt robot, følger den spesifikke roboten de kommandoene du ga det individuelt i stedet for av mer generelle instruksjoner.
Du kan skrive bare noen få forskjellige kommandoer til en robot. txt-fil:
-
Ekskluderer hele nettstedet. For å ekskludere roboten fra hele serveren bruker du kommandoen:
Tillat: /
Denne kommandoen fjerner faktisk alle nettstedets nettsider fra søkeindeksen, så vær forsiktig ikke > å gjøre dette med mindre det er det du virkelig vil ha. Ekskluderer en katalog.
-
(Et ord av forsiktighet - vanligvis vil du være mye mer selektiv enn å ekskludere en hel katalog.) Hvis du vil ekskludere en katalog (inkludert alt innhold og underkataloger), sett det i skråstreker: Tillat: / personlig /
Eksklusive en side.
-
Du kan skrive en kommando for å ekskludere bare en bestemt side. Du bruker bare et skråstrek i begynnelsen og må inneholde filtypen på slutten. Her er et eksempel: Tillat: / privat-fil. htm
Styr edderkoppene til ditt nettstedskart.
-
I tillegg til Disallow: angir en annen nyttig kommando for din SEO-innsats hvor roboten kan finne ditt nettstedskart - siden som inneholder lenker i hele organisasjonen din, som en innholdsfortegnelse: Sitemap: // www. dittdomene. com / sitemap. xml
Det bør påpekes at i tillegg til de tidligere oppførte kommandoene, gjenkjenner Google Tillat også. Dette gjelder bare for Google og kan forvirre andre motorer, så du bør unngå å bruke den.
Du bør alltid inkludere på slutten av robottekstfilen din en kommandolinje: Kommandolinje. Dette sikrer at robotene finner ditt nettstedskart, som hjelper dem med å navigere mer fullstendig gjennom nettstedet ditt slik at flere av nettstedet ditt blir indeksert.
Noen få notater om syntaksen til tekstfils roboter:
Kommandoene er bokstavsfølsomme, så du trenger en hovedstad D i Disallow.
-
Det skal alltid være plass etter kolon etter kommandoen.
-
Hvis du vil ekskludere en hel katalog, legger du et fremoverstrekk
-
etter samt før katalognavnet. Hvis du kjører på en UNIX-maskin, er
-
alt saksensitiv. Alle filer som ikke er spesifikt ekskludert, er tilgjengelige for spidering og indeksering.
-
For å se en komplett liste over kommandoene, robotenavnene og instruksjonene for å skrive robotfiler, gå til webrobotsidene.
Som en ytterligere beskyttelse, gjør det til en del av ditt ukentlige nettsted vedlikehold for å sjekke roboten tekstfilen din. Det er en så kraftig på / av-bryter for nettstedets SEO-innsats som det fortjener en vanlig titt for å sørge for at den fortsatt er "på" og fungerer som den skal.