Googlen näkymättömät robotit ja kuinka kotisivusi voi löytyä ja sijoittautua hakutuloksissa?

Kun on puhe hakukoneoptimoinnista, jossain vaiheessa mukaan keskusteluun tulevat hakurobotit, googlebotti, indeksointirobotit. Englanniksi puhutaan hämähäkeistä (spider), millä viitataan internetiin seittinä ja hakukoneen bottia käymässä sitä läpi kuin hämähäkki. Tässä blogissa avaan hakurobotin olemusta: mikä se oikeastaan on, miten se toimii ja miten se vaikuttaa hakukoneoptimointiin ja siten yritysten liiketoimintaan.

Blogissa käsittelemäni aiheet pikalinkkeinä:
Indeksointibotti / Robots.txt / SivustokarttaSijoittautuminen.

Googlebotti – suurelle yleisölle näkymätön Googlen robotti

Huom. Suurin osa hakuliikenteestä tapahtuu Googlen kautta, joten käytännön syistä puhun tässä blogissa googlebotista. Verkkoa selaavia botteja on käytännössä lukuisia muitakin, esimerkiksi Bing. Samat periaatteet pätevät kaikkiin käytössä oleviin suurimpiin hakukoneisiin.

Googlebotti (engl. googlebot) on käytännössä ohjelma, joka selaa läpi internetissä olevia verkkosivuja ja resursseja. Botti löytää ne muilla sivustoilla ja sivuilla olevien linkkien kautta. Googlelle voi myös kertoa minkä sivuston tai sivun haluamme sen käyvän selaamassa. Tämä tapahtuu Verkkovastaavan työkalujen (Google Search Console) kautta.

Kun Googlella on tieto tietystä osoitteesta verkossa, botti käy vierailemassa kyseisellä sivustolla heti kun mahdollista. Internetissä on miljardeja osoitteita eri resursseille, joten on ainoastaan loogista, että Google ei voi antaa botilleen rajattomasti resursseja yhden ainoan sivuston selaamiseen. Selattavat osoitteet menevät jonoon ja ne käsitellään ajallaan.

Seuraavaksi kuvailen botin toimintaa kolmen eri hakukonenäkyvyyteen vaikuttavan toiminnallisuuden kautta.

cta-googlen-nakymattomat-robotit

Robots.txt – Googlenkin pysäyttävä portinvartija

Tullessaan kotisivuille googlebotti tarkistaa ensimmäiseksi mitä se saa tehdä sivustoa selatessaan. Tätä voi sivuston ylläpitäjä kontrolloida ohjaustiedostolla robots.txt.

Vaihtoehtoja hakukoneen botille toiminnalle on kolme:

  1. Ei tietoa mitä saa tehdä
  2. Ei selaukseen vaikuttavia sääntöjä
  3. Saa selata tai ei saa selata määriteltyjä resursseja

Tarkastelkaamme vaihtoehtojen vaikutuksia sivujen löydettävyyteen eri skenaarioiden avulla:

1. Jos ET anna pääsyä botille (jos palvelinvirhe – HTTP 5xx – estää tiedoston lukuoikeuden), botti näkee, ettei sillä ole lupaa tehdä mitään. Se siis jättää sivustosi selaamisesi väliin. Tässä tapauksessa kotisivujesi ei ole koskaan mahdollista löytyä miltään Googlen hakutulossivulta.

2. Jos ET kerro botille mitään selaukseen vaikuttavia sääntöjä ja se pääsee selaamaan tiedoston ongelmitta – HTTP 2xx – se selaa läpi kaiken löytämänsä. (Tämä myös selainpuolen virheiden – HTTP 4xx – kohdalla, kuten jos tiedostoa ei löydy) Tämä saattaa tuntua houkuttelevalta vaihtoehdolta, koska äkkiseltään sen voisi ajatella tarkoittavan, että kaikki sivusi löytyvät nyt Googlesta. Totuus on kuitenkin toinen. Käytännössä googlebotti ei selaa sivujasi vaan sieltä löytyviä resurssien osoitteita. Sivustollasi on todennäköisesti suuri määrä eri osoitteita eri resursseille. Hieman kehnommin toteutetuilta sivustoilta saattaa löytyä sama sisältöä useammalla eri osoitteella.

Esimerkki: Oletetaan, että sivustollamme sijaitsevan tuotteen osoite on www.esimerkki.fi/tuotesivu/. Kuitenkin sama sisältö voidaan löytää osoitteesta www.esimerkki.fi/tuotesivu ja www.esimerkki.fi/tuotesivu.html.
Käytännössä tämä tarkoittaa kolmea eri osoitetta samaan resurssiin sivustollamme.

Google kohdentaa botille tietyn määrän resursseja per sivusto. Puhutaan indeksointibudjetista (engl. crawl budget), jolla tarkoitetaan sitä kuinka monta resurssia botti käy läpi sivustollasi päivä- ja kuukausitasolla.

Jatketaan esimerkkiä ja oletetaan, että sivustollamme on vaikkapa 20 sivua, 40 kuvaa ja 5 PDF-tiedostoa, sekä indeksointibudjetti on 100 resurssia päivässä. Yhteenlaskettu resurssien määrä olisi tällöin 20 + 40 + 5 = 65 resurssia. Jos kuitenkin googlebotti näkee kunkin sivumme kolmena, laskukaava muuttuu: 20 x 3 + 40 + 5 = 105 resurssia. Tässä tapauksessa saattaakin käydä niin, että kun indeksointibudjetiksi on määritelty 100 botti jättääkin 5 sivuasi selaamatta. Jos nämä ovat liiketoimintasi kannalta 5 tärkeintä sivua, vaikutukset voivat olla dramaattiset.

3. KERROT mitä resursseja botti saa selata ja mitä ei. Tämä vaihtoehto tarjoaa parhaan kontrollin sivujemme selaukseen ja löydettävyyteen Googlesta. Voimme määritellä minkä resurssien ei ole tärkeä löytyä hakukoneesta ja mitkä taas ovat sellaisia, joiden emme halua löytyvän koskaan. Ne resurssit, jotka botti jättää selamaatta eivät myöskään kuormita indeksointibudjettiasi, jolloin Google selaa todennäköisemmin enemmän liiketoiminnallesi tärkeitä sivuja.

Robots.txt on siis tärkeä ellei tärkein solmu löydettävyyden polulla. Ennen kuin asiakkaasi voivat löytää sivusi hakutuloksista, Googlen täytyy selata sivustosi. Ennen sitä botin täytyy tietää, saako se selata sivustoasi ja mitä sivuja sen tulee selata. Tarkista siis heti löytyykö sivustoltasi robots.txt ja millaisia ohjeita se antaa Googlelle.

Sivustokartta – kotisivujesi sisältöjen löytämistä helpottava kartta hakukoneille

Sivustokartta on robots.txt:n lisäksi toinen tärkeä ohjaustiedosto, joka antaa botille luettelon niistä sivustosi resursseista, jotka sen tulisi indeksoida. Sivustokartta kuvailee sivustosi rakenteen ja kuinka tieto on sinne järjestetty.

Indeksointi tarkoittaa tiedon järjestämistä tietorakenteeseen. Googlen suhteen se tarkoittaa, että indeksoimalla sivusi Google tallentaa tietokantoihinsa tietoja sivuistasi. Ilman näitä tietoja se ei pysty järjestämään sivuja hakutuloksissa “paremmuusjärjestykseen”.

Sivukarttaan voidaan merkitä sivujen lisäksi muitakin resursseja, jotka haluamme Googlen löytävän, esimerkiksi kuva- tai videotiedostoja, jotka ovat sisältöinä haastavampia botille selata. Voimme antaa myös lisätietoja siitä, kuinka usein sivustoa päivitetään, mikä auttaa bottia määrittämään kuinka usein sivusto tulisi indeksoida.

Indeksointirobotit voivat löytää sivustosi eri sisällöt ilman sivukarttaakin, mutta kartta helpottaa niiden työtä. Sivustokartta ei suoraan takaa että sivut löytyvät Googlesta, mutta se kannattaa aina lisätä sivustolle. Miksi asettaa kapuloita hakukonejätin rattaisiin ja vaikeuttaa omaa löydettävyyttämme verkossa?

cta-googlen-nakymattomat-robotit

Sijoittautuminen – sivujen järjestäminen hakutuloksiin “paremmuuden” mukaan

Google haluaa tarjota jokaiselle haulle aina parhaan vastauksen. Olemme jo vuosien ajan tottuneet näkemään hakutulokset sinisenä linkkeinä hakutulossivulla. Aiemmin niitä oli 10 per sivu, tänä päivänä yleensä vähemmän erilaisten tiedon palasten (yrityksen tietopaneelin (engl. knowledge panel), suositeltujen katkelmien (engl. featured snippets) ja hakusanamainosten) tultua mukaan hakutuloksiin.

Trendi on kuitenkin jo nyt (ja tulevaisuudessa entistäkin vahvemmin) kohti “yhtä oikeaa vastausta”. Google haluaa tarjota yhden parhaan vastauksen haulle, koska tulevaisuudessa hakeminen muuttuu. Haku voi olla olla esimerkiksi äänihaku, jonka tuloksena saadaan äänivastaus, esimerkkeinä puhelimeen puhuttu Google-haku tai Google Home Assistant. Tässä tapauksessa ei ole hyödyllistä listata useita hakutuloksia, koska ääniohjatussa käyttöliittymässä tiedon hallinta ja valinta on erilaista kuin puhelimella tai pöytäkoneella. Hakutuloksena voi olla myös ääni, joka toistetaan suoraan hakutulossivulta.

Metatieto eli tiedon antaminen tiedolle tulee kasvattamaan merkitystään tulevaisuudessa. Tiedon merkkaaminen sivuston sisäisesti kertoo Googlelle mitä sisältö käsittelee ja missä muodossa tieto on. Tietoa voidaan merkata myös suoraan tietokantoihin, jolloin sisällöt voivat löytyä hakutuloksista ilman että se edes sijaitsee millään sivustolla.

Vaikka tapoja hakea ja löytää tietoa tulee lisää, hyvän sisällön tuottaminen vastaamaan asiakkaan hakua on silti aina tärkeää.

Mitkä asiat käytännössä siis vaikuttavat kotisivujesi Google-näkyvyyden alkutaipaleilla?

  1. Ennen kuin sivustosi voi löytyä Googlesta, indeksointirobotin täytyy selata se.
  2. Tullessaan selaamaan sivustoasi botti tarkastaa mitä se saa selata.
  3. Antamalla tarpeelliset ohjeet Google selaa sivustosi tärkeät sisällöt.
  4. Sivusi löytyvät Googlen indeksistä botin selattua ne.
  5. Google järjestää sivut paremmuusjärjestykseen tulkitsemalla kuinka hyvin sivusi sisältö vastaa rakenteellisesti ja semanttisesti käyttäjän tekemään hakuun ja vertaamalla sitä muihin saman aihepiirin sivuihin.

Tarkista siis, ovatko kotisivujesi robots.txt-tiedosto ja sivukartta kunnossa ja lähetetty Googlelle. Kokeile sitten millaisia hakusanoja Google on liittänyt eri sivuihisi kirjoittamalla selaimen osoitekenttään site: kotisivujesi-osoite ja hakusana. Esimerkiksi site:calltoaction.fi digitaalinen markkinointi, jossa site:calltoaction.fi on osoite ja hakusana digitaalinen markkinointi. Näin voit tarkastella millaisilla hauilla tuloksista löytyy mikäkin sivu.

Jos tarvitset apua kotisivujesi löydettävyyden optimoinnissa, laita minulle viestiä ja käydään läpi millaisessa tilassa kotisivusi ovat ja kuinka voimme auttaa Google-näkyvyydessä.

Tilaa uutiskirje