Bara i Sverige sker 55 miljoner Google sökningar per dag och 90% av alla sökarna besöker inte fler sidor än förstasidan för sökresultatet. För många webbplatser eller hemsidor är enda möjligheten att hamna med på förstasidan, genom att köpa annonsplatser på den. Köpta annonser ger dock inte samma trovärdighet som den organisatoriska träfflistan och för att hamna högt på den behövs hög ranking hos Google, vilket de flesta skolor har. Skolor är dock väldigt dåliga på att nyttja denna stora möjlighet, ofta på grund av okunskap men även på grund av att skolor saknar den kompetens som krävs för att hamna där varvid de blir beroende av dyra sökoptimeringsföretag. Skolor har dock bra möjligheter att teoretiskt kunna förstå hur Googles algoritm fungerar, vilket inte alltid sökoptimeringsbolag gör som ofta bara nyttjar möjligheterna med den, eftersom algoritmen handlar om linjär algebra.

Googles huvudsakliga sätt att ranka webbplatser, webbsidor och hemsidor bygger på deras PageRank algoritm. Desto högre PageRank desto högre placering i Googles träffresultat.

Matematiskt kan Googles algoritm beskrivas som:

PR\left(H_1\right)=\frac{L_{21}}{C\left(H_2\right)}PR\left(H_2\right)+\frac{L_{31}}{C\left(H_3\right)}PR\left(H_3\right)+\frac{L_{41}}{C\left(H_4\right)}PR\left(H_4\right)+\frac{L_{51}}{C\left(H_5\right)}PR\left(H_5\right)+\ldots

där

PR\left(H_1\right)=PageRank\ för \ Hemsida \ 1

som baseras på rankingen för de hemsidor som länkar till Hemsida \ 1 , vilka beskrivs med:

PR\left(H_n\right)=PageRank\ för Hemsida,n

där Google även beaktar

L_{n1}=Antalet\ länk(ar) från\ Hemsida,n \ ,\ till\ Hemsida\ 1

samt Google tar även hänsyn till

C\left(H_n\right)=Antalet\ hemsidor\ som\ Hemsida,n \ ,\ länkar\ till.

Google angav* PageRank mellan 0 och 10, men det värdet är ett värde som fås efter multiplikation av ett egenvärde och en PageRank som utgörs av ett decimaltal, ex.vis 0,1275, vilket i sin tur fås från en egenvektor. Detta redogörs för litet senare men först börjar vi med ett exempel på ”ett mycket litet Internet” bestående av endast sju (7) hemsidor och länkar mellan hemsidorna.

Exempel 1:

Vi söker PR\left(H_1\right)=PageRank för Hemsida 1

Antag att de två hemsidor som länkar till H_1 har,
PR\left(H_6\right)=0,1723 och PR\left(H_7\right)=0,0209 ,
vilket innebär att H_6 rankas högre av Google än H_7.

Av figuren avläses även att för H_6 och H_7 gäller

C\left(H_6\right)=3\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ Antalet\ hemsidor,\ som\ Hemsida\ 6\ länkar\ till L_{61}=1\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ Antalet\ länk(ar)\ från\ Hemsida\ 6\ till\ Hemsida\ 1 C\left(H_7\right)=4\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ Antalet\ hemsidor,\ som\ Hemsida\ 7\ länkar\ till L_{71}=1\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ Antalet\ länk(ar)\ från\ Hemsida\ 7\ till\ Hemsida\ 1

Vilket innebär att PageRank för Hemsida 1 kan beräknas till

PR\left(H_1\right)=\frac{L_1}{C\left(H_2\right)}PR\left(H_3\right)+\frac{L_{21}}{C\left(H_2\right)}PR\left(H_3\right)=\frac{1}{3}\ast0,1723+\frac{1}{4}\ast0,0209=0,0627

Detta innebär att hemsida 1 (0,0627) får en högre ranking än hemsida 7 (0,0209) tack vare att den
högt rankade hemsida 6 (0,1723) länkar till hemsida 1.

* Google offentliggjorde under deras 10 första år hemsidors PageRank på en skala mellan 0-10. Framräknade rankingar kan skalas upp med ett egenvärde på λ=30 så att de hamnar på en skala 0-10:

PR\left(H_1\right)=1,88\approx2 PR\left(H_6\right)=5,17\approx5 PR\left(H_7\right)=0,62\approx1

Ovanstående exempel utgick ifrån redan framräknade pagerankvektorer för hemsida 6 och 7. Pagerank för ett visst antal orankade hemsidor i detta miniatyr-Internet beräknas med hjälp av Googles algoritm enligt nedanstående beräkningar. Som hjälp för beräkningarna skapas en tabell över hur hemsidorna är sammanlänkade:

Ur tabellen kan ett ekvationssystem med sju linjära ekvationer ställas upp:

PR\left(H_1\right)=\frac{1}{3}PR\left(H_6\right)+\frac{1}{4}PR\left(H_7\right) PR\left(H_2\right)=\frac{1}{3}PR\left(H_1\right)+\frac{1}{3}PR\left(H_3\right)+\frac{1}{4}PR\left(H_7\right) PR\left(H_3\right)=\frac{1}{1}PR\left(H_2\right)+\frac{1}{3}PR\left(H_6\right)+\frac{1}{4}PR\left(H_7\right) PR\left(H_4\right)=\frac{1}{3}PR\left(H_3\right)+\frac{1}{1}PR\left(H_5\right) PR\left(H_5\right)=\frac{1}{3}PR\left(H_3\right)+\frac{1}{2}PR\left(H_4\right)+\frac{1}{3}PR\left(H_6\right) PR\left(H_6\right)=\frac{1}{3}PR\left(H_1\right)+\frac{1}{2}PR\left(H_4\right)+\frac{1}{4}PR\left(H_7\right) PR\left(H_7\right)=\frac{1}{3}PR\left(H_1\right)

De sju linjära ekvationerna kan skrivas på matrisform:

Matris A är en stokastisk matris där summan i varje kolumn är ett, vilket är enkelt att verifiera i denna matris med bara sju hemsidor. Googles index innehåller miljarder webbsidor och länkar mellan webbsidorna, varvid komplexiteten blir enormt mycket större.

En stokastisk matris kan innehålla nollor men vi vill omvandla denna till en primitiv stokastisk matris som inte innehåller några nollor. Därav blir nästa steg är att hitta ett hitta ett heltal m, sådan att Am bara innehåller positiva tal och inga nollor. För denna 7×7 matris är det möjligt (och enklast) att prova sig fram för att hitta heltalet m. En del kalkylatorer klarar av matrisberäkningar men jag använder Matlab för alla beräkningar.

Till primitiva stokastiska matriser finns egenvektorer och egenvärden enligt

A\bar{v}=\lambda\bar{v} , där A\bar{v}=\lambda\bar{v} är en egenvektor och λ är egenvärdet som hör ihop med egenvektorn.

Egenvektor(er) är lösningar till ekvationssystemet med de sju linjära ekvationerna och en egenvektor ger därmed rankingen de sju hemsidorna. Egenvektorer och egenvärden går att räkna fram manuellt (ganska stort jobb) men i Matlab finns en funktion för att ta fram egenvärden och egenvektorer till matriser.

Sammantaget erhålls Pagerank för de sju (7) hemsidorna till

PR\left(H_1\right)=1,88\approx2 PR\left(H_2\right)=2,11\approx2 PR\left(H_3\right)=3,99\approx4 PR\left(H_4\right)=8,77\approx9 PR\left(H_5\right)=7,44\approx7 PR\left(H_6\right)=5,17\approx5 PR\left(H_7\right)=0,62\approx1

Detta var ett figurerat exempel med ett Internet i miniatyr samt extrapolering av PageRank värden, för att ge en inblick i hur Googles PageRank algoritm fungerar. När man har insyn i detta går det trimma sin egen hemsida eller webbplats för att åstadkomma högre PageRank till webbsidorna på webbplatsen. Hur detta åstadkoms visas här i ett exempel med en hypotetisk webbplats.

Läs även: ”Rädda ett gymnasieprogram” med hjälp av Google