A sorozat első cikkében megnéztük, hogyan találhatjuk meg a rejtett információkat az egyeduralkodó Google keresőmotor segítségével, most pedig azon a kérdésen van a sor, minket hogyan találjanak meg. Ezen tudás ismerete, vagy hiánya élet-halál kérdése lehet egy weblap és a mögötte álló cég számára.
Az internetes keresőmotorok közül az első és sokáig a legnagyobb kereső, a Yahoo indította el először szolgáltatását és segítette a gyorsan növekvő internetes közösséget, hogy eligazodjon a már akkor is rengeteg oldalt és szolgáltatást tartalmazó internetes rendszerben. Keresőelvének célja az volt, hogy a kulcsszavakra kereső felhasználóknak használható és rendezett weblap katalógust adjon, melyből könnyen megtalálhatja a keresett témát. A keresők piaca ezzel megnyílt, hisz hatalmas lehetőség állt az olyan megoldásokban, ami ezt a kezdetben kaotikus weblap maszlagot rendszerezte és emészthetővé tette mindenki számára. Az első konkurens megoldást az Altavista hozta, de az 1998-ban megjelenő Google hamar porba taszította mindkettőt.
A Google fejlesztés sarokpontja a tisztán a keresésre irányuló technológiai és üzleti felfogás volt, amivel 2 év alatt piacvezető lett és többek között elérte azt, hogy az AOL őt válassza keresőmotorjának. Azóta rengetegen élnek a Google új szolgáltatásával és mind az oldal, mind a webméretű kereséseiket rajta keresztül intézik. Néhány adat a Googleról:
- Naponta több mint 200 millió keresés
- 3 milliárd weboldalon keres
- Több mint 425 millió kép
- Havonta 73 millió egyedi látogatója van
- Nyitó felülete 88 nyelven érhető el
- Az eredmények 35 nyelven érhetők el
- Alkalmas nem Web fájlok keresésére is (pdf, ps, xls, ppt, doc, dbm, txt, dat)
Látsd előző cikkünk!
Hogyan működik?
Egy kereső rendszer összeállításához hatalmas és egyre nagyobb hardverigény tartozik. Tárolni kell a 3 milliárd weboldalt és bírni kell a napi 200 milliós keresési kérést. Kezdetekben azt látták, hogy a nagy kapacitású szerverek megnövekvő terhelés mellett nagyon lelassulnak. Ezért a konkurens keresőkkel szemben azt a megoldást választották , hogy összeállítottak egy több ezer PC-ből álló Linux fürtöt, ami állítólag a világ egyik legnagyobbika. Erre aztán meg kellett írni a megfelelő szoftvert.
A szoftvernek több ezer párhuzamosan futó keresést kellett kiszolgálnia pár másodperc alatt. A rangsorolás elvén is változtattak az elődökhöz képest, akik az egy oldalon található egyezések száma szerint rangsorolták a lapokat. A Google PageRank technológiája viszont átfésüli az internet linkstruktúráját és aszerint csoportosít, hogy hány link vezet az adott oldalra, amin az adott kulcsszót találta. A legtöbbször hivatkozott oldal kerül a találatok elejére.
A PageRank egy olyan változó is egyben, ami az oldalunk rangját jelzi az weblapok között, tehát minden oldalnak van egy ilyen jellemzője, PageRankja. Ha egy weblapról egy link mutat a mi lapunkra, akkor az egy pontot jelent a mi oldalunk számára. Ám nagyon nem mindegy, milyen oldalról hivatkoznak ránk. Ha például két oldal is hivatkozik a mi lapunkra, de az egyik PageRank-ja nagyobb a másiknál, akkor az nekünk több pontot jelent, fontosabbnak ítél a Google. Tehát a cél az, hogy minél magasabb rangú oldalakról hivatkozzanak ránk, így mi is előbbre kerülünk a találati listán. Ez a rang nem befolyásolható, így objektíven méri egy lap fontosságát a többihez képest, persze az adott kulcsszót tartalmazó lapok közül. A weblapok PageRankje 4 hetente frissül. Megnézhetjük, hogy hányan hivatkoznak ránk a következő kereséssel, melyben a jox.hu a hivatkozott lap:
link:http://www.jox.hu
Itt pedig egy laza regisztráció után megnézhetjük weblapunk PageRankjét. (Persze az igazi megoldás az, ha letöltjük a GoogleToolbart, de csak ezért nem érdemes telepíteni.)
Tulajdonképpen a Google programkódja, a GoogleBot keres az interneten és ha megtalál egy oldalt, annak URL-jét eltárolja a Google hatalmas kereső adatbázisában. Ezt nevezzük indexelésnek. Az oldal URL címét kulcsszavak szerint helyezi el. Minden kulcsszó után azon oldalak címeinek felsorolása következik, ahol az adott kulcsszó előfordul. Az oldalunk html kódjának meta tagjei között mi is megadhatjuk azokat a kulcsszavakat, amik alapján szeretnénk, hogy a megtaláljanak minket. A Bot ezen kulcsszavak után helyezi el az URL-ünket. Ha ilyet nem talál, próbálja a szöveg alapján elhelyezni oldalunkat. A kulcsszavak helyes megadása nagyon fontos, ha az elsők között szeretnénk szerepelni.
Van egy érdekes elnevezés, a Google Dance. Említettük, hogy a Google 4 hetente frissíti az oldalak PageRank értékét. Ez a folyamat, a Dance 3-5 napig tart. A keresési eredmények havonta is sokszor változhatnak, így a gyakran frissülő oldalakat nem csak ezen napokban keresi meg a Bot, hanem sokszor visszalátogat és figyeli, hogy az oldal milyen rendszerességgel frissül. Ha azt látja, hogy nem napi a frissítés, áttér heti egyszeri látogatásra, vagy akár havonta egyszerire. Van olyan weboldal, akinél csak a Dance ideje alatt jár GoogleBot azért, hogy meg tudja állapítani annak PageRank értékét.
A Dance időpontja titkos, mint valami "Tágra zárt szemek" féle összejövetel, de php nyelvben lehetőség van a HTTP_USER_AGENT változó eltárolásával észrevenni, mikor járt nálunk a bot.
Módszerek, amikkel a keresési listán feljebb kerülhetünk annak érdekében, hogy az oldalunk minél több látogatottságot produkáljon, minél több javat el tudjunk adni adott idő alatt.
Mielőtt bármit csinálnánk, néhány nagyon fontos tanács. A Google örökre kitiltja a rendszerből azokat az oldalakat, akiknél a trükközés gyanúja felmerül. Az iskolapados szigor itt is visszatér. A kerülendő módszereket lent részletesen megnézzük.
- Ha domain nevet választunk az oldalnak, olyat válasszunk, ami lehetőleg az oldal szövegében sokszor visszatér, ez Google tanár úrnál plusz pontot jelent. Vagy legalább a domain név egy részlete.
- Ha JavaScript, vagy Flash alapon linkeljük be az aloldalakat, azt a Google nem fogja megtalálni, ezért a főlapon mindenképpen html linkeket használjunk. Ha ez nem megy, akkor készítsünk html linkekkel sitemapet az oldalra, ami átfogja az egész struktúrát.
- Hihetetlen, de az oldalunk PageRankja akkor is nőni fog, ha az oldalon lévő szöveg első 200 szava tartalmazza a következőket: domain név, vagy annak részlete, keresési szavak, meta tagek között szereplő kulcsszavak. A félkövér és dőlt kiemelések is fokozzák a szavak fontosságát. Sőt, az első 20 szó fontosabb a többinél.
- Lehetőleg szövegesen írjuk az oldalra a kulcsszavakat, ne képként illesszük be.
- Ha dinamikus tartalomkezelő rendszert használunk, az legyen képes html kód generálására, mert csak ebben tud keresni a Bot.
Title tag
A html kód fejrészében szereplő title tag azon kívül, hogy megadja az oldal böngészőben is megjelenő címét, a Google keresési eredményében ez a szó lesz belinkelve az oldalunkra, így ennek megválasztása is fontos. Ha ugyanis a "plazmatv" kulcsszóra keres valaki és a mi oldalunk a "plazmatv" szóra klikkelve jön be, biztos a mi oldalunkat is megnézik.
Meta tag
A meta tag jó megválasztása legalább ennyire fontos, hisz a találatok között, a title által mutatott link alatt ennek a tartalma fog szerepelni, mint ajánló.
A tagekben szereplő szöveget érdemes úgy megírni, hogy az első részében legyenek a fontosabb tudnivalók, hisz a Google nem jeleníti meg azt teljes egészében. Érdemes mind a title, mind a meta szövegében elhelyezni azokat a kulcsszavakat, amikre a szövegben is gyakran hivatkozunk, sőt akár a domain nevünkben is szerepel az egyik.
Img tag
Az img tag "alt" leírás mezőjét is átnézi a Google, ebben is érdemes kulcsszavakat elhelyezni.
Session
Érdemes, bár nem ajánlott, hogy engedjük a Google Botot Session ID nélkül is végigmenni az oldalon. Session ID-t a php nyelven megírt oldalak használhatnak, hogy bizonyos részeket csak belépés után engedhessenek megnézni a látogatóknak. Én ezt nem áldoznám fel, bár tény, hogy ezzel romlanak a találati esélyek.
Robots.txt
Elhelyezhetünk a szerveren egy robots.txt nevű fájlt, amiben leírást adhatunk a Bot-nak, hogy mit nézhet meg és mit nem. Bővebben: http://www.robotstxt.org/wc/faq.html
Keresőkbe való regisztráció
Majdnem minden webfejlesztést végző cég szolgáltatásaiban benne van a mágikus "keresőkbe való regisztrálás" szolgáltatás, amit magunk is elvégezhetünk.
Már volt róla szó, hogy annál nagyobb az oldalunk értéke, minél nagyobb PageRank-ű oldalról hivatkoznak ránk. Keressünk hát rá az oldalunkon szereplő kulcsszavakra és kérjük meg az első pár találaton szereplő oldal tulajdonosát, vagy webmesterét, hogy egy bannercserével helyezzenek el az oldalunkra mutató linkeket.
Ha ezzel megvagyunk, nincs is szükségünk túlzottan a következő módszerre.
Sok keresőnek, többek között a Googlenak is vannak linkkatalógusai, amikbe közvetlenül is feliratkozhatunk. Ezek a keresők aloldalairól nyílnak. Ekkor a legmagasabb szintű domainünk közvetlenül kerül be a linkadatbázisba, de ha elegendő számú linkkel rendelkezünk az oldalunkra, ez a lépés nem is létfontosságú.
Tilos!
Végül pár tanács, mit nem szabad soha elkövetnünk. Bár kifejezetten trükkösek, de domainünk azonnali eltávolítását jelenti a Googleből és oda visszakerülni ezek után nem lehet!!! Ezeket a trükköket a bot ki tudja szűrni!
Rejtett szöveg - Ha a kulcsszavakat olyan színnel írjuk ki, amit a látogató nem lát, mert beleolvad a háttérbe, de a Bot látja a kódban.
Cloaking - Azt a trükköt nevezik így, mikor a webszervert úgy programozták, hogy más oldalt adjon a felhasználónak és mást a Bot-nak. Na, ez súlyos vétség!
Nem szerepelhet továbbá a kulcsszó lista a meta tagen kívül és a meta illetve a title tageket nem lehet többszörözni!
Nem érdemes olyan kulcsszavakat használni, ami nem illik az oldal "profiljába". Találkoztam már olyan felsorolással, mint Britney Spears, sex, porn stb. és persze az oldalnak köze nem volt ehhez. A Google ki tudja ezeket szűrni.
Ne duplázzuk és regisztráljuk be többször az oldalakat!