ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ (SEARCH ENGINES)

 

Το μέγεθος του Internet είναι δεδομένο ότι είναι τεράστιο και αυξάνει με εκπληκτικούς ρυθμούς. Υπό αυτές τις συνθήκες, η εύρεση στοιχείων αποτελεί μία εξαιρετικά δύσκολη υπόθεση, που θα παρέμενε δύσκολη εάν δεν υπήρχαν εργαλεία όπως οι μηχανές αναζήτησης.

 

Εισαγωγή στις μηχανές αναζήτησης.

 

Eνα από τα σημαντικότερα χαρακτηριστικά του Internet είναι η ευκολία που παρέχει στην είσοδο οποιασδήποτε πληροφορίας, επιτρέποντας στους χρήστες του να εισάγουν στοιχεία για κάθε θέμα. Τα στοιχεία αυτά είναι συνήθως ελεύθερα διαθέσιμα σε όλους τους χρήστες, καθιστώντας έτσι το Internet στο σύνολό του μία μοναδική πηγή πληροφόρησης και εύρεσης στοιχείων, που παρόμοιά της δεν υπήρξε ποτέ μέχρι τώρα στην πορεία της ανθρωπότητας. Η ραγδαία αύξηση της χρήσης του World Wide Web, αλλά και των υπόλοιπων υπηρεσιών του δικτύου, έδωσε στους χρήστες τη δυνατότητα να αποκτήσουν εύκολη πρόσβαση στην πληροφορία, αλλά παράλληλα και τη δυνατότητα παροχής στο δίκτυο όλων όσων αυτοί θεωρούν κατάλληλα.

Ενώ όμως η πληθώρα πληροφοριών λογικά θα έπρεπε να είναι ευεργετική για τους χρήστες, οι οποίοι έχουν πλέον στη διάθεσή τους έναν τεράστιο όγκο στοιχείων, αυτή η ίδια πληθώρα προξενεί ένα σημαντικό πρόβλημα, που δεν είναι άλλο από το ότι οι χρήστες αδυνατούν τις περισσότερες φορές να εντοπίσουν τα σημεία εκείνα του δικτύου που περιέχουν τις πληροφορίες τις οποίες αυτοί χρειάζονται. Για παράδειγμα, έστω ότι κάποιος χρήστης αναζητεί πληροφορίες για ένα μουσικό συγκρότημα. Πιθανότατα, αρκετοί χρήστες από όλο το Internet θα έχουν συγκεντρωμένες πληροφορίες για το συγκεκριμένο συγκρότημα σε διάφορες σελίδες του Web ή ενδεχομένως να υπάρχουν σχετικές πληροφορίες από δισκογραφικές εταιρείες κ.λ.π. Επίσης, είναι αρκετά πιθανό να έχουν τοποθετηθεί ορισμένα τραγούδια και φωτογραφίες του συγκροτήματος σε διάφορα FTP ή Gopher sites. Το πρόβλημα που προκύπτει για τον ενδιαφερόμενο χρήστη είναι πώς θα εντοπίσει τις πληροφορίες που αυτός χρειάζεται, πώς δηλαδή θα μάθει τις σελίδες και τα sites που περιέχουν αυτό που αναζητά.

Μολονότι όλον και κάποιον τρόπο μπορεί να σκεφθεί ένας χρήστης για να το επιτύχει, κανένας τρόπος δεν μπορεί να συγκριθεί σε πληρότητα, ταχύτητα και αποτελεσματικότητα με την χρήση των περίφημων μηχανών αναζήτησης (search engines) του World Wide Web. Το τι είναι και πώς ακριβώς λειτουργεί μία τέτοια μηχανή είναι τα θέματα που πραγματεύεται με λεπτομέρειες η παρούσα ενότητα.

 

Τι είναι μία μηχανή αναζήτησης.

 

Οι μηχανές αναζήτησης είναι από τα λίγα εργαλεία του Internet που προσπαθούν να βάλουν τάξη και να προσφέρουν διέξοδο σε όσους αναζητούν μία πληροφορία στο Δίκτυο αλλά δεν γνωρίζουν πού ακριβώς θα την βρουν. Τυπικά, μία μηχανή αναζήτησης διαθέτει μία βάση δεδομένων με καταγεγραμμένες διευθύνσεις του Internet, στις οποίες ο χρήστης μπορεί να βρει συγκεκριμένα στοιχεία που τον ενδιαφέρουν. Ο χρήστης αναζητεί αυτό που θέλει με βάση κάποια συγκεκριμένα κριτήρια και η μηχανή αναζήτησης του παρουσιάζει τις διευθύνσεις εκείνες στις οποίες μπορεί αυτός να βρει σχετικές πληροφορίες.

Γενικά, μία μηχανή αναζήτησης μπορεί να περιέχει διευθύνσεις από όλες τις υπηρεσίες του Internet, όπως FTP, Gopher, World Wide Web, Usenet, Telnet κ.λ.π. Οι περισσότερες όμως μηχανές αναζήτησης περιορίζονται στην “καταλογοποίηση” των πληροφοριών εκείνων που μπορούν να προβληθούν μόνο μέσω του World Wide Web, δηλαδή με βάση το πρωτόκολλο ΗΤΤΡ κατά κύριο λόγο, ενώ ορισμένες υποστηρίζουν επιπλέον FTP και Gopher διευθύνσεις του δικτύου. Πρέπει να καταστεί σαφές πάντως ότι σε κάθε περίπτωση η μηχανή αναζήτησης δεν έχει καταχωρημένο το περιεχόμενο αλλά μόνο τις διευθύνσεις και ό,τι άλλο αυτή χρειάζεται για να μπορέσει να εξυπηρετήσει τους χρήστες. Στην πράξη, δηλαδή, μία μηχανή αναζήτησης είναι ένα τεράστιο αρχείο με συνδέσμους (links) οι οποίοι οδηγούν σε διάφορους εξυπηρετητές, σελίδες Web, αρχεία κ.λ.π.

Στο Internet υπάρχουν αρκετές μηχανές αναζήτησης, οι οποίες τις περισσότερες φορές ξεκίνησαν από πειραματικά ερευνητικά προγράμματα (projects) και εξελίχθηκαν σε ολόκληρες εταιρείες, ενώ από πλευράς χρήσης εξυπηρετούν χιλιάδες χρήστες καθημερινά. Ενδεικτικά αναφέρονται εδώ οι πιο γνωστές από αυτές, όπως είναι η Yahoo, η Lycos, η InfoSeek, η Web Crawler κ.ά. Συνήθως, η παροχή των προσφερόμενων υπηρεσιών γίνεται δωρεάν, αν και ορισμένες μηχανές επιβάλλουν κάποιους περιορισμούς στη δωρεάν χρήση διαθέτοντας και πρόσβαση επί πληρωμή.

 

Πως λειτουργεί μία μηχανή αναζήτησης.

 

Το ερώτημα που λογικά προκύπτει είναι πώς εισάγονται οι διευθύνσεις σε κάθε μηχανή αναζήτησης, έτσι ώστε να δημιουργηθεί η βάση διευθύνσεων στην οποία κάνουν αναζητήσεις οι χρήστες. Η συνηθέστερη διαδικασία για την εισαγωγή των διευθύνσεων είναι οι ίδιοι οι κάτοχοι των σελίδων να ενημερώνουν τη μηχανή αναζήτησης για την ύπαρξη των σελίδων τους. Ακολούθως, η μηχανή αναζήτησης, αφού κάνει όλους τους απαραίτητους ελέγχους για τη διεύθυνση που δηλώθηκε, την καταχωρίζει στη βάση της. Φυσικά, κάθε μηχανή μπορεί να δέχεται διευθύνσεις μόνο του τύπου εκείνου που έχει καθορίσει ο κατασκευαστής της, λόγου χάρη HTTP, FTP, Gopher κ.λ.π. ενώ ο τρόπος διαχείρισης της διεύθυνσης-από τη στιγμή που αυτή θα εισαχθεί-διαφέρει από μηχανή σε μηχανή. 

Εκτός από την εισαγωγή από τους ίδιους τους κατόχους των σελίδων ή λοιπών διευθύνσεων, ένας άλλος τρόπος ενημέρωσης της βάσης διευθύνσεων μίας μηχανής αναζήτησης είναι η έρευνα από την ίδια τη μηχανή στον Web ή σε άλλα μέρη του δικτύου Internet για εύρεση στοιχείων. Με τη διαδικασία αυτή, η μηχανή αναζήτησης συνδέεται με τους διάφορους υπολογιστές-εξυπηρετητές του δικτύου και καταγράφει τα δεδομένα τους, ανάλογα με τον σχεδιασμό της. Με τον τρόπο αυτό, δεν απαιτείται η συμμετοχή των χρηστών-κατόχων των σελίδων Web, η ενημέρωση γίνεται πιο άμεσα, ενώ το περιεχόμενο της βάσης διευθύνσεων είναι μεγαλύτερο και πληρέστερο απ’ότι θα ήταν εάν η βάση της μηχανής αναζήτησης ενημερωνόταν μόνο με πρωτοβουλία των χρηστών του δικτύου.

Από τη στιγμή που υπάρχουν οι διευθύνσεις στη βάση της μηχανής αναζήτησης, ο χρήστης μπορεί να αναζητήσει με βάση κάποιο θέμα τις διευθύνσεις που αναφέρονται σε αυτό. Ανάλογα με τη μηχανή, η αναζήτηση μπορεί να πραγματοποιηθεί είτε δίνοντας ο χρήστης κάποια έκφραση είτε μέσω κάποιας ιεραρχικής κατηγοριοποίησης των περιεχομένων. Στην πρώτη περίπτωση, ο χρήστης εισάγει μία έκφραση αναζήτησης (search expression ή string), είτε απλή είτε πιο σύνθετη με χρήση λογικών τελεστών, οπότε η μηχανή αναζητά στη βάση της σε ποιες ακριβώς διευθύνσεις υπάρχει η έκφραση αυτή. Ανάλογα με τη μηχανή, ο αλγόριθμος αναζήτησης που χρησιμοποιείται θα δώσει περισσότερο ή λιγότερο σχετικές διευθύνσεις. Στη δεύτερη περίπτωση, οι διευθύνσεις έχουν ήδη κατηγοριοποιηθεί από τη μηχανή σε γενικές ιεραρχικές κατηγορίες, οπότε ο χρήστης, χρησιμοποιώντας την ιεραρχία αυτή, οδηγείται στις διευθύνσεις που περιέχουν αυτό που αναζητά. Βέβαια, η περίπτωση αυτή απαιτεί να γνωρίζει ο χρήστης τι ακριβώς ζητά. Τέλος, πρέπει να επισημανθεί ότι ο ένας τρόπος αναζήτησης δεν αναιρεί τον άλλο, αφού μπορούν κάλλιστα να υπάρχουν ταυτόχρονα και οι δύο τρόποι.

 

Οι δημοφιλέστερες μηχανές αναζήτησης.

 

Πέρα από την εισαγωγή στις μηχανές αναζήτησης του World Wide Web και του τρόπου λειτουργίας τους, αναφέρονται ακολούθως οι πιο δημοφιλείς και εύχρηστες από τις μηχανές αυτές. Στόχο της αναφοράς αυτής δεν αποτελεί σε καμία περίπτωση η μεταξύ τους σύγκριση αλλά η ενημέρωση όλων των ενδιαφερόμενων για τις μηχανές αναζήτησης :

 

Lycos

Μία από τις γνωστότερες μηχανές αναζήτησης του Internet είναι ο Lycos. Η μηχαχή αυτή είναι μάλιστα τόσο πλούσια σε περιεχόμενο-διευθύνσεις που οι κατασκευαστές της την χαρακτηρίζουν ως κατάλογο του Internet, αφού σύμφωνα με στοιχεία τους περιλαμβάνει άνω του 90% των διευθύνσεων του Web! Για την εμπορική εκμετάλλευση της μηχανής αυτής δημιουργήθηκε στα τέλη Ιουνίου του 1995 η εταιρεία Lycos Inc., ενώ τεχνολογικά αποτελεί έργο του Dr. Michael Mauldin στο Πανεπιστήμιο Carnegie Mellon.

Το σημαντικότερο χαρακτηριστικό της μηχανής αυτής είναι ότι εκτός από τη δυνατότητα που παρέχει στους χρήστες να καταχωρούν οι ίδιοι τις διευθύνσεις των σελίδων τους, ο ίδιος ο Lycos αναζητεί καθημερινά μέσω ειδικών προγραμμάτων διευθύνσεις, τις οποίες και καταχωρεί στη βάση του. Τα προγράμματα αυτά, τα οποία ονομάζονται spiders, αναζητούν HTTP, FTP και Gopher sites (τις τρεις υπηρεσίες που καλύπτει ο Lycos) και είναι αυτά στα οποία οφείλεται το μεγάλο ποσοστό διευθύνσεων της μηχανής αυτής.

Φυσικά, η όλη διαδικασία είναι ιδιαίτερα πολύπλοκη, ενώ από τη στιγμή που συνδεθεί με κάποιο site ακολουθείται μία διαδικασία ελέγχου του εξυπηρέτη υπολογιστή. Είναι τέτοια η ποσότητα που συγκεντρώνεται στη βάση του Lycos από τη διαδικασία αυτή, ώστε ο Lycos είναι με τεράστια διαφορά η μεγαλύτερη μηχανή αναζήτησης και μάλιστα με βάση γενικώς αποδεκτά στοιχεία. Επίσης, η διαδικασία εύρεσης και ελέγχου των διευθύνσεων είναι καθημερινή, οπότε ο κατάλογος της βάσης διατηρείται συνεχώς ενημερωμένος με νέα στοιχεία και διευθύνσεις. Η μηχανή αναζήτησης Lycos παρέχει δυνατότητα δωρεάν πρόσβασης και εξυπηρέτησης των χρηστών μέσω του WWW στη διεύθυνση: http://www.lycos.com.

 

Yahoo

H Yahoo είναι επίσης μία από τις πιο γνωστές μηχανές αναζήτησης. Αυτή χρησιμοποιεί έναν κατάλογο, θεματικά ταξινομημένο, επιτρέποντας έτσι στους χρήστες να αναζητήσουν διευθύνσεις ακολουθώντας έναν ιεραρχικό κατάλογο θεμάτων. Εκτός από την χρήση του καταλόγου, υπάρχει και η δυνατότητα για αναζήτηση λέξεων με χρήση λογικών τελεστών. Το περιεχόμενο του καταλόγου προέρχεται από τους χρήστες του Internet, οι οποίοι καταχωρούν τις διευθύνσεις των σελίδων τους σε αυτόν. Η μηχανή αυτή αναζήτησης παρέχει δωρεάν υπηρεσίες στους χρήστες μέσω του WWW στη διεύθυνση: http://www.yahoo.com.

 

Alta Vista

Μία από τις νεότερες και ιδιαίτερα αξιόλογες μηχανές αναζήτησης είναι η Alta Vista. Ξεκίνησε ως ερευνητικό πρόγραμμα (project) από τα εργαστήρια της εταιρείας Digital Research, ενώ η επίσημη λειτουργία της έγινε στις 15 Δεκεμβρίου του 1995. Ήδη μέσα στις τρεις πρώτες εβδομάδες της λειτουργίας της εξυπηρετούσε πάνω από 2 εκατομμύρια αναζητήσεις την ημέρα, ενώ εντυπωσιακός είναι και ο hardware εξοπλισμός που αυτή διαθέτει.

Ως μηχανή αναζήτησης, η Alta Vista ανήκει στην κατηγορία των μηχανών εκείνων που, εκτός από τις καταχωρίσεις σελίδων από τους ίδιους τους χρήστες, αναζητούν μόνες τις διευθύνσεις των σελίδων στον Web. Επιπλέον, υποστηρίζει και αναζητήσεις σε ομάδες νέων (newsgroups) του Usenet μέσα από τον τοπικό της server. Πέρα από την πλούσια βάση διευθύνσεων που διαθέτει, η οποία βρίσκεται στα επίπεδα του Lycos, παρέχει εξαιρετικές δυνατότητες αναζήτησης με την υποστήριξη ενός πλήρους συνόλου λογικών τελεστών. Ο χρήστης έχει έτσι τη δυνατότητα να κάνει απλές αναζητήσεις όπως σε όλες τις μηχανές αναζήτησης ή, εάν αυτός επιθυμεί κάτι πιο προχωρημένο, να χρησιμοποιήσει λογικούς τελεστές συντάσσοντας κάποιες πολύπλοκες “ερωτήσεις” (advanced queries) προς τη βάση διευθύνσεων της μηχανής. Η Alta Vista παρέχει δωρεάν υπηρεσίες στους χρήστες μέσω του WWW στη διεύθυνση : http://altavista.digital.com.

 

Web Crawler

Είναι η μηχανή αναζήτησης που παρέχεται από τη γνωστή αμερικανική εταιρεία on-line υπηρεσιών America On Line. Διαθέτει μία σχετικά μικρή βάση διευθύνσεων, η οποία προέρχεται από καταχωρίσεις χρηστών και εν συνεχεία έλεγχο από την ίδια τη μηχανή. Λόγω του μικρού μεγέθους της βάσης, οι αναζητήσεις είναι σχετικά γρήγορες, οπότε η μηχανή αυτή αποτελεί την καλύτερη ίσως επιλογή των χρηστών όταν η ταχύτητα αναζήτησης είναι ένας κρίσιμος παράγοντας. Επίσης, δεν παρέχει ιδιαίτερες δυνατότητες ελέγχου της αναζήτησης αλλά μόνο τις στοιχειώδεις. Η Alta Vista προσφέρει δωρεάν υπηρεσίες στους χρήστες μέσω του WWW στη διεύθυνση : http://webcrawler.com.

 

InfoSeek

H InfoSeek είναι μία γνωστή μηχανή αναζήτησης η οποία διαθέτει δωρεάν αλλά και με συνδρομή υπηρεσίες. Στις υπηρεσίες των συνδρομητών περιλαμβάνεται αναζήτηση στις Web διευθύνσεις της βάσης της μηχανής αυτής (οι οποίες δεν είναι και ιδιαίτερα πολλές), ενώ συμπεριλαμβάνονται επίσης και αναζητήσεις στα Usenet news, κείμενα από περιοδικά, ειδησεογραφικά πρακτορεία και άλλες πηγές ενημέρωσης. Η δωρεάν υπηρεσία περιορίζει την αναζήτηση μόνο στα Web sites, ενώ σε κάθε αναζήτηση που πραγματοποιείται με τον τρόπο αυτό εμφανίζονται μέχρι 100 διευθύνσεις. Οι δυνατότητες σύνταξης “ερωτήσεων” προς τη βάση διευθύνσεων της μηχανής (queries) είναι ικανοποιητικές, επιτρέποντας τη λήψη ακριβών αποτελεσμάτων. Η InfoSeek παρέχει τις υπηρεσίες της στους χρήστες μέσω του WWW στη διεύθυνση: http://www.infoseek.com.

 

Excite

H Excite αποτελεί μία από τις νεότερες εταιρείες που δραστηριοποιούνται στο χώρο των μηχανών αναζήτησης. Παρέχει δωρεάν υπηρεσίες και προσφέρει αναζητήσεις σε σελίδες του Web και τις ομάδες νέων του Usenet. Η βάση διευθύνσεων της μηχανής είναι ικανοποιητική και περιλαμβάνει αρκετές σελίδες. Το περιβάλλον επικοινωνίας (interface) μεταξύ της μηχανής και του χρήστη είναι επίσης ικανοποιητικό ενώ οι δυνατότητες σύνταξης Queries βρίσκονται σε μέσο επίπεδο. Η Excite προσφέρει τις υπηρεσίες της στους χρήστες μέσω του WWW στη διεύθυνση: http://www.excite.com.

 

INKTOMI

Αυτή η μηχανή αναζήτησης ξεκίνησε ως τμήμα του ερευνητικού προγράμματος (project) Network of Workstations στο Πανεπιστήμιο του Berkeley, παρέχεται από το ίδιο το πανεπιστήμιο και προσφέρει δωρεάν υπηρεσίες μέσα από μία ικανοποιητικού μεγέθους βάση διευθύνσεων. Οι δυνατότητες σύνταξης Queries είναι στοιχειώδεις αλλά με αρκετά γρήγορες αναζητήσεις σε σχέση με το μέγεθος της βάσης διευθύνσεων. Οι υπηρεσίες της μηχανής αυτής προσφέρονται μέσω του WWW στη διεύθυνση: http://inktomi.berkeley.edu.

Στο σχήμα που ακολουθεί φαίνεται η ανάπτυξη και το μέγεθος των πιο γνωστών μηχανών αναζήτησης σε σχέση με το μέγεθος του World Wide Web για τον Σεπτέμβριο του 1995.

 

Σχ. Το μέγεθος των πιο γνωστών μηχανών αναζήτησης