Τα συστήματα Τεχνητής Νοημοσύνης (ΤΝ) χωρίζονται σε δύο μεγάλες κατηγορίες ήτοι στατιστικά και συμβολικά. Τα βασισμένα σε Μεγάλα Γλωσσικά Μοντέλα (ΜΓΜ) (Large Language Models – ) είναι στατιστικά σύγχρονα υπολογιστικά συστήματα που έχουν σχεδιαστεί για να επεξεργάζονται και να παράγουν κείμενα φυσικής γλώσσας.
Αυτά τα μοντέλα εκπαιδεύονται σε τεράστιες ποσότητες κειμένου και χρησιμοποιούν τεχνικές μηχανικής μάθησης, κυρίως νευρωνικά δίκτυα, για να κατανοήσουν και να δημιουργήσουν κείμενα.
Τα μεγάλα γλωσσικά μοντέλα (LLMs) έχουν φέρει μια νέα δημοφιλή οπτική στον τομέα της επεξεργασίας φυσικής γλώσσας, αλλά έχουν και αρκετούς περιορισμούς. Μερικά γνωστά είναι τα GPT-3, GPT-4 που αναπτύχθηκαν από την OpenAI , LaMDA (Bard), BLOOM, XLNeT, κ.ά. Τα συμβολικά συστήματα στηρίζονται κυρίως στην κωδικοποίηση ανθρώπινης γνώσης.
Ενώ τα LLMs εξυπηρετούν εφαρμογές πολλών ειδών, η χρήση τους γίνεται κυρίως με τη χρήση chatbot και παρόμοιων εργαλείων επικοινωνίας ανθρώπου μηχανής που χρησιμοποιούνται για τη δημιουργία και την επεξεργασία κειμένου.
Ενώ τα εργαλεία LLMs μπορεί να είναι ενίοτε χρήσιμα, πρέπει να σημειωθεί ότι κατά καιρούς το περιεχόμενο που δημιουργείται από LLMs μπορεί να είναι εντελώς ψευδές, με ανύπαρκτες παραπομπές, κ.λπ. Το περιεχόμενο που δημιουργείται από τα LLMs είναι μη επαληθεύσιμο λόγω μη αναφοράς των πηγών ελλείψει της δυνατότητας αυτής του μηχανισμού.
Μπορεί επίσης να απαντά με προκατειλημμένα κείμενα ή σε κάποιες περιπτώσεις να παραβιάζει πνευματικά δικαιώματα. Οι συντάκτες που δεν έχουν πλήρη επίγνωση των εν λόγω κινδύνων δεν πρέπει να κάνουν επεξεργασία με τη βοήθεια αυτών των εργαλείων.
Τα LLMs δεν πρέπει να χρησιμοποιούνται για εργασίες με τις οποίες ο χρήστης δεν έχει ουσιαστική εξοικείωση σε παρόμοια κείμενα. Τα αποτελέσματά τους πρέπει να ελέγχονται αυστηρά για συμμόρφωση με όλες τις ισχύουσες πολιτικές.
Όπως συμβαίνει με όλες τις δημοσιεύσεις ο συντάκτης είναι πλήρως υπεύθυνος για το περιεχόμενο που δημοσιεύεται με την βοήθεια των LLMs. Επιπλέον, η χρήση LLMs για τη δημιουργία ή την τροποποίηση κειμένου θα πρέπει να δηλώνεται στην εισαγωγή του κάθε κειμένου.
Αναφέρονται ορισμένα από τα κυριότερα χαρακτηριστικά των LLMs :
•Εκπαίδευση σε Μεγάλα Δεδομένα: Τα LLMs εκπαιδεύονται με τεράστιες ποσότητες κειμένου από διάφορες πηγές, όπως βιβλία, άρθρα, ιστοσελίδες και κοινωνικά δίκτυα. Αυτό τους επιτρέπει να αποθηκεύουν πολλές γνώσεις για τη γλώσσα και τον κόσμο.
•Αρχιτεκτονική Νευρωνικών Δικτύων: Συνήθως βασίζονται σε αρχιτεκτονικές όπως αυτή του Transformer (μετασχηματιστή), που επιτρέπει την στατιστική επεξεργασία και κατανόηση της γλώσσας.
•Προσαρμοστικότητα: Μπορούν να προσαρμοστούν σε διάφορες εργασίες, όπως η μετάφραση, η απάντηση σε ερωτήσεις, η δημιουργία περιεχομένου και η ανάλυση συναισθήματος.
•Δημιουργία Κειμένου: Είναι ικανά να παράγουν κείμενα που φαίνονται φυσικά και σωστά, γεγονός που τα καθιστά χρήσιμα σε εφαρμογές όπως είναι η συγγραφή κειμένων, η δημιουργία απάντησης σε ερώτηση και η παραγωγή μεταφράσεων από γλώσσα σε γλώσσα.
Όμως παρόλα αυτά τα «εντυπωσιακά χαρακτηριστικά» που εμφανίζονται σε ένα εξαγόμενο, ο χρήστης πρέπει να είναι ιδιαίτερα προσεκτικός και επιφυλακτικός, ειδικά εάν πρόκειται αυτά τα αποτελέσματα να χρησιμοποιηθούν για επιστημονικές εργασίες ή για κάποια υπεύθυνη απάντηση σε μια ερώτηση. Τα LLMs υπόκεινται σε περιορισμούς για τους λόγους που θα εξηγηθούν παρακάτω.
Κατ’ αρχάς οι περιορισμοί αυτοί αφορούν ορισμένα χαρακτηριστικά που είναι αυτονόητα μεν για την ανθρώπινη σκέψη, όπως η κατανόηση της σημασίας, αλλά όχι για ένα πρόγραμμα βασιζόμενο κυρίως σε στατιστικά μοτίβα και συσχετίσεις.
Επισημαίνονται ορισμένοι περιορισμοί ως προς τη χρήση των LLMs:
1.Παρόλο που τα LLMs έχουν πρόσβαση σε μεγάλο όγκο δεδομένων, δεν έχουν πραγματική γνώση του κόσμου και δεν μπορούν να παρέχουν πληροφορίες που δεν περιλαμβάνονται στα δεδομένα εκπαίδευσής τους. Δηλαδή υπάρχουν κενά γνώσης.
2.Η ποιότητα και η ποικιλία των δεδομένων εκπαίδευσης επηρεάζουν άμεσα την απόδοση του συστήματος. Συστήματα εκπαιδευμένα σε περιορισμένα ή μη αντιπροσωπευτικά δεδομένα μπορεί να έχουν περιορισμένη ικανότητα. Τα συστήματα δεν έχουν την ικανότητα να παράγουν λογική σκέψη και κατ’ επέκταση κάποιον συμπερασμό με βάση την εμπειρία ή την κοινή λογική.
3.Δεν μπορούν να επανέρχονται σε προηγούμενες συνομιλίες και να διατηρούν κάποια συνοχή, όπως κάνει ο ανθρώπινος εγκέφαλος.
4.Δεν έχουν δυνατότητα επαληθευσιμότητας.
5.Εάν γίνουν αλλαγές στα στοιχεία εισόδου, έστω και μικρές, τα στοιχεία εξόδου μπορεί να είναι παραπλανητικά. Δηλαδή το σύστημα δεν είναι εύρωστο ώστε να αντιμετωπίσει κάποιες δυσκολίες που μπορεί να δημιουργηθούν κατά λάθος ή εσκεμμένα από τον χρήστη.
Οι παραπάνω οι περιορισμοί υπογραμμίζουν την ανάγκη για την προσεκτική χρήση και αξιολόγηση των μεγάλων γλωσσικών μοντέλων, καθώς και την ανάγκη για συνεχή έρευνα και βελτίωση.
Οι χρήσεις των LLMs είναι ποικίλες: Χρησιμοποιούνται κυρίως σε chatbots και συστήματα υποστήριξης χρηστών για την αυτοματοποίηση απαντήσεων, για τη συγγραφή άρθρων, blog posts, και άλλου τύπου περιεχομένου, βοηθούν στη μετάφραση κειμένων από τη μία γλώσσα στην άλλη και για την ανάλυση κειμένων και τη εξαγωγή πληροφοριών. Τα μεγάλα γλωσσικά μοντέλα συνεχίζουν να εξελίσσονται και να βελτιώνονται, με στόχο την καλύτερη κατανόηση και παραγωγή φυσικής γλώσσας.
Υπολογιστικά συστήματα που «σκέπτονται» σύμφωνα με τις μέχρι σήμερα έρευνες έχουν ήδη κατασκευαστεί ανεξάρτητα από την χρήση των LLMs. Τα συστήματα αυτά δέχονται ερωτήσεις εκφρασμένες με λέξεις και συντακτικό φυσικής γλώσσας και παράγουν απαντήσεις και επεξηγήσεις εκφρασμένες παρομοίως.
Η παραγωγή των απαντήσεων στηρίζεται στην επεξεργασία βάσεων δεδομένων ή κειμένων και κανόνων που είναι διαθέσιμα σε μορφή κατάλληλη για επεξεργασία από υπολογιστή.
Για να υλοποιηθεί ένα πρόγραμμα ΤΝ και να αποδώσει σωστά θα πρέπει να κωδικοποιήσει κατά το δυνατόν χαρακτηριστικά της Φυσικής Νοημοσύνης που αποτελεί μέρος της συμπεριφοράς του ανθρωπίνου εγκεφάλου.
Η ΤΝ αποτελεί συμπεριφορά ενός υπολογιστικού συστήματος (δηλαδή υπολογιστής συν πρόγραμμα). Ο υπολογιστής δεν έχει καμιά δομική σχέση με τον εγκέφαλο. Άρα οι δύο «νοημοσύνες» υλοποιούνται με τελείως διαφορετικά υλικά συστήματα ή φορείς.
Επομένως Για να επιτευχθεί μια σωστή παραγωγή απαντήσεων, όσο πιο κοντά γίνεται στην ανθρώπινη λογική, χρειάζεται να ληφθούν υπόψη και σχέσεις εμπλεκόμενες σε μεταγνωσιακές λειτουργίες όπως είναι:
•Λογικές σχέσεις μεταξύ προτάσεων
•Σχέσεις προτάσεων με κανόνες συλλογισμού
•Μετα-γλωσσικές σχέσεις
•Ρητορικές σχέσεις
•Σχέσεις μεταξύ κειμένου και γνώσεων
•Σχέσεις μεταξύ κειμένου και εικόνας
•Σχέσεις μεταξύ ερώτησης και κειμένου
•Σχέσεις μεταξύ ερώτησης και επεξήγησης
Μια τέτοια επεξεργασία θα ήταν αδύνατη για τα LLMs που αφορούν τεράστιους όγκους κειμένων την προέλευση των οποίων αγνοεί ο χρήστης. Για αυτό και θα πρέπει να είναι επιφυλακτικός με τα παραγόμενα «επιστημονικά κείμενα». Η παραγωγή κειμένων φαίνεται πολλές φορές ορθή μέχρι και εντυπωσιακή.
Όμως η «δημιουργικότητα» αυτή της παραγωγής κειμένου βασίζεται σε υπάρχοντα δεδομένα και η πρωτοτυπία τους είναι αμφισβητήσιμη. Τα παραγόμενα κείμενα χρήζουν ελέγχου, προσοχής και σύγκρισης με αυθεντικές πηγές από οποιοδήποτε πληροφορικό σύστημα και να παράγονται.
Το μέλλον θα δείξει κατά πόσο θα επηρεαστεί η ζωή μας από την επίδραση των LLMs στην καθημερινότητά μας που εισέβαλαν γρήγορα και δυναμικά.
Η Ιωάννα Δ. Μαλαγαρδή είναι Δρ. Υπολογιστικής Γλωσσολογίας – Ιστορικός