Η Επεξεργασία Φυσικής Γλώσσας (ΕΦΓ) (Natural Language Processing NLP) είναι από τους κυριότερους κλάδους της Τεχνητής Νοημοσύνης (ΤΝ) που έχει αναπτυχθεί εδώ και πολλές δεκαετίες. Η ΕΦΓ έχει στόχο την υπέρβαση του επιπέδου ανάλυσης μεμονωμένων προτάσεων και την αντιμετώπιση των προβλημάτων της αυτόματης επεξεργασίας ολόκληρου κειμένου. Όπως είναι φυσικό, κάθε είδος κειμένου παρουσιάζει τα δικά του προβλήματα τα οποία αναγκαστικά πρέπει να αντιμετωπιστούν ξεχωριστά.
Η ΕΦΓ είναι η μελέτη των υπολογιστικών συστημάτων για την κατανόηση και την παραγωγή φυσικής γλώσσας. Παραδείγματα εφαρμογών της ΕΦΓ είναι η Μηχανική Μετάφραση, η Εξαγωγή και Ανάκτηση Πληροφορίας, και η Διεπαφή Ανθρώπου Μηχανής.
Τα κείμενα προς επεξεργασία μπορεί να έχουν ποικίλη προέλευση όπως: αφηγηματικά (narrative texts), ιστορικά, δημοσιογραφικές ανταποκρίσεις, περιγραφές διαδικασιών, επιστημονικά κ.λπ. Για να αναλυθούν αυτά τα κείμενα ώστε να επιτευχθεί ένας στόχος απαιτείται μια προεργασία. Βασικό εργαλείο είναι το λεξικό το οποίο μπορεί να εμπλουτίζεται συνεχώς με νέες λέξεις, τα εργαλεία μορφολογικής, συντακτικής, σημασιολογικής ανάλυσης και φυσικά γνώση του μικρόκοσμου που ανήκει το κάθε κείμενο. Οι γνώσεις αυτές κωδικοποιούνται σε κανόνες ώστε να μπορούν να δώσουν ένα κατά το δυνατόν σωστό εξαγόμενο.
Όταν κτίζουμε ένα πρακτικό σύστημα ΕΦΓ το ενδιαφέρον μας δεν εστιάζεται μόνον στην εύρεση του αληθούς ή του ψευδούς των προτάσεων. Συνήθως θέλουμε το σύστημα να υλοποιήσει κάτι ως απάντηση στο εισαγόμενο, όπως αναφέρθηκε παραπάνω. Για τους σκοπούς αυτούς αξιοποιούνται μέθοδοι ΤΝ όπως η εξαγωγή πληροφορίας, η εξόρυξη γνώσεων από κείμενα, η σύνταξη περιλήψεων κειμένων, η επικοινωνία με ρομπότ και η μετάφραση από μια φυσική γλώσσα σε μια άλλη.
Ακολουθεί μια σύντομη αναφορά στη σημασιολογική ανάλυση προτάσεων φυσικής γλώσσας σε συνδυασμό με την εξαγωγή συμπερασμάτων ως χαρακτηριστική εφαρμογή μεθόδων ΤΝ. Σημασιολογική ανάλυση στην ΕΦΓ δεν σημαίνει μόνο ποια είναι η σημασία της πρότασης. Για δηλωτικές προτάσεις η σημασιολογία επιχειρεί να προσδιορίσει τους όρους κάτω από τους οποίους μια πρόταση είναι αληθής ή όχι και ποιοι είναι οι κανόνες συμπερασμού μεταξύ των προτάσεων μιας γλώσσας.
Περισσότερο προβληματική χαρακτηρίζεται η ανάλυση των ερωτηματικών και προστακτικών προτάσεων. Οι ερωτηματικές προτάσεις θεωρούνται ως ένα είδος αίτησης για να πληροφορηθεί κάποιος εάν μια πρόταση είναι αληθής ή να ανακτηθούν στοιχεία που αιτούνται με την ερώτηση. Οι προστακτικές προτάσεις συνιστούν αιτήματα του χρήστη για την εκτέλεση μιας ενέργειας ή μιας σειράς ενεργειών που πρόκειται να εκτελεστούν είτε από π.χ. ένα πληροφοριακό σύστημα είτε από ένα ρομπότ.
Οι ασχολούμενοι με την υπολογιστική σημασιολογία φυσικής γλώσσας βρίσκουν ότι είναι απαραίτητο να ορίσουν μια τυπική γλώσσα με απλή σημασιολογία στην οποία να εκφραστεί το «νόημα» μιας πρότασης σε φυσική γλώσσα. Δηλαδή να μεταθέσουν ένα πρόβλημα σημασιολογίας από την φυσική στην τυπική γλώσσα αφού πρώτα λυθεί το πρόβλημα της μετάφρασης από την φυσική στην τυπική γλώσσα. Θα πρέπει να αναφέρουμε ποιες είναι οι ιδιότητες μιας τυπικής γλώσσας τις οποίες δεν έχει η φυσική γλώσσα.
- Η τυπική γλώσσα δεν είναι αμφίσημη
- Έχει απλούς κανόνες ερμηνείας και συμπερασμού
- Έχει μία λογική δομή προσδιοριζόμενη από την μορφή της πρότασης.
Για τους λόγους αυτούς διευκολύνεται η εξαγωγή συμπερασμάτων λόγω των ανωτέρω ιδιοτήτων. Τυπικές γλώσσες που εμφανίζονται στη βιβλιογραφία είναι:
- Προτασιακή Λογική (Propositional Logic)
- Κατηγορική Λογική (Predicate Logic)
- Σημασιακά Δίκτυα (Semantic Networks)
- Πλαίσια (Frames)
- Πρότυπα (Templates)
- Δομές Νοηματικής Εξάρτησης (Structures of Conceptual Dependence).
Κάποιοι από τους επιστήμονες ΕΦΓ αποφεύγουν αυτήν την μετάφραση σε τυπική γλώσσα και επιχειρούν την εύρεση κανόνων συλλογισμού που να εκτελούνται απευθείας στη φυσική γλώσσα. Η πλέον κατάλληλη γλώσσα προγραμματισμού για υλοποίηση εφαρμογών ΕΦΓ είναι η γλώσσα Λογικού Προγραμματισμού PROLOG. Η PROLOG ως μη διαδικαστική γλώσσα επιτρέπει την επεξεργασία με κανόνες εξάγοντας λογικά συμπεράσματα. Η χρήση στατιστικών μεθόδων σε επεξεργασία γλώσσας δεν έχει αποδώσει τα βέλτιστα αποτελέσματα, όπως το έχουμε διαπιστώσει και με τα συστήματα GPT. Οι απαντήσεις μπορεί να προσεγγίζουν μεν την αλήθεια όχι όμως πάντα με ακρίβεια, συνέπεια και επαναληψιμότητα.
Τα προβλήματα Επεξεργασίας Φυσικής Γλώσσας είναι περισσότερο αντιμετωπίσιμα και επεξεργάσιμα όταν περιοριζόμαστε σε ένα επί μέρους πεδίο ή μικρόκοσμο (Domain). Η γλώσσα ενός συγκεκριμένου πεδίου καλείται υπογλώσσα. Συνήθως ως υπογλώσσες χρησιμοποιούνται γλώσσες επιστήμης και τεχνολογίας. Οι ερευνητές χρησιμοποιούν την υπογλώσσα στην ΤΝ, στην επιστήμη της πληροφορίας και στη γλωσσολογία. Μέσα στο πλαίσιο της ΤΝ η μελέτη της υπογλώσσας προσφέρει τη δυνατότητα για τη συγκέντρωση εξωγλωσσικής γνώσης (domain-dependent knowledge), όπως είναι η οντολογία. Μέσα στο πλαίσιο της επιστήμης της πληροφορίας οι τεχνικές της υπογλώσσας έχουν αποδειχτεί αποτελεσματικές για την ανάλυση, σχηματοποίηση, διάδοση και ανάκτηση κειμενικών πληροφοριών. Στη θεωρητική γλωσσολογία ο ρόλος της υπογλώσσας απέκτησε σημασία τα τελευταία χρόνια. Ακόμη και εάν οι γραμματικές μιας υπογλώσσας μπορούν να συσχετιστούν με τη γραμματική μιας πλήρους κανονικής γλώσσας, οι υπογλώσσες σε πολλές περιπτώσεις συμπεριφέρονται ως αυτόνομα συστήματα.
Άλλοι τομείς της ΕΦΓ είναι:
Μηχανική Μάθηση Φυσικής Γλώσσας (Natural Language Learning), Παραγωγή Κειμένου (Text Generation) π.χ. Παραγωγή Ιστοριών ή Αφηγημάτων και Ποιημάτων (Stories Generation, Narrative Generation, Poetry Generation).
Η υλοποίηση συστημάτων μάθησης με υπολογιστή είναι ένας από τους κεντρικούς στόχους της ΤΝ και είναι το αντικείμενο του κλάδου της Μηχανικής Μάθησης. Η λειτουργία που στηρίζεται σε επί μέρους στοιχεία για την παραγωγή γνώσεων ονομάστηκε «επαγωγή», έννοια γνωστή από την Αρχαία Ελληνική Γραμματεία. Η επαγωγική μέθοδος βαίνει από τα ειδικά προς τα γενικά, από το επιμέρους στο όλον.
Η Παραγωγή Κειμένου είναι άλλος κλάδος ΤΝ που έχει προχωρήσει και στην παραγωγή ιστοριών κυρίως αφηγηματικών, ακόμη και ποίησης. Έχουν γίνει αρκετές εφαρμογές με τα συστήματα GPT που βασίζονται σε συστήματα επονομαζόμενα Large Language Models (LLM) και δεν εμφανίζουν εξάρτηση της απάντησης από συντακτικούς και σημασιολογικούς κανόνες.
Η ανάπτυξη ευέλικτων γενικής χρήσης συστημάτων στον τομέα της ΕΦΓ είναι μακροπρόθεσμος στόχος της ΤΝ. Η εφαρμογή μεθόδων ΤΝ στην ΕΦΓ είναι πολύ δυσκολότερη όμως μπορεί να αποδώσει τα βέλτιστα αποτελέσματα και ειδικά στον συγκεκριμένο κλάδο όπου η ΕΦΓ αφορά έναν ζωντανό και εξελισσόμενο οργανισμό όπως είναι η φυσική γλώσσα, η οποία λειτουργεί βάσει κανόνων της ανθρώπινης νόησης.
Τα συστήματα θα μπορούν να φανούν πολύ χρήσιμα για πολλούς κλάδους και ειδικά στην επικοινωνία Ανθρώπου- Μηχανής όπου η διεπαφή και το εξαγόμενο μιας ερώτησης σε φυσική γλώσσα διευκολύνουν την επιστημονική έρευνα καθώς και την καθημερινότητα.
* Η Ιωάννα Δ. Μαλαγαρδή είναι δρ. Υπολογιστικής Γλωσσολογίας – ιστορικός