Ιωάννα Δ. Μαλαγαρδή

Η Επεξεργασία Φυσικής Γλώσσας (ΕΦΓ) (Natural Language processing NLP) είναι ένας από τους κλάδους της Τεχνητής Νοημοσύνης (TN). Μια από τις πιο γνωστές εφαρμογές της ΕΦΓ που αναπτύχθηκαν από τη δεκαετία του ’50, από βασική σε εφαρμοσμένη έρευνα, είναι αυτή της Μηχανικής Μετάφρασης (ΜΜ).

Τα πρώτα έργα Μηχανικής Μετάφρασης (ΜΜ) χρηματοδοτήθηκαν από στρατιωτικούς και άλλους κυβερνητικούς φορείς των ΗΠΑ κατά την δεκαετία του 1950. Κατά τη δεκαετία του ’60 έγιναν αντιληπτές οι δυσκολίες του εγχειρήματος λόγω των πολλών επί μέρους προβλημάτων που εμφανίστηκαν στην εφαρμογή. Αυτές οι δυσκολίες δημιούργησαν αρνητικές αντιδράσεις εκ μέρους των χορηγών. Οι αντιδράσεις κορυφώθηκαν με την παρουσίαση της έκθεσης ALPAC (Automatic Language Processing Advisory Committee) του 1966 της Εθνικής Ακαδημίας των Επιστημών των ΗΠΑ. Οι προτάσεις της έκθεσης υιοθετήθηκαν με αποτέλεσμα να τερματιστούν πρόωρα τα περισσότερα έργα ΜΜ στις ΗΠΑ και αλλού. Παραλλήλως υπήρχαν ιδιωτικές επιχειρήσεις που ανέπτυσσαν και εμπορεύονταν συστήματα ΜΜ βασισμένα στην τεχνολογία της δεκαετίας του ΄60.  Το διεθνές ενδιαφέρον αναζωπυρώθηκε κατά την δεκαετία του ’80 και συστήματα άρχισαν να χρησιμοποιούνται ευρέως στην κυβέρνηση, στις επιχειρήσεις και στη βιομηχανία.

Οι εργασίες της ανάπτυξης του συστήματος GAT του Πανεπιστημίου George Town άρχισαν το 1952. To 1954 έγινε η πρώτη στον κόσμο δημόσια επίδειξη του συστήματος ΜΜ από την ομάδα του GAT. Το σύστημα υποστηρίχθηκε από την κυβέρνηση των ΗΠΑ και οι πρώτες επιδείξεις του ολοκληρωμένου GAT έγιναν το 1961 και το 1962. Το τελικό σύστημα τέθηκε σε εφαρμογή το 1964 στην Αμερικανική Επιτροπή Ατομικής Ενεργείας και ειδικά στο Εθνικό Εργαστήριο του Oak Ridge (ORNL) και επίσης στο Ευρωπαϊκό Ερευνητικό Κέντρο της EURATOM στην Ιταλία το 1963. Και οι δύο εγκαταστάσεις του συστήματος χρησιμοποιήθηκαν για πολλά χρόνια για να μεταφράζουν ρωσικά κείμενα στην Αγγλική. Η ποιότητα των μεταφράσεων ήταν αρκετά ανεπαρκής συγκρινόμενη με την ανθρώπινη μετάφραση. Οι εναλλακτικές λύσεις ήταν είτε η πιο αργή και η πιο δαπανηρή ανθρώπινη μετάφραση ή καθόλου μετάφραση.

Ο Peter Toma, ένα μέλος της ομάδας του GAT, δημιούργησε μια εταιρεία που ανέπτυξε το σύστημα SYSTRAN, το οποίο το 1970 αντικατέστησε το σύστημα  MARK II της IBM στο τμήμα ξένης τεχνολογίας της Αμερικανικής Πολεμικής Αεροπορίας (USAF). Το 1976 το σύστημα SYSTRAN αντικατέστησε το GAT στην EURATOM. Το 1961 ξεκίνησε το έργο CETA για την ΜΜ από την Ρωσική στην Γαλλική στο Πανεπιστήμιο της Grenoble στην Γαλλία. Η τεχνολογία της πληροφορικής ήταν τόσο πρωτόγονη ώστε αναγκάστηκαν οι ερευνητές να υιοθετήσουν την Assembly γλώσσα της IBM για την υλοποίηση. Η ανάπτυξη του συστήματος διήρκεσε 10 χρόνια.

Το SYSTRAN ήταν ένα από τα πρώτα συστήματα που στόχευε στην αγορά. Η πρώτη εγκατάστασή του έγινε το 1970 στην USAF με στόχο την μετάφραση από Ρωσικά στα Αγγλικά. Στη συνέχεια το 1974 η NASA επέλεξε το  SYSTRAN για τη μετάφραση υλικού σχετικού με τη συνεργασία του διαστημικού προγράμματος Apollo-Soyuz. Επίσης το 1976 η Ευρωπαϊκή Επιτροπή αγόρασε την έκδοση Αγγλικά προς Γαλλικά για αξιολόγηση και πιθανή χρήση.

Το 1985 περίπου 20 μεταφραστές της Ευρωπαϊκής Επιτροπής χρησιμοποιούσαν στο Λουξεμβούργο το SYSTRAN σε έναν υπολογιστή SIEMENS 7740 για μετάφραση ρουτίνας. Η επιτυχία αυτή οφείλεται στο ότι είχαν ήδη δημιουργηθεί λεξικά με 100.000 λήμματα και αφορούσαν τις τεχνολογικές περιοχές που εφαρμοζόταν το σύστημα. Στη συνέχεια εφαρμόστηκε το SYSTRAN και σε άλλα ζεύγη γλωσσών μεταξύ των οποίων και το ζεύγος Αγγλικά-Ελληνικά.

Το 1961 άρχισε το έργο METAL με υποστήριξη της κυβέρνησης των ΗΠΑ στο Πανεπιστήμιο του Τέξας για μετάφραση από την Γερμανική στην Αγγλική στο οποίο υιοθετήθηκε η Μετασχηματιστική Θεωρία του Ν. Chomsky. Το έργο τερματίστηκε λόγω διακοπής της χρηματοδότησης από την κυβέρνηση των ΗΠΑ. Μερικά χρόνια αργότερα το έργο αναβίωσε με μια μικρή κυβερνητική χορηγία. Παράλληλα το Sprachendienst Department της SIEMENS AG στο Μόναχο άρχισε να υποστηρίζει το έργο και το 1980 η SIEMENS AG παρέμεινε ο μοναδικός χορηγός του έργου.

Το 1965 το Πανεπιστήμιο του Montreal ξεκίνησε το έργο TAUM με υποστήριξη της Καναδικής Κυβέρνησης. Για την υλοποίησή του χρησιμοποιήθηκε η γλώσσα Fortran αρχικά σε υπολογιστή CDC 6600 και αργότερα σε υπολογιστή CYBER 173. Το σύστημα παραδόθηκε το 1975 για την μετάφραση από τα Αγγλικά στα Γαλλικά για κείμενα πρόγνωσης καιρού το αποκαλούμενο TAUM-METEO το οποίο εγκαταστάθηκε το 1977 για παραγωγή στην Καναδική Μετεωρολογική Υπηρεσία.

Το 1964 άρχισε η ανάπτυξη του συστήματος LOGOS του οποίου η πρώτη εγκατάσταση του 1971 χρησιμοποιήθηκε από την USAF για τη μετάφραση εγχειριδίων συντήρησης στρατιωτικού εξοπλισμού από τα Αγγλικά στα Βιετναμέζικα. Λόγω της λήξης του πολέμου στο Βιετνάμ η χρήση από την USAF τερματίστηκε. Η SIEMENS έκλεισε μια συμφωνία που επέτρεπε την υλοποίηση ενός συστήματος ΜΜ από Γερμανικά προς Αγγλικά για τους υπολογιστές της εταιρείας WANG. Αυτό το σύστημα διατέθηκε εμπορικά και αγοράστηκε από διάφορες πολυεθνικές εταιρείες όπως η NIXDORF, TRIOUMPH-ADLER και HEWLETT-PACKARD.

Ένα ερευνητικό σύστημα ΜΜ για όλες της γλώσσες της Ευρωπαϊκής Ένωσης ήταν το σύστημα EUROTRA. Η απόφαση για την ανάπτυξη του συστήματος EUROTRA ελήφθη από την τότε ΕΟΚ το έτος 1982.  Κατά συνέπεια η τεχνολογία στην οποία βασίστηκε η σχεδίαση του συστήματος είναι της εποχής εκείνης και γι’ αυτό δεν αντιμετωπίζεται η αξιοποίηση βάσεων γνώσεων πέραν των γλωσσικών. Όπως σωστά υποστηρίχθηκε από νεότερες απόψεις, η αξιοποίηση της γνώσης του κόσμου είναι απαραίτητη για την επίλυση των πολυσημιών. Μετά τη λήξη του ερευνητικού προγράμματος EUROTRA τα αποτελέσματά του δεν χρησιμοποιήθηκαν για την ανάπτυξη εμπορικού προϊόντος.

Σήμερα κυκλοφορούν εξελιγμένα συστήματα ΜΜ καθώς και προϊόντα. Ενδεικτικά αναφέρω τα πολυγλωσσικά συστήματα όπως το νέο SYSTRAN, το Google Translate, το Microsoft Translator κ.ά., τα οποία μεταφράζουν με ταχύτητα κείμενα μέσω διαδικτύου. Στο εξαγόμενο όμως της μετάφρασης είναι απαραίτητη ανθρώπινη παρέμβαση. Ένα σοβαρό πρόβλημα μεταξύ άλλων που δεν έχουν επιλυθεί, είναι αυτό των αμφισημιών και των μεταφορών που υπάρχουν στη φυσική γλώσσα. Όπως είναι προφανές η ΜΜ είναι δυσκολότερη για λογοτεχνικό κείμενο σε σύγκριση με ένα τεχνικό κείμενο που αφορά σε ένα συγκεκριμένο γνωστικό πεδίο.

Επίσης ένα άλλο δύσκολο σημείο είναι η τήρηση των επιλογικών περιορισμών (selectional restrictions) π.χ. του ρήματος και των επιθέτων από ένα πρόγραμμα ΜΜ. Πρόκειται για περιορισμούς των συμπληρωμάτων των λέξεων αυτών δηλαδή των ονοματικών φράσεων που ανήκουν σε ειδικές κατηγορίες. Οι κατηγορίες προκύπτουν από την οντολογία του εκάστοτε πεδίου εφαρμογής. Για κάθε συμπλήρωμα (όρισμα) αναζητούμε τη γενικότερη κατά το δυνατόν έννοια-υπερώνυμο (concept) που επιτρέπεται να ανήκει. Οι επιτρεπόμενοι συνδυασμοί των υπερωνύμων των ορισμάτων κάθε ρήματος συγκροτούν τους επιλογικούς περιορισμούς.

Η ΜΜ έχει αποδειχθεί ένα χρήσιμο εργαλείο, κυρίως για μεταφραστές, επιταχύνοντας την εργασία της μετάφρασης. Ο μεταφραστής θα πρέπει να παρέμβει για τη βελτίωση του αποτελέσματος κυρίως σε σημασιολογικές και εννοιολογικές αστοχίες, ώστε να βελτιώσει το αποτέλεσμα. Η αυτόματη παραγωγή ενός ορθού κειμένου, όπως θα την έκανε ο άνθρωπος – μεταφραστής, δεν έχει ακόμη επιτευχθεί.

 

*Η Ιωάννα Δ. Μαλαγαρδή

είναι δρ. Υπολογιστικής

Γλωσσολογίας – ιστορικός