It’s all Greek to LLMs

: Επωνύμως…; 11 Σεπτεμβρίου 2023

It’s all Greek to LLMs

: Επωνύμως…; 11 Σεπτεμβρίου 2023

Σε έναν παγκοσμιοποιημένο κόσμο και πολύ περισσότερο σε ένα παγκοσμιοποιημένο Διαδίκτυο, όπου δεν υπάρχουν καν σύνορα να διαβεί κανείς, αποτελεί κοινό μυστικό ότι η πρώτη και πιο διαδεδομένη γλώσσα, την οποία οι περισσότεροι χρησιμοποιούμε ως «κοινό παρονομαστή» για να συνεννοηθούμε με όσους δεν ομιλούν τη δική μας, είναι τα αγγλικά.

Απειλούνται, βεβαίως, από τα κινέζικα, που εξαπλώνονται διαρκώς, αλλά η κυριαρχία τους για την ώρα δεν αμφισβητείται. Κι αυτό έχει δυο αναγνώσεις, μια καλή και μια κακή: στην πρώτη περίπτωση, η κοινή αναγνώριση της ενδιάμεσης γλώσσας βοηθάει στην επικοινωνία, τουλάχιστον μέχρι να αποκτήσουμε ο καθένας τον δικό του αυτόματο μεταφραστή (η Meta παρουσίασε πρόσφατα ένα τέτοιο, μικρό το δέμας, αλλά πλούσιο σε δυνατότητες τεχνολογικό θαύμα), οπότε ενδεχομένως να μη χρειάζεται καν στο μέλλον η εκμάθηση ξένων γλωσσών – το «μηχανάκι», να είναι καλά…

Στη δεύτερη περίπτωση, η κακή προοπτική έχει να κάνει με «το γλωσσικό χάσμα» που, όπως όλα δείχνουν, θα χαρακτηρίσει την εποχή του ΑΙ, της Τεχνητής Νοημοσύνης που «εφορμά» στην καθημερινότητά μας και «αλώνει» τον ένα τομέα μετά τον άλλον. Σύμφωνα με πρόσφατο άρθρο στο έγκυρο Axios, σήμερα υπάρχουν ανά τον κόσμο περίπου 7000 γλώσσες (υποθέτω «μετράει» και τις διαλέκτους) που ομιλούνται αθροιστικά από 6 δισεκατομμύρια ανθρώπους και, στη νέα εποχή, κινδυνεύουν να ξεχαστούν – της ελληνικής, πιθανώς, μη εξαιρουμένης.

Ο λόγος, είναι πως -με τη λογική της αγοράς- ό,τι ομιλείται και χρησιμοποιείται λιγότερο (πχ. μια σπάνια γλώσσα ή μια τοπική διάλεκτος) μοιραία θα προσφέρει και λιγότερο «υλικό» για τους σκοπούς της αναγκαίας, στη διάδοση και χρήση της Τεχνητής Νοημοσύνης, Μηχανικής Μάθησης.

Η γλώσσα μας, όσο κι αν έχει αδιάλειπτη ιστορία δεκάδων αιώνων που μας κάνει υπερήφανους και «μπόλιασε» τόσες άλλες γλώσσες στο διάβα του χρόνου, δεν παύει να ομιλείται από μόλις 20 εκατ. ανθρώπους ανά τον κόσμο, έχοντας μάλιστα διαφορετικό, δικό της αλφάβητο και μια ιδιαίτερα απαιτητική δομή. Κι εκεί που εμείς λέμε για κάτι ακαταλαβίστικο, «αυτά που μου λες είναι ‘κινέζικα’», ο αντίστοιχος χαρακτηρισμός για τους αγγλόφωνους είναι… «it’s all Greek to me»!

Σύμφωνα με το Axios, που επικαλείται τα σχετικά ευρήματα της ΜΚΟ Cohere, η οποία έχει ασχοληθεί ιδιαίτερα μ’ αυτό το θέμα, τα δεδομένα στα οποία βασίζονται τα δημοφιλέστερα σήμερα LLMs (Large Language Models), όπως το ChatGPT της OpenAi και οι εκδοχές του Llama της Meta, είναι σχεδόν αποκλειστικά στα αγγλικά και σε λίγες ακόμα γλώσσες, που ομιλούνται από πολλά εκατομμύρια ανθρώπους, όπως τα ινδονησιακά, τα ισπανικά, τα ιταλικά και κάποιες άλλες, λατινογενείς γλώσσες.

Για τα κινέζικα, υπάρχει βεβαίως το Ernie της «δικής τους» Baidu. Με τις άλλες γλώσσες, όμως, τι γίνεται; Τα ερωτήματα που υποβάλλουμε στα ελληνικά, για παράδειγμα, πρέπει να μεταφραστούν «εσωτερικά» στα αγγλικά, για να κατανοήσει το bot τι ζητάμε. Η απάντησή του, στη συνέχεια, θα πρέπει να μεταφραστεί πάλι από τα αγγλικά στα ελληνικά, με ό,τι σημαίνει αυτό για την ποιότητα του τελικού αποτελέσματος.

Λύση σ’ αυτό το πρόβλημα καταβάλλεται προσπάθεια να δοθεί με δύο τρόπους: είτε με τη δημιουργία LLM προσαρμοσμένων σε μια συγκεκριμένη γλώσσα, όπως το Clibrain για τα ισπανικά (που, όμως, πρέπει να είναι αρκετά δημοφιλής, για να δικαιολογήσει ρεαλιστικά την επένδυση και τη βιωσιμότητα του εγχειρήματος), είτε με τη δημιουργία πολυγλωσσικών μοντέλων ανοικτού κώδικα, όπως το Aya Project της Cohere που προαναφέραμε (προσαρμοσμένο για 100 γλώσσες – αναμένεται το ’24) και το BLOOM (ήδη παρέχει περιεχόμενο σε 46 γλώσσες).

Προς το παρόν, η προσοχή των ερευνητών -με δεδομένες τις ραγδαίες εξελίξεις από πλευράς τεχνολογίας- έχει εστιαστεί κυρίως στις συνεχείς δοκιμές αυτών των μοντέλων στην πράξη, ώστε να περιοριστεί κατά το δυνατόν ο κίνδυνος ενσωμάτωσης (καθότι μοντέλα ανοικτού κώδικα) εν δυνάμει προβληματικών δομικών στοιχείων, που θα μπορούσαν να προκαλέσουν «ζημιές» στο μέλλον. Παράλληλα, με τη συνδρομή ενεργών χρηστών αυτών των γλωσσών, καταβάλλονται προσπάθειες ώστε να απαλλαγούν εγκαίρως από «πολωμένο» ή ακατάλληλο υλικό.

Μάλλον πρέπει να παρακολουθούμε από κοντά τις εξελίξεις σ’ αυτό το θέμα, αν δεν θέλουμε να έχουμε δυσάρεστες εξελίξεις στα καθ΄ημάς, τα επόμενα χρόνια…