Ο Οργανισμός Ανοιχτών Τεχνολογιών – ΕΕΛΛΑΚ ανακοινώνει την έγκριση της πρότασης «Enhancing multilingual foundation models through lexicographic grounding: advancing GlossAPI for Apertus Greek language integration» από το Swiss AI Initiative. Το έργο θα υποστηριχθεί με 50.000 GPU hours στην υπερυπολογιστική υποδομή Alps του CSCS (Swiss National Supercomputing Centre), μία από τις ισχυρότερες υπολογιστικές υποδομές στην Ευρώπη.
Η απόφαση αυτή δεν είναι απλώς μια χρηματοδότηση: είναι έμπρακτη αναγνώριση ότι η ελληνική γλώσσα μπορεί και πρέπει να αντιμετωπίζεται ως κρίσιμη ψηφιακή υποδομή στην εποχή της Τεχνητής Νοημοσύνης.
Τι είναι το GlossAPI
Το GlossAPI είναι ανοιχτή βιβλιοθήκη και τεχνική υποδομή για τη δημιουργία, επεξεργασία και δημοσίευση έτοιμων προς χρήση συνόλων δεδομένων για την εκπαίδευση Μεγάλων Γλωσσικών Μοντέλων (LLMs). Αναπτύσσεται από την ΕΕΛΛΑΚ με αρχές ανοιχτού κώδικα, διαφάνειας και κοινής ωφέλειας.
Σήμερα διαθέτει:
- 15 δημοσιευμένα σύνολα δεδομένων με πλήρη ανοιχτή τεκμηρίωση
- Λεξικογραφικά δεδομένα, μορφολογική γνώση και ετυμολογικά στοιχεία για την ελληνική γλώσσα
- Δείκτες απόδοσης, άδειες ανοιχτής χρήσης και επαναλήψιμες ροές παραγωγής δεδομένων
- Προσανατολισμό στη συμμετοχή, τα ανοικτά πρότυπα και τη διαφάνεια
Αυτή η αρχιτεκτονική καθιστά το GlossAPI όχι ένα απλό αρχείο, αλλά μια σταθερή υποδομή αναφοράς: έναν μηχανισμό παραγωγής γλωσσικών πόρων που μπορεί να αξιοποιηθεί από πανεπιστήμια, ερευνητές, δημόσιους φορείς, εκδότες, εκπαιδευτικά ιδρύματα και ελληνικές επιχειρήσεις τεχνολογίας.
Το Swiss AI Initiative και το μοντέλο Apertus
Το Swiss AI Initiative είναι η ελβετική εθνική πρωτοβουλία για ανοιχτή και αξιόπιστη Τεχνητή Νοημοσύνη, βασισμένη στον υπερυπολογιστή Alps του CSCS. Αποστολή του είναι η ανάπτυξη ανοιχτών θεμελιωδών γλωσσικών μοντέλων (foundation models) σε λογική ανοικτής επιστήμης και ανοικτού κώδικα — σε πλήρη αντίθεση με τα κλειστά εμπορικά μοντέλα.
Το Apertus, το πολυγλωσσικό μοντέλο που αναπτύσσεται στο πλαίσιο αυτής της πρωτοβουλίας μέσω ETH Zurich και CSCS, βασίζεται σε:
- Ανοιχτά βάρη και πλήρη τεκμηρίωση της διαδικασίας εκπαίδευσης
- Συμμόρφωση με απαιτήσεις προστασίας δεδομένων και διαφάνειας
- Δυνατότητα ελέγχου, επαναχρησιμοποίησης και προσαρμογής για το δημόσιο συμφέρον
Η ένταξη του GlossAPI σε αυτό το οικοσύστημα σημαίνει ότι η ελληνική γλώσσα δεν θα είναι απλά «παρούσα» σε ένα μοντέλο, αλλά θα συνδιαμορφώνει τον τρόπο που αυτό αντιμετωπίζει τη γλωσσική πολυπλοκότητα.
Τι θα παράγει το έργο
Η εγκεκριμένη πρόταση στοχεύει στην ενσωμάτωση της λεξικογραφικής γνώσης του GlossAPI στην πολυγλωσσική ρύθμιση του Apertus. Συγκεκριμένα, θα παραχθούν:
- Ανοιχτά πολυγλωσσικά δεδομένα αξιολόγησης (evaluation datasets) για την ελληνική γλώσσα
- Δείκτες απόδοσης που λαμβάνουν υπόψη τη μορφολογική πολυπλοκότητα της ελληνικής — ένα κρίσιμο κενό στη διεθνή βιβλιογραφία
- Δημόσια διαθέσιμα checkpoints μοντέλων με ανοικτές άδειες χρήσης
- Τεκμηριωμένες και επαναλήψιμες ροές παραγωγής δεδομένων για μελλοντική χρήση
Άμεσα, το GlossAPI αποκτά πρόσβαση σε υπολογιστική ισχύ που επιτρέπει σοβαρή πειραματική εργασία σε διανυσματικές αναπαραστάσεις και σημασιολογική ευθυγράμμιση. Μακροπρόθεσμα, αποκτά θεσμικό βάρος ως σημείο αναφοράς για την ελληνική γλώσσα σε διεθνή συστήματα ΤΝ.
Οφέλη για φορείς και οργανισμούς
Ως κοινή ψηφιακή υποδομή, το GlossAPI ενισχύει έναν μηχανισμό παραγωγής γλωσσικών πόρων που μπορεί να αξιοποιηθεί από πανεπιστήμια, ερευνητές, δημόσιους φορείς, εκδότες, δημοσιογράφους, εκπαιδευτικά ιδρύματα και ελληνικές επιχειρήσεις τεχνολογίας. Το κρίσιμο εδώ είναι η μετατόπιση από ένα αποσπασματικό αρχείο σε μια σταθερή υποδομή αναφοράς: λεξικογραφικά δεδομένα, μορφολογική γνώση, ετυμολογικά στοιχεία, δείκτες απόδοσης, τεκμηρίωση, άδειες ανοικτής χρήσης και επαναλήψιμες ροές παραγωγής. Αυτή ακριβώς είναι η λογική μιας ψηφιακής κοινής ωφέλειας.
Ψηφιακή κυριαρχία: μια στρατηγική επιλογή
Η μεγαλύτερη αξία της έγκρισης βρίσκεται στο μήνυμα που στέλνει: η γλωσσική τεχνολογία για τα ελληνικά δεν χρειάζεται να οργανώνεται μόνο γύρω από αγορές αδειών και ιδιωτικά API. Μπορεί να οικοδομηθεί ως ανοιχτό οικοσύστημα ευρωπαϊκής συνεργασίας.
Σε μια περίοδο όπου η ψηφιακή κυριαρχία της Ευρώπης εξαρτάται όλο και περισσότερο από τις υποδομές ΤΝ, το GlossAPI μπορεί να λειτουργήσει ως ο δημόσιος γλωσσικός πυρήνας που θα στηρίξει εφαρμογές στην εκπαίδευση, στην έρευνα, στη δημόσια διοίκηση, στον πολιτισμό και στη δημοκρατική συμμετοχή.
Με απλά λόγια: η ελληνική παύει να είναι απλός «χρήστης» ξένων γλωσσικών μοντέλων και αρχίζει να γίνεται συνδιαμορφωτής τους.

