Η τεχνητή νοημοσύνη ομιλίας ανοιχτού κώδικα της Meta αναγνωρίζει πάνω από 4.000 ομιλούμενες γλώσσες

Η Meta δημιούργησε ένα μοντέλο γλώσσας AI που (με μια ανανεωτική αλλαγή ρυθμού) δεν είναι κλώνος ChatGPT . Το έργο Massively Multilingual Speech (MMS) της εταιρείας μπορεί να αναγνωρίσει περισσότερες από 4.000 ομιλούμενες γλώσσες και να παράγει ομιλία (text-to-speech) σε περισσότερες από 1.100 φλώσσες. Όπως τα περισσότερα από τα άλλα δημόσια ανακοινωθέντα έργα τεχνητής νοημοσύνης της , η Meta διαθέτει MMS ανοιχτού κώδικα σήμερα για να βοηθήσει στη διατήρηση της γλωσσικής ποικιλομορφίας και να ενθαρρύνει τους ερευνητές να βασιστούν στα θεμέλιά της. «Σήμερα, μοιραζόμαστε δημόσια τα μοντέλα και τον κώδικά μας, έτσι ώστε άλλοι στην ερευνητική κοινότητα να μπορούν να βασιστούν στη δουλειά μας», έγραψε η εταιρεία. «Μέσα από αυτό το έργο, ελπίζουμε να κάνουμε μια μικρή συμβολή στη διατήρηση της απίστευτης γλωσσικής ποικιλομορφίας του κόσμου».

Η αναγνώριση ομιλίας και τα μοντέλα μετατροπής κειμένου σε ομιλία συνήθως απαιτούν εκπαίδευση σε χιλιάδες ώρες ήχου με συνοδευτικές ετικέτες μεταγραφής. (Οι ετικέτες είναι ζωτικής σημασίας για τη μηχανική μάθηση, επιτρέποντας στους αλγόριθμους να κατηγοριοποιούν σωστά και να «κατανοούν» τα δεδομένα.) Αλλά για γλώσσες που δεν χρησιμοποιούνται ευρέως στα βιομηχανικά έθνη —πολλές από τις οποίες κινδυνεύουν να εξαφανιστούν τις επόμενες δεκαετίες— «αυτό δεδομένα απλά δεν υπάρχουν», όπως το θέτει η Meta.

Η Meta χρησιμοποίησε μια ασυνήθιστη προσέγγιση για τη συλλογή δεδομένων ήχου: την αξιοποίηση ηχογραφήσεων μεταφρασμένων θρησκευτικών κειμένων. «Στραφήκαμε σε θρησκευτικά κείμενα, όπως η Βίβλος, που έχουν μεταφραστεί σε πολλές διαφορετικές γλώσσες και των οποίων οι μεταφράσεις έχουν μελετηθεί ευρέως για έρευνα μετάφρασης γλώσσας βασισμένη σε κείμενο», ανέφερε η εταιρεία. «Αυτές οι μεταφράσεις έχουν δημοσίως διαθέσιμες ηχογραφήσεις ανθρώπων που διαβάζουν αυτά τα κείμενα σε διαφορετικές γλώσσες». Ενσωματώνοντας τις ηχογραφήσεις της Βίβλου χωρίς ετικέτα και παρόμοια κείμενα, οι ερευνητές του Meta αύξησαν τις διαθέσιμες γλώσσες του μοντέλου σε πάνω από 4.000.

Αν είστε σαν εμένα, αυτή η προσέγγιση μπορεί να σας κάνει τα φρύδια με την πρώτη ματιά, καθώς ακούγεται σαν συνταγή για ένα μοντέλο τεχνητής νοημοσύνης με μεγάλη προκατάληψη προς τις χριστιανικές κοσμοθεωρίες. Αλλά η Μέτα λέει ότι δεν είναι έτσι. «Ενώ το περιεχόμενο των ηχογραφήσεων είναι θρησκευτικό, η ανάλυσή μας δείχνει ότι αυτό δεν μεροληπτεί το μοντέλο να παράγει πιο θρησκευτική γλώσσα», έγραψε ο Μέτα. «Πιστεύουμε ότι αυτό συμβαίνει επειδή χρησιμοποιούμε μια προσέγγιση χρονικής ταξινόμησης (CTC), η οποία είναι πολύ πιο περιορισμένη σε σύγκριση με τα μεγάλα γλωσσικά μοντέλα (LLM) ή τα μοντέλα αλληλουχίας σε ακολουθία για την αναγνώριση ομιλίας». Επιπλέον, παρά τις περισσότερες από τις θρησκευτικές ηχογραφήσεις που διαβάζονταν από άντρες ομιλητές, αυτό δεν εισήγαγε ούτε μια ανδρική προκατάληψη — απόδοση εξίσου καλά σε γυναικείες και ανδρικές φωνές.

Αφού εκπαίδευσε ένα μοντέλο ευθυγράμμισης για να κάνει τα δεδομένα πιο χρηστικά, η Meta χρησιμοποίησε το wav2vec 2.0, το μοντέλο «αυτοεποπτευόμενης εκμάθησης αναπαράστασης ομιλίας» της εταιρείας, το οποίο μπορεί να εκπαιδεύεται σε δεδομένα χωρίς ετικέτα. Ο συνδυασμός μη συμβατικών πηγών δεδομένων και ενός μοντέλου ομιλίας που εποπτεύεται μόνος του οδήγησε σε εντυπωσιακά αποτελέσματα. “Τα αποτελέσματά μας δείχνουν ότι τα μοντέλα Massively Multilingual Speech έχουν καλή απόδοση σε σύγκριση με τα υπάρχοντα μοντέλα και καλύπτουν 10 φορές περισσότερες γλώσσες.” Συγκεκριμένα, η Meta συνέκρινε το MMS με το Whisper του OpenAI και ξεπέρασε τις προσδοκίες. «Διαπιστώσαμε ότι τα μοντέλα που έχουν εκπαιδευτεί στα δεδομένα Massively Multilingual Speech επιτυγχάνουν το μισό ποσοστό λάθους λέξεων, αλλά το Massively Multilingual Speech καλύπτει 11 φορές περισσότερες γλώσσες».

Η Meta προειδοποιεί ότι τα νέα της μοντέλα δεν είναι τέλεια. «Για παράδειγμα, υπάρχει κίνδυνος το μοντέλο ομιλίας σε κείμενο να μεταγράψει εσφαλμένα επιλεγμένες λέξεις ή φράσεις», έγραψε η εταιρεία. «Ανάλογα με την έξοδο, αυτό θα μπορούσε να οδηγήσει σε προσβλητική ή/και ανακριβή γλώσσα. Συνεχίζουμε να πιστεύουμε ότι η συνεργασία σε όλη την κοινότητα της τεχνητής νοημοσύνης είναι κρίσιμη για την υπεύθυνη ανάπτυξη των τεχνολογιών τεχνητής νοημοσύνης».

Τώρα που η Meta κυκλοφόρησε το MMS για έρευνα ανοιχτού κώδικα, ελπίζει ότι μπορεί να αντιστρέψει την τάση της τεχνολογίας που μειώνει τις γλώσσες του κόσμου στις 100 ή λιγότερες που υποστηρίζονται συχνότερα από τη Big Tech. Βλέπει έναν κόσμο όπου η υποστηρικτική τεχνολογία, το TTS, ακόμη και η τεχνολογία VR / AR επιτρέπουν σε όλους να μιλούν και να μαθαίνουν στη μητρική τους γλώσσα.

Είπε χαρακτηριστικά, «Οραματιζόμαστε έναν κόσμο όπου η τεχνολογία έχει το αντίθετο αποτέλεσμα, ενθαρρύνοντας τους ανθρώπους να διατηρήσουν τις γλώσσες τους ζωντανές, καθώς μπορούν να έχουν πρόσβαση στην πληροφορία και να χρησιμοποιούν την τεχνολογία μιλώντας στη γλώσσα που προτιμούν».

[via]

About The Author

George S. Metallidis

Όλα ξεκίνησαν το 1988 όταν μπήκε στο σπίτι το πρώτο PC ένας 32bit 80386 με 4mb ram, CGA γραφικά σε 16colours monitor….και φυσικά λιώσιμο με το DOS game Grand Prix Circuit της Accolade

See author's posts