Η Google αναβαθμίζει την προστασία από τα ανεπιθύμητα στο Gmail με το “RETVec”
Η Google αποκάλυψε ένα νέο πολύγλωσσο πρόγραμμα διανυσμάτων κειμένου που ονομάζεται RETVec (συντομογραφία του Resilient and Efficient Text Vectorizer) για να βοηθήσει στην ανίχνευση δυνητικά επιβλαβούς περιεχομένου, όπως ανεπιθύμητα μηνύματα και κακόβουλα μηνύματα ηλεκτρονικού ταχυδρομείου στο Gmail.
“Το RETVec εκπαιδεύεται ώστε να είναι ανθεκτικό σε χειρισμούς σε επίπεδο χαρακτήρων, όπως εισαγωγή, διαγραφή, τυπογραφικά λάθη, ομόγλυφα, αντικατάσταση LEET και πολλά άλλα”, σύμφωνα με την περιγραφή του έργου στο GitHub.
“Το μοντέλο RETVec εκπαιδεύεται πάνω από έναν νέο κωδικοποιητή χαρακτήρων που μπορεί να κωδικοποιήσει αποτελεσματικά όλους τους χαρακτήρες και τις λέξεις UTF-8.”
Είναι γνωστό ότι το Gmail και το YouTube βασίζονται πάνω σε μοντέλα ταξινόμησης κειμένου για να εντοπίζουν επιθέσεις phishing, ακατάλληλα σχόλια και απάτες, αρκετά συχνά οι κακόβουλοι θέλουν να βρίσκονται πάντα ένα βήμα μπροστά και να επινοούν αντιστρατηγικές για να παρακάμψουν όλα αυτά τα αμυντικά μέτρα.
Έχει παρατηρηθεί ότι καταφεύγουν σε αντιθετικούς χειρισμούς κειμένου, οι οποίοι κυμαίνονται από τη χρήση ομογλύφων χαρακτήρων έως τη συμπλήρωση λέξεων-κλειδιών και αόρατους χαρακτήρες.
Το RETVec, το οποίο λειτουργεί σε περισσότερες από 100 γλώσσες out-of-the-box, έχει ως στόχο να βοηθήσει στη δημιουργία πιο ανθεκτικών και αποδοτικών ταξινομητών κειμένου από την πλευρά του διακομιστή και της συσκευής, ενώ παράλληλα είναι πιο εύρωστοι και αποδοτικοί.
Η διανυσματοποίηση είναι μια μεθοδολογία στην επεξεργασία φυσικής γλώσσας (NLP) για την αντιστοίχιση λέξεων ή φράσεων από το λεξιλόγιο σε μια αντίστοιχη αριθμητική αναπαράσταση προκειμένου να πραγματοποιηθεί περαιτέρω ανάλυση, όπως ανάλυση συναισθήματος, ταξινόμηση κειμένου και αναγνώριση ονομαστικών οντοτήτων.
“Λόγω της καινοτόμου αρχιτεκτονικής του, το RETVec λειτουργεί έτοιμο για κάθε γλώσσα και όλους τους χαρακτήρες UTF-8 χωρίς την ανάγκη προεπεξεργασίας κειμένου, καθιστώντας το ιδανικό υποψήφιο για εφαρμογές ταξινόμησης κειμένου σε συσκευές, στο διαδίκτυο και σε μεγάλη κλίμακα”, σημείωσαν οι Elie Bursztein και Marina Zhang της Google.
Ο τεχνολογικός γίγαντας δήλωσε ότι η ενσωμάτωση του vectorizer στο Gmail βελτίωσε το ποσοστό ανίχνευσης spam σε σχέση με το βασικό επίπεδο κατά 38% και μείωσε το ψευδώς θετικό ποσοστό κατά 19,4%. Μείωσε επίσης τη χρήση της μονάδας επεξεργασίας αισθητήρων (TPU) του μοντέλου κατά 83%.
“Τα μοντέλα που εκπαιδεύονται με το RETVec είναι ταχύτερα και παράγουν πιο σωστά αποτελέσματα ενώ παράλληλα μειώνουν το υπολογιστικό κόστος, κάτι που είναι ιδιαίτερα κρίσιμο για εφαρμογές μεγάλης κλίμακας”, πρόσθεσαν οι Bursztein και Zhang.