![]()
Η Apple συνεχίζει να εντυπωσιάζει στον τομέα της τεχνητής νοημοσύνης, αυτή τη φορά εστιάζοντας στην πρακτική εφαρμογή της AI μέσα στην καθημερινότητά μας. Το νέο μοντέλο Ferret αποτελεί την εξέλιξη των προηγούμενων ερευνητικών προσπαθειών της εταιρείας, στοχεύοντας σε ένα πολύ συγκεκριμένο πρόβλημα: την κατανόηση του τι συμβαίνει στην οθόνη μιας συσκευής. Είτε πρόκειται για ένα iPhone, είτε για έναν ιστότοπο ή μια εφαρμογή σε desktop, το Ferret μπορεί να «διαβάσει» τα στοιχεία της οθόνης και να αλληλεπιδράσει μαζί τους σαν να ήταν άνθρωπος.
Το κλειδί της επιτυχίας του Ferret κρύβεται στην αρχιτεκτονική του. Με μόλις 3 δισεκατομμύρια παραμέτρους, είναι αρκετά ελαφρύ ώστε να τρέχει τοπικά στη συσκευή (on-device). Αυτό σημαίνει ότι η επεξεργασία των δεδομένων δεν γίνεται σε κάποιον απομακρυσμένο διακομιστή, αλλά μέσα στο ίδιο το iPhone. Το αποτέλεσμα είναι ασύλληπτες ταχύτητες απόκρισης και, το σημαντικότερο, αδιαπραγμάτευτη ιδιωτικότητα, καθώς τα στιγμιότυπα της οθόνης σας δεν φεύγουν ποτέ από το κινητό.
Πώς το Ferret «καταλαβαίνει» την οθόνη σας
Η μεγαλύτερη πρόκληση για τα μοντέλα τεχνητής νοημοσύνης στις οθόνες κινητών είναι το μέγεθος των στοιχείων. Τα εικονίδια και τα κείμενα είναι συχνά πολύ μικρά για να τα αναγνωρίσει μια τυπική AI. Η Apple έλυσε αυτό το πρόβλημα χρησιμοποιώντας μια καινοτόμο τεχνική zoom-in. Το μοντέλο κάνει μια πρώτη πρόβλεψη για το πού βρίσκεται το στοιχείο που αναζητά, «εστιάζει» σε εκείνη την περιοχή και στη συνέχεια αναλύει την εικόνα σε υψηλότερη ανάλυση.

Επιπλέον, το Ferret-UI Lite χρησιμοποιεί τη μέθοδο Chain-of-Thought (CoT) reasoning. Αυτό σημαίνει ότι δεν δίνει απλώς μια τυχαία απάντηση, αλλά «σκέφτεται» βήμα-βήμα τις ενέργειες που πρέπει να κάνει. Για παράδειγμα, αν του ζητήσετε να αγοράσει ένα εισιτήριο, θα αναγνωρίσει το κουμπί της αναζήτησης, θα εντοπίσει τα πεδία ημερομηνίας και θα προχωρήσει στην ολοκλήρωση της διαδικασίας με λογική συνέχεια.
Στις δοκιμές αξιολόγησης (benchmarks), το Ferret-UI Lite κατάφερε να ξεπεράσει μοντέλα που είναι έως και 24 φορές μεγαλύτερα σε μέγεθος. Στο τεστ ScreenSpot-Pro, πέτυχε ακρίβεια 53,3%, αφήνοντας πίσω του ανταγωνιστικά μοντέλα με υπερδιπλάσιες παραμέτρους. Αυτή η απόδοση αποδεικνύει ότι η σωστή εκπαίδευση με ποιοτικά δεδομένα είναι πιο σημαντική από το απλό μέγεθος ενός μοντέλου.
Το μέλλον της Siri και η αυτόνομη πλοήγηση
Η δημιουργία του Ferret δεν είναι απλώς μια ακαδημαϊκή άσκηση. Είναι το θεμέλιο για τη νέα γενιά της Siri. Φανταστείτε να λέτε στο κινητό σας «βρες εκείνο το φόρεμα που είδα στο Instagram και πρόσθεσέ το στο καλάθι μου στο Amazon» και η AI να μπορεί να ανοίξει τις εφαρμογές, να αναγνωρίσει το αντικείμενο και να εκτελέσει τις ενέργειες αυτόματα.
Παρόλο που το μοντέλο βρίσκεται ακόμα σε ερευνητικό στάδιο, οι δυνατότητές του στην πλοήγηση GUI (Graphical User Interface) είναι εντυπωσιακές. Μπορεί να διαχειριστεί σύνθετες εργασίες σε Android, iOS και Web, δείχνοντας ότι η Apple σκοπεύει να προσφέρει μια ενιαία εμπειρία τεχνητής νοημοσύνης σε όλο το οικοσύστημά της. Η χρήση Reinforcement Learning με επαληθεύσιμες ανταμοιβές διασφαλίζει ότι το μοντέλο μαθαίνει από τα λάθη του και βελτιώνεται συνεχώς στην εκτέλεση εντολών.
Το Ferret αποτελεί ένα τεράστιο βήμα προς τα εμπρός για την Apple Intelligence. Είναι η απόδειξη ότι το μέλλον της τεχνητής νοημοσύνης δεν βρίσκεται μόνο στα γιγαντιαία data centers, αλλά στην παλάμη του χεριού μας, κάνοντας τις συσκευές μας πιο έξυπνες, πιο γρήγορες και πιο προσωπικές από ποτέ.







