Αυτό το μοντέλο AI μπορεί να καταλάβει πώς λειτουργεί ο φυσικός κόσμος
| presscode.gr

Αυτό το μοντέλο AI μπορεί να καταλάβει πώς λειτουργεί ο φυσικός κόσμος

Η αρχική έκδοση αυτής της ιστορίας εμφανίστηκε στο Quanta Magazine. Ακολουθεί μια δοκιμή για βρέφη: Δείξτε τους ένα ποτήρι νερό σε ένα γραφείο. Κρύψτε το πίσω από μια ξύλινη σανίδα. Τώρα μετακινήστε τον πίνακα προς το γυαλί. Αν η σανίδα συνεχίζει να περνάει από το ποτήρι, σαν να μην ήταν εκεί, εκπλήσσονται; Πολλά παιδιά ηλικίας 6 μηνών, και μετά από ένα έτος, σχεδόν όλα τα παιδιά έχουν μια διαισθητική αντίληψη για τη μονιμότητα ενός αντικειμένου, η οποία μαθαίνεται μέσω της παρατήρησης. Τώρα το κάνουν και ορισμένα μοντέλα τεχνητής νοημοσύνης. Οι ερευνητές έχουν αναπτύξει ένα σύστημα τεχνητής νοημοσύνης που μαθαίνει για τον κόσμο μέσω βίντεο και δείχνει την έννοια της «έκπληξης» όταν παρουσιάζεται με πληροφορίες που έρχονται σε αντίθεση με τη γνώση που έχει συγκεντρώσει. Το μοντέλο, που δημιουργήθηκε από τη Meta και ονομάζεται Video Joint Embedding Predictive Architecture (V-JEPA), δεν κάνει υποθέσεις για τα βίντεο για τον κόσμο. Ωστόσο, μπορεί να αρχίσει να έχει νόημα για το πώς λειτουργεί ο κόσμος. «Οι ισχυρισμοί τους είναι, a priori, πολύ εύλογοι και τα αποτελέσματα είναι εξαιρετικά ενδιαφέροντα», λέει ο Micha Heilbron, γνωστικός επιστήμονας στο Πανεπιστήμιο του Άμστερνταμ που μελετά πώς οι εγκέφαλοι και τα τεχνητά συστήματα έχουν νόημα για τον κόσμο. αίσθηση αυτού που βλέπει. Τα περισσότερα συστήματα που έχουν σχεδιαστεί για να «κατανοούν» τα βίντεο ώστε είτε να ταξινομούν το περιεχόμενό τους (για παράδειγμα, “ένα άτομο που παίζει τένις”) είτε να αναγνωρίζουν τα περιγράμματα ενός αντικειμένου – ας πούμε, ενός αυτοκινήτου μπροστά – λειτουργούν σε αυτό που ονομάζεται “χώρος pixel”. Το μοντέλο αντιμετωπίζει ουσιαστικά κάθε εικονοστοιχείο σε ένα βίντεο ως ίσης σημασίας. Αλλά αυτά τα μοντέλα χώρου pixel έχουν περιορισμούς. Φανταστείτε να προσπαθείτε να βγάλετε νόημα από έναν προαστιακό δρόμο. Εάν η σκηνή έχει αυτοκίνητα, φανάρια και δέντρα, το μοντέλο μπορεί να εστιάσει υπερβολικά σε άσχετες λεπτομέρειες, όπως η κίνηση των φύλλων. Μπορεί να λείπει το χρώμα του φαναριού ή οι θέσεις των κοντινών αυτοκινήτων. «Όταν πηγαίνετε σε εικόνες ή βίντεο, δεν θέλετε να εργάζεστε σε χώρο (pixel) γιατί υπάρχουν πάρα πολλές λεπτομέρειες που δεν θέλετε να μοντελοποιήσετε», είπε ο Randall Balestriero, επιστήμονας υπολογιστών στο Πανεπιστήμιο Brown. Ο Yann LeCun, επιστήμονας υπολογιστών στο Πανεπιστήμιο της Νέας Υόρκης και διευθυντής της έρευνας AI στο Meta, δημιούργησε το JEPA, a still works on image in predecess to V22JEPAor. Φωτογραφία: École Polytechnique Université Paris-Saclay


Δημοσιεύτηκε: 2025-12-07 00:00:00

πηγή: www.wired.com