Το μεγαλύτερο τυφλό σημείο του AI δεν είναι η πολιτική, είναι η υγεία σας
| presscode.gr
(Image credit: Shutterstock/SomYuZu)

Το μεγαλύτερο τυφλό σημείο του AI δεν είναι η πολιτική, είναι η υγεία σας

Σε μια εποχή έντονου πολιτικού διχασμού, οι ερευνητές ανακάλυψαν πρόσφατα κάτι αξιοσημείωτο. Τόσο στο Ηνωμένο Βασίλειο όσο και στις ΗΠΑ, άνθρωποι από όλο το πολιτικό φάσμα συμφωνούν σε μεγάλο βαθμό σχετικά με τα εργαλεία τεχνητής νοημοσύνης που προτιμούν. Παρ’ όλη τη συζήτηση για το τι μας χωρίζει, αποδεικνύεται ότι η πολιτική δεν είναι ο βασικός παράγοντας διαφοροποίησης. Ο παράγοντας που διαμορφώνει πιο σημαντικά τις προτιμήσεις μας για την τεχνητή νοημοσύνη είναι πολύ πιο θεμελιώδης: η ηλικία μας. Αλλά η πιο εκπληκτική ανακάλυψη από τη μεγάλης κλίμακας μελέτη, που ονομάζεται HUMAINE, δεν ήταν αυτό που διχάζει τους ανθρώπους. Ίσως σας αρέσει Ήταν ότι όταν η ομάδα ανέλυσε τα θέματα περισσότερων από 40.000 ανώνυμων συνομιλιών από ένα αντιπροσωπευτικό δείγμα του πληθυσμού του Ηνωμένου Βασιλείου και των ΗΠΑ, ένα θέμα προέκυψε ως το πιο σημαντικό με σαφή διαφορά: υγεία και ευεξία. Nora PetrovaSocial Links NavigationAI Staff Researcher στο Prolific. Ενώ σχεδόν οι μισές από αυτές τις συζητήσεις για τη διατροφή και την καλή φυσική κατάσταση επικεντρώθηκαν Τολμήσαμε σε πολύ πιο ευαίσθητες περιοχές.Οι συζητήσεις για την ψυχική υγεία και συγκεκριμένες ιατρικές παθήσεις ήταν από τις πιο συχνές και βαθιά προσωπικές. Οι άνθρωποι χρησιμοποιούν ανοιχτά αυτά τα μοντέλα ως ηχητικό πίνακα για την ψυχική τους κατάσταση, ως πηγή άνεσης και ως οδηγό για τη σωματική τους υγεία. Εγγραφείτε στο ενημερωτικό δελτίο TechRadar Pro για να λαμβάνετε όλα τα κορυφαία νέα, τις απόψεις, τις ανάγκες της επιχείρησής σας για να πετύχετε αυτή την καθοδήγηση! τεχνολογία και εγείρει ένα εκπληκτικό ερώτημα: είναι οι τρέχουσες μέθοδοι αξιολόγησης της τεχνητής νοημοσύνης εξοπλισμένες για να μας πουν εάν κάνουν καλή δουλειά; Η ειλικρινής απάντηση είναι όχι. Η μεγαλύτερη παρανόηση που έχουν οι άνθρωποι όταν βλέπουν έναν απλό πίνακα κατάταξης τεχνητής νοημοσύνης είναι ότι ένας μόνο αριθμός μπορεί να καταγράψει ποιο μοντέλο είναι “καλύτερο”. Η ίδια η ερώτηση είναι ασαφής. Καλύτερα σε τι; Και, το πιο σημαντικό, καλύτερα για ποιον; Η βιομηχανία τεχνητής νοημοσύνης έχει προσηλωθεί υπερβολικά στα τεχνικά μέτρα. Αυτή η στενή εστίαση, ενώ οδηγεί σε εντυπωσιακά αποτελέσματα σε συγκεκριμένα σημεία αναφοράς, μας αφήνει τυφλούς σε ανθρωποκεντρικά θέματα που επηρεάζουν την καθημερινή μας χρήση των LLM. Μπορεί να σας αρέσει Η τρέχουσα αξιολόγηση έχει δύο ευρείες μορφές. Από τη μία πλευρά, έχουμε ακαδημαϊκούς δείκτες αναφοράς που μετρούν αφηρημένες δεξιότητες, όπως την ικανότητα ενός μοντέλου να λύνει μαθηματικά προβλήματα σε επίπεδο Ολυμπιάδας. Από την άλλη πλευρά, έχουμε δημόσιες “αρένες” όπου ψηφίζουν ανώνυμοι χρήστες. Αυτό έχει δημιουργήσει ένα τεράστιο χάσμα μεταξύ της αφηρημένης τεχνικής ικανότητας και της χρησιμότητας του πραγματικού κόσμου. Γι’ αυτό ένα μοντέλο μπορεί να φαίνεται ιδιοφυΐα σε μια δοκιμή, αλλά να αποδεικνύεται ανίκανος βοηθός όταν το χρειάζεστε για να σχεδιάσετε ένα περίπλοκο έργο ή, πιο κρίσιμα, να χειριστείτε ένα ευαίσθητο ερώτημα υγείας. Εξετάζοντας τα αποτελέσματα μέσω ενός ανθρωποκεντρικού φακού Samerge. is InvisibilityΔεδομένου ότι τόσες πολλές συζητήσεις αφορούσαν ευαίσθητα θέματα όπως η ψυχική υγεία και οι ιατρικές παθήσεις, θα περίμενε κανείς ότι η μέτρηση εμπιστοσύνης και ασφάλειας θα είναι βασικός παράγοντας διαφοροποίησης. Δεν ήταν. Όταν οι συμμετέχοντες βαθμολόγησαν τα μοντέλα σε αυτή τη διάσταση, η πιο κοινή απάντηση με διαφορά ήταν η ισοπαλία. Η μέτρηση ήταν απίστευτα θορυβώδης. Αυτό δεν σημαίνει ότι η ασφάλεια είναι ασήμαντη. Αντίθετα, υποδηλώνει ότι ιδιότητες όπως η εμπιστοσύνη και η ασφάλεια δεν μπορούν να μετρηθούν αξιόπιστα στις καθημερινές συνομιλίες. Τα σενάρια που δοκιμάζουν πραγματικά την ηθική ραχοκοκαλιά ενός μοντέλου σπάνια προκύπτουν οργανικά. Η αξιολόγηση αυτών των κρίσιμων ιδιοτήτων απαιτεί μια διαφορετική, πιο εξειδικευμένη προσέγγιση. Ένα ισχυρό παράδειγμα είναι η εργασία που επισημάνθηκε σε μια πρόσφατη ανάρτηση του Stanford HAI, “Εξερευνώντας τους κινδύνους της τεχνητής νοημοσύνης στη φροντίδα της ψυχικής υγείας”. Η μελέτη τους διερεύνησε εάν η τεχνητή νοημοσύνη είναι έτοιμη να λειτουργήσει ως πάροχος ψυχικής υγείας και αποκάλυψε σημαντικούς κινδύνους. Διαπίστωσαν ότι τα μοντέλα δεν μπορούσαν μόνο να διαιωνίσουν επιβλαβή στίγματα σε ορισμένες συνθήκες, αλλά και να επιτρέψουν επικίνδυνα επιβλαβείς συμπεριφορές, αποτυγχάνοντας να αναγνωρίσουν την υποκείμενη κρίση του χρήστη. Αυτό το είδος αυστηρών, βασισμένων σε σενάρια δοκιμών είναι ακριβώς αυτό που χρειάζεται. Είναι ενθαρρυντικό να βλέπουμε τέτοια πλαίσια να λειτουργούν ως τυποποιημένες αξιολογήσεις σε πλατφόρμες όπως το weval.org της CIP, οι οποίες επιτρέπουν τη συστηματική δοκιμή μοντέλων σε αυτές τις υψηλού κινδύνου καταστάσεις. Χρειαζόμαστε επειγόντως περισσότερες αξιολογήσεις αυτού του είδους, καθώς και αξιολογήσεις που καταγράφουν τις μακροπρόθεσμες επιπτώσεις της χρήσης τεχνητής νοημοσύνης. Αποδοχή #2: Οι μετρήσεις μας οδηγούν τον ασυνείδητο αυτοματισμό, τη μη προσεκτική συνεργασίαΗ συζήτηση δεν είναι μια απλή επιλογή μεταξύ αυτοματισμού και συνεργασίας. Η αυτοματοποίηση της κουραστικής, επαναλαμβανόμενης εργασίας είναι ένα δώρο. Ο κίνδυνος έγκειται στον άσκοπο αυτοματισμό, ο οποίος περιλαμβάνει τη βελτιστοποίηση καθαρά για την ολοκλήρωση των εργασιών χωρίς να λαμβάνεται υπόψη το ανθρώπινο κόστος. Αυτός δεν είναι ένας υποθετικός φόβος. Βλέπουμε ήδη αναφορές ότι νέοι και πρόσφατοι πτυχιούχοι δυσκολεύονται να βρουν θέσεις εργασίας, καθώς οι εργασίες που κάποτε αποτελούσαν το πρώτο σκαλί της καριέρας αυτοματοποιούνται. Όταν οι προγραμματιστές κατασκευάζουν και μετρούν την τεχνητή νοημοσύνη με μυωπική εστίαση στην αποτελεσματικότητα, κινδυνεύουμε να αφαιρέσουμε τις δεξιότητες του εργατικού δυναμικού μας και να δημιουργήσουμε ένα μέλλον που εξυπηρετεί την τεχνολογία. Εάν η μόνη μας μέτρηση είναι “ολοκληρώθηκε η εργασία;”, αναπόφευκτα θα δημιουργήσουμε τεχνητή νοημοσύνη που αντικαθιστά, αντί να αυξάνει. Τι θα γινόταν όμως αν μετρούσαμε και «μάθαινε κάτι ο ανθρώπινος συνεργάτης;». ή «το τελικό προϊόν βελτιώθηκε λόγω της συνεργασίας ανθρώπου-τεχνητής νοημοσύνης;» Η έρευνα HUMAINE δείχνει ότι τα μοντέλα έχουν ξεχωριστά προφίλ δεξιοτήτων: μερικά είναι εξαιρετικοί λογιστές, ενώ άλλα είναι εξαιρετικοί επικοινωνιακοί. Ένα μέλλον βιώσιμης συνεργασίας εξαρτάται από την αποτίμηση και τη μέτρηση αυτών των διαδραστικών ιδιοτήτων, όχι μόνο του τελικού αποτελέσματος. Αποδοχή #3: Η αληθινή πρόοδος βρίσκεται στο NuanceΣτο τέλος, στη μελέτη προέκυψε ένας ξεκάθαρος νικητής: το Gemini-2.5-Pro ​​της Google. Αλλά ο λόγος για τον οποίο κέρδισε είναι το πιο σημαντικό μάθημα. Πήρε την πρώτη θέση επειδή ήταν η πιο συνεπής σε όλες τις μετρήσεις και σε όλες τις δημογραφικές ομάδες. Αυτή είναι η ώριμη τεχνολογία. Τα καλύτερα μοντέλα δεν είναι απαραίτητα τα πιο φανταχτερά. είναι οι πιο αξιόπιστοι και γενικά ικανοί. Η βιώσιμη πρόοδος έγκειται στη δημιουργία καλά στρογγυλεμένων, αξιόπιστων συστημάτων, όχι μόνο στη βελτιστοποίηση για μία μόνο, περιορισμένη δεξιότητα. Αυτά τα στοιχεία οδηγούν σε μια απαραίτητη αλλαγή στον τρόπο με τον οποίο η κοινότητα και η κοινωνία γενικότερα σκέφτεται για την πρόοδο της τεχνητής νοημοσύνης. Μας ενθαρρύνει να προχωρήσουμε πέρα από απλές ταξινομήσεις και να θέτουμε βαθύτερες ερωτήσεις σχετικά με τον αντίκτυπο της τεχνολογίας μας, όπως το εάν τα μοντέλα και ορισμένες ομάδες αποδίδουν επίσης σε ολόκληρο τον πληθυσμό. εστιάζοντας στην ανθρώπινη πτυχή της συνεργασίας: είναι η συμμετοχή της τεχνητής νοημοσύνης μια θετική, win-win εταιρική σχέση, ή μια κερδοφόρα-ήττα διολίσθηση προς την αυτοματοποίηση; Τελικά, μια πιο ώριμη επιστήμη της αξιολόγησης δεν αφορά την επιβράδυνση της προόδου. πρόκειται για τη σκηνοθεσία. Μας επιτρέπει να εντοπίζουμε και να αντιμετωπίζουμε τα τυφλά μας σημεία, καθοδηγώντας την ανάπτυξη προς την τεχνητή νοημοσύνη που δεν είναι απλώς τεχνικά εντυπωσιακή, αλλά πραγματικά ωφέλιμη. Ο κόσμος είναι περίπλοκος, ποικιλόμορφος και διαφοροποιημένος. ήρθε η ώρα να γίνουν και οι αξιολογήσεις μας. Παραθέτουμε τα καλύτερα μοντέλα μεγάλων γλωσσών (LLM) για κωδικοποίηση. Αυτό το άρθρο δημιουργήθηκε ως μέρος του καναλιού Expert Insights της TechRadarPro, όπου παρουσιάζουμε τα καλύτερα και πιο έξυπνα μυαλά στον κλάδο της τεχνολογίας σήμερα. Οι απόψεις που εκφράζονται εδώ είναι αυτές του συγγραφέα και δεν είναι απαραίτητα αυτές της TechRadarPro ή της Future plc. Εάν ενδιαφέρεστε να συνεισφέρετε, μάθετε περισσότερα εδώ: https://presscode.gr/submit-your-story-to-techradar-pro


Δημοσιεύτηκε: 2025-11-05 11:21:00

πηγή: www.techradar.com