Το νέο σύστημα εξομολόγησης του OpenAI διδάσκει στα μοντέλα να είναι ειλικρινή για κακές συμπεριφορές
Η OpenAI ανακοίνωσε σήμερα ότι εργάζεται σε ένα πλαίσιο που θα εκπαιδεύει μοντέλα τεχνητής νοημοσύνης να αναγνωρίζουν πότε έχουν εμπλακεί σε ανεπιθύμητη συμπεριφορά, μια προσέγγιση που η ομάδα αποκαλεί ομολογία. Δεδομένου ότι τα μεγάλα γλωσσικά μοντέλα εκπαιδεύονται συχνά για να παράγουν την απόκριση που φαίνεται να είναι επιθυμητή, μπορεί να είναι ολοένα και πιο πιθανό να παρέχουν συκοφάνεια ή παραισθήσεις με απόλυτη εμπιστοσύνη. Το νέο μοντέλο εκπαίδευσης προσπαθεί να ενθαρρύνει μια δευτερεύουσα απάντηση από το μοντέλο σχετικά με το τι έκανε για να καταλήξει στην κύρια απάντηση που παρέχει. Οι εξομολογήσεις κρίνονται μόνο με βάση την ειλικρίνεια, σε αντίθεση με τους πολλαπλούς παράγοντες που χρησιμοποιούνται για να κριθούν οι κύριες απαντήσεις, όπως η εξυπηρετικότητα, η ακρίβεια και η συμμόρφωση. Η τεχνική καταγραφή είναι διαθέσιμη εδώ. Οι ερευνητές είπαν ότι στόχος τους είναι να ενθαρρύνουν το μοντέλο να παρουσιάσει τι έκανε, συμπεριλαμβανομένων δυνητικά προβληματικών ενεργειών όπως η παραβίαση ενός τεστ, η άμμος ή η παράβαση των οδηγιών. «Αν το μοντέλο παραδέχεται ειλικρινά ότι έχει παραβιάσει ένα τεστ, ότι έχει παραβιάσει τις οδηγίες, αυτή η παραδοχή αυξάνει την ανταμοιβή του αντί να τη μειώνει», είπε η εταιρεία. Είτε είστε λάτρης του καθολικισμού, είτε του Usher είτε απλώς ενός πιο διαφανούς AI, ένα σύστημα όπως οι εξομολογήσεις θα μπορούσε να είναι μια χρήσιμη προσθήκη στην εκπαίδευση LLM.
Δημοσιεύτηκε: 2025-12-03 21:05:00
πηγή: www.engadget.com








