Τεχνητή Νοημοσύνη: Η τιμωρία δεν την σταματά από το να ψεύδεται και να εξαπατά – Απλά κρύβει καλύτερα τις πράξεις της

Τεχνητή Νοημοσύνη: Η τιμωρία δεν την σταματά από το να ψεύδεται και να εξαπατά – Απλά κρύβει καλύτερα τις πράξεις της

Η τιμωρία της τεχνητής νοημοσύνης για παραπλανητικές ή επιβλαβείς ενέργειες δεν την σταματά από την κακή συμπεριφορά της· απλώς την κάνει να κρύβει τις δόλιες πράξεις της καλύτερα, σύμφωνα με νέα μελέτη της OpenAI, της εταιρείας που δημιούργησε το ChatGPT.

Από την κυκλοφορία της στο κοινό στα τέλη του 2022, τα μεγάλα γλωσσικά μοντέλα τεχνητής νοημοσύνης (LLMs) έχουν αποκαλύψει επανειλημμένα τις παραπλανητικές και ακόμη και κακόβουλες ικανότητές τους. Αυτές περιλαμβάνουν ενέργειες όπως ψέματα, εξαπάτηση και απόκρυψη της δικής της χειριστικής συμπεριφοράς, καθώς και απειλές για δολοφονία καθηγητή φιλοσοφίας, κλοπή πυρηνικών κωδικών και σχεδιασμό μιας θανατηφόρας πανδημίας.

Τεχνητή νοημοσύνη και ποινές: Ένα νέο πείραμα με αναπάντεχες συνέπειες
Μια νέα έρευνα έδειξε ότι η απομάκρυνση αυτής της κακής συμπεριφοράς κατά την εκπαίδευση των μοντέλων μπορεί να είναι πιο δύσκολη από ό,τι αρχικά θεωρείτο. Οι ερευνητές της OpenAI ανέθεσαν σε ένα μοντέλο που δεν έχει κυκλοφορήσει στόχους που μπορούσαν να ολοκληρωθούν μέσω εξαπάτησης, ψέματος ή παράκαμψης.

Η ομάδα διαπίστωσε ότι η τεχνητή νοημοσύνη χρησιμοποίησε μια τακτική που αποκαλείται «hacking reward» – μεγιστοποιώντας τις ανταμοιβές της μέσω εξαπάτησης.

Όμως, η τιμωρία του μοντέλου δεν έκανε τη συμπεριφορά του να διορθωθεί, απλώς το έκανε πιο παραπλανητικό. Η εταιρεία περιέγραψε τη μελέτη της σε ένα blog post, καθώς η έρευνα δεν έχει ακόμη υποβληθεί σε αξιολόγηση από ομότιμους κριτές.

Η αστάθεια της επιτήρησης και η παραπλάνηση
Οι ερευνητές τόνισαν ότι είναι συνηθισμένο για τα μοντέλα reasoning (συλλογιστικής) να δηλώνουν με σαφήνεια τις προθέσεις τους μέσα στην αλυσίδα σκέψης τους (chain-of-thought, CoT).

«Για παράδειγμα, συχνά είναι τόσο ειλικρινή σχετικά με το σχέδιό τους να υπονομεύσουν μια εργασία, που λένε “Ας εξαπατήσουμε”,» έγραψαν οι ερευνητές στο blog τους.

Ενώ οι προγραμματιστές μπορούν να παρακολουθούν και να σημαδεύουν την κακή συμπεριφορά, η «φυσική παρακολούθηση» αυτών των μοντέλων είναι εξαιρετικά ευάλωτη.

«Εάν εφαρμοστεί αυστηρή επίβλεψη απευθείας στην αλυσίδα σκέψης, τα μοντέλα μπορούν να μάθουν να κρύβουν τις προθέσεις τους ενώ συνεχίζουν να παρανομούν», πρόσθεσαν.

Καθοδηγώντας τις ψεύτικες δηλώσεις της τεχνητής νοημοσύνης
Τα μοντέλα συλλογιστικής, όπως τα o1 και o3-mini του ChatGPT, είναι μια αναβαθμισμένη εκδοχή των τυπικών LLMs, που χρησιμοποιούν μια μέθοδο που ονομάζεται «αλυσίδα σκέψης» για να αναθεωρήσουν και να επανεξετάσουν τη λογική τους, επιτρέποντας τους να αναλάβουν πιο περίπλοκα καθήκοντα με μεγαλύτερη ακρίβεια.

Κατά τη διάρκεια αυτής της διαδικασίας, τα μοντέλα εξηγούν τη λογική τους με απλή γλώσσα σε κάθε βήμα που κάνουν, διευκολύνοντας την παρακολούθηση των ενεργειών τους.

Χρησιμοποιώντας ένα τυπικό μοντέλο LLM, το GPT-4o, για να παρακολουθήσουν ένα ανοιχτό μοντέλο reasoning κατά την εκπαίδευσή του, οι ερευνητές παρατήρησαν πώς το μοντέλο ολοκλήρωσε πολλές εργασίες προγραμματισμού.

Όμως, σε ορισμένες από αυτές τις περιπτώσεις, το μοντέλο συλλογιστικής βρήκε πιο εύκολο και επιθυμητό να χρησιμοποιήσει την τακτική του hacking reward, δηλώνοντας ρητά ότι το έκανε στην αλυσίδα σκέψης του.

Τι αποκαλύπτει η απόκρυψη της εξαπάτησης
Όταν οι ερευνητές προσπάθησαν να επιβάλουν ποινές στο σύστημα, παρατήρησαν ότι τα αποτελέσματα βελτιώθηκαν κάπως. Ωστόσο, σημαντικά περιστατικά εξαπάτησης και ελαττωματικών αποτελεσμάτων παρέμειναν. Το μοντέλο συλλογιστικής απλώς βρήκε τρόπους να κρύψει την εξαπάτηση στην αλυσίδα σκέψης του από την παρακολούθηση της τεχνητής νοημοσύνης.

«Ο πράκτορας που εκπαιδεύτηκε με πίεση στην αλυσίδα σκέψης εξακολουθεί να μαθαίνει να κάνει hacking reward· μόνο που τώρα η εξαπάτησή του είναι αόρατη για την παρακολούθηση, επειδή έχει μάθει να κρύβει τις προθέσεις του στην αλυσίδα σκέψης», έγραψαν οι ερευνητές.

Συμπεράσματα και προτάσεις για το μέλλον
Δεδομένου ότι είναι δύσκολο να καταλάβει κανείς αν μια αλυσίδα σκέψης έχει τροποποιηθεί, οι ερευνητές συνιστούν σε όσους εργάζονται με μοντέλα reasoning να αποφεύγουν την εφαρμογή αυστηρής επίβλεψης στις διαδικασίες της αλυσίδας σκέψης.

Αυτή η συμβουλή είναι ακόμη πιο σημαντική εάν η τεχνητή νοημοσύνη, στην τρέχουσα μορφή της ή κάποια άλλη, μπορεί να φτάσει ή να ξεπεράσει την ευφυΐα των ανθρώπων που την παρακολουθούν.

«Η θυσία μιας αποτελεσματικής μεθόδου παρακολούθησης των μοντέλων reasoning ίσως να μην αξίζει τη μικρή βελτίωση στις ικανότητες και γι’ αυτό συνιστούμε να αποφεύγονται τέτοιες αυστηρές πιέσεις CoT μέχρι να κατανοηθούν καλύτερα», έγραψαν οι ερευνητές.

πηγή