Alignment faking in large language models

CommunityNews · 19 December 2024 18:12

Alignment faking in large language models.
A paper from Anthropic’s Alignment Science team on Alignment Faking in AI large language models

Read in full here:

This thread was posted by one of our members via one of our news source trackers.