מחקר חדש של חברת Anthropic חושף שיטה חדשנית המאפשרת "להנדס" אישיות של מודלים מתקדמים באמצעות וקטורים ייעודיים – ובכך למנוע מראש התבססות של תכונות כמו רשעות, חנופה או הזיות בתחומי הבינה המלאכותית. השיטה מספקת הגנה כפולה: היא מאפשרת לנטר שינויים מסוכנים באישיות המודל, לאתר מוקדם בעיות בתהליך הלמידה – ולמתן בעיות לפני שהן גולשות לעולם האמיתי (טכנולוגיה)