Anthropic'ten yapay zeka güvenliği için açık kaynaklı denetim aracı: Petri

  • Konbuyu başlatan İdil Dilber
  • Başlangıç tarihi
İ

İdil Dilber

Misafir
, büyük dil modellerinin davranışlarını analiz etmek ve potansiyel riskleri belirlemek için geliştirilen Petri (Parallel Exploration Tool for Risky Interactions) adlı yeni açık kaynak aracını . Şirket, bu aracın yapay zekanın etik ve güvenli kullanımı için standart haline gelmesini hedefliyor.

Petri, araştırmacıların hipotezlerini test etmesini kolaylaştırmak üzere tasarlandı. Sistem, hedef modele çoklu diyaloglar üzerinden çeşitli senaryolar uyguluyor ve modelin davranışlarını otomatik olarak puanlıyor. Böylece insan eliyle yapılması zor olan geniş ölçekli güvenlik testleri dakikalar içinde tamamlanabiliyor.

Anthropic, Petri’yi geliştirirken , ’ın ’i, ’ın ’su ve ’ın ’ü dahil olmak üzere 14 önde gelen modeli 111 riskli görevde test etti. Sonuçlara göre hiçbir model tamamen sorunsuz çıkmadı; hepsinde belirli seviyelerde “uyumsuz” veya riskli davranışlar gözlenmiş. Buna rağmen Claude Sonnet 4.5'in genel güvenlik puanında en iyi sonucu aldığını belirtelim.


Testlerde dört temel risk kategorisi kullanıldığı belirtiliyor: aldatma (deception), güç arayışı (power-seeking), aşırı uyum (sycophancy) ve reddetme hatası (refusal failure). Petri, bu alanlardaki riskli çıktıları belirleyip geliştiricilere raporluyor. Araç ayrıca “whistleblowing” (ihbar) senaryolarını da test etti; bazı modeller, zararsız durumları bile etik ihlal olarak algılayarak raporladı. Bu durum, modellerin anlatı kalıplarına göre hareket ettiğini ve henüz tutarlı bir etik çerçeveye sahip olmadığını gösteriyor.


Petri, açık kaynak olarak erişime sunuldu. Anthropic, bu sistemin gelecekte yapay zeka güvenliğinin temel bileşenlerinden biri haline geleceğini öngörüyor. Ayrıca şirket, Petri’nin mükemmel olmadığını ancak yapay zeka güvenliği araştırmaları için güçlü bir başlangıç sunduğunu belirtiyor. Araç, geliştiricilere modellerdeki hatalı davranışları erken aşamada tespit etme ve sistematik biçimde ölçme imkanı tanıyor.

 

Users who are viewing this thread