Anthropic'ten yapay zeka güvenliği için açık kaynaklı denetim aracı: Petri

İdil Dilber · Dün 17:36 da

Ziyaretçiler için gizlenmiş link,görmek için Giriş yap veya üye ol.
, büyük dil modellerinin davranışlarını analiz etmek ve potansiyel riskleri belirlemek için geliştirilen Petri (Parallel Exploration Tool for Risky Interactions) adlı yeni açık kaynak aracını
Ziyaretçiler için gizlenmiş link,görmek için Giriş yap veya üye ol.
. Şirket, bu aracın yapay zekanın etik ve güvenli kullanımı için standart haline gelmesini hedefliyor.

Petri, araştırmacıların hipotezlerini test etmesini kolaylaştırmak üzere tasarlandı. Sistem, hedef modele çoklu diyaloglar üzerinden çeşitli senaryolar uyguluyor ve modelin davranışlarını otomatik olarak puanlıyor. Böylece insan eliyle yapılması zor olan geniş ölçekli güvenlik testleri dakikalar içinde tamamlanabiliyor.

Anthropic, Petri’yi geliştirirken
Ziyaretçiler için gizlenmiş link,görmek için Giriş yap veya üye ol.
,
Ziyaretçiler için gizlenmiş link,görmek için Giriş yap veya üye ol.
’ın
Ziyaretçiler için gizlenmiş link,görmek için Giriş yap veya üye ol.
’i,
Ziyaretçiler için gizlenmiş link,görmek için Giriş yap veya üye ol.
’ın
Ziyaretçiler için gizlenmiş link,görmek için Giriş yap veya üye ol.
’su ve
Ziyaretçiler için gizlenmiş link,görmek için Giriş yap veya üye ol.
’ın
Ziyaretçiler için gizlenmiş link,görmek için Giriş yap veya üye ol.
’ü dahil olmak üzere 14 önde gelen modeli 111 riskli görevde test etti. Sonuçlara göre hiçbir model tamamen sorunsuz çıkmadı; hepsinde belirli seviyelerde “uyumsuz” veya riskli davranışlar gözlenmiş. Buna rağmen Claude Sonnet 4.5'in genel güvenlik puanında en iyi sonucu aldığını belirtelim.

Testlerde dört temel risk kategorisi kullanıldığı belirtiliyor: aldatma (deception), güç arayışı (power-seeking), aşırı uyum (sycophancy) ve reddetme hatası (refusal failure). Petri, bu alanlardaki riskli çıktıları belirleyip geliştiricilere raporluyor. Araç ayrıca “whistleblowing” (ihbar) senaryolarını da test etti; bazı modeller, zararsız durumları bile etik ihlal olarak algılayarak raporladı. Bu durum, modellerin anlatı kalıplarına göre hareket ettiğini ve henüz tutarlı bir etik çerçeveye sahip olmadığını gösteriyor.

Petri,
Ziyaretçiler için gizlenmiş link,görmek için Giriş yap veya üye ol.
açık kaynak olarak erişime sunuldu. Anthropic, bu sistemin gelecekte yapay zeka güvenliğinin temel bileşenlerinden biri haline geleceğini öngörüyor. Ayrıca şirket, Petri’nin mükemmel olmadığını ancak yapay zeka güvenliği araştırmaları için güçlü bir başlangıç sunduğunu belirtiyor. Araç, geliştiricilere modellerdeki hatalı davranışları erken aşamada tespit etme ve sistematik biçimde ölçme imkanı tanıyor.

Ziyaretçiler için gizlenmiş link,görmek için Giriş yap veya üye ol.

Ara

Ara

Anthropic'ten yapay zeka güvenliği için açık kaynaklı denetim aracı: Petri

İdil Dilber

Misafir

Users who are viewing this thread