Investing.com — Anthropic, Salı günü Claude Fable 5’i piyasaya sürdü. Şirket, bunu genel kullanım için güvenli hale getirilmiş bir Mythos sınıfı model olarak tanımladı. Yeni modelin, şirketin kamuya açıkladığı tüm modeller arasında en yüksek yetenekleri gösterdiği belirtildi.
Anthropic’e göre Fable 5, test edilen neredeyse tüm yapay zeka yetenek ölçütlerinde en üst düzeyde performans sergiliyor. Model, yazılım mühendisliği, bilgi çalışması, görsel algı, bilimsel araştırma ve diğer alanlarda güçlü performans gösteriyor. Şirket, modelin diğer modellerine göre avantajının görev uzunluğu ve karmaşıklığı arttıkça büyüdüğünü söyledi.
Sürüm, belirli sorguları şirketin bir sonraki en yetenekli modeli olan Claude Opus 4.8’e yönlendiren yeni güvenlik önlemleri içeriyor. Bu güvenlik önlemleri ortalama olarak oturumların yüzde 5’inden azında devreye giriyor. Bununla birlikte Anthropic, bazen zararsız istekleri de yakaladıklarını kabul etti. Şirket, güvenli ve hızlı bir sürüm sağlamak için güvenlik önlemlerini muhafazakar bir şekilde ayarladığını söyledi.
Bu arada Anthropic, küçük bir siber savunma uzmanı ve altyapı sağlayıcı grubu için Claude Mythos 5’i de başlattı. Mythos 5, Fable 5 ile aynı temel modeli kullanıyor ancak bazı alanlarda güvenlik önlemleri kaldırılmış durumda. Model başlangıçta ABD Hükümeti ile işbirliği içinde Project Glasswing aracılığıyla Claude Mythos Preview’a bir yükseltme olarak devreye girecek. Anthropic, Mythos 5’e erişimi daha geniş bir güvenilir erişim programı aracılığıyla genişletmeyi planlıyor.
Her iki model de milyon giriş jetonu başına 10 dolar ve milyon çıkış jetonu başına 50 dolar fiyatlandırılıyor. Bu, Claude Mythos Preview fiyatının yarısından daha az.
İlk testlerde Stripe, Fable 5’in 50 milyon satırlık bir Ruby kod tabanında kod tabanı çapında bir geçişi bir günde tamamladığını bildirdi. Bu görev manuel olarak bir ekibe iki aydan fazla zaman alırdı. Cognition’ın FrontierCode değerlendirmesinde Fable 5, öncü modeller arasında en yüksek skoru elde etti.
Hebbia’nın üst düzey akıl yürütme için Finans Kıyaslamasında Fable 5, test edilen tüm modeller arasında en yüksek puanı aldı. IMC, Fable 5’in ticaret analizi değerlendirmelerinde iyi performans gösterdiğini kaydetti. Bunlar arasında olgusal arama, kavramsal akıl yürütme, kök neden analizi ve beklenen değer analizi yer alıyor.
Model, bilimsel şekillerden sayıları çıkarabiliyor ve karmaşık görsel tabanlı görevleri yerine getirebiliyor. Bunlar arasında ekran görüntülerinden bir web uygulamasının kaynak kodunu yeniden oluşturma yer alıyor. Fable 5, harita, navigasyon yardımı veya ekstra oyun durumu bilgisi olmadan yalnızca ham oyun ekran görüntülerini kullanarak Pokémon FireRed oyununu tamamladı.
İlaç tasarımı uygulamalarında Anthropic’in dahili protein tasarım uzmanları, Mythos 5’in ilaç tasarım sürecinin bazı yönlerini yaklaşık on kat hızlandırdığını bildirdi. Model, protein tasarımı ve biyoinformatik araçlarıyla çalışan ancak insan yardımı almayan yetenekli insan operatörleriyle eşleşti veya onları geçti. Bu çalışmadan elde edilen 14 protein hedefinden dokuzu, şu anda araştırılmakta olan ilaç tasarımı için güçlü adaylar verdi.
Mythos 5, bir haftadan fazla süren büyük ölçüde özerk bir çalışmayla genomik araştırması yürüttü. 138 hayvan türünü kapsayan milyonlarca hücre için tek hücreli veri birleştirdi. Ayrıca bir makine öğrenimi modeli tasarlayıp eğitti. Yalnızca üst düzey insan girdisiyle Mythos 5’in eğitilmiş modeli, Science dergisinde yayınlanan yakın tarihli bir modeli geride bıraktı. Üstelik 100 kat daha küçüktü. Anthropic, önümüzdeki aylarda bu sonuçları yayınlamayı amaçladığını söyledi.
Yeni güvenlik önlemleri, potansiyel kötüye kullanımı ve jailbreak girişimlerini tespit eden sınıflandırıcılar içeriyor. Fable’ın sınıflandırıcıları siber güvenlik, biyoloji ve kimya veya damıtma ile ilgili bir istek tespit ettiğinde Claude Opus 4.8 yanıtı ele alıyor. Kullanıcılar bu durumda bilgilendirilecek.
Anthropic, 1.000 saatin üzerinde test yapan bir hata ödülü aracılığıyla harici kırmızı takım çalışması yürüttü. Bu çalışmada evrensel jailbreak üretilmedi. Harici kırmızı takım organizasyonları da uzun biçimli ajantik görevlerde evrensel jailbreak bulamadı. Bununla birlikte İngiltere AISI, kısa bir ilk test penceresi içinde buna yönelik ilerleme kaydetti.
Bir harici ortak, Fable 5’in zararlı siber sorgulara karşı güvenlik önlemlerinin test edilen tüm modeller arasında en sağlam olduğunu tespit etti. Bunlar arasında Opus 4.8 ve Opus 4.7 de yer alıyor. Fable 5, bir siber saldırı planlaması, istismar geliştirme veya savunmadan kaçınma ile ilgili zararlı tek turlu isteklerin hiçbirine uymadı.
Anthropic, Fable 5, Mythos 5 ve benzer veya daha yüksek yetenek seviyelerine sahip gelecekteki modeller için yeni bir veri saklama politikası uyguladı. Şirket, Mythos sınıfı modellerdeki tüm trafik için 30 günlük saklama gerektirecek. Anthropic, bu verileri yeni Claude modelleri eğitmek veya güvenlikle ilgili olmayan herhangi bir amaç için kullanmayacağını söyledi. Veriler neredeyse tüm durumlarda 30 gün sonra silinecek.
Şu anda Claude Mythos Preview’a erişimi olan tüm kullanıcılar Claude Mythos 5’e yükseltme yapabilecek. Anthropic, siber güvenlik kuruluşlarının sistematik olarak başvurmasına olanak tanıyan güvenilir bir erişim programı aracılığıyla erişimi genişletmeyi planlıyor. Şirket ayrıca biyomedikal araştırmayı hızlandırmaya yardımcı olmak için biyoloji alanında güvenilir bir erişim programı açmayı planlıyor.
Claude Fable 5, Salı gününden itibaren her yerde kullanıma sunuluyor. Claude Mythos 5, güvenilir erişim programı kullanıma sunulana kadar Glasswing ortaklarıyla sınırlı kalacak.
Claude API ve tüketime dayalı Kurumsal planlarda Fable 5, Salı gününden itibaren tamamen kullanılabilir durumda. Abonelik planları için Fable 5, Salı gününden 22 Haziran’a kadar Pro, Max, Team ve koltuk tabanlı Kurumsal planlara ekstra ücret olmadan dahil ediliyor. 23 Haziran’da Fable 5’i kullanmak için kullanım kredileri gerekecek. Anthropic, yeterli kapasite izin verdiğinde Fable 5’i abonelik planlarının standart bir parçası olarak geri getirmeyi amaçladığını söyledi.
Bu makale yapay zekanın desteğiyle oluşturulmuş, çevrilmiş ve bir editör tarafından incelenmiştir. Daha fazla bilgi için Şart ve Koşullar bölümümüze bakın.