Ancak Claude Opus 4.8’i asıl İlan Scripti V8 dikkat çekici yapan şey İlan Scripti yalnızca daha güçlü İlan Scripti olması değil. İlan Yazılımı Anthropic, yeni modelin belirsiz olduğu İlan Yazılımı durumları daha açık şekilde ifade ettiğini, yeterli kanıt yokken İlan Scripti V8 “eminmiş gibi” konuşma ihtimalinin İlan Scripti V7 Vip azaldığını söylüyor. İlan Scripti Şirketin değerlendirmelerine göre model, yazdığı koddaki hataları fark İlan Scripti V8 etmeden geçme konusunda selefine kıyasla yaklaşık 4 kat daha düşük risk taşıyor.
Yapay zekâ modellerinde en çok eleştirilen konulardan biri, yanlış bilgiyi kendinden emin şekilde sunmaları. İlan Scripti V7 Vip Anthropic’in Opus 4.8 ile İlan Yazılımı çözmeye çalıştığı sorun da tam olarak bu. Model, yaptığı işte emin değilse bunu İlan Scripti V8 kullanıcıya daha net söylüyor ve eksik kanıtla kesin sonuçlara varma eğilimini azaltıyor.
Anthropic’in güvenlik testlerine göre Opus 4.8, aldatıcı davranış, kötüye kullanımla iş birliği ve kullanıcıyı İlan Scripti V7 Vip yanlış yönlendirme gibi konularda Opus 4.7’ye göre daha düşük skorlar aldı. Hatta şirket, bu modelin uyumlu davranış tarafında en iyi İlan Scripti V7 Vip modellerinden biri olan Claude Mythos Preview’a yakın sonuçlar verdiğini belirtiyor.
Paylaşılan benchmark sonuçlarına göre Claude Opus 4.8, SWE-Bench Pro kodlama testinde %69,2 başarı oranına ulaştı. Ayrıca çok disiplinli akıl yürütme, bilgisayar kullanımı, finansal analiz ve bilgi işleri gibi alanlarda da Opus 4.7’ye kıyasla daha iyi sonuçlar elde etti.
Yeni modelle birlikte Claude Code tarafına Dynamic Workflows isimli yeni bir özellik de eklendi. Bu özellik sayesinde Claude, büyük ölçekli yazılım projelerinde işi planlayabiliyor, yüzlerce alt ajanı aynı oturumda çalıştırabiliyor ve çıktıları kontrol ederek kullanıcıya sunabiliyor. Anthropic’e göre bu sistem, yüz binlerce satırlık kod tabanlarında büyük dönüşüm işlemlerini mümkün hâle getiriyor.
Claude Opus 4.8 ile gelen bir diğer önemli yenilik ise Effort Control oldu. Bu özellik, Claude’un bir göreve ne kadar çaba harcayacağını seçmenizi sağlıyor. Daha yüksek ayarlarda model daha fazla düşünerek daha kaliteli yanıtlar üretirken, düşük ayarlarda daha hızlı ve daha az kaynak tüketen cevaplar verebiliyor.
Anthropic ayrıca Opus 4.8’in hızlı çalışma modunun önceki modellere göre daha ucuz hâle geldiğini açıkladı. Şirket, Opus seviyesindeki yetenekleri daha düşük maliyetle sunacak yeni modeller üzerinde çalıştığını da belirtiyor. Bunun yanında daha gelişmiş bir model sınıfı olarak tanımlanan Claude Mythos Preview da önümüzdeki haftalarda daha geniş kullanıcı kitlesine açılabilir.
Web sitesi ve diğer dijital ihtiyaçlarınız ile ilgili bizimle iletişime geçmek için buraya tıklayabilirsiniz.