Project Glasswing

Selam Dostlar ben Uygar YASİN AYDIN,

Siber güvenlik sektörü olarak yıllardır statik analiz (SAST), dinamik tarama (DAST) ve gelişmiş fuzzing tekniklerinin sınırlarını çok iyi biliyoruz. Milyonlarca dolarlık AppSec bütçelerine, katı kod inceleme (code review) süreçlerine ve CI/CD hatlarına entegre edilmiş kurallı otomasyonlara rağmen, mantıksal zafiyetler ve karmaşık sıfırıncı gün (zero-day) açıklıkları üretim ortamına sızmaya devam ediyor. Bunun temel sebebi, geleneksel araçların kodu “anlamadan”, yalnızca belirli paternleri ve imza veri tabanlarını eşleştirerek tarama yapmasıdır. [1]

Anthropic’in öncülük ettiği ve Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA ve Palo Alto Networks gibi endüstri liderlerinin kurucu ortak olarak yer aldığı Project Glasswing konsorsiyumu, bu kural tabanlı yapıyı yıkarak otonom yapay zeka ajanlarını savunma hattına yerleştirdi. [1, 2]

Peki, projenin arkasındaki teknik metrikler, siber güvenlik laboratuvarlarından gelen ilk gerçek dünya verileri ve şirketimizin de yakından takip ettiği bu yeni AppSec paradigması tam olarak bize ne söylüyor? İşin pazarlama kısmını bir kenara bırakıp tamamen somut veriler, benchmark skorları ve operasyonel metriklerle analiz edelim.

1. Project Glasswing ve Claude Mythos Mimari Altyapısı

Geleneksel geniş dil modelleri (LLM), kod bloklarındaki tipik SQL enjeksiyonlarını veya XSS açıklarını tespit etmekte başarılı olsa da, büyük kod tabanlarında (codebase) derinlemesine zafiyet araştırması yapamazlar. Çünkü standart bir kodlama asistanı, tek bir hipoteze odaklanıp sırayla kod yazmak veya refaktör etmek üzere optimize edilmiştir. Oysa siber güvenlik zafiyeti araştırması; asimetrik, paralel ilerleyen ve güvenlik sınırları (trust boundaries) arasındaki geçişleri izleyen apayrı bir akıl yürütme mimarisi gerektirir.

Project Glasswing projesinin merkezinde, bu amaçla sıfırdan siber güvenlik senaryoları, exploit geliştirme teknikleri ve tersine mühendislik pratikleri üzerine eğitilmiş Claude Mythos Preview (ve en son güncellenen ticari sürümüyle Claude Mythos 5) modeli yer almaktadır. [1, 2, 3]

[Claude Mythos Mimari İşleyişi]
       │
       ├──> 1. Geniş Kod Tabanı ve Mimari Analiz (Context Ingestion)
       ├──> 2. Güvenlik Sınırlarının Haritalanması (Trust Boundary Mapping)
       ├──> 3. Paralel Hipotez Üretimi (Vulnerability Hypothesis)
       ├──> 4. Otonom Test Çatısı Çalıştırma (Autonomous Dynamic Testing)
       └──> 5. Exploit Zincirleme ve Raporlama (Exploit Chaining & Triage)

Bu model, sadece statik bir gözlemci değildir. Kendisine tahsis edilen sandbox terminal ortamlarında otonom bir ajan (agentic system) olarak hareket eder. Kodu okur, mimari hakkında hipotezler kurar, bu hipotezleri doğrulamak için dinamik test senaryoları yazar ve birden fazla düşük seviyeli zafiyeti arka arkaya bağlayarak (exploit chaining) yüksek etkili saldırı senaryolarını simüle eder. [1, 2]

2. Somut Başarılar ve Tarihi Sıfırıncı Gün (Zero-Day) Keşifleri

Anthropic ve konsorsiyum ortakları, projenin ilk fazlarında Claude Mythos modelini dünyanın en güvenli, milyarlarca cihazda çalışan ve sürekli denetlenen açık kaynak kodlu altyapılarına ve işletim sistemi çekirdeklerine yönlendirdi. Alınan sonuçlar, insan gözünün ve mevcut otomasyonların sınırlarını çok net ortaya koydu: [1, 2]

A. 27 Yıllık OpenBSD Güvenlik Açığı

OpenBSD, siber güvenlik dünyasında “varsayılan olarak güvenli” (secure by default) mottosuyla bilinen, kaynak kodu her satırına kadar defalarca incelenmiş ve özellikle kritik güvenlik duvarlarında (firewall) kullanılan bir işletim sistemidir.

Bulgu: Claude Mythos, OpenBSD kaynak kodunda tam 27 yıldır fark edilmeden bekleyen kritik bir zafiyeti otonom olarak keşfetti.
Etki Şekli: Bu zafiyet, bir saldırganın hedef makineye sadece ağ üzerinden ham bir bağlantı kurarak, sistem üzerinde uzaktan kod çalıştırmasına veya işletim sistemini tamamen çökertmesine (Remote Denial of Service – DoS) imkan tanıyordu. 27 yıl boyunca hiçbir statik analiz aracı veya insan denetçi bu mantık hatasını yakalayamamıştı. [1, 2]

B. 16 Yıllık FFmpeg Mantık Hatası

FFmpeg, internetteki video ve ses işleme operasyonlarının neredeyse tamamının (YouTube, VLC, tarayıcılar vb.) arka planında çalışan, endüstri standardı devasa bir kütüphanedir.

Bulgu: Model, FFmpeg kod tabanında 16 yıldır gizli kalmış bir zafiyeti tespit etti.
Metrik: İşin en çarpıcı tarafı, bu zafiyetin bulunduğu kod satırının, geliştiricilerin kullandığı otomatik fuzzing (rastgele veri ile çökertme testi) araçları tarafından geçmişte tam 5 milyon kez tetiklenmiş olmasıdır. Geleneksel otomatik test araçları bu satıra 5 milyon kez uğramasına rağmen oradaki yapısal mantık hatasını güvenlik açığı olarak nitelendirememiş, ancak yapay zeka kodun bağlamını çözerek zafiyeti otonom olarak raporlamıştır.

C. Linux Kernel Yetki Yükseltme (Privilege Escalation) Zinciri

Dünyadaki sunucuların, bulut altyapılarının ve veri merkezlerinin ezici çoğunluğu Linux çekirdeği (kernel) üzerinde koşar.

Bulgu: Model, Linux çekirdeğinde tek başına kritik bir etki yaratmayan, ancak yan yana geldiklerinde tehlikeli olan birden fazla mikro zafiyeti bağımsız olarak buldu. [1]
Etki Şekli: Yapay zeka ajanı, bu zafiyetleri otonom olarak mantıksal bir sıra ile birbirine bağlayarak (exploit chaining) sıradan ve hiçbir yetkisi olmayan bir kullanıcı hesabından (low-privileged user), sistemin en üst yetki sınırı olan root seviyesine ulaşmayı başaran çalışan bir exploit kodu üretti. [1]

D. Üretim Ortamlarındaki Gerçek Vakalar

Mozilla Firefox Serüveni: Projenin test süreçlerine dahil edilen takımlar, web tarayıcılarının altyapılarında Project Glasswing sayesinde kritik seviyeli geçerli zafiyetler tespit edip yamaladı. Bu durum, geleneksel AI modelleri ve eski nesil tarayıcılarla yapılan testlere kıyasla çok daha yüksek bir keşif hızı anlamına geliyor. [1, 2, 3]
İşletim Sistemleri ve Tarayıcı Taramaları: Model, henüz ilk faz testlerinde bile her büyük işletim sisteminde ve web tarayıcısında daha önce hiç raporlanmamış binlerce yüksek öncelikli güvenlik açığını otonom olarak ortaya çıkardı. [1, 2]

3. Siber Güvenlik Performansı ve Benchmark Verileri

Claude Mythos modelinin siber güvenlik ve yazılım mühendisliği alanındaki yetkinliğini ölçmek adına, sektör tarafından kabul görmüş standart test platformlarında (benchmarks) yapılan ölçümler, standart “front-end” veya genel amaçlı yapay zekalardan ne kadar büyük bir kopuş yaşandığını sayısal olarak kanıtlıyor. [1]

Anthropic tarafından paylaşılan resmi karşılaştırma verilerini inceleyelim:

Benchmark Testi [1, 2]	Standart Claude Opus 4.6 Skor	Claude Mythos Sürüm Skoru	Operasyonel Anlamı
SWE-bench Verified	%80.8	%93.9	Gerçek dünya yazılım depolarındaki kritik kod hatalarını ve mantıksal açıkları bulup tamamen doğru şekilde yamalama oranı.
SWE-bench Pro	%53.4	%77.8	Karmaşık mimariye sahip, çok katmanlı kurumsal kod tabanlarında uçtan uca problem çözme yeteneği.
Terminal-Bench 2.0	%65.4	%82.0	Canlı Linux/Unix terminal ortamlarında, siber güvenlik araçlarını otonom kullanma ve sistem görevlerini tamamlama skoru.
SWE-bench Multilingual	%77.8	%87.3	Farklı programlama dillerinde (C, C++, Rust, Go, Python) yazılmış karmaşık projelerdeki hata yakalama performansı.
SWE-bench Multimodal	%27.1	%59.0	Kod tabanının yanı sıra mimari diyagramları, ağ şemalarını ve görsel akışları da analiz ederek zafiyet çıkarma yeteneği.

Verilerin açıkça gösterdiği üzere, özellikle terminal kullanımı (Terminal-Bench 2.0) ve kod doğrulama (SWE-bench Verified) süreçlerinde yaşanan radikal artış, yapay zekanın artık sadece bir “kod yazma yardımcısı” değil, kendi başına operasyon yürütebilen kıdemli bir Güvenlik Araştırmacısı (Vulnerability Researcher) seviyesine ulaştığını gösteriyor. [1]

4. Endüstriyel Ölçekte Tarama ve “True Positive” Oranları

Bir siber güvenlik firması olarak hepimiz biliriz ki, bir aracın binlerce açık bulması tek başına bir anlam ifade etmez; eğer bu bulguların %90’ı yanlış alarm (False Positive) ise, o araç güvenlik ekiplerine faydadan çok operasyonel yük ve alarm yorgunluğu getirir. Project Glasswing‘in siber güvenlik topluluğuna sunduğu en değerli veri seti, modelin doğruluğu (precision) ile ilgilidir. [1, 2]

Anthropic’in paylaştığı büyük ölçekli saha operasyonunun metrikleri şöyledir:

[Açık Kaynak Kod Tarama Sonuçları]
       │
       ├──> Toplam Bayrak kaldırılan Potansiyel Bulgular: ~23.000 zafiyet
       │
       └──> Yüksek ve Kritik Seviyeli (High/Critical) Tahmini: >10.000 zafiyet
              │
              └──> Bağımsız Siber Güvenlik Partnerlerince Triage Edilen Örneklem
                     │
                     ├──> Valid True Positive Oranı: Sıradan SAST araçlarının katbekat üzerinde
                     └──> Doğrulanan İşletim Sistemi ve Altyapı Açıkları: Kesin ve sömürülebilir (exploitable)

Toplam Bulgu: Model, 1.000 açık kaynaklı (OSS) projede toplam 23.000 adet potansiyel zafiyet/hata bayrağı kaldırdı. [1]
Yüksek ve Kritik Risk: Bu bulguların 10.000’den fazlası, model ve partnerler tarafından sistem güvenliğini doğrudan tehdit eden “High” veya “Critical” seviyesi olarak sınıflandırıldı. [1]
Kanıtlanabilir Kod Hataları: Yapılan manuel incelemeler ve modelin ürettiği otomatik Proof of Concept (PoC) kodları, yapay zekanın bulduğu zafiyetlerin ezici çoğunluğunun gerçek ve doğrulanabilir olduğunu kanıtladı. Geleneksel SAST araçlarında yanlış alarm oranları çok yüksek seviyelerde kalırken, otonom yapay zekanın exploit parçalarını birbirine zincirleme yeteneği sayesinde ekipler doğrudan sömürülebilir gerçek açıklıklar üzerinde çalışabiliyor. [1, 2]

5. Konsorsiyumun Genişlemesi ve Finansal Taahhütler

Project Glasswing, teorik bir laboratuvar çalışması olmanın ötesinde, küresel yazılım tedarik zincirini (Software Supply Chain) siber saldırganlardan korumak adına çok ciddi finansal ve operasyonel kaynaklarla destekleniyor. [1]

100 Milyon Dolarlık AI Kredisi: Anthropic, kritik altyapı sağlayıcılarının, açık kaynak kod koruyucularının ve siber güvenlik ekiplerinin kendi sistemlerini taraması için 100 milyon dolarlık Claude Mythos API kullanım kredisi tahsis etti.
4 Milyon Dolarlık Doğrudan Bağış: Açık kaynaklı projelerin güvenlik açıklarını hızlıca kapatabilmesi ve maintainer’ların desteklenmesi amacıyla açık kaynak güvenlik organizasyonlarına 4 milyon dolar nakit bağış bütçesi aktarıldı.
Koalisyonun Genişlemesi: İlk etapta yaklaşık 50 kurucu ortak ve partnerle kapalı devre başlatılan proje, kapsamını genişleterek dünya genelinde 150’den fazla yeni kurumsal organizasyonun katılımını sağladı.
Sektörel ve Coğrafi Çeşitlilik: Bu genişleme dalgasıyla birlikte 15’ten fazla ülkeye yayılan proje; sadece yazılım şirketlerini değil, enerji (elektrik şebekeleri), su otomasyon altyapıları, sağlık sistemleri ve kritik telekomünikasyon operatörlerini kapsayacak şekilde kritik altyapı koruma odaklı bir yapıya büründü. [1, 2, 3, 4]

6. Bizim Gibi Siber Güvenlik Firmaları İçin Bu Ne Anlam İfade Ediyor?

Bir siber güvenlik partneri ve entegratörü olarak, Project Glasswing’in ortaya koyduğu somut verilerden çıkarmamız gereken çok önemli operasyonel ve stratejik dersler var. Sektörümüzün gelecekteki servis modellerini belirleyecek 3 temel başlık öne çıkıyor:

1. Zafiyet Bulmak Artık “Zor Kısım” Değil

Geleneksel olarak siber güvenlik firmalarının en büyük katma değerlerinden biri, gelişmiş pentest (sızma testi) uzmanları istihdam ederek müşterinin sisteminde kimsenin göremediği o gizli açığı aramaktır. Ancak Glasswing verileri gösteriyor ki, yapay zeka modelleri kritik altyapılarda ve açık kaynak kodlarda tek bir taramada on binlerce kritik açığı “makine hızında” dökebiliyor. Sektördeki tıkanıklık noktası artık zafiyeti bulmak değil; yapay zekanın önümüze yığdığı bu kritik açıkları hangi sırayla doğrulayacağımız, nasıl önceliklendireceğimiz ve nasıl yamalayacağımızdır (Remediation). [1, 2, 3]

2. Sürekli Tehdit ve Maruz Kalma Yönetimi (CTEM) Zorunluluğu

Yılda bir kez yapılan penetrasyon testleri veya haftalık periyodik vulnerability scan (zafiyet tarama) rutinleri, otonom yapay zeka ajanlarının dünyasında tamamen işlevsiz kalacaktır. Kod tabanları ve bulut altyapıları her an otonom modeller tarafından taranıp exploit zincirleri oluşturulabiliyorsa, bizim de defans tarafında Gartner’ın CTEM (Continuous Threat Exposure Management) olarak adlandırdığı, 7/24 yaşayan, sürekli risk analizi ve anlık yama yönetimi yapan akıllı otomasyon mimarilerini müşterilerimize sunmamız bir zorunluluktur.

3. “Machine Speed” Triage ve Mavi Takım (Blue Team) Dönüşümü

Yapay zeka asimetrik bir güçtür; saldırı amacıyla kullanıldığında saniyeler içinde binlerce varyasyon üretebilir. Project Glasswing‘in felsefesi olan “Savunma Öncelikli AI”, biz siber güvenlik firmalarına şu sorumluluğu yüklüyor: Siber savunma operasyon merkezlerimizi (SOC) ve mavi takımlarımızı, yapay zeka ajanlarıyla entegre çalışacak, gelen logları ve kod açıklarını insan hızında değil, makine hızında (machine speed) yanıtlayacak şekilde yeniden yapılandırmalıyız. [1]

Sonuç: Geleceğin Güvenlik Mimarisini Bugünden İnşa Etmek

Project Glasswing, yapay zekanın siber güvenlikte bir “pazarlama trendi” değil, operasyonel bir zorunluluk ve altyapısal bir devrim olduğunu sayısal metriklerle kanıtlamıştır. Dünyanın en büyük teknoloji üreticilerinin bu konsorsiyumda bir araya gelmesi, siber güvenliğin artık tek bir şirketin veya tek bir insan ekibinin sınırlarını çoktan aştığının resmi bir ilanıdır. [1, 2, 3]

Siber güvenlik firmanız olarak, kurumsal altyapılarınızın yazılım tedarik zincirini güvenceye almak, kaynak kodlarınızdaki karmaşık mantık hatalarını otonom teknolojilerle hacker’lardan önce keşfetmek ve yeni nesil AI tabanlı defans mimarilerine geçiş yapmak için buradayız. Tehdit aktörleri yapay zekayı silahlandırmadan önce, gelin savunma duvarlarınızı makine hızında çalışan akıllı sistemlerle güçlendirelim. [1]

💡 Bizimle İletişime Geçin

Kurumunuzun kaynak kod güvenliğini (AppSec), CI/CD boru hatlarını ve bulut altyapılarını yeni nesil otonom risk yönetimi standartlarına uyumlu hale getirmek ister misiniz? Uzman mühendislik kadromuzla tanışmak ve size özel Proaktif Güvenlik Analizi planlamak için [Bizimle İletişime Geçin / Demo Talep Edin] butonuna tıklayabilirsiniz.

Author: Aydın Uygar

Related Posts