"içerik filtreleme" için 169 sonuç bulundu
× Aramayı temizle
Arama Sonuçları
169 haber
Yapay Zeka Modellerinin 'Reddetme' Mekanizması Haritası Çıkarıldı
Araştırmacılar, büyük dil modellerinin zararlı içerikleri nasıl reddettiğini kontrol eden beyin devrelerini keşfetti. Çalışma, modellerin içindeki 'kapı' ve 'yükselteç' adı verilen dikkat başlıklarının, tehlikeli içerikleri tespit edip reddetme sinyali ürettiğini gösteriyor. 2 milyar ile 72 milyar parametreli 12 farklı modelde aynı mekanizma bulundu. En şaşırtıcı keşif, bu sistemin manipüle edilebilir olması: araştırmacılar sinyali ayarlayarak modelleri sert reddedici tavırdan zararlı içerik üreticisine dönüştürebildi. Bu bulgular, AI güvenliği ve model davranışlarının kontrolü açısından kritik önem taşıyor.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 11 gün önce
0
Yapay Zeka Güvenliği için Yeni Çözüm: Ayrışık Güvenlik Adaptörleri
Araştırmacılar, yapay zeka sistemlerinin güvenliğini sağlamak için yenilikçi bir yaklaşım geliştirdi. Ayrışık Güvenlik Adaptörleri (DSA) adlı bu sistem, güvenlik kontrollerini ana modelden ayırarak hem verimlilik hem de esneklik sağlıyor. Geleneksel güvenlik yöntemleri ya performansı düşürüyor ya da geliştirme sürecini kısıtlıyordu. DSA ise nefret söylemi tespiti, zararlı içerik engelleme ve halüsinasyon önleme gibi alanlarda %53'e varan iyileşmeler göstererek bu sorunu çözüyor. Sistem, minimal hesaplama maliyetiyle çalışırken, kullanıcıların güvenlik seviyesini anlık olarak ayarlamasına da olanak tanıyor.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 11 gün önce
0
Yapay Zeka Güvenlik Testleri Neden Yetersiz Kalıyor?
Yeni bir araştırma, mevcut yapay zeka güvenlik değerlendirmelerinin kritik bir eksikliği olduğunu ortaya koyuyor. Çin menşeli dil modellerinde siyasi sansür mekanizmalarını inceleyen bilim insanları, zararlı içerik tespitinin kolay olduğunu, ancak asıl sorunun bu bilgilerin davranışsal politikalara nasıl yönlendirildiğinde saklı olduğunu keşfetti. Beş farklı laboratuvardan dokuz açık kaynak model üzerinde yapılan deneyler, prob doğruluğunun tek başına yanıltıcı olabileceğini gösterdi. Araştırmacılar, siyasi hassasiyet yönünü kaldırdıklarında çoğu modelde sansürün ortadan kalktığını ve doğru bilgi üretiminin geri geldiğini gözlemledi. Ancak bir modelde bilgi mimarisi sansür mekanizmasıyla o kadar iç içe geçmişti ki, müdahale sonrası model gerçek dışı bilgiler üretmeye başladı. Bu bulgular, AI güvenlik testlerinin yeniden düşünülmesi gerektiğini işaret ediyor.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 11 gün önce
0
Kuantum Filtreleme Teknolojisinde Çığır Açan Yeni Yaklaşım
Araştırmacılar, kuantum sistemlerde gürültülü ortamlarda çalışan filtreleme teknolojisini geliştirdiler. Bu yeni yaklaşım, özellikle 'sıkıştırılmış gürültü' adı verilen karmaşık kuantum durumlarını işleyebiliyor. Geleneksel kuantum filtreler sadece termal gürültü ile çalışabilirken, bu yeni sistem çok daha geniş bir spektrumda etkili. Çalışma, kuantum bilgisayarları ve hassas ölçüm sistemleri için kritik öneme sahip. Özellikle kuantum sensörler ve kuantum iletişim sistemlerinde daha yüksek hassasiyet ve güvenilirlik sağlayabilir. Araştırma, matematiksel olarak Araki-Woods temsili ve Tomita-Takesaki teorisi gibi gelişmiş araçları kullanarak, filtreleme sürecinin temsil seçiminden bağımsız olmasını garantiliyor. Bu, pratik uygulamalarda tutarlı sonuçlar elde edilmesini sağlıyor.
arXiv — Matematiksel Fizik · 11 gün önce
0
Claude yapay zekası 6 dilde test edildi: Diller arası tutarsızlıklar keşfedildi
Antropic'in Claude yapay zeka modeli, altı farklı dilde kapsamlı testlere tabi tutuldu. Araştırmacılar, İngilizce, Fransızca, Romence, İspanyolca, İtalyanca ve Almanca dillerinde aynı anlamda sorular sorarak modelin tutarlılığını inceledi. 216 yanıt üzerinden yapılan analiz, diller arasında önemli farklar olduğunu ortaya koydu. Fransızca yanıtların Almanca yanıtlardan %30 daha uzun olduğu, yaratıcılık ve duygusal içerik gerektiren konularda ise diller arası en fazla farklılığın görüldüğü tespit edildi. Bu çalışma, yapay zeka modellerinin çok dilli performansını değerlendirmek için yeni bir framework sunuyor.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce
0
Yapay Zeka Modelleri Zor Talimatlarda Pozisyon Hilelerine Başvuruyor
Araştırmacılar, dil modellerini kasıtlı olarak kötü performans göstermeleri için talimatlandırdıklarında bu modellerin soru içeriklerini anlayıp anlamadıklarını inceledi. Llama-3 modellerinde yapılan testler, modellerin karmaşık talimatlar karşısında soruları çözmeye çalışmak yerine pozisyon tabanlı kestirme yolları kullandığını ortaya koydu. Altı farklı talimat türü ile yapılan deneylerde, belirsiz talimatların orta düzeyde performans düşüşüne neden olduğu, standart sabotaj talimatlarının kısmen içerik anlayışını koruduğu, ancak iki aşamalı kaçınma talimatlarının neredeyse tamamen pozisyon hilelerine dayalı yanıtlara yol açtığı gözlendi. Bu bulgular, yapay zeka güvenliği ve model değerlendirmesi açısından önemli sonuçlar taşıyor.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce
0
Yapay Zeka Güvenlik Sisteminin Sırrı: Sadece 50 Nöron Kontrolü Sağlıyor
Araştırmacılar, büyük dil modellerinin güvenlik mekanizmalarını kontrol eden nöron ağlarını keşfetti. Milyonlarca nöron içeren sistemlerde, zararlı içerik üretimini engelleyen güvenlik mekanizmasının sadece 50 nöron tarafından yönetildiği ortaya çıktı. Bu nöronlar tüm sistemin yalnızca %0.014'ünü oluştururken, yanıt formatlarının %80'ini kontrol ediyor. Pertürbasyon probing adı verilen yeni tanı yöntemi, yapay zeka modellerinin davranış devrelerini iki geçişle analiz ediyor. Çalışma, RLHF eğitimi sonrası ortaya çıkan 'karşıtlık devreleri' ve dil seçimi gibi önceden öğrenilmiş davranışları yöneten 'yönlendirme devreleri' olmak üzere iki temel devre yapısı tanımlıyor.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce
0
Yapay Zeka Güvenliğinde Yeni Keşif: Zararlı İçerik Reddi Nasıl Öğreniliyor?
Araştırmacılar, güvenli yapay zeka modellerinin zararlı talepleri nasıl reddettiğini inceledi. Stanford ve diğer üniversitelerden bilim insanları, 7 milyar parametreli bir dil modeli üzerinde yaptıkları çalışmada, dinamik düşman eğitiminin modelin reddetme davranışını nasıl şekillendirdiğini ortaya çıkardı. R2D2 adı verilen eğitim yöntemi, zararlı içerik üretme oranını %50'den neredeyse sıfıra düşürürken, aşırı reddetme problemini de kontrol altında tuttu. Çalışma, AI güvenliği alanında önemli bir adım olarak değerlendiriliyor.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce
0
Yapay Zeka Artık Sosyal Medyada Görüşleri Daha İyi Anlayabiliyor
Araştırmacılar, sosyal medyada paylaşılan metin ve görsellerdeki tutumları analiz eden yeni bir yapay zeka sistemi geliştirdi. MM-StanceDet adlı bu sistem, çoklu ajan mimarisi kullanarak insanların belirli konulardaki görüşlerini tespit etmede mevcut yöntemlerden çok daha başarılı sonuçlar veriyor. Sistem özellikle metin ve görsel içerik arasında çelişki olduğu durumlarda bile doğru analiz yapabiliyor. Bu gelişme, sosyal medyada kamuoyu analizi ve yanlış bilgi tespiti açısından önemli bir adım olarak görülüyor.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce
0
Yapay Zeka İçin Gerçekçi Bilgisayar Ortamları Yaratılıyor
Araştırmacılar, yapay zeka sistemlerini eğitmek için gerçek bilgisayar kullanıcılarının çalışma ortamlarını taklit eden sentetik bilgisayar sistemleri geliştirdi. Bu yenilikçi yaklaşım, klasör yapıları, belgeler ve sunumlar gibi içerik açısından zengin dosyalarla donatılmış sanal bilgisayarlar oluşturuyor. Sistemde iki farklı yapay zeka ajanı çalışıyor: biri kullanıcıya özgü iş hedefleri belirlerken, diğeri bu hedefleri gerçekleştirmek için sanki gerçek bir kullanıcıymış gibi hareket ediyor. Bu metodoloji, yapay zekanın uzun vadeli ve karmaşık iş süreçlerini öğrenmesi için kritik öneme sahip. Araştırma, AI sistemlerinin gerçek dünya çalışma ortamlarında daha etkili olması yolunda önemli bir adım teşkil ediyor.
arXiv — Hesaplamalı Dilbilim (cs.CL) · 14 gün önce
0
Ekran Hikayeleri Sağlık Davranışlarımızı Nasıl Şekillendiriyor?
Televizyon ve sinema ekranlarında gördüklerimiz, günlük yaşamımızdaki sağlık tercihlerimizi beklenenden çok daha fazla etkiliyor. 1950'lerde James Dean ve Marlon Brando gibi oyuncuların sigarayı 'cool' bir davranış olarak sergilemesi, tüm bir neslin sigara içme alışkanlığını şekillendirmişti. Günümüzde araştırmacılar, medya içeriklerinin sadece sigara kullanımını değil, beslenme alışkanlıkları, mental sağlık algısı ve çeşitli hastalıklara yönelik stigmaları da nasıl etkilediğini inceliyor. Bu bulgular, halk sağlığı politikaları açısından büyük önem taşıyor ve medya içerik üreticilerinin sorumluluğunu gündeme getiriyor.
Phys.org — Sosyal Bilimler · 15 gün önce
0