Arama · son güncelleme 12 sa önce
8.369
toplam haber
1
kategori
70+
bilim kaynağı
1-5 / 5 haber Sayfa 1 / 1
Teknoloji & Yapay Zeka
21 Apr

Yapay Zeka Ajanlarının Davranış Kontrolü: Yeni Keşif Bir Temel Sorunu Ortaya Koyuyor

Otonom yapay zeka sistemlerinin kontrolünde çığır açan bir araştırma, mevcut güvenlik mekanizmalarının ciddi bir yapısal sınırlamasını ortaya çıkardı. Bilim insanları, çalışma zamanında kural ihlallerini tespit etmeye odaklanan geleneksel denetim sistemlerinin, ajanların davranışsal sapmalarını fark edemeyeceğini matematiksel olarak kanıtladı. Ajan Kontrol Protokolü adı verilen bu çerçevede, denetim mekanizmaları yerel seviyede işlem yaparken, gerçek davranış sapmaları daha geniş ve karmaşık örüntülerde ortaya çıkıyor. Bu keşif, yapay zeka güvenliği alanında fundamental bir problemi gözler önüne seriyor ve gelecekteki AI sistemlerinin tasarımında yeni yaklaşımlara ihtiyaç duyulduğunu gösteriyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Yapay Zekâya Çoklu Davranış Kontrolü: Yeni Token Yöntemi Geliştirildi

Büyük dil modelleri (LLM'ler) günlük hayatta kullanılırken aynı anda birden fazla davranış sergilemesi gerekiyor. Araştırmacılar, bu ihtiyacı karşılamak için 'kompozisyonel yönlendirme tokenları' adlı yeni bir yöntem geliştirdi. Bu teknik, yapay zekâ sistemlerinin tek seferde farklı davranışları birleştirerek daha esnek ve kontrollü çıktılar üretmesini sağlıyor. Önceki yöntemlerin aksine, bu sistem girdi token'ları üzerinde çalışarak daha etkili kompozisyon imkânı sunuyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

FineSteer: Yapay Zeka Modellerinin Davranışını Hassas Şekilde Yönlendiren Yeni Sistem

Büyük dil modelleri bazen güvenlik ihlalleri ve yanlış bilgi üretme gibi istenmeyen davranışlar sergileyebiliyor. Araştırmacılar, bu sorunları çözmek için FineSteer adlı yenilikçi bir sistem geliştirdi. Bu framework, yapay zeka modellerinin davranışlarını eğitim sürecini tekrar başlatmadan, çalışma anında hassas bir şekilde kontrol etmeyi mümkün kılıyor. Sistem, iki aşamalı yaklaşımla çalışıyor: önce ne zaman müdahale edileceğine karar veriyor, sonra da nasıl yönlendirme yapılacağını belirliyor. Bu sayede modelin yararlılığını korurken, istenmeyen çıktıları minimize ediyor. Geleneksel yöntemlerin aksine, her duruma uyarlanabilen esnek bir yapı sunuyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
20 Apr

AI modellerinde yönlendirme vektörlerinin başarısını önceden tahmin etme yöntemi

Araştırmacılar, yapay zeka modellerinde yönlendirme vektörlerinin ne zaman etkili olacağını önceden tahmin edebilen yeni bir yöntem geliştirdi. Linear Accessibility Profile (LAP) adı verilen bu teknik, modelin hangi katmanlarında müdahalenin başarılı olacağını deneme yapmadan belirleyebiliyor. Pythia-2.8B'den Llama-8B'ye kadar beş farklı model üzerinde yapılan testlerde, yöntem %86-91 arası doğruluk oranıyla başarı tahmininde bulundu. Bu gelişme, AI güvenliği ve model davranış kontrolü alanında önemli bir adım olarak değerlendiriliyor. Yöntem, modellerin istenmeyen çıktılarını engellemek ve belirli konularda yönlendirmek için kullanılan steering vektörlerinin etkinliğini artırabilir.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
16 Apr

Yapay Zeka Hizalaması: Davranış Kontrolünden Kurumsal Tasarıma

Stanford araştırmacıları yapay zeka güvenliği için yeni bir yaklaşım önerdi. Mevcut yöntemler yapay zekanın davranışlarını sürekli denetleyerek düzeltmeye odaklanırken, bu çalışma ekonomik kuramlardan ilham alarak farklı bir yol öneriyor. Araştırmacılar, mülkiyet hakkının olmadığı bir ekonomiye benzettiği mevcut sistemlerin sürekli polis denetimi gerektirdiğini ve bu durumun ölçeklenmediğini belirtiyor. Bunun yerine, yapay zeka sistemlerinin iç yapısını öyle tasarlama öneriyorlar ki, istenen davranış en düşük maliyetli seçenek haline gelsin. Bu yaklaşım, yapay zeka hizalamasını bir davranış kontrolü sorunundan ziyade politik-ekonomi sorunu olarak görüyor. Çalışma, insan müdahalesinin üç temel seviyesini tanımlıyor: yapısal, parametrik ve denetimsel. Bu yeni framework, yapay zeka güvenliğinde paradigma değişikliği yaratabilir.

arXiv (CS + AI) 0