“veri üretimi” için sonuçlar

Teknoloji & Yapay Zeka

30 Apr

Yapay zeka biyomedikal soru-cevap veri setlerini nasıl daha akıllıca üretiyor?

Araştırmacılar, büyük dil modellerinin karmaşık bilimsel sorular üretmesi için yenilikçi bir yöntem geliştirdi. BioGraphletQA adlı bu sistem, bilgi grafiklerindeki küçük alt yapıları rehber olarak kullanarak 119.856 biyomedikal soru-cevap çifti oluşturdu. Yöntem, soruların hem bilimsel açıdan doğru hem de karmaşık olmasını sağlıyor. Uzman değerlendirmelerinde yüksek kalite ve geçerlilik puanları alan sistem, yapay zekanın bilimsel veri üretimindeki potansiyelini gösteriyor. Bu gelişme, biyomedikal araştırmalarda kullanılan yapay zeka sistemlerinin eğitimi için kritik önem taşıyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

30 Apr

Robotlar İçin Gerçek Dünya Verilerini Çoğaltan Yeni Teknoloji: R2RGen

Araştırmacılar, robotların farklı uzamsal konfigürasyonlarda çalışabilmesi için gerekli olan veri eksikliği sorununa çözüm getiren R2RGen adlı yeni bir framework geliştirdi. Bu sistem, minimal gerçek dünya demonstrasyonlarından yola çıkarak, simülatör kullanmadan doğrudan 3D nokta bulutu verilerini çoğaltabiliyor. Geleneksel yöntemlerin sim-to-real gap sorunu yaşamasının aksine, R2RGen gerçekten gerçeğe veri üretimi yaparak bu problemi ortadan kaldırıyor. Robotik manipülasyonda uzamsal genelleme yeteneği, robotların farklı nesne dizilimleri ve çevre koşullarında etkili çalışabilmesi için kritik öneme sahip.

arXiv (Robotik) 0

Teknoloji & Yapay Zeka

30 Apr

EvoSelect: Yapay Zeka Modellerini Daha Az Veriyle Özelleştiren Yeni Yöntem

Büyük dil modellerini belirli görevlere uyarlamak genellikle maliyetli ve zor elde edilen etiketlenmiş veriler gerektirir. Bu soruna çözüm olarak sentetik veri üretimi öne çıksa da, üretilen verilerin gürültülü, tekrarlayıcı veya hedef görevle uyumsuz olması model performansını düşürebilir. Araştırmacılar, bu sorunu çözmek için EvoSelect adlı yeni bir yaklaşım geliştirdi. Bu yöntem, geleneksel üretim-eğitim döngüsüne bir seçim aşaması ekleyerek, sadece kaliteli ve görevle uyumlu sentetik verileri kullanmaya odaklanıyor. Bu sayede modellerin hedeflendiği görevlere daha verimli şekilde uyarlanması mümkün oluyor.

arXiv (Dilbilim & NLP) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Sohbet Botları İçin Sentetik Veri Üretimi Geliştirildi

Araştırmacılar, sohbet botlarının hem kaliteli hem de çeşitli yanıtlar verebilmesi için yeni bir sentetik veri üretim yöntemi geliştirdi. CommonSyn adlı bu sistem, yapay zeka modellerinin daha çeşitli senaryolara uygun mantıklı yanıtlar üretmesini sağlıyor. Geleneksel veri toplama yöntemlerinin maliyetli ve sınırlı olması nedeniyle, bu yenilikçi yaklaşım sektörde önemli bir boşluğu dolduruyor. İki aşamalı süreçle oluşturulan sentetik veriler, insan annotatorların hazırladığı verilerle eğitilmiş modellere kıyasla hem çeşitlilik hem de kalite açısından üstün performans gösteriyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Güvenliği İçin Ters Anayasal AI Yöntemi Geliştirildi

Araştırmacılar, büyük dil modellerinin güvenlik açıklarını test etmek için yenilikçi bir yaklaşım geliştirdi. 'Ters Anayasal AI' adı verilen bu sistem, zararlı içerik üretebilen otomatik veri üretimi sağlıyor. Geleneksel güvenlik testlerinin aksine, bu yöntem sistematik ve kontrollü bir şekilde çok boyutlu saldırı verisi sentezleyebiliyor. Sistem, zararlı bir anayasa oluşturarak ve eleştiri-revizyon döngüsü kullanarak çalışıyor. Ancak sadece toksisite odaklı optimizasyon, anlam bozulmasına yol açabiliyor. Bu sorunu çözmek için olasılık sıkıştırma tekniği kullanılarak hem saldırgan niyeti koruyor hem de anlamsal tutarlılığı sağlıyor. Çalışma, AI güvenliği alanında önemli bir adım teşkil ediyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay Zeka Modellerini Rekabetçi Oyunla Eğiten Yeni Yöntem Geliştirildi

Araştırmacılar, yapay zeka modellerinin eğitimi için kaliteli veri üretme sorununa yaratıcı bir çözüm getirdi. Geleneksel veri toplama yöntemleri pahalı ve düşük kaliteli sonuçlar verirken, yeni 'Adversarial Arena' yaklaşımı veri üretimini rekabetçi bir oyuna dönüştürüyor. Bu sistemde 'saldırgan' takımlar zor sorular hazırlarken, 'savunucu' takımlar bu sorulara yanıt üretiyor. 10 üniversite takımının katıldığı siber güvenlik odaklı yarışmada 19.683 çok turlu konuşma verisi üretildi. Bu verilerle eğitilen açık kaynak model, güvenli kod üretiminde %18,47 iyileşme gösterdi. Yöntem, özellikle kaynak kısıtı olan alanlarda ve karmaşık konuşma verilerinin üretilmesi için büyük potansiyel taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Matrix: Yapay Veri Üretiminde Merkezi Otoritesiz Yeni Çığır

Büyük dil modellerinin eğitimi için yapay veri üretimi giderek kritik hale gelirken, mevcut sistemlerin merkezi yapısı ölçeklenebilirlik sorunları yaratıyor. Araştırmacılar, bu sorunu çözmek için Matrix adlı yeni bir framework geliştirdi. Bu sistem, merkezi bir orkestratör olmadan çalışan, eşler arası (peer-to-peer) mimaride yapay veri üreten çok ajanlı bir yapı sunuyor. Her ajanın bağımsız çalıştığı bu sistemde, kontrol ve veri akışı dağıtık kuyruklarla sağlanıyor. Matrix'in en önemli avantajı, farklı domainlere uyum sağlayabilmesi ve ölçeklenebilirlik darboğazlarını ortadan kaldırması. Gerçek verinin kıt, pahalı veya gizlilik hassasiyeti bulunan durumlarda bu tür sistemler, AI modellerinin gelişimi için hayati önem taşıyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

21 Apr

Yapay zeka sohbet robotları için çok turlu güvenlik sistemi geliştirildi

Araştırmacılar, görsel ve metin tabanlı yapay zeka modellerinin uzun sohbetlerde ortaya çıkan güvenlik açıklarını gidermek için SaFeR-Steer adlı yeni bir sistem geliştirdi. Mevcut güvenlik eğitiminin tek seferlik etkileşimlere odaklandığı, ancak gerçek kullanımda sohbetlerin birden fazla tur sürdüğü tespit edildi. Bu durumda saldırganlar, konuşmanın ilerleyen turlarında zararlı amaçlarını gizleyerek sistemi kandırabiliyor. Yeni framework, sentetik veri üretimi ve dinamik geri bildirim mekanizmalarını kullanarak bu sorunu çözmeyi hedefliyor. Sistem, öğrenci-öğretmen modeliyle çalışarak adaptif saldırılara karşı dayanıklılık kazandırıyor. Araştırmada ayrıca 12 bin üzerinde çok turlu güvenlik diyalogu içeren STEER veri seti de sunuldu. Test sonuçları, sistemin hem güvenlik hem de yardımcı olma açısından önemli iyileştirmeler sağladığını gösteriyor.

arXiv (Dilbilim & NLP) 0

Tıp & Sağlık

20 Apr

Yapay Sağlık Verilerinin Kalitesini Ölçmek İçin Yeni Bir Yöntem Geliştirildi

Araştırmacılar, büyük sağlık veri setleri için üretilen yapay verilerin kalitesini değerlendirmek amacıyla yeni bir metodoloji geliştirdi. Çalışmada, farklı makine öğrenmesi ailelerinden yedi model karşılaştırıldı ve her biri farklı ölçeklerdeki dört veri seti üzerinde test edildi. Araştırma, özellikle Alman Kanser Kayıtları'nın epidemiyolojik verilerini kullanarak, yapay veri üretiminde karşılaşılan zorlukları ortaya koydu. Geliştirilen yöntem, sentezlenmiş veri dağılımlarının doğruluğunu tek bir grafikte görselleştirerek değerlendiriyor ve herhangi bir veri seti için uygulanabilir nitelikte. Bu yaklaşım, sağlık alanında yapay veri kullanımının güvenilirliğini artırmak için önemli bir adım olarak görülüyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Simülatörleri Veri Gizliliğinde Ne Kadar Başarılı?

Büyük dil modelleri (LLM) temelli simülatörler, geleneksel diferansiyel gizlilik yöntemlerinin zorlandığı karmaşık sentetik veri üretiminde umut vadediyor. Araştırmacılar, PersonaLedger adlı finansal simülatörü kullanarak bu teknolojinin gerçek kullanıcı istatistiklerinden türetilen gizlilik korumalı verilerle ne kadar uyumlu çalıştığını inceledi. Sonuçlar hem umut verici hem de endişe verici: Sistem dolandırıcılık tespitinde makul başarı gösterirken, yapay zekanın öğrenilmiş önyargıları nedeniyle istatistiksel dağılımlardan önemli sapmalar yaşandı. Bu bulgular, LLM tabanlı yöntemlerin daha zengin kullanıcı verilerinde kullanılmadan önce çözülmesi gereken kritik sorunları ortaya koyuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

ShapeGen: Robotlar İçin Gerçekçi Manipülasyon Verisi Üreten Yeni Sistem

Araştırmacılar, robotların farklı şekillerdeki nesnelerle etkileşim kurmasını sağlayan ShapeGen adlı yenilikçi bir veri üretim sistemi geliştirdi. Sistem, robotların sadece eğitim sırasında gördükleri belirli nesnelerle değil, aynı kategorideki tüm nesnelerle çalışabilmesini hedefliyor. ShapeGen, simülatör kullanmadan 3D ortamda çeşitli şekillerde manipülasyon verisi üretebiliyor. İki aşamalı yaklaşımla çalışan sistem, önce şekil kütüphanesi oluşturuyor, sonra fonksiyon-farkındalığı olan veri üretiyor. Bu gelişme, robotların gerçek dünyada karşılaştıkları geometrik çeşitlilikle başa çıkabilmesi açısından önemli bir adım.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka İçin Güvenli Veri Üretiminde Yeni Yaklaşım: DPDSyn

Araştırmacılar, yapay zeka modellerinin eğitimi için güvenli sentetik veri üretiminde çığır açan bir yöntem geliştirdi. DPDSyn adlı bu yaklaşım, diferansiyel gizlilik prensiplerine uygun olarak veri setleri oluşturmak için yeni bir strateji benimsiyor. Geleneksel yöntemler, orijinal verinin düşük boyutlu dağılımlarını seçerek sentetik veri üretmeye odaklanırken, bu yaklaşım doğrudan görev odaklı bir model kullanıyor. Yöntem, önce orijinal veri seti üzerinde diferansiyel gizliliği koruyan bir AI modeli eğitiyor, ardından bu modeli kullanarak yeni veri setleri sentezliyor. Bu yaklaşım, uygun düşük boyutlu dağılımları seçme zorluğunu ortadan kaldırarak, sentetik verinin kullanılabilirliğini artırmayı hedefliyor. Diferansiyel gizlilik, verinin bireysel mahremiyetini korurken istatistiksel analizlere olanak tanıyan önemli bir güvenlik konsepti.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Modelleri İçin Yeni Matematik Yaklaşımı: Neural CTMC

Araştırmacılar, dil ve ayrık veri üretimi için kullanılan difüzyon modellerinde çığır açan yeni bir yaklaşım geliştirdi. Neural Continuous-Time Markov Chain (Neural CTMC) adlı bu yöntem, sürekli zamanlı Markov zincirlerinin temel yapısını iki ayrı bileşene ayırarak daha etkili sonuçlar elde ediyor. Mevcut yöntemler tersine oran matrisini tek bir nesne olarak ele alırken, yeni yaklaşım 'ne zaman zıplama yapılacağı' ve 'nereye zıplanacağı' sorularını iki ayrı ağ başlığıyla çözüyor. Bu matematiksel ayrıştırma, Poisson süreçlerinin doğal yapısına daha uygun olduğu için daha verimli ve teorik temellere dayalı bir çözüm sunuyor. Yapay zeka modellerinin metin ve kategorik veri üretme yeteneklerini artırabilecek bu yenilik, özellikle doğal dil işleme alanında önemli gelişmelere yol açabilir.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

20 Apr

Yapay Zeka Modellerinde Tek Adımlık Üretici Akışlar: Yeni Bir Yaklaşım

Araştırmacılar, yapay zeka modellerinin veri üretme süreçlerini optimize etmek için yeni bir matematiksel yaklaşım geliştirdi. 'Tek adımlık üretici akışlar' adı verilen bu yöntem, bir kaynak dağılımdan hedef dağılıma geçişi daha verimli hale getirmeyi amaçlıyor. Çalışma, özellikle düz çizgi akışları denilen özel durumları inceliyor - bunlar matematiksel olarak tam olarak hesaplanabilir ve birinci dereceden yöntemlerle çözülebilir süreçler. Bulgular, Gauss dağılımları için bu tür düz çizgi süreçlerinin her zaman oluşturulabileceğini, ancak diğer dağılım türleri için ciddi kısıtlamalar bulunduğunu gösteriyor. Bu araştırma, yapay zeka modellerinin daha hızlı ve etkili veri üretmesi için yeni olanaklar sunuyor.

arXiv (CS + AI) 0

Teknoloji & Yapay Zeka

16 Apr

Yapay Zeka Fizik Simülasyonları Artık Siber Saldırılara Karşı Daha Güvenli

Fizik simülasyonlarında hızlı sonuç veren yapay sinir ağları, siber saldırılara karşı oldukça savunmasız durumda. Özellikle güvenlik kritik dijital ikiz uygulamalarında bu durum ciddi riskler yaratıyor. Araştırmacılar, bu sorunu çözmek için iki farklı yaklaşımı birleştiren yenilikçi bir savunma stratejisi geliştirdi. Sistem, hem aktif öğrenme tabanlı veri üretimi hem de giriş verilerini temizleyen özel mimari kullanıyor. Viscous Burgers denklemi üzerinde yapılan testlerde, yeni yaklaşım standart eğitim yöntemlerine kıyasla %87 daha iyi performans gösterdi ve güvenlik açıklarını önemli ölçüde azalttı.

arXiv (CS + AI) 0