Arama · son güncelleme 10 sa önce
8.475
toplam haber
9
kategori
70+
bilim kaynağı
145-168 / 277 haber Sayfa 7 / 12
Teknoloji & Yapay Zeka
21 Apr

Yapay Zeka ile Uçak Tasarımında Devrim: AeroTransformer Modeli

Araştırmacılar, uçak ve kanat tasarımında aerodinamik performansı öngörebilen yeni bir yapay zeka modeli geliştirdi. AeroTransformer adlı bu sistem, 30 bin farklı geometrik şekil üzerinde eğitilerek, karmaşık üç boyutlu yapıların hava akışı özelliklerini tahmin edebiliyor. Geleneksel yöntemlerle saatler süren hesaplamalar artık dakikalar içinde tamamlanabiliyor. Bu teknoloji, uçak endüstrisinde tasarım süreçlerini hızlandırarak daha verimli ve çevre dostu uçakların geliştirilmesine katkı sağlayabilir. Model, özellikle ses hızına yakın uçuş koşullarında çalışan kanatların optimizasyonunda başarılı sonuçlar verdi.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Vision Transformer'ların Karar Verme Sürecini Açıklayan Yeni Yöntem Geliştirildi

Bilgisayar görme alanında önemli başarılar elde eden Vision Transformer'lar, karmaşık yapıları nedeniyle nasıl karar verdikleri anlaşılması zor sistemlerdi. Araştırmacılar, bu yapay zeka modellerinin karar verme süreçlerini daha net anlaşılabilir hale getiren Decision-Aware Attention Propagation (DAP) adlı yeni bir yöntem geliştirdi. Bu yaklaşım, modelin dikkat mekanizmasına karar odaklı bilgileri entegre ederek, hangi görsel öğelerin sınıflandırma kararında etkili olduğunu daha açık şekilde gösteriyor. Yöntem, mevcut dikkat tabanlı açıklama yöntemlerinin sınırlılıklarını aşarak, sınıf ayırım kabiliyeti daha yüksek açıklamalar sunuyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

LoRaQ: Yapay Zeka Modellerini 4 Kat Daha Az Bellekte Çalıştıran Yöntem

Araştırmacılar, büyük yapay zeka modellerini sınırlı donanımlarda çalıştırmak için LoRaQ adlı yeni bir yöntem geliştirdiler. Bu teknik, modellerin boyutunu önemli ölçüde küçültürken performans kaybını minimize ediyor. Geleneksel yaklaşımlar 4-bit sıkıştırma yapıldığında ciddi performans düşüşleri yaşarken, LoRaQ düşük-rank yaklaşım yöntemleriyle bu sorunu çözüyor. En önemli yenilik, yardımcı dalların da sıkıştırılabilir olması ve kalibrasyon için veri gerektirmemesi. Bu sayede ilk kez tamamen 16-bit altında çalışan bir sistem elde ediliyor. Özellikle diffusion transformer modelleri için kritik olan bu gelişme, mobil cihazlar ve edge computing uygulamaları için büyük önem taşıyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Büyük Dil Modellerinde Bellek Sorununu Çözen Yeni Mimari: AQPIM

Araştırmacılar, büyük dil modellerinin karşılaştığı bellek darboğazı sorununa çözüm getiren AQPIM adlı yeni bir yaklaşım geliştirdi. Processing-in-Memory (PIM) mimarileri, makine öğrenmesinde veri-yoğun işlemlerde umut vaat etse de, özellikle Transformer tabanlı modellerde artan aktivasyon bellek ihtiyacı önemli bir engel oluşturuyor. Uzun bağlamlı senaryolarda üretilen devasa KV önbellek boyutları, PIM'in sınırlı bellek kapasitesini aşabiliyor. Geleneksel yaklaşımlar bu sorunu çözmekte yetersiz kalıyor. AQPIM, aktivasyon özelliklerine uygun kümeleme tabanlı vektör kuantizasyon yöntemleri kullanarak hem bant genişliği hem de hesaplama verimliliğini artırıyor. Bu gelişme, büyük dil modellerinin daha verimli çalışmasına olanak tanıyarak yapay zeka uygulamalarında önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Yapay Zeka Modellerinde Durum Transferi ve Yeniden Kullanım Mekanizması Keşfedildi

Araştırmacılar, yapay zeka modellerinin davranışlarını değiştiren prompt tabanlı müdahalelerin nasıl çalıştığını daha iyi anlayabilmek için yeni bir yöntem geliştirdi. GPT-2 ve Qwen modelleri üzerinde yapılan deneyler, modellerin öğrendiği bilgileri farklı görevlerde nasıl yeniden kullandığını ortaya koyuyor. Çalışma, kontrollü yönlendirme görevlerinde 'durum transferi' adı verilen mekanizmayı inceliyor ve modellerin davranışsal olarak önemli bilgileri nerede sakladığını tespit etmeye odaklanıyor. Bulgular, sabit arayüz yeniden kullanımı ile prompt yeniden konumlandırması arasındaki farkı net bir şekilde gösteriyor. Bu keşif, yapay zeka modellerinin iç işleyişini anlamak ve daha verimli model tasarımları geliştirmek açısından önemli.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Yapay Zeka Modelleri Artık Çok Daha Az Bellek Kullanacak

Stanford ve diğer kurumlardan araştırmacılar, mevcut Transformer tabanlı yapay zeka modellerinin yüksek bellek tüketimi sorununa çözüm ürettiler. Geliştirdikleri yeni yaklaşım, tekrarlayan sinir ağı mimarileri kullanarak metin gömme işlemlerini sabit bellek kullanımıyla gerçekleştiriyor. Mamba2, RWKV ve xLSTM gibi modellerde test edilen bu yöntem, uzun metinlerde bile bellek kullanımını sabit tutarken performansta rekabetçi sonuçlar veriyor. Bu gelişme, yapay zeka uygulamalarının daha verimli çalışmasını ve kaynak kısıtlı ortamlarda bile güçlü dil modellerinin kullanılabilmesini sağlayabilir. Araştırma, özellikle uzun metin analizlerinde büyük avantaj sunuyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Yapay Zeka Güvenliğinde Yeni Çözümler: 7 Farklı Disiplinden İlham

Araştırmacılar, yapay zeka sistemlerine yönelik prompt injection saldırılarını tespit etmek için geleneksel yöntemlerin ötesinde 7 yenilikçi teknik geliştirdi. Mevcut açık kaynak savunma sistemleri, düzenli ifade eşleştirme ve fine-tuned transformer sınıflandırıcıları kullanıyor ancak bu yöntemler ciddi güvenlik açıklarına sahip. Düzenli ifadeler parafrazlanmış saldırıları kaçırırken, fine-tuned sınıflandırıcılar uyarlanabilir düşmanlara karşı savunmasız kalıyor. Yeni araştırma, adli dilbilim, malzeme bilimi, ağ güvenliği, biyoinformatik, ekonomi, epidemiyoloji ve derleyici teorisi gibi farklı disiplinlerden teknikleri uyarlayarak bu sorunlara çözüm önerisi sunuyor. Bu interdisipliner yaklaşım, AI güvenliğinde daha dayanıklı savunma mekanizmaları geliştirilmesi açısından önemli bir adım.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Yapay Zeka Artık Hava Durumunu Fotoğraftan Anlık Olarak Tahmin Edebiliyor

Araştırmacılar, fotoğraflardan hava durumunu gerçek zamanlı olarak sınıflandırabilen üç farklı yapay sinir ağı mimarisi geliştirdi. Bu modeller güneşli, yağmurlu, karlı ve sisli hava koşullarını görüntülerdeki stil özelliklerini analiz ederek tespit edebiliyor. Çalışmada öne çıkan yaklaşımlar arasında çoklu yama boyutları kullanan Multi-PatchGAN, sadeleştirilmiş ResNet50 ve dikkat mekanizmalı Gram matrisi tabanlı model yer alıyor. Bu gelişme, meteoroloji uygulamaları, akıllı şehir sistemleri ve otonom araçlar için önemli bir adım teşkil ediyor. Özellikle görüntülerdeki ince stil detaylarını yakalayabilen bu sistemler, geleneksel hava durumu tahmin yöntemlerini destekleyici bir rol oynayabilir.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Yapay Zeka Modelleri Artık Kendilerini Geliştirebiliyor: EVE Sistemi

Araştırmacılar, çok modlu büyük dil modellerinin (MLLM) kendilerini sürekli geliştirebilmesi için yeni bir yöntem geliştirdi. EVE (Executable Visual transformation-based self-Evolution) adlı bu sistem, geleneksel yöntemlerin aksine sahte etiketlere ihtiyaç duymadan çalışıyor. Sistem, görsel dönüşüm kodları kullanarak sürekli olarak yeni ve zorlu veri setleri oluşturabiliyor. İki parçalı mimariyle çalışan EVE, bir yandan zorlu problemler üretirken diğer yandan bunları çözmeye odaklanıyor. Bu yaklaşım, yapay zeka modellerinin kalite kaybı yaşamadan kendilerini sürekli geliştirmesi sorununa yenilikçi bir çözüm sunuyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Mikroşerit Filtreler İçin Yeni Bridged-T Devre Analizi: 1 GHz'de Yüksek Geçiren Filtre

Araştırmacılar, mikroşerit filtre uygulamalarında kullanılan iki portlu Bridged-T devre ağlarının performansını analiz etmek için gelişmiş matematiksel yöntemler geliştirdi. Çalışmada, saçılma matrisleri ve iletim matrisleri kullanılarak devrenin elektriksel davranışı detaylı olarak incelendi. Özellikle S11 ve S21 parametrelerinin büyüklük ve faz değerleri parametrik olarak hesaplandı. Araştırmanın en dikkat çekici bulgusu, devredeki endüktörlerin eşit değerlerde olması durumunda matematiksel transfer fonksiyonunda önemli bir sadeleşme meydana gelmesi. Bu özellik sayesinde devre, yüksek geçiren filtre olarak çalışabilme kabiliyeti kazanıyor. 1 GHz kesim frekansına sahip tasarlanan filtre için yapılan simülasyonlar, teorik hesaplamaları doğrular nitelikte sonuçlar verdi. Bu çalışma, yüksek frekanslı elektronik sistemlerde kullanılan filtrelerin tasarım sürecine önemli katkılar sunuyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Yapay Zeka ile Bilgisayar Çiplerinin Performansı Otomatik Olarak İyileştiriliyor

Araştırmacılar, bilgisayar çiplerinin tasarım sürecinde performans, güç tüketimi ve alan kullanımını optimize eden yeni bir yapay zeka sistemi geliştirdi. AutoPPA adlı bu sistem, insan müdahalesi olmadan kendi optimizasyon kurallarını öğrenebiliyor. Geleneksel yöntemlerde uzmanlar tarafından elle yazılan kurallar yerine, sistem farklı kod örneklerini karşılaştırarak en iyi tasarım desenlerini otomatik olarak keşfediyor. Bu yaklaşım, çip tasarımcılarının işini büyük ölçüde kolaylaştırabilir ve daha verimli elektronik cihazların geliştirilmesine katkıda bulunabilir. Sistem, özellikle RTL (Register Transfer Level) tasarım sürecinde kullanılmak üzere geliştirildi ve mevcut yöntemlere göre daha etkili sonuçlar veriyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Küçük Veri ile Büyük Başarı: Kompakt Yapay Zeka Modelleri Geliştiren Yeni Yaklaşım

Araştırmacılar, çocukların dil öğrenme sürecinden ilham alarak, sınırlı kaynaklarla çalışabilen kompakt görü-dil modelleri geliştirdi. ESsEN adlı bu yeni yaklaşım, milyarlarca parametre gerektiren büyük modellere alternatif sunuyor. İki-kule encoder mimarisi ve geleneksel konvolüsyonel ağların transformer yapılarıyla entegrasyonu sayesinde, küçük veri setleriyle eğitilen modeller bile başarılı sonuçlar veriyor. Bu gelişme, özellikle mobil cihazlar ve özerk robotik sistemler için kritik önem taşıyor. Çalışma, yapay zekanın daha erişilebilir hale gelmesi yolunda önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Neural Operatörler: Dünyayı Modellemek İçin Sadece Veri Yeterli mi?

Geleneksel matematik ve fizik problemlerini çözmek için kullanılan sayısal yöntemler hem zaman alıyor hem de hesaplama açısından oldukça maliyetli. Sonlu Elemanlar Yöntemi gibi klasik teknikler, ısı transferi, akışkanlar mekaniği veya elektrodinamik gibi karmaşık fiziksel olayları modellerken büyük hesaplama gücü gerektiriyor. Bu noktada makine öğrenmesi tabanlı neural operatörler devreye giriyor. Bu yeni yaklaşım, veri odaklı bir şekilde çalışarak hem daha hızlı sonuçlar üretiyor hem de oldukça doğru tahminler yapabiliyor. Neural operatörlerin en önemli avantajları arasında ayrıklaştırma ve çözünürlük bağımsızlığı yer alıyor. Bu özellikler, onları geleneksel yöntemlere güçlü bir alternatif haline getiriyor ve bilimsel hesaplama alanında paradigma değişikliği yaratıyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Yapay zeka az görüntüden 3D yüzey modelleme başarısını artırdı

Araştırmacılar, sınırlı sayıda görüntüden hassas 3D yüzey modelleri oluşturabilen yeni bir yapay zeka sistemi geliştirdi. EpiS adı verilen bu sistem, geleneksel yöntemlerin aksine epipolar geometriyi kullanarak çok daha detaylı modeller üretiyor. Mevcut sistemler genellikle basit istatistiksel yöntemlerle çalışırken, EpiS farklı açılardan çekilen görüntüler arasındaki geometrik ilişkileri daha akıllıca analiz ediyor. Bu yaklaşım özellikle nesne engellemeleri ve belirsizliklerin yoğun olduğu durumlarda önemli avantajlar sağlıyor. Sistem, epipolar transformer teknolojisi kullanarak çok görüntülü bilgileri birleştiriyor ve ray tabanlı toplama ile yüzey tahmini yapıyor. Bu gelişme, sanal gerçeklik, robotik görü ve dijital modellemede devrim yaratabilir.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Yapay Zeka Farklı Veri Türlerini Nasıl Senkronize Ediyor?

Araştırmacılar, yapay zeka sistemlerinin video, metin ve ses gibi farklı veri türlerini nasıl eşzamanlı işlediğini anlamak için yenilikçi bir çalışma gerçekleştirdi. Video-metin-konuşma sentezi adlı kontrollü bir görev kullanarak, birleşik transformer modellerinin heterojen örnekleme hızlarına sahip modaliteleri nasıl senkronize ettiğini incelediler. VoxCeleb2 veri setiyle eğitilen Visatronic adlı model üzerinde yapılan deneyler, modalitelerin nasıl tamamlayıcı bilgi sağladığını ve pozisyonel kodlama stratejilerinin senkronizasyonu nasıl mümkün kıldığını ortaya çıkardı. Çalışma, çok modalı AI sistemlerinin çalışma mekanizmalarını anlamamızı derinleştiriyor ve gelecekteki gelişmeler için önemli ipuçları sunuyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Dijital varlıklar için gizlilik odaklı güvenli transfer protokolü geliştirildi

Araştırmacılar, dijital varlıkların oluşturulması, güncellenmesi ve transferi için yeni bir güvenlik protokolü geliştirdi. Bu sistem, kullanıcıların kimliklerini gizli tutarken dijital varlıklarının tam kontrolünü ellerinde bulundurmalarına olanak sağlıyor. Protokol üç temel bileşenden oluşuyor: işlem kanalındaki tarafların kimliklerini birbirinden ayıran mekanizma, gizli işlemler için özel bir sistem ve servis sağlayıcıların yanıltıcı davranışlarını engelleyen koruma sistemi. Bu çalışma, dijital finansal işlemlerde gizlilik ve güvenlik konularında önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Yapay zeka artık ironiden anlıyor: Yeni model sarkastik mesajları tespit edebiliyor

Araştırmacılar, metinlerdeki sarkastiK ifadeleri tespit edebilen yeni bir yapay zeka modeli geliştirdi. Model, transformer tabanlı dil modelleri ile prototip-tabanlı ağları birleştirerek, ironik ve alaycı dil kullanımını başarıyla tanıyor. Geleneksel duygu analizi sistemleri, doğrudan duygusal ifadeleri kolayca anlayabilirken, kelimelerin gerçek anlamı ile kasteden anlam arasındaki çelişki nedeniyle sarkastik metinlerde zorlanıyor. Yeni yaklaşım, duygu gömme tekniklerini kullanarak bu sorunu çözmeye odaklanıyor. Üç farklı açık kaynak veri setinde test edilen model, mevcut en iyi yöntemleri geride bırakıyor. Ayrıca model, benzer örnekler üzerinden açıklamalar üreterek kararlarını şeffaf hale getiriyor. Bu gelişme, sosyal medya analizi, müşteri geri bildirimlerinin değerlendirilmesi ve dijital iletişimde duygu tanıma gibi alanlarda önemli iyileştirmeler sağlayabilir.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Akıllı Gözlük İçin Okuma Tanıma Teknolojisi: 100 Saatlik Veri Seti

Araştırmacılar, sürekli çalışan akıllı gözlükler için kullanıcının ne zaman okuma yaptığını tespit eden yeni bir yapay zeka sistemi geliştirdi. 'Reading in the Wild' adı verilen 100 saatlik video veri seti, gerçek yaşam koşullarında okuma ve okuma dışı aktiviteleri içeriyor. Sistem, egocentric RGB kamera görüntüleri, göz takibi ve baş hareketleri olmak üzere üç farklı veri kaynağını transformer modeli ile birleştirerek çalışıyor. Bu teknoloji, akıllı gözlüklerin kullanıcı davranışlarını daha iyi anlamasını ve bağlamsal yapay zeka deneyimi sunmasını sağlayacak. Araştırma, geleceğin giyilebilir teknolojilerinde önemli bir adım olarak değerlendiriliyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Mamba Mimarisi Konuşma Tanıma Teknolojisinde Yeni Ufuklar Açıyor

Araştırmacılar, dil modellemede başarılı olan Mamba mimarisini konuşma tanıma sistemlerinde test ederek çığır açan sonuçlar elde ettiler. Stanford ve diğer kurumların ortak çalışmasında, Mamba tabanlı HuBERT modelleri, geleneksel Transformer mimarilerine alternatif olarak değerlendirildi. Sonuçlar, bu yeni yaklaşımın özellikle uzun ses kayıtlarının işlenmesinde ve gerçek zamanlı konuşma tanımada üstün performans sergilediğini ortaya koydu. Mamba'nın doğrusal zaman karmaşıklığı sayesinde, modeller daha az hesaplama gücü kullanarak daha uzun ses dizilerini işleyebiliyor. Ayrıca konuşmacı özelliklerini daha net bir şekilde ayırt edebiliyor ve ses verilerini daha kaliteli şekilde sıkıştırabiliyor. Bu gelişme, ses teknolojilerinin gelecekteki uygulamalarında önemli bir dönüm noktası olabilir.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Lizard: Büyük Dil Modellerini Hızlandıran Yenilikçi Çerçeve Geliştirildi

Araştırmacılar, ChatGPT benzeri büyük dil modellerinin en büyük sorunlarından birini çözen Lizard adlı yenilikçi bir çerçeve geliştirdi. Transformer mimarisindeki büyük dil modelleri, uzun metinlerle çalışırken kvadratik karmaşıklık nedeniyle ciddi hesaplama ve bellek darboğazları yaşıyor. Lizard, önceden eğitilmiş modelleri subkuadratik mimarilere dönüştürerek bu sorunu çözüyor. Geleneksel softmax attention mekanizmasının yerini alan yeni yaklaşım, model kalitesini korurken hesaplama maliyetini önemli ölçüde düşürüyor. Önceki doğrusallaştırma yöntemlerinden farklı olarak, Lizard adaptive bellek kontrolü sağlayan öğrenilebilir modüller içeriyor ve uzun dizilerde daha iyi genelleme yapabiliyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Telugu Dili İçin Duygu Analizi: İnsan Merkezli Yapay Zeka Yaklaşımı

Araştırmacılar, 96 milyondan fazla konuşuru olan Telugu dili için yenilikçi bir duygu analizi sistemi geliştirdi. Hindistan'ın önemli dillerinden biri olan Telugu, makine öğrenmesi alanında 'düşük kaynak' kategorisinde yer alıyor. Bilim insanları, sadece doğruluk oranına odaklanmak yerine, yapay zekanın insan düşüncesiyle nasıl uyumlaştırılabileceğini araştırdı. TeSent adlı büyük ölçekli veri setini oluşturdular - bu set Telugu metinlerinin duygu etiketleriyle birlikte, ana dili konuşucularının mantıklı açıklamalarını da içeriyor. Beş farklı transformer modelini test ettikleri araştırmada, insan mantığını model eğitimine dahil etmenin önemini vurguladılar. Bu yaklaşım, özellikle veri kıtlığı yaşanan diller için yapay zeka sistemlerinin daha güvenilir ve yorumlanabilir olmasını sağlayabilir.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Graf Sinir Ağlarında Sürekli Derinlik: Yeni Matematiksel Teori Geliştirildi

Araştırmacılar, graf yapılarındaki dinamikleri modelleyen Graf Sinir Diferansiyel Denklemleri (GNDE) için yeni bir matematiksel teori geliştirdi. Bu çalışma, sosyal ağlardan moleküler yapılara kadar birçok alanda kullanılan graf sinir ağlarının sürekli derinlik mimarisinde nasıl davrandığını açıklıyor. Özellikle sonsuz düğüm limitinde bu sistemlerin nasıl yakınsadığını ve farklı boyutlardaki graflar arasında nasıl transfer edilebileceğini matematiksel olarak kanıtlıyor. Graphon Sinir Diferansiyel Denklemleri adı verilen yeni yaklaşım, büyük ölçekli graf verilerinin işlenmesinde önemli teorik temeller sunuyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Yapay Zeka Modellerinin Düşük Hassasiyetli Eğitiminde Yaşanan Çöküşlerin Gizemi Çözüldü

Araştırmacılar, yapay zeka transformer modellerinin düşük hassasiyetli eğitiminde yaşanan gizemli çöküşlerin nedenini ilk kez açıkladı. Stanford ve diğer kurumlardan bilim insanları, Flash Attention teknolojisi kullanılarak düşük hassasiyetli ayarlarda eğitilen modellerde ortaya çıkan felaket niteliğindeki kayıp patlamalarının arkasındaki mekanizmayı keşfetti. Bu çalışma, AI endüstrisinin hesaplama verimliliği arayışında karşılaştığı önemli bir engelin çözümüne ışık tutuyor. Bulgular, dikkat mekanizmasında benzer düşük-rank temsillerin ortaya çıkması ve düşük hassasiyetli aritmetikte önyargılı yuvarlama hatalarının birleşen etkisiyle oluşan kısır döngünün, model eğitimini nasıl baltaladığını ortaya koyuyor. Bu keşif, daha verimli AI modelleri geliştirmek için kritik önem taşıyor.

arXiv (CS + AI) 0
Teknoloji & Yapay Zeka
21 Apr

Yapay Zeka Belleğinde Devrim: MeSH Tekniği ile Daha Verimli Dil Modelleri

Araştırmacılar, recursive transformer modellerinin performans sorunlarını çözmek için yenilikçi bir yaklaşım geliştirdi. MeSH (Memory-as-State-Highways) adlı bu teknik, yapay zeka modellerinin bellek yönetimini harici bir tampona taşıyarak, her iterasyonda farklı hesaplama kalıpları kullanmasını sağlıyor. Çalışma, mevcut recursive modellerin iki temel sorunu olduğunu ortaya koyuyor: benzer hesaplama kalıplarının tekrarlanması ve uzun-kısa vadeli bilgilerin aynı durum uzayında karışması. MeSH teknigi bu sorunları çözerek, daha az parametre kullanırken daha yüksek performans elde etmeyi mümkün kılıyor. Bu gelişme, dil modellerinin verimliliğini artırarak yapay zeka sistemlerinin daha az kaynak tüketimle daha iyi sonuçlar üretmesinin yolunu açıyor.

arXiv (CS + AI) 0