TARIFNAME VERININ ILERI BESLEMELI SINIR AGI MIMARISI KULLANILARAK YALANCI-YINELEME ILE ISLENMESI IÇIN YÖNTEM Teknik Alan Bu bulus, yinelenen sinir agi algoritmasinin uygulanmasi için bir yöntem ile Teknigin Bilinen Durumu Eksik verilerin siniflandirilmasi makinenin ögrenmesinde daha önceden hem biyolojik [l] hem de bilgisayimsal [2]-[5] bakis açisindan ele alinmis olan önemli bir problemdir. Bu problem için önerilen çözümler, eksik veri ile çikarimlar [6], siniflandirma problemleri için üretmeye dayali modeller [7] ve geribildirimsel (reeurrent) sinir aglari ile ilgili literatüre yakinea baglidir. Geribildirimsel Sinir Aglari (TSA), kendi birimlerinin dagitik temsillerini ve lineer olmayan dinamiklerini kullanan baglantici bilgisayimsal modellerdir. TSA'lardaki bilgiler sakli (hidden) birimlerinin durumlari vasitasiyla yayilmakta ve islenmektedir, bu da onlari sirali veri isleme için uygun araçlar yapmaktadir. TSA'larin yaygin iki türü bulunmaktadir: simetrik baglantilara sahip olan olasiliksal enerji tabanli TSA'lar ve yönlenik baglantilara sahip deterministik TSA'lar Turing tam bilgisayimsal modelleri [11] ve dinamiksel sistemlerin evrensel yaklasiklayicilari [12] olarak bilinmektedir. Bunlar, dogal dil islemeden finansal veri analizine kadar uzanan çok çesitli uygulamalardaki uzun erimli istatistiksel iliskiler ile ugrasmakta özellikle güçlü araçlardir. Ek olarak, TSA'larin veri tamamlama görevlerinde çok basarili üretmeye dayali (generative) modeller olduklari da gösterilmistir [2]. Evrensel bilgisayar olarak uçsuz bucaksiz potansiyellerine ragmen, TSA'lar egitilmesindeki zorluklar uzun baglantili (long-term) bagimliliklarin ögrenilmesinin dogal zorluklarindan [13]-[15] ve yakinsama sorunlarindan [16] çikmaktadir. Ancak, daha iyi lineer olmayan eniyilestirieiler kullanilmasi [17] veya çiftlesmis titresieiler rezervuari kullanilmasi gibi yeni ilerlemeler bu problemlerin üstesinden gelmekte umut vadeden yaklasimlar sunmaktadir. Buna ragmen, TSA'lar, hem ögrenme hem de test fazlarinda, bilgisayimsal olarak pahaliliklarini korumaktadir. Bu patentle açiklana yöntemin arkasindaki fikir, bir ag içerisindeki özyinelemeli süreçleri taklit etmek ve ögrenme esnasindaki pahali enerji minimizasyonunu veya test esnasindaki bilgisayimsal olarak agir örneklemeleri engellerken süreçlerin gücünden yararlanmaktir. Üretmeye dayali modeller sakli degiskenlerinde sifrelenmis olan ögrenilmis olasiliksal yapiyi kullanarak rastgele gözlemlenebilir veri yaratmakta kullanilmaktadir. Ayrimci modellerin tersine üretmeye dayali modeller, gözlemlenen veriler ve bunlara karsilik gelen sinif etiketleri üzerinden bir birlesik olasilik dagilimi belirlemektedir. Örnek olarak, kisitlanmis Boltzmann makineleri (Restricted Boltzmann Machine)[7], [20] üretmeye dayali TSA'lardir. Karisim modelleri (Mixture model) belki de en yaygin kullanilan üretmeye dayali araçtir ve Beklenti Maksimizasyonu (Expectation Maximization) [7], [21], örnegin ögrenme verisindeki alt popülasyonlarin bir karisiminin parametreleri gibi, karsilik gelen istatistiksel parametrelerin tahmin edilmesinde standart bir teknik haline gelmistir. Alt popülasyon dagiliminin parametrelerinin verilmesi halinde örnekleme yöntemleri vasitasiyla yeni veriler üretilebilmektedir. Eksik veri kosullarinda siniflandirma iyi çalisilmis bir problemdir [3]-[5], [22], uygulanmadan önce siklikla kullanilan bir ön isleme aracidir [24]. Etken çözümleyicilerin karisimi (The Mixture of Factor Analyzers) [25] yaklasimi veride birçok küme oldugunu varsaymakta, bu kümelerin istatistiki parametrelerini tahmin etmekte ve bunlari kayip özellik boyutlarini doldurmak için kullanmaktadir. Böylelikle, bosluk doldurma asamasinda, kayip özellik degerleri önceden hesaplanmis dagilimlardan örneklenen degerlerle doldurulmaktadir. Burada, çoklu bosluk doldurma, verinin bir dagilimlar karisimindan geldigini varsaymaktadir ve verideki varyasyonlari yakalama kabiliyetine sahiptir. Etken çözümleyicilerin bir karisimindan örnekleme ve veriyi tamamlama, bir sinir aginin yüksek seviyedeki nöronlarindan alinan geri besleme bilgisinin alçak seviyedeki nöronlara eklenmesine etkin olarak benzemektedir. Resimlerdeki gürültülerin giderilmesi, örnegin, orijinal görüntülerin bozulmus versiyonlarindan kurtarilmasi amaciyla hem ileri besleme hem de özyinelemeli sinir agi yöntemleri önceden önerilmistir. Çok katmanli perseptronlar [27] ve aglarina (örnegin Hopfield modelleri [29]) alternatif olarak, geri yayilim kullanilarak egitilmistir. [30]'da katmanli (convolutional) sinir aglari resimlerin gürültülerinin giderilmesi için, sürekli yakalayicilar (attractors) olusturularak egitilmektedir. [31]'de ise bir resmi girdi olarak alan ve gürültüsü giderilmis resmi çikti olarak veren, evrisimsel bir sinir agi kullanilmistir. Evrisimsel katmanlann agirliklari rekonstrüksiyon hatalarinin geri yayilimi vasitasiyla ögrenilmektedir. sinir agi gelistirmek için bir vasita olarak kullanilmistir. Yalanci-olabilirlik (pseudo-likelihood) [33] ve bagimlilik agi [34] yaklasimlari, veri tamamlama problemini, bir veri bilesenini geri kalan bilesenleri kullanarak öngören kosullu dagilimlari ögrenerek çözmektedir. Bu iki yaklasim bu patentte açiklanan yöntem ile eksik veri bilesenlerine maksimum olabilirlik kestirimi yaklasimindan dolayi benzerlikler göstermektedir (örnegin k-ortalamalar kümesi ve küme merkezi bosluk doldurmasi). Ancak, önceki tekniklerin hiçbiri kökleri sinir aginin omurgasinda yüksek seviye siniiC kararlarina dayanan ve bu bilgiyi bir dagilim karisimindan maksimum olabilirlik algisindan eniyilestirilmis bir örneklemenin seçilmesi için aga geri yayan bir özyinelemeli prosedür önermemektedir. yöntemler kullanilarak bosluk doldurma edilmesi için bir yöntem açiklamaktadir. gerçeklestirilmesi için tensör faktörizasyonu yöntemi kullanilmistir. [37'] numarali patentte sikistirilan ve açilan resimlerde gürültü giderilmesi için sinir agi yöntemi açiklanmistir. Bulusun Kisa Açiklamasi Bu bulusun amaci, bir yinelemeli veri islemesinin uygulanmasi için bir yöntem gerçeklestirmektir. Açiklanan, karisik modeller [8] ve çoklu bosluk doldurmaya uygulanmaktadir. Açiklanan çoklu bosluk doldurma yaklasimi ag içerisinde, sanki karsilik gelen sakli katmanlarin faaliyetlerinin dinamik denklemleri tarafindan idare ediliyormus gibi, yalanci-geribildirimsel isleme gibi degerlendirilebilmektedir. Bu iskelet, geribildirimsel sinir agi hesaplamalari için gerçek zamanli isletime uygun olan bir kisa yol saglamaktadir. Açiklanan yöntem, kayip veri bilesenlerinin tamamiyla bilinmez oldugu veya veri bilesenlerinin yayginca bozulmus oldugu eksik veriler için siniflandirma islemini basarili olarak gerçeklestirmektedir. Bulusun Ayrintili Açiklamasi Ileri beslemeli aglar üzerindeki son çalismalar yogun örneklemenin ve sakli katman birimlerinin sayisinin önemini kanitlamistir [9]. Burada problem basarili bir ileri beslemeli agin tikaniklik/eksik veri isleme kabiliyetine sahip, bilgisayimsal olarak çok yogun olmayan yalanci geribildirimsel bir aga nasil dönüstürülebilecegidir. Açiklanan yöntemde Coates ve arkadaslarinin [9] agi benimsenmis ve eksik (tikanmis) görsel temsillerin (sakli katman faaliyetlerinin) tamamlanmasi için modifiye edilmistir. Yüksek boyutlu uzayda yakalayicilari insa etmek için kullanilan lineer olmayan denklemler lineer uzaklik karsilastiricilariyla degistirilmistir. MCMC [26] gibi yüksek maliyetli islemler de ortalama alma ve ikili karar islemleriyle degistirilmistir. Hopfield aglarinda ve Boltzmann makinelerinde "sakli bellekler" duyusal girdilerin yorumlamalaridir ve bunlar yinelemeli enerji minimizasyon prosedürleri tarafindan olusturulmaktadir. Bizim algoritmamizda sakli bellekler K-ortalama kümelemesi ve lineer filtreleme kullanilarak olusturulmaktadir. Yinelemeli bir agda t anindaki sakli katman faaliyeti, sakli katmanin t_ anindaki faaliyetinin ve mevcut girdinin ( 8 üzerinden parametrelerle ifade edilen) fonksiyonu olarak su sekilde verilmektedir hi = .FE htî'igci Sizintih entegrasyon yaklasiminda, t eklenmistir, Bizim iskeletimizde, bilgisayimsal verimlilik için F5 H ile yer degistirilmistir. Örnegin: h.r : `F .if-1 - [1 -3:{) Hr Burada H küme merkezidir ki bu daha önceki katman etkinligine h` en az H" - argmin;C (hf - :im 1 Burada H her bir sinif için K2 tane kümeye sahip olan küme merkezleri kümesidir. En yakin küme merkezi 'HL hesaplamasi sinif etiketleri için Destek Vektör Makinesi (DVM) kullanilarak verilen daha önceki kararlara dayandirilmaktadir. Dolayisiyla, ag, sakli katman faaliyetlerini örneklemek için aday olasilik dagilimlari kümesini daraltmak için sinif kararlarini kullanmaktadir. Dolayisiyla, yüksek seviye bilgiler mevcut sakli katman faaliyeti ile birlestirilmis olan sakli katman faaliyetini örneklemek için kullanilmaktadir. Bu prosedürü bir döngü içerisinde tekrar etmek örnegin TSA gibi bir dinamik sistemin davranisinin öykünmesini saglamaktadir. Açiklanan yöntem (100), bir ileri besleme sinir agi (101), sakli katmanlarda hatiralar olusturmak için ögretme safhasi (100) ve veri tamamlama görevlerinde hatiralardan istifade edilmesi için bir test safhasi (300) içermektedir. lOl'de ag mimarisi su sekilde gösterilmistir: analizi (103) veya sunulan çok boyutlu veride boyut genisletilmesini (102) gerçeklestiren bir sakli katmana (104) sahiptir takip eden sakli katman (106) birinci sakli katmanin faaliyetlerinin ayri uzaysal bölgelerde (örnegin resimlerin kuadrantlarinda) havuzlanmasiyla (105) hesaplanmaktadir bir DVM agin çikis katmanini taklit etmekte ve ikinci katman faaliyetlerinde çok sinifli siniflandirma (107) gerçeklestirmekte ve sinif etiketini döndürmektedir (108). Ileri beslemeli ag yönteminin detaylari için [9]'a bakilmalidir. Ögrenme safhasinda, ögrenme siniflandiricilari olarak bilinen etiketlere sahip bir veriler kümesi (102) kullanilmaktadir (205). Yalanci-geribildirimsel isleme için 3 safha tanitilmistir: Filtrele ve depola (201): Her bir egitim verisinin birinci ve ikinci sakli katman faaliyetleri alt geçiren filtre ile süzülmekte ve sakli katman bellekleri adi verilen veri yapilari içinde depolanmaktadir (202): Katman 1 ve N egitim örnegi için. H: 51: ' h: ,11: 'Mhz }, Katman 2 ve A' egitim örnegi için. K-orialama kümelemesi' (203): TSA içerisinde maliyetli enerji minimizasyonu vasitasiyla gerçeklestirilen hafiza biçimlendirmesi kümelenme ile degistirilmistir. Ikinci sakli katman faaliyetleri (106) sinif basina K2 adet küme veya sinifa öze] olmayan islemeler için K2 * (Sinif 8058.125 sayisi) adet küme (cf. kisim 3.1.3) kullanilarak vektörize edilmekte ve kümelenmektedir. Bu sebeple her bir sinifin sakli katman faaliyetleri K2 adet kutuya veya tüm verinin sakli katman faaliyetleri K2 * (sinif sayisi) adet kutuya kuantize edilmektedir. Sakli katman 2 bellegi (204): ' _ 1 2 3 K: { 3 ' h: " h: .11: } her bir y sinifi için K2 küme veya merkezi. Çoklu-Hipatez DVM Egitimi (205): Bir TSA'da, çoklu hipotezler duyumsal verileri açiklamak için birbirlerini olusturabilmekte ve birbirleri ile rekabet edebilmektedir. Basamaklanmis bir çoklu hipotez siniflandirma iskeleti bu özelligi taklit etmek üzere insa edilmistir. Egitim. agin çoklu hipotezlerine müsaade edebilmek amaciyla, verinin bir alt kümesi için tekrar edilmektedir. Bu, belirli tek bir sinifin (örnegin Sinif 1) veya bir siniflar çiftinin (örnegin Sinif 1 ve Sinif 2) dislanmasi ve bir DVM'nin kalan veri için egitilmesi ile basarilmaktadir. Tek bir sinifin dislanmasi durumunda, egitilen DVM ikinci bir hipotez saglayabilmek amaciyla kullanilabilmektedir. Örnegin, eger Sinif 1 agin "topyekün DVM siniflandirici" tarafindan karar verilen ilk tercihi ise, Sinif '1 verisini dislayarak egitilen siniflandirici ikinci bir hipotez vermek için kullanilmaktadir. Sinif çiftlerinin dislanmasi durumunda ise, örnegin hem Sinif 1 hem de Sinif 2'nin verileri disarida birakilmaktadir, egitilen DVM birinci seçenegin Sinif 1 ve ikinci seçenegin Sinif 2 oldugu üçüncü bir hipotez vermektedir. Bu siniflandiricilar koleksiyonu test esnasinda sakli katman 2'nin faaliyetlerinin küme merkezlerinden hangisinin geribildirim eklenmesi için kullanilacagina karar vermekte kullanilmaktadir. Siniflandirma bellegi (206) sunlardan olusmaktadir: Sagin birinci seçenegi için DVM siniflandirici S birinci seçenegin p sinifi olmasi durumunda ikinci seçenek için DVM siniflandirici. birinci seçenegin p sinifi ikincinin q olmasi durumunda uçuncu seçenek için DVM siniflandirici. Test fazinda bilinmeyen etiketli ve muhtemelen eksik (örnegin tikanmis, altörneklenmis vs.) test verisi örnegi (102) sunulmaktadir. Test fazi geribildirimsel isleme için su yinelemeli adimlara sahiptir: Havuzlama (105): Test fazi Coates ve arkadaslari [9] tarafindan saglanan algoritma ile baslamaktadir ve sakli katman 2'nin faaliyetlerini (106) katman 1'in faaliyetlerini (104) havuzlayarak hesaplamaktadir. Test verisi örnegi i için, t hz'm: : P (hitit } , burada Psakli katman 1 (104) üzerindeki havuzlama operasyonudur (105). Çoklu hipotez DVM testi (301).' Agin birinci, ikinci ve üçüncü sinif etiketi seçimleri siniflandirici hafizasinda karsilik gelen DVM kullanilarak elde edilmektedir (206). Sistemin çoklu hipotezleri (302) sunlardir: y _ 50.1: ), burada Sosinitlandirma operasyonu (107) ve y1 birincil seçenegin sinif etiketidir. Küme seçilimi (303): Her bir sinif hipotezi için, sakli katman 2 belleginin (204) test verisi sakli katman 2'ye (106) en yakin (Euclid mesafesi) küme merkezleri hesaplanmaktadir. Bunlar agin sakli katman hipotezleridir. Test verisi örnek katman 2'ye (106) en yakin 3 küme merkezi (her bir hipotez için bir tane) su sekilde hesaplanmaktadir: EE.: = argminl-c (hîiiit _ ) . . . . i .. . 111.3` : argmink 01:." _ HY Ek)- Bir "kazanan hepsini alir" (winner-takes-all) yapilandirmasinda, yukarida hesaplanan kümelerden en yakini (test sakli katman faaliyetlerine minimum uzaklik) Katman 2'nin sakli faaliyet Örnegi (304) olarak seçilmistir ve "ortalama" yapilandirmasi için, üç kümenin ortalamasi örnek olarak atanmistir (304): hia :argminm (him _ hzl't) kazanan hepsini alir için atanmis Katman 2 örnegi. ortalama duzeni için atanmis Katman 2 ornegi. Sinifa özel olmayan yapilandirmalar için, her bir sinif hipotezi için 3 en yakin merkezin hesaplanmasi yerine, 3 en yakin küme sinif hipotezinden bagimsiz olarak hesaplanmaktadir. Diger bir sakli katman 2 bellegi kümesi (egitim fazi, 203. kisima bakiniz) kullanilmistir: hnan = argmink(h:i"t- gg): . Geri bildirim (305, Katman 2): Katman 2'nin örnegi, t+1 aninda sakli katman faaliyeti üretmek için, test verisi örnegi katman 2 faaliyeti (106) ile birlestirilmistir (geri besleme büyüklügü, (1): . Katman l Örneklemesi (306): Modifiye edilmis katman 2 faaliyeti (109) Euclid mesafesini kullanarak en benzer egitim kümesi veri örnegini hesaplamak için kullanilmaktadir. Li't- argminkûin" - Ha ) En benzer egitim verisinin sakli katman 1 faaliyeti Katman 1 hafizasindan (202) agin katman 1 örnegi (307) olarak çekilmektedir: 6. Geribildirim (308, Katman I): Katman l'in örnegi (307), t+l aninda sakli katman faaliyeti üretmek için, test verisi örnegi katman l faaliyeti (104) ile birlestirilmistir (geri besleme büyüklügü ß). 7. Havuzlama (105, ikinci kasum): Modifiye katman l faaliyeti (110) tekrarlamali döngüde en yeni katman 2 faaliyetini (lll) hesaplamak üzere havuzlanmaktadir (105). Daha sonra, bu faaliyetin katman 2 geri bildiriminden (305) gelen ve daha önceden hesaplanan katman 2 faaliyeti (109) ile ortalamasi alinmaktadir (geri bildirim orani, 1:). Geri bildirimli güncellenmis Katman 2 faaliyeti (112) söyledir: Katman 2 faaliyeti (112) için güncelleme kurali (309) Sekil 1 ve metindeki referanslari kullanarak su sekilde yeniden yazilabilir: Bu prosedür ikinci safhadan (301) ve çikis katman 2 faaliyetinden (112) baslayarak her bir özyineleme için tekrar edilmektedir. Geri bildirim büyüklügü simüle edilen tavlama amaçlari için her bir özyinelemede yarilanmaktadir. Açiklanan yöntemde benimsenen perspektif veri üretimine üç ayri yaklasimi baglamaktadir: TSA'lar, karisim modelleri ve eksik veri siniflandirmasi. Sezgisel ve gerçek zamanli çalisabilen bir yöntem açiklanmistir. Açiklanan yöntemde bosluk doldurma ve etken çözümleyicilerin karisimi yalanci yinelemeli islemenin bir parçasi olarak kullanilmistir. Bu patentte açiklanan yöntemde, bir ileri besleme sinir agi çikis katmaninda sinif kararlari vermekte ve seçilen modelin sakli katman faaliyetlerini tahmin etmek için uygun kümeyi seçmektedir. Bu örnekleme safhasindan sonra, algoritma bu küme merkezini sanki daha yüksek bir katmandan geri bildirimmis gibi eklemektedir. Klasik bosluk doldurma tekniginin aksine, bizim agimizda, eksik sakli katman faaliyetleri uzaysal havuzlama nedeniyle izole edilememektedir, bu nedenle kayip boyutlarin önsel olarak bilinmedigi varsayilmaktadir. Kayip veri boyutlari bilinmedigi için örnek ve test verisi sakli katman faaliyetleri tüm boyutlarda birlestirilmektedir. Bu prosedür bir TSA'daki ileri besleme-geri bildirim iterasyonlarina öykünmesi için birçok kere tekrarlanmaktadir. Çoklu hipotez geri bildirimi ve kazanan hepsini alir gibi diger iliskili kavramlar da uygulanmistir. Bu yöntemi geri bildirim islemesi için bir kisa yol ve veri tamamlama islemlerinde TSA'larin performansi için bir dayanak olarak önermekteyiz. TR TR TR TR TR TR TR TR TR TR