DeepMind İnsanlarda da Uygulanabilen Bir Yapay Zekâ Öğrenme Yöntemi Keşfetti

Öznur Karakaş

6 yıl önce

Otomatik öğrenme, [machine learning] bilgisayarların, bu yönde programlanmadıkları halde öğrenme kapasitesine sahip olmalarını sağlayan bir disiplin. Bu alanda uygulanan pek çok yöntem var. Öğrenme “sinyalinin” veya geribildirimin” tabiatına göre bu süreç gözetimli, gözetim olmaksızın, kısmen gözetimli ve teşvike dayalı olabiliyor. Gözetimli öğrenmede, bilgisayara girdi örnekleri sunuluyor ve bunlardan nasıl çıktılar elde etmesinin istendiği söyleniyor. Bilgisayardan, talep edilen girdilerle çıktıları ilişkilendiren genel bir kural bulması isteniyor. Gerçek yaşamda bu yöntem görüntü sınıflandırma, piyasa tahmini gibi alanlarda kullanılıyor. Gözetimsiz öğrenmede, öğrenen algoritmaya hiçbir etiket verilmiyor ve bilgisayardan girdilere ilişkin bir yapı bulması talep ediliyor. Bu yöntem daha ziyade belli bir girdi grubunu farklı gruplara ayırmak için kullanılıyor. Mesela bilgisayardan benzer verileri kümelere ayırmasını isteyebilirsiniz. Kısmi gözetimli öğrenme, geniş bir girdi miktarı içinde sadece belli girdilerin etiketlenmesi durumunda oluşuyor. Bunlara kısmi gözetimli öğrenme sorunları deniyor. Teşvike dayalı öğrenmede ise bilgisayar oldukça dinamik bir ortamda belli bir amacı gerçekleştirmeye çalışıyor (araç kullanmak veya rakip karşısında bir oyunu kazanmaya çalışmak). Bu programda ödül ve ceza üzerinden geribildirim sunuluyor. Bu son alanda geliştirilen dağılımsal teşvik sayesinde öğrenme denilen bir yöntemin Nature dergisinde yayımlanan yeni bir araştırmada, insan beyninin dopamin salınımına bağlı ödül-teşvik sistemini de açıklayabileceği düşünülüyor.

Londra’da yer alan Google’a ait DeepMind şirketinde çalışan Will Dabney ve meslektaşları, dağılımsal teşvik sayesinde öğrenme ismi verilen yeni bir otomatik öğrenme [machine learning] yönteminin beyinde ödüle ilişkin sinir yollarının nasıl işlediğini açıkladığını düşünüyor. Teşvik sayesinde öğrenmeye dayalı bu yöntem, beynin dopamin sisteminin işleyişini açıklıyor. Ödüllendirmeyle bağlantılı sinir yolları, zevk veren olaylara yanıtlarımızı idare eder ve dopamin salınımını sağlayan sinirleri kontrol eder.

Daniel Nelson’a göre, ne zaman bir edimde bulunacak olsak -ki bu hayvanlar için de geçerlidir-, beynimizde dopamin salgılanmasından sorumlu olan sinirler, bu edimin ne kadar cazip olduğuna dair bir tahminde bulunur. Edim hayata geçirilip elde edilecek olan sonuçların ne tür ödüller doğuracağı görüldüğünde beyin dopamin salgılar. Bilgisayardaki teşvik algoritmalarının işleyişi de buna benzer.

2017 yılında DeepMind araştırmacıları her zaman kullandıkları teşvike dayalı öğrenme algoritmasını yenileyerek ödülleri bir dağılım içinde sundu. Daha eski teşvike dayalı öğrenme yaklaşımları, ödülleri, beklenen ortalama sonuca göre tek bir sayı olarak temsil ediyordu. Ancak yeni modelde ödüller bir dağılım halinde temsil ediliyor. Bunun da insan beyninde ödüllendirmeyle bağlantılı dopamin sinirlerinin işleyişini andırdığı düşünülüyor. Nature’da yayımlanan yeni araştırmada da işte bu yeni dağılımsal teşvike dayalı öğrenme yönteminin dopamine bağlı ödüllendirme sistemimize benzerliği konu ediniliyor.

Araştırmanın iddiasına göre “beyin, gelecekte elde etmesi muhtemel ödülleri tek bir amaç şeklinde değil, daha ziyade, ihtimal dağılımı şeklinde, dolayısıyla pek çok sonucu, birbirine paralel ve eş zamanlı olarak temsil eder.” DeepMind’ın blogunda deneyi tartışan araştırmacılar bu fikrin öngördüğü pek çok ampirik tahmini, farelerin ventral tegmental [ön tavan] bölgesinden alınan tek-birimli kayıtlar kullanarak test etti. Harvard Üniversitesi’nde gerçekleştirilen deneyde, fareler iyi bildikleri bir görevi, öngörülemez ödüller alarak yaparken araştırmacılar tarafından kayıt altına alındı. Daha önceki araştırmalar, ödüle dönük tahminde bir hata görüldüğünde, yani fareler beklediklerinden fazla veya az ödül aldıklarında, dopamin hücrelerinin aktivasyon oranının değiştiğini göstermişti. Bu araştırmada, beyindeki dopamin sinirlerinin her birinin, bu olumlu ve olumsuz tahminlere uyumlandığı görüldü. Yani, araştırmacıların diliyle, aynı notayı çalmak yerine tıpkı bir koro gibi armoni halinde çalıştılar. Yapay zekada teşvike dayalı öğrenme sistemlerinde, bu uyumlanma, öğrenme sinyalinin daha zengin olmasını sağlar ve sinir ağlarında öğrenmeyi oldukça hızlandırır. Araştırmacılar, bu deneyin sonucunda, beynimizin de bu şekilde çalıştığını gördüler.

Araştırmacılara göre, beynin de dağılımsal teşvike dayalı öğrenmeyi kullandığını öne süren bu çalışmanın hem yapay zekâ hem de sinirbilimleri açısından mühim çıkarımları var. İlk olarak, dağılımsal teşvike dayalı öğrenme yönteminin yapay zekâ çalışmalarında kullanımını doğruluyor. İkincisi, sinirbilimleri alanında, zihin sağlığı ve motivasyona dair yeni görüşler ortaya atıyor. Beynimiz olumlu tahmine uyumlanan sinirlerden ziyade olumsuz tahmine uyumlanan sinirleri “dinlerse” ne olur? Dürtüselliğe veya depresyona yol açar mı bu durum? Beyindeki bu temsiller, ne ölçüde dağılımsal öğrenme tarafından şekillendirilir? Bir hayvan, ödül dağılımını öğrendiğinde, bu temsil nasıl kullanılıyor?

Bilgisayar bilimleri ve sinirbilimleri arasındaki süregiden iş birliği bakalım bu sorulara nasıl yanıtlar verecek.