Neuroverkot

Neuroverkot ovat informaation käsittelyn, matematiikan tai laskennan malleja, jotka ovat saaneet inspiraationsa aivojen rakenteesta. Neuroverkko on graafi, koostuu neuroneista, joita yhdistävät synapsit. Neuroni saa signaaleja ja laskee niistä painotetun summan, jonka tietyn rajan ylitettyään lähettää eteenpäin. Signaalit ovat neuroverkoissa yksinkertaisesti lukuja. Neuroverkko järjestetään tasoiksi, joiden läpi signaali kulkee. Neuroverkot koulutetaan näyttämällä niille malleja, joilla on syöte ja tulos, ja verkko muodostaa todennäköisyyksin painotetun sisäisen mallin näistä.[1] Aivotutkijat Warren McCulloch ja Walter Pitts esittivät ensimmäisen ihmisaivojen toimintaa ja matemaattista logiikkaa yhdistelevän laskentamallin vuonna 1943.

Eteenpäin kytketty 2x5 monikerrosverkko

Neuroverkkojen perusajatus perustuu luonnollisiin hermoverkkoihin, mutta tarkkaan luonnollisten hermoverkkojen jäljittelyyn ei nykyisin yleensä pyritä, vaan neuroverkkotekniikoiden kehittäminen perustuu enemmän esimerkiksi tilastotieteeseen ja signaalinkäsittelyn teoriaan.

Siinä kun tavallisissa asiantuntijajärjestelmissä käytetään "jos-niin"-sääntöpareja (esim. jos raidat, niin seepra; jos pitkät korvat, niin aasi), neuroverkkoa opetetaan esimerkkien avulla (nämä ovat eri-ikäisiä seeproja, nämä aaseja). Pyritään siihen, että neuroverkko oppii muuttujien epälineaariset riippuvuussuhteet suoraan havaintoaineistosta (em. esimerkissä neuroverkko oppii tarkastelemaan korvia ja värin kuvioita, ei esim. jalkojen pituutta). Muilta osin neuraalilaskenta muistuttaa tilastotieteessä käytettyjä yleistettyjä lineaarisia malleja (GLM).

Neuroni ja neuroverkon kerrokset

Neuroverkot koostuvat joukosta (keinotekoisia) neuroneita. Neuronit ovat yksinkertaisia, toisiinsa kytkettyjä tiedonkäsittely-yksiköitä. Keinotekoinen neuroni muistuttaa karkeasti biologista neuronia, ja koostuu seuraavista osista:

synapseista
summaajasta
aktivaatiofunktiosta

Synapsi on kahden neuronin välinen kytkentä, jolle on määritelty kytkentäkohtainen paino. Summaajan tehtävä on laskea kaikilta syötesynapseilta tulleiden signaalien summa. Lopulta neuroni tuottaa tämän summan perusteella aktivaation.

Keinotekoiset neuroverkot järjestetään lähes aina kerroksiksi, joissa on tietty joukko vektoriksi järjestettyjä neuroneja. Niistä lähteviä synapseja, summajia ja aktivaatioita voidaan mallintaa yhdistetyllä funktiolla, joka koostuu lineaarikuvauksesta, vakiotermistä ja aktivaatiofunktiosta. Yhden kerroksen aktivaatio on seuraavan kerrokseen sisään tuleva signaali.

Lineaarikuvaus ja vakiotermi

Neuronin $k$ summaaja laskee syöttösynapseilta tulleiden signaalien summan

u_{k}=\sum _{j=1}^{m}w_{kj}x_{j}+b_{k}

jossa $x_{j}$ ovat syötesignaaleita ja $b_{k}$ on vakiotermi (bias). Tämä esitetään usein matriisimuodossa

\mathbf {u} =W\mathbf {x} +\mathbf {b}

notaation ja derivaattojen laskennan selkeyttämiseksi.

Aktivaatiofunktio

Aktivaatiofunktio $\phi$ laskee summasta $u_{k}$ epälineaarisen kuvauksen

y_{k}=\phi (u_{k})

jossa $y_{k}$ on ulostulosignaali. Aktivaatiofunktio lasketaan yleensä jokaiselle kerroksen neuronille erikseen.

Epälineaarisuus mahdollistaa mielivaltaisen funktion approksimoimisen. Epälineaarinen aktivaatiofunktio voi olla esimerkiksi askelfunktio

y(x)=\left\{{\begin{matrix}1,&{\mbox{kun }}x\geq 0\\0,&{\mbox{kun }}x<0\end{matrix}}\right.

tai logistinen (sigmoidi) funktio

y(x)={\frac {1}{1+e^{-x}}}.

Nykyisin yleisin aktivaatiofunktio on ReLU (engl. Rectified linear unit)

y(x)=\left\{{\begin{matrix}x,&{\mbox{kun }}x\geq 0\\0,&{\mbox{kun }}x<0\end{matrix}}\right.

muun muassa sen helpon derivoituvuuden vuoksi. Se ei myöskään kärsi häviävien gradienttien ongelmasta toisin kuin sigmoidiset funktiot.

Neuroverkkorakenteet

Avattu takaisinkytketty neuroverkko

Neuroverkkokerroksia yhdistelemällä voidaan rakentaa erilaisia neuroverkkoja. Yleisin neuroverkkorakenne on eteenpäinsyöttävä verkko, jossa kaikki edellisen kerroksen neuronit on kytketty kaikkiin seuraavan kerroksen neuroneihin. Eri tarkoituksiin on kehitetty lisäksi monia erilaisia neuroverkkorakenteita.

Eteenpäin kytketty yksikerroksinen perseptroniverkko (engl. Single Layer Perceptron)
Eteenpäin kytketty monikerroksinen perseptroniverkko (engl. Multilayer Perceptron)
Takaisinkytketty neuroverkko (engl. Recurrent Neural Network)
- Pitkä lyhytkestomuisti (engl. Long Short Term Memory)
Konvoluutioneuroverkko (engl. Convolutional Neural Network)
Generatiivinen kilpaileva verkosto (engl. Generative Adversarial Network)
Autoenkoodaaja (engl. Autoencoder)

Opetus

Neuroverkkojen opettamisessa kytkentöjen synaptiset painot optimoidaan siten, että opetusnäytteiden vasteiden ja haluttujen vasteiden ero minimoituu.

Opetusnopeutta voidaan parantaa nolla-keskiarvoistamalla opetusdata ja vähentämällä opetusnäytteen piirteiden keskinäistä riippuvuutta esimerkiksi pääkomponenttianalyysillä.

Hukkafunktio, gradientti ja vastavirta-algoritmi

Jotta neuroverkkoa voidaan opettaa, sille on määriteltävä hukkafunktio (engl. loss function). Hukkafunktio antaa numeerisen arvon sille, kuinka hyvin neuroverkon ennustukset vastaavat havaittua dataa. Regressiotehtävissä käytetään usein virheiden neliösummaa

J=\sum _{i=1}^{N}({\hat {y}}(\mathbf {x} _{i})-y_{i})^{2}

jossa ${\hat {y}}(\mathbf {x} _{i})$ on neuroverkon ennuste datapisteen $\mathbf {x} _{i}$ perusteella, ja luokittelutehtävissä ristientropiaa (engl. categorical cross-entropy)

J=\sum _{i=1}^{N}-\log({\hat {y}}_{C(i)}(\mathbf {x} _{i}))

jossa $C(i)$ on datapisteen $i$ oikea luokka.

Kun hukkafunktio on määritelty, käytetään gradienttimenetelmää (engl. gradient descent) sen minimoimiseksi. Siinä virhefunktion gradientti lasketaan painokertoimien suhteen ja siirrytään askel askeleelta vastakkaiseen suuntaan gradienttiin nähden. Askeleen pituus voi olla osa gradientin pituudesta, esimerkiksi 0.02, tai se voidaan määrittää . Usein gradientin laskemiseksi ei käytetä koko datasettiä joka askelmalla, vaan gradientti lasketaan satunnaistetusta alijoukosta dataa (engl. Mini-batch gradient descent).

Monikerroksisten neuroverkkojen opetuksessa käytetään vastavirta-algoritmia (engl. backpropagation), [2] joka nopeuttaa gradientin laskemista. Vastavirta-algoritmi aloittaa gradientin laskemisen verkon viimeisestä kerroksesta. Se laskee gradientin aina yhdelle kerrokselle kerrallaan ja käyttää tätä gradienttia edellisen laskemiseen.

Oppimisparadigmat

Ohjatussa oppimisessa (engl. supervised learning) neuroverkolle syötetään ennalta luokiteltuja näytteitä. Neuroverkon tuottamien arvojen ja näytteen luokittelun perusteella neuronien painoarvoja muutetaan siten, että neuroverkko tuottaisi syötteen luokittelun mukaisen tuloksen. [3][4][5]

Ohjaamattomassa oppimisessa (engl. unsupervised learning) syväoppimisen -malli (engl. deeplearning model) yrittää automaattisesti luokitella syötettä, ilman että sitä ohjataan millään tavalla.[5] Ohjaamatonta oppimista ovat muun muassa sellaiset autoenkooderit, jotka muuttavat vastaanottamansa syötteen matalampiulotteiseen muotoon ja yrittävät muokata sen takaisin alkuperäiseksi syötteeksi.

Osittain ohjatussa oppimisessa (engl. semi-supervised learning) osa näytteistä on luokiteltuja ja osa ei.[5] Tämä voi tarkoittaa esimerkiksi sitä, että osaa verkosta esiharjoitetaan ohjaamattomasti, ja sitten tätä neuroverkkoa käytetään osana ohjattua arkkitehtuuria.

Vahvistusoppimisessa (engl. reinforcement learning) syväoppimisen -malli oppii palautteen perusteella, jota ympäristö antaa suorituksen aikana.[5]

Neuroverkkojen historiaa

Takaisinkytketyt neuroverkot (RNN) perustuvat David Rumelhartin, Geoffrey Hintonin ja Ronald J. Williamsin julkaisuun Learning representations by back-propagating errors vuodelta 1986.[6]

Hopfieldin verkko (aiemmin assosiatiivinen neuroverkko) on RRN:n erikoistapaus, jonka kehitti John Hopfield vuonna 1982.

Pitkä-lyhytkestomuistiverkon esittelivät Sepp Hochreiter ja Jürgen Schmidhuber 1997.[7] LSTM-verkot mullistivat puheentunnistuksen. käsialantunnistuksen, konekäännöksen ja kielimallinnuksen vuodesta 2007 eteenpäin.

Google Brain -tutkimusryhmä julkaisi 2017 transformerin,[8] joka on korvannut RNN ja LSTM-mallit. Transformer helpottaa rinnakkaista koulutusta ja on tuottanut malleja kuten OpenAI:n GPT (Generative Pre-trained Transformer), joka on koulutettu laajoilla verkkoaineistoilla.

Katso myös

Lähteet

Haykin, Simon (1999). Neural networks - A comprehensive edition. 2.painos. Prentice Hall International. ISBN 0-13-908385-5.

Viitteet

https://www.ibm.com/topics/neural-networks
Orponen, Pekka: Neuroverkot users.ics.aalto.fi. Viitattu 28.04.2018.
Josh Patterson, Adam Gibson: Deep Learning: A Practitioner's Approach, s. 86–104. Google Books: O´Reilly, 2017. ISBN 1491914211. Deep Learning: A Practitioner's Approach (viitattu 23.5.2018). (englanniksi)
Juergen Schmidhuber: arXiv:1404.7828 Deep Learning in Neural Networks: An Overview arxiv.org. Viitattu 22.9.2019. (englanniksi)
Isha Salian: SuperVize Me: What’s the Difference Between Supervised, Unsupervised, Semi-Supervised and Reinforcement Learning? blogs.nvidia.com. Viitattu 22.9.2019. (englanniksi)
https://ui.adsabs.harvard.edu/abs/1986Natur.323..533R/abstract
https://doi.org/10.1162%2Fneco.1997.9.8.1735
https://arxiv.org/abs/1706.03762

Aiheesta muualla

Kuvia tai muita tiedostoja aiheesta Neuroverkot Wikimedia Commonsissa

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] ttps://www.ibm.com/topics/neural-networks

[2] Orponen, Pekka: Neuroverkot users.ics.aalto.fi. Viitattu 28.04.2018.

[deep-learning86-104-3] Josh Patterson, Adam Gibson: Deep Learning: A Practitioner's Approach, s. 86–104. Google Books: O´Reilly, 2017. ISBN 1491914211. Deep Learning: A Practitioner's Approach (viitattu 23.5.2018). (englanniksi)

[arxiv-4] Juergen Schmidhuber: arXiv:1404.7828 Deep Learning in Neural Networks: An Overview arxiv.org. Viitattu 22.9.2019. (englanniksi)

[nvidia-5] Isha Salian: SuperVize Me: What’s the Difference Between Supervised, Unsupervised, Semi-Supervised and Reinforcement Learning? blogs.nvidia.com. Viitattu 22.9.2019. (englanniksi)

[6] ttps://ui.adsabs.harvard.edu/abs/1986Natur.323..533R/abstract

[7] ttps://doi.org/10.1162%2Fneco.1997.9.8.1735

[8] ttps://arxiv.org/abs/1706.03762