Vraag 14

Waarom heb je squashing functions nodig bij een feedforward netwerk met hidden layers (met meer dan twee lagen), zodat het meer kan dan een perceptron?

Antwoord:

Als je voor elke neuron in de hidden layer simpelweg $\Sigma_{i=1}^{n} w_{i}n_{i}$doet dan kom je op antwoorden uit ver boven de 1 (in een netwerk dat groot genoeg is). Dit is niet wenselijk want 1 staat voor maximale activiteit van een neuron. Een squashing function brengt dit "getal" terug naar een wenselijk waarde tussen 2 bepaalde getallen (vaak tussen 0 en 1), zodat de activiteit van de neuron in de hidden layer niet de maximale activiteit overschrijdt.

Edit: Volgens mij niet helemaal correct? De hoogte van de activatie maakt niet uit. Het gaat erom dat een hidden layer die alleen $\Sigma_{i=1}^{n} w_{i}n_{i}$doet totaal overbodig is omdat dezelfde functie ook bereikt kan worden zonder de hidden functie door gewoon het gewicht tussen input en output aan te passen. Kortom, om nuttig te zijn moet een hidden layer een thresholdfunctie hebben waardoor de mogelijke combinaties aan (input)activaties teruggebracht worden tot twee (of drie) mogelijke output. Denk aan de XOR approximatie, die werk alleen als we een hidden-layer hebben die de aantal mogelijke activaties: 4 (11, 10, 01, 00) terugbrengt tot 3 (10, 01, 00).

Basically without squashing functions as output functions for the hidden layer neurons, a multilayer feedforward network would reduce to a (two-layer) perceptron.

Volgende Vraag

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-ShareAlike 3.0 License