English translation

Daniel Cortild onderzoekt waarom klassieke leeralgoritmen zoals de stochastische gradiëntdaling echt werken. Zijn verrassende theoretische inzichten helpen verklaren wat praktijkonderzoekers al jaren zien gebeuren.

Wat maakt jouw onderzoek relevant?
Leeralgoritmen zoals stochastische gradiëntdaling (SGD) zijn tegenwoordig overal – ze zijn essentieel voor moderne machine learning. Maar het is eigenlijk helemaal niet duidelijk waarom en wanneer ze precies werken.
Mijn onderzoek draagt bij aan het theoretisch begrip van SGD. Veel algoritmen doen het goed in de praktijk, maar de wiskundige garanties erachter ontbreken vaak. Als we kunnen aantonen onder welke voorwaarden ze echt convergeren of stabiel blijven, weten we welke methoden betrouwbaar zijn – en waar nog gaten zitten. In die zin helpt de theorie om de praktijk te sturen.

Je had het gevoel dat er iets ontbrak aan het bestaande onderzoek?
Ja. De meeste analyses van SGD doen stellige aannames over de variantie van de stochastische gradiënten – aannames die in echte machinelearning-toepassingen vrijwel nooit kloppen. Wij wilden onderzoeken wat er gebeurt als je die aannames volledig weglaat. En precies daar zat het gat: tussen wat in de theorie werkt onder ideale omstandigheden, en wat er in de praktijk gebeurt.

En je werkte hiervoor samen met een promovendus?
Klopt. Tijdens mijn master werkte ik nauw samen met een PhD-student die aan een vergelijkbaar probleem werkte. We zaten naast elkaar, wisselden constant ideeën uit en vulden elkaar goed aan. Het was een heel natuurlijke en productieve samenwerking.

Welke uitdagingen kwam je tegen toen je die aannames probeerde weg te laten?
Dat was buitengewoon lastig. Veel van de gebruikelijke wiskundige gereedschappen voor het analyseren van SGD steunen direct op die stellige aannames. Zodra je die weghaalt, blijken veel bekende ongelijkheden en technieken simpelweg niet meer te werken.
De uitdaging was uitvinden welke gereedschappen we nog wel konden gebruiken, en hoe ver we die konden oprekken. Uiteindelijk ontdekten we dat we, door die overgebleven middelen heel zorgvuldig toe te passen, toch nieuwe, scherpe grenzen voor SGD konden bewijzen. Ze zijn niet identiek aan de klassieke resultaten, maar ze komen verrassend dichtbij — wat laat zien dat je ook zonder die aannames nog steeds betekenisvolle theoretische garanties kunt krijgen.

Hoe kunnen jouw resultaten worden toegepast?
SGD zelf is niet nieuw – het bestaat al sinds de jaren vijftig – maar het vormt nog altijd de basis van moderne machine learning. Onze resultaten veranderen niet hoe mensen SGD implementeren, maar ze verklaren wel waarom bepaalde dingen gebeuren wanneer we het algoritme draaien. Dat diepere begrip kan helpen bij het ontwerpen van nieuwe, complexere algoritmen die op SGD zijn geïnspireerd maar waarvoor nog geen theoretische garanties bestaan.
Daarnaast laat onze analyse zien dat het algoritme goed kan werken met grotere stapgroottes dan gedacht, wat het trainen in de praktijk sneller kan maken. Dus het is een kleine maar concrete verbetering.

Waar komt jouw fascinatie voor wiskunde en optimalisatie vandaan?
Ik ben altijd al door wiskunde aangetrokken, omdat je er complete werelden mee kunt bouwen vanuit een paar basisregels. Je begint met een handvol aannames en onderzoekt vervolgens wat er logisch uit moet volgen — het is een prachtig, zelfvoorzienend systeem.
Optimalisatie trok me in het bijzonder omdat het tussen theorie en toepassing in zit. Het is heel abstract, maar het raakt direct aan echte problemen — van energiesystemen tot machine learning. Ik houd van die balans: werken aan iets dat fundamenteel wiskundig is, maar toch praktisch nut heeft.

Zou je ooit richting meer toegepast werk willen gaan?
Misschien later. Voor nu richt ik me vooral op theorie, maar het idee dat mijn werk toepassingen kan hebben, spreekt me wel aan. De gedachte dat mijn resultaten ooit echte systemen kunnen verbeteren, maakt het theoretische werk betekenisvoller.

Wat brengt de toekomst?
Mijn masterscriptie is inmiddels omgezet in een onderzoeksartikel, wat voelt alsof een hoofdstuk is afgerond. Maar de methoden die we hebben ontwikkeld, kunnen ook in andere scenario’s worden toegepast, dus de samenwerking met mijn coauteur loopt nog enigszins door.
In Oxford begin ik aan een PhD over optimalisatie, met de focus op de complexiteitsanalyse van deterministische algoritmen – oftewel: begrijpen waarom sommige algoritmen in de praktijk beter presteren dan hun theoretische garanties voorspellen. Dat intrigeert me enorm.

En na Oxford?
Ik houd alle opties open. Ik zou graag dicht bij onderzoek blijven, of dat nu in de academische wereld is of in een onderzoeksgerichte organisatie. Wat voor mij telt, is werken aan inhoudelijk uitdagende problemen met een duidelijk doel. De start-upwereld trekt me minder – daar ligt de nadruk meestal op snelle ontwikkeling in plaats van diep onderzoek – maar wie weet wat de toekomst brengt.

Tot slot: heb je advies voor jongere studenten?
Ja: doe wat je echt leuk vindt. Kies je studie niet alleen vanwege het loopbaanperspectief – banen zijn er altijd. Het belangrijkste is dat je plezier hebt in wat je elke dag doet. Ik heb die filosofie gevolgd, en het heeft mijn studie en onderzoek heel waardevol gemaakt.