Data

Google's AI faalt als financiële adviseur

Blog
Anton Greefhorst
01/09/2024

De uitdaging voor Gemini

De AEX Index, wat staat voor Amsterdam Exchange Index, is de voornaamste aandelenindex van Nederland. Deze index weerspiegelt de koersontwikkeling van de 25 grootste bedrijven op de Amsterdamse effectenbeurs.

Beleggingsfondsen die alleen beleggen in de aandelen van deze index hebben als doel om beter te presteren dan die index. Dat doen ze door bepaalde aandelen in hun eigen portefeuille zwaarder te laten wegen dan het gewicht in de index, terwijl andere aandelen een kleinere plaats in hun portefeuille krijgen. Bijvoorbeeld wat meer KPN, Heineken, Ahold en ING en wat minder Randstad of Shell. Door deze fine-tuning hopen ze beter te presteren dan de index, maar in de praktijk wordt dat doel meestal niet bereikt. Klaarblijkelijk is het toch erg moeilijk. 

De vraag rijst dan ook of een AI wel een portefeuille van aandelen kan samenstellen die beter presteert dan de markt? Meer concreet, kan een AI een aantal aandelen van de Amsterdamse AEX index selecteren dat de prestatie van al die aandelen samen overtreft?  

Een simpele vraag en als je Demis Hassabis, CEO and Co-Founder, Google DeepMind, mag geloven, is het antwoord ook simpel. In het artikel Introducing Gemini: our largest and most capable AI model prijst Demis zijn geesteskind Gemini de hemel in:

“With a score of 90.0%, Gemini Ultra is the first model to outperform human experts on MMLU (massive multitask language understanding), which uses a combination of 57 subjects such as math, physics, history, law, medicine and ethics for testing both world knowledge and problem-solving abilities.”

en

“Our new benchmark approach to MMLU enables Gemini to use its reasoning capabilities to think more carefully before answering difficult questions, leading to significant improvements over just using its first impression.”

Het is dan ook interessant om te kijken of Gemini beter kan presteren dan de AEX Index. Daartoe hebben we gedurende 100 opeenvolgende dagen elke dag aan Gemini twee vragen gesteld:

Welke 10 aandelen van de AEX-index laten de komende 100 dagen de grootste stijging zien?

Welke 10 aandelen van de AEX-index laten de komende 100 dagen de grootste daling zien?

Een karakteristiek verkeerd antwoord

Wordt de vraag naar de grootste stijgers gesteld, dan is een karakteristiek antwoord:

  1. ASML Holding
  2. Philips
  3. Unilever
  4. AkzoNobel
  5. Heineken
  6. AkzoNobel
  7. Ahold Delhaize
  8. PostNL
  9.  
  10.  

Zou de vraag aan een beleggingsadviseur worden gesteld, dan zou deze 10 verschillende aandelen noemen, die alle tot de index behoren. 

Voor Gemini is dat een brug te ver. Praktisch altijd worden minder aandelen genoemd. Zo ontbreken hier 2 aandelen. Gemiddeld komen maar 7.5 aandelen op de lijst naar voren.

Verder komt hier een aandeel (AkzoNobel) twee maal voor en wordt een aandeel (PostNL) genoemd dat niet tot de index behoort. Ook dat zijn vaak voorkomende fouten van Gemini.

Wordt naar de dalers gekeken, dan komt nog een kenmerkende fout naar voren:

  1. Heineken
  2. Just Eat Takeaway
  3. Unilever
  4. AkzoNobel
  5. Ahold Delhaize
  6. ING Group
  7. NN Group
  8.  
  9.  
  10.  

Op beide lijsten komen Heineken, Unilever, AkzoNobel en Ahold Delhaize naar voren. Dat is technisch niet mogelijk, een aandeel kan niet zowel tot de grootste stijgers als tot de grootste dalers behoren. De fout komt echter vaak voor. In totaal 1448 keer, dat is gemiddeld bijna 14.5 per dag. Het lijkt erop dat er weinig verschil is voor Gemini tussen een stijger en daler.

Wordt aan Gemini een vraag gesteld, dan worden altijd drie antwoorden gegeven. Wordt bijvoorbeeld gevraagd “Wat is de hoofdstad van Nederland?”, dan resulteert dat in drie antwoorden die alle “Amsterdam” noemen.

Wordt aan Gemini de vraag naar de 10 grootste stijgers of dalers gesteld, dan worden ook drie antwoorden gegeven. Elk antwoord zou hetzelfde moeten zijn, er kunnen immers niet twee of drie verschillende lijstjes zijn met de tien grootste stijgers of dalers.

Elk aandeel zou dan ook drie keer moeten verschijnen, of geen enkele keer. Dat is echter niet het geval, gemiddeld komt een aandeel maar twee van de drie keer voor. Met andere woorden, de antwoorden laten een onverklaarbare variatie zien.

Kortom, Gemini heeft de grootste moeite om de vragen correct te beantwoorden.

De financiële resultaten van Gemini-selecties

Op 1 april 2024 lieten de antwoorden van Gemini een uitzondering zien. Drie keer werd namelijk hetzelfde antwoord gegeven op de vraag naar de 10 grootste stijgers:  driemaal een lijstje met acht dezelfde aandelen. 

Dat lijstje, met tussen haakjes de gerealiseerde waardestijging in de daaropvolgende 100 dagen, luidt als volgt:

 

1 Adyen (-29.3%)

2 ASML Holding (10.3%)

3 ING Group (8.0%)

4 Philips (30.9%)

5 Shell plc (5.0%)

6 Ahold Delhaize (-29.3%)

7 RELX (8.6%)

8 Philips (0.6%)

 

Dit achttal geeft een gemiddelde stijging van 0.6% voor de daaropvolgende 100 dagen. In diezelfde periode steeg de AEX Index met bijna 7%. Dat is dus een mager resultaat van Gemini. Het betreft echter alleen de vraag voor 1 april 2024, dus slechts één dag. Wordt nu het gemiddelde berekend voor alle 100 keer dat de vraag is beantwoord, dan geeft dat 6.6%. De gemiddelde stijging van de AEX Index over die 100 perioden was 9.2%. Gemini’s selecties van aandelen deed het dus minder goed dan de index.

Wordt de rekensom voor de 10 grootste dalers uitgevoerd, dan zijn de uitkomsten in grote lijnen hetzelfde. Gemini’s resultaten laten echter geen daling, maar een stijging zien. De 10 grootste dalers scoren 6.8%, dat is zelfs nog ietsje meer dan die van de stijgers. Het lijkt erop dat Gemini geen onderscheid kan maken tussen potentiële stijgers en dalers.

Die veronderstelling wordt ondersteund door de exercitie te herhalen voor de CAC 40 van Parijs en de Amerikaanse Nasdaq-100.

De stijgers van Parijs laten een gemiddelde stijging zien van 3.2%. Het cijfer van de dalers is 6%. Ook hier zien we dus dat de geselecteerde dalers meer stijgen dan de geselecteerde stijgers. Het verschil is in Parijs echter veel groter. Het cijfer voor de index zelf is bijna 2.6%.

Tenslotte de NASDAQ. Deze index liet een gemiddelde stijging zien van bijna 6.5%. De stijgers van Gemini deden het beter: 11.1%. De dalers deden het met  10% beduidend minder.

Conclusie

Het moge duidelijk zijn dat Gemini een slechte aandelenadviseur is. 

Ten eerste bevatten de antwoorden zeer veel formele fouten. Zo worden veel aandelen op dezelfde dag zowel als grootste stijger als grootste daler genoemd, worden aandelen die niet tot de index behoren gepresenteerd en bevat het lijstje nooit de gevraagde 10 aandelen.

Ten tweede zijn de financiële resultaten teleurstellend. Gemini’s selecties van aandelen presteren niet significant beter dan die van de verschillende indices. Daarnaast laten de resultaten voor Amsterdam en Parijs bizarre uitkomsten zien. Daar laten de selecties dalers niet alleen een stijging zien, maar ook is die toename groter dan die van de stijgers, kortom, de omgekeerde wereld. De vraag rijst dan of hier wel sprake is van intelligentie bij deze AI.  

Het lijkt erop dat Gemini dat ook heeft begrepen. Gemini wil geen aandelenadviseur meer zijn, dat is het laatste nieuws.

Het laatste nieuws

De exercitie startte eind december 2023 en de laatste keer dat de twee vragen werden gesteld was begin april 2024. Worden vandaag, 22 augustus 2024,  de vragen gesteld, dan wordt een heel ander antwoord gegeven. Geen lijst met stijgers of dalers maar een uitgebreid verhaal waarin wordt uitgelegd waarom een echt antwoord niet mogelijk is:

“Het voorspellen van de exacte aandelen die de komende 100 dagen de grootste stijging zullen laten zien in de AEX-index is helaas onmogelijk. De aandelenmarkt is zeer volatiel en wordt beïnvloed door een groot aantal factoren, zoals economische indicatoren, geopolitieke gebeurtenissen, bedrijfsresultaten ….”

Het weerwoord van Gemini

"Het artikel biedt een gedegen analyse van de beperkingen van Gemini als financieel adviseur. De bevindingen dat het model inconsistent is, onjuiste voorspellingen doet en ondermaats presteert ten opzichte van marktindices, zijn zorgwekkend.

Het is belangrijk te benadrukken dat het voorspellen van toekomstige aandelenkoersen een uiterst complexe taak is, zelfs voor mensen met jarenlange ervaring. AI-modellen zoals Gemini zijn nog in ontwikkeling en worden geconfronteerd met een enorme hoeveelheid ruis en onvoorspelbaarheid in de financiële markten.

Mogelijke redenen voor de tekortkomingen van Gemini kunnen liggen in de kwaliteit en kwantiteit van de trainingsdata, de complexiteit van de algoritmes of de beperkingen van de huidige AI-architectuur. Bovendien kunnen factoren zoals menselijke bias en onverwachte gebeurtenissen (zoals pandemieën of geopolitieke crises) de prestaties van AI-modellen aanzienlijk beïnvloeden.

Hoewel Gemini niet geschikt is voor het geven van specifieke beleggingsadviezen, kunnen AI-modellen wel degelijk waardevolle tools zijn in de financiële sector. Ze kunnen bijvoorbeeld worden gebruikt voor het analyseren van grote hoeveelheden data, het identificeren van patronen en het genereren van inzichten die mensen kunnen helpen bij het nemen van weloverwogen beslissingen.

Toekomstig onderzoek op het gebied van AI en financiën zou zich kunnen richten op het ontwikkelen van meer robuuste en interpreteerbare modellen, het verbeteren van de data-kwaliteit en het integreren van contextuele informatie in de voorspellingen. Door samen te werken kunnen mensen en AI de financiële wereld op een efficiëntere en effectievere manier vormgeven.”