Under de senaste två åren har nästan alla diskussioner om AI fokuserat på datorkraft: inte tillräckligt med GPU:er, otillräcklig datorkapacitet och underdimensionerade kluster.Det känns som om att samla upp mer datorkraft kommer att lösa alla problem.
Men denna rapport betonar en avgörande punkt gång på gång: Det som verkligen saktar ner AI är aldrig oförmågan att beräkna, utan oförmågan att flytta data effektivt.
En statistik gör problemet kristallklart: Att läsa data från DRAM förbrukar hundratals gånger mer energi än från SRAM.Samtidigt ökar prestandagapet mellan processorer och minne med nästan 50 % varje år.
Mycket av den datorkraft vi frenetiskt bygger upp är helt enkelt att vänta på data. I det ögonblicket insåg jag något slående: Vi kanske har tittat på fel flaskhals för AI hela tiden.
Om problemet inte är själva beräkningen, utan separationen av beräkning och minne, då är det verkliga svaret kanske inte starkare GPU:er. Det är att låta minnet självt deltar i beräkningen. Det är den verkliga historien som denna rapport syftar till att berätta.
Den verkliga flaskhalsen med AI-datorkraft skiftar från beräkning till minne, och lösningen är att flytta beräkning till minnet.
AI-beräkning är starkt beroende av massiva MAC-operationer (multiplicera-ackumulera) och är extremt dataintensiva. Den klassiska von Neumann-arkitekturen har dock ett fatalt fel:
Slutsats: AI misslyckas inte med att beräkna – den misslyckas med att flytta data överkomligt och tillräckligt snabbt.
Separationen av datorer och minne tvingar fram konstant dataöverföring, vilket orsakar två kritiska problem:
Detta är precis vad rapporten kallar von Neumann flaskhals.
En tydlig branschtrend håller på att växa fram: Chips utvecklas på två sätt:
Samtidigt har en revolutionär riktning dykt upp: In-Memory Computing (IMC).
Dess kärnidé: Utför logiska operationer, aritmetiska beräkningar och matrismultiplikation (kärnan i AI) direkt i minnet.
Grundläggande förändring: Minne = Lagring → Minne = Compute Engine
Rapporten beskriver flera implementeringsvägar:
1. SRAM / eDRAM (traditionell sökväg)
Compute-in-Cache, Neural Cache
Fördelar: mogen, hög hastighet
Gränser: stort område, begränsad skalbarhet
2. Emerging Memory (Mainstream Direction)
Inklusive:
MRAM, PCM, ReRAM, FeRAM
Gemensamt mål: förvandla minnesmatriser till matrixmultiplicera-ackumuleringsmotorer med beräkning på plats och analog beräkning (t.ex. aktuell summering för vektormultiplikation).
Essens: minnesarray = AI-accelerator
Men verkliga utmaningar kvarstår: precision och brus, enhetsvariationer, viktavvikelse (särskilt i ReRAM) och retentionsproblem. Vägen är livskraftig men extremt utmanande inom teknik.
Rapporten betonar att enbart hårdvara inte räcker – algoritmer måste också utvecklas.
Nyckelslutsats: AI effektivitetsoptimering kräver gemensam design av arkitektur, enheter och algoritmer.
AI:s flaskhals skiftar från "inte tillräckligt med datorkraft" till "inte kan flytta data tillräckligt snabbt." Svaret för nästa generations chips är inte starkare GPU:er, men minne som kan beräkna själv.