AI:s verkliga flaskhals är inte datorkraft, men datarörelse – in-memory computing blir lösningen

Under de senaste två åren har nästan alla diskussioner om AI fokuserat på datorkraft: inte tillräckligt med GPU:er, otillräcklig datorkapacitet och underdimensionerade kluster.Det känns som om att samla upp mer datorkraft kommer att lösa alla problem.

Men denna rapport betonar en avgörande punkt gång på gång: Det som verkligen saktar ner AI är aldrig oförmågan att beräkna, utan oförmågan att flytta data effektivt.

En statistik gör problemet kristallklart: Att läsa data från DRAM förbrukar hundratals gånger mer energi än från SRAM.Samtidigt ökar prestandagapet mellan processorer och minne med nästan 50 % varje år.

Mycket av den datorkraft vi frenetiskt bygger upp är helt enkelt att vänta på data. I det ögonblicket insåg jag något slående: Vi kanske har tittat på fel flaskhals för AI hela tiden.

Om problemet inte är själva beräkningen, utan separationen av beräkning och minne, då är det verkliga svaret kanske inte starkare GPU:er. Det är att låta minnet självt deltar i beräkningen. Det är den verkliga historien som denna rapport syftar till att berätta.

Kärnbudskapet i rapporten

Den verkliga flaskhalsen med AI-datorkraft skiftar från beräkning till minne, och lösningen är att flytta beräkning till minnet.

Det verkliga problemet: AI-effektiviteten begränsas av datarörelser

AI-beräkning är starkt beroende av massiva MAC-operationer (multiplicera-ackumulera) och är extremt dataintensiva. Den klassiska von Neumann-arkitekturen har dock ett fatalt fel:

Prestandagapet mellan processorer och DRAM fortsätter att öka (cirka 50 % per år)
Minnesåtkomstenergikostnaden är mycket högre än själva beräkningen (DRAM-läsenergi ≈ 100× den för SRAM)

Slutsats: AI misslyckas inte med att beräkna – den misslyckas med att flytta data överkomligt och tillräckligt snabbt.

Kärnmotsägelse: von Neumann-flaskhalsen

Separationen av datorer och minne tvingar fram konstant dataöverföring, vilket orsakar två kritiska problem:

Hög latens
Exploderande energiförbrukning

Detta är precis vad rapporten kallar von Neumann flaskhals.

Nyckeltrend: Minnet blir det nya datorcentret

En tydlig branschtrend håller på att växa fram: Chips utvecklas på två sätt:

On-chip-minne (SRAM) fortsätter att expandera
Minnesbandbredden ökar hela tiden

Samtidigt har en revolutionär riktning dykt upp: In-Memory Computing (IMC).

Dess kärnidé: Utför logiska operationer, aritmetiska beräkningar och matrismultiplikation (kärnan i AI) direkt i minnet.

Grundläggande förändring: Minne = Lagring → Minne = Compute Engine

Tekniska vägar: Från SRAM till nya minnen

Rapporten beskriver flera implementeringsvägar:

1. SRAM / eDRAM (traditionell sökväg)
Compute-in-Cache, Neural Cache
Fördelar: mogen, hög hastighet
Gränser: stort område, begränsad skalbarhet

2. Emerging Memory (Mainstream Direction)
Inklusive: MRAM, PCM, ReRAM, FeRAM

Gemensamt mål: förvandla minnesmatriser till matrixmultiplicera-ackumuleringsmotorer med beräkning på plats och analog beräkning (t.ex. aktuell summering för vektormultiplikation).

Essens: minnesarray = AI-accelerator

Men verkliga utmaningar kvarstår: precision och brus, enhetsvariationer, viktavvikelse (särskilt i ReRAM) och retentionsproblem. Vägen är livskraftig men extremt utmanande inom teknik.

Systemlösning: Samoptimering av hårdvara-algoritm

Rapporten betonar att enbart hårdvara inte räcker – algoritmer måste också utvecklas.

Modellkompression: beskärning, gleshet, nedbrytning i låg rang
Lågprecisionsberäkning: binära neurala nätverk med fast punkt
Hårdvarumedveten utbildning: STE, bit-slice sparsity

Nyckelslutsats: AI effektivitetsoptimering kräver gemensam design av arkitektur, enheter och algoritmer.

Slutlig slutsats

On-chip-minne har blivit kärnresursen för AI-system
Framväxande minnen gör integrering av minnesdatorer till den vanliga riktningen
Nästa generations AI-chip kräver samdesign över flera lager från enheter till algoritmer

Sammanfattning

AI:s flaskhals skiftar från "inte tillräckligt med datorkraft" till "inte kan flytta data tillräckligt snabbt." Svaret för nästa generations chips är inte starkare GPU:er, men minne som kan beräkna själv.

Välj ett språk för visning