Tali pu'upu'u: Ina ia fa'aleleia atili fa'ata'ita'iga AI, filifili se tapula'a autu e tasi (latency, tau, manatua, lelei, mautu, po'o le throughput), ona pu'eina lea o se laina fa'avae fa'atuatuaina a'o le'i suia se mea. Ave'ese muamua fa'alavelave o le pipeline, ona fa'aoga lea o ni fa'aopoopoga maualalo e pei o le sa'o fa'afefiloi ma le batching; afai e tumau le lelei, agai i luma i le compiler/runtime tooling ma na'o le fa'aitiitia o le tele o le fa'ata'ita'iga e ala i le quantisation po'o le distillation pe a mana'omia.
Manatu autū:
Tapula'a : Filifili se fua fa'atatau se tasi pe lua; o le fa'aleleia atili o se tulaga o fefa'ataua'iga, ae le o ni manumalo fua.
Fuaina : Fa'atatau galuega moni fa'atasi ai ma le p50/p95/p99, le gaosiga, le fa'aaogaina, ma tumutumuga o le manatua.
Pipeline : Fa'aleleia le tokenisation, dataloaders, preprocessing, ma le batching a'o le'i pa'i atu i le fa'ata'ita'iga.
Auaunaga : Faaaoga le caching, batching fuafuaina, concurrency tuning, ma ia mata'ituina lelei le tail latency.
Pa puipui : Fa'atino ni fa'atonuga taua, fua fa'atatau o galuega, ma siaki vave pe a uma suiga ta'itasi o le fa'atinoga.

🔗 Auala e iloilo lelei ai faʻataʻitaʻiga o le AI.
O taʻiala autu ma laʻasaga e faʻamasino ai faʻataʻitaʻiga ma le tonu ma le faʻatuatuaina.
🔗 Auala e fuaina ai le faʻatinoga o le AI i fua faʻatatau moni
Faaaoga faʻailoga faʻatusatusa, latency, tau, ma faʻailoga lelei e faʻatusatusa ai.
🔗 Auala e fa'ata'ita'i ai fa'ata'ita'iga AI a'o le'i faia le gaosiga
Faiga fa'atino o su'ega: vaevaeina o fa'amaumauga, mataupu o le atuatuvale, ma le mata'ituina.
🔗 Fa'aaogaina o le AI mo le fatuina o anotusi
Liliu manatu i ni ata tusi vave fa'atasi ai ma ni fa'atonuga fa'atulagaina ma ni toe fa'ata'ita'iga.
1) O le ā le Uiga o le “Fa'aleleia” i le Fa'atinoga (Auā e Fa'aaogāina e Tagata Ta'ito'atasi i ni Auala 'Ese'ese) 🧠
A fai mai tagata "fa'aleleia se fa'ata'ita'iga AI," atonu o lona uiga:
-
Fa'avavevave (fa'aitiitia le latency)
-
Fa'atauva'a (fa'aitiitia itula o le GPU, fa'aitiitia le fa'aaluina o le ao)
-
Fa'aitiitia (tulaga o le manatua, fa'alauteleina o le pito)
-
Ia sili atu ona sa'o (fa'aleleia atili le lelei, fa'aitiitia ai ni fa'aaliga taufa'ase'e)
-
Ia sili atu ona mautu (itiiti ifo le eseesega, itiiti ifo le faaletonu i le gaosiga)
-
Fa'afaigofie le tautua (throughput, batching, fa'atinoga e mafai ona va'aia)
O le mea moni lenei e fai si fa'aita: e le mafai ona e fa'ateleina nei mea uma i le taimi e tasi. O le fa'aleleia atili e pei o le oomiina o se paluni - tulei le tasi itu i totonu ona oso a'e lea o le isi itu. E le o taimi uma, ae o le tele o taimi e tatau ai ona e fuafua mo ni fefa'ataua'iga.
O lea la a'o le'i pa'i atu i se mea, filifili lau tapula'a autū :
-
Afai o loʻo e tautua tuusaʻo i tagata faʻaoga, e te popole i le p95 latency ( AWS CloudWatch percentiles ) ma le tail performance ( faʻataʻitaʻiga sili ona lelei o le "tail latency" ) 📉
-
Afai o lo'o e faia a'oa'oga, e te popole i le taimi e fa'aleleia ai le lelei ma le fa'aaogaina o le GPU 🔥
-
Afai o loʻo e faʻaaogaina i masini, e te popole i le RAM ma le malosi 🔋
2) O le a le foliga o se lomiga lelei o le faʻaleleia atili o le faʻataʻitaʻiga AI ✅
O se fa'ata'ita'iga lelei o le fa'aleleia atili e le na'o le "fa'aaoga le quantization ma tatalo." O se faiga. O fa'atulagaga sili ona lelei e masani ona i ai:
-
O se fa'avae e te fa'atuatuaina
Afai e le mafai ona e toe faia au taunuuga o lo'o iai nei, e le mafai ona e iloa ua e fa'aleleia se mea. Faigofie lava… ae e misia e tagata. Ona latou feliua'i lea. -
O se fua fa'atatau manino
"Vave" e le o mautinoa. O le "Fa'aitiitia le latency p95 mai le 900ms i le 300ms i le togi lelei tutusa" o se sini moni lava. -
Pa puipui mo le lelei
O fa'atinoga uma e manumalo ai e ono i'u ai i le pa'ū filemu o le lelei. E te mana'omia ni su'ega, iloiloga, pe a itiiti mai o se meafaigaluega mo le mafaufau lelei. -
Malamalama i meafaigaluega fa'akomepiuta
O se fa'ata'ita'iga "vave" i luga o le tasi GPU e mafai ona totolo i luga o le isi. O CPU o lo latou lava ituaiga fa'alavelave fa'apitoa. -
Suiga faifai pea, ae le o se toe tusiaina tele.
A e suia mea e lima i le taimi e tasi ma faaleleia le faatinoga, e te le iloa le mafuaaga. O le mea lea… e le mautonu ai.
O le fa'aleleia atili e tatau ona pei o le fa'atulagaina o se kitara - ni nai fetu'una'iga, fa'alogo lelei, toe fai 🎸. Afai e te lagona e pei o le fa'ata'ita'iina o naifi, o lona uiga ua i ai se mea ua sese.
3) Siata Fa'atusatusaga: Filifiliga Lauiloa e Fa'aleleia atili ai Fa'ata'ita'iga AI 📊
O loʻo i lalo se laulau faʻatusatusaga vave ma le le mama o meafaigaluega/auala masani e faʻaleleia atili ai faʻamatalaga. Leai, e le o se mea "talafeagai" atoatoa - e le faapena foi i le olaga moni.
| Meafaigaluega / Filifiliga | Le aofia | Tau | Aiseā e aoga ai |
|---|---|---|---|
PyTorch torch.compile ( pepa fa'amaumau a PyTorch ) |
Tagata PyTorch | Sa'oloto | O le pu'eina o kalafi + togafiti a le fa'aputuga e mafai ona fa'aitiitia ai tupe alu… o nisi taimi e ofoofogia ✨ |
| ONNX Runtime ( pepa o le ONNX Runtime ) | 'Au fa'atino | Sa'oloto | Fa'aleleia atili o fa'ai'uga, lagolago lautele, lelei mo le tautua fa'atulagaina |
| TensorRT ( pepa a le NVIDIA TensorRT ) | Fa'alauiloaina o le NVIDIA | Vibes totogi (e masani ona fa'apipi'i fa'atasi) | Fa'afefiloi malosi o le kernel + taulimaina sa'o, vave tele pe a kiliki |
| DeepSpeed ( pepa aloaia a le ZeRO ) | 'Au a'oa'o | Sa'oloto | Fa'aleleia atili o le manatua + le saoasaoa (ZeRO ma isi). E mafai ona lagona e pei o se afi vaalele |
| FSDP (PyTorch) ( pepa fa'amaumau a le PyTorch FSDP ) | 'Au a'oa'o | Sa'oloto | Fa'asologa/fa'asolosolo o vaega, e fa'aitiitia ai le mata'utia o fa'ata'ita'iga tetele |
| fa'atusatusaga o bitsandbytes ( bitsandbytes ) | Tagata fai togafiti LLM | Sa'oloto | Mamafa maualalo, sefe tele o le manatua - e faʻalagolago le lelei, ae ui i lea 😬 |
| Fa'amamāina ( Hinton et al., 2015 ) | Vaega o oloa | "Tau o le taimi" | E mautofi e le faʻataʻitaʻiga a le tamaititi aʻoga laʻititi amioga, e masani lava o le ROI sili ona lelei i le lumanaʻi |
| Teuteuina ( aʻoaʻoga teuteuga PyTorch ) | Su'esu'ega + oloa | Sa'oloto | Aveese le mamafa ua mate. E sili atu le aoga pe a fa'atasi ma le toe a'oa'oga |
| Flash Attention / fused kernels ( pepa FlashAttention ) | Tagata atamamai i le faatinoga | Sa'oloto | Vave le gauai atu, sili atu le lelei o le manatua. Manumalo moni mo transformers |
| 'Au'aunaga Fa'ai'uga Triton ( Fa'aputuga Fa'aonaponei ) | Galuega/infra | Sa'oloto | O le tautua gaosiga, fa'aputuga, paipa fa'ata'ita'i eseese - e foliga mai e pei o se pisinisi fa'apisinisi |
Ta'utinoga o le fa'atulagaina o mea sese: E le'i mama le "Tau" auā e mafai lava e le open-source ona taugata ai le fa'aleleia o mea sese i se fa'ai'uga o le vaiaso, o se tau lea. 😵💫
4) Amata i le Fuaina: Fa'amatala lau Fa'amatalaga e pei ona e Fa'auigaina 🔍
Afai e na'o le tasi le mea e te faia mai lenei ta'iala atoa, fai le mea lenei: fua sa'o.
I a'u lava suega, o "fa'aleleia atili o le fa'aleleia atili" sili ona tetele na mafua mai i le mauaina o se mea faigofie e fa'amāsiasi ai e pei o le:
-
o le utaina o fa'amaumauga e fa'a'ono'ono ai le GPU
-
Fa'afitauli i le fa'agasologa muamua o le CPU
-
laiti tele o le batch e mafua ai le overhead o le fa'alauiloaina o le kernel
-
fa'agesegese le fa'ailogaina (e mafai e tokenizers ona avea ma tagata leaga filemu)
-
fa'aputuga o manatua ( fa'amatalaga o le vaevaeina o manatua a le PyTorch CUDA )
-
o se komepiuta e pulea e le vaega e tasi
O le a le mea e fuaina (seti maualalo)
-
Fa'alētonu (p50, p95, p99) ( SRE i luga o pasene o le fa'alētonu )
-
Fa'asologa o galuega (tokens/sekone, talosaga/sekone)
-
Fa'aaogāina o le GPU (computer + memory)
-
VRAM / tumutumuga RAM
-
Tau i le 1k tokens (pe i le fa'ai'uga)
Mafaufauga fa'atino mo le fa'avasegaina o fa'amatalaga
-
Fa'amatala se tasi o tulaga e te fiafia i ai (ae le o se fa'amatalaga e uiga i meata'alo).
-
Fa'amaumau mea uma i se tama'i "api talaaga lelei."
Ioe e faigata... ae e fa'asaoina ai oe mai le fa'ateleina o lou popole mulimuli ane.
(Afai e te manaʻo i se meafaigaluega maoti e amata ai: PyTorch Profiler ( torch.profiler docs ) ma Nsight Systems ( NVIDIA Nsight Systems ) o mea masani ia e masalomia.)
5) Fa'aleleia Atili o Fa'amaumauga + A'oa'oga: O Le Malosiaga Filemu 📦🚀
E popole tele tagata i le fausaga o faʻataʻitaʻiga ma galo ai le paipa. Ae o le paipa e susunuina filemu le afa o le GPU.
Manumalo faigofie e vave ona aliali mai
-
Faaaoga le sa'o fefiloi (FP16/BF16 pe a mautu) ( PyTorch AMP / torch.amp )
E masani ona vave, e masani ona lelei - ae ia mataala mo mea sese tau numera. -
Fa'aputuga o le gradient pe a fa'atapula'aina le tele o le batch ( 🤗 Taiala fa'avavevave )
Fa'atumauina le mautu o le fa'aleleia atili e aunoa ma le fa'aleagaina o le manatua. -
Siakiina o le Gradient ( torch.utils.checkpoint )
Fesuia'i le compute mo le manatua - e mafai ai ona fa'atino ni fa'amatalaga tetele. -
Fa'aaogaina lelei o le tokenization ( 🤗 Tokenizers )
E mafai e le Tokenization ona avea ma fa'alavelave i le tele o taimi. E le o se mea matagofie; e taua. -
Fa'atulagaina o le Dataloader
Fa'ateleina tagata faigaluega, pine manatua, mua'i maua mai - e le fa'aalia ae aoga 😴➡️💪 ( Taiala Fa'atulagaina o le Fa'atinoga o le PyTorch )
Fa'aleleia atili o le fa'atulagaina o parakalafa
Afai o loʻo e faʻaleleia atili faʻataʻitaʻiga tetele, o metotia PEFT (e pei o mea faʻapipiʻi faʻa-LoRA) e mafai ona faʻaitiitia tele le tau o aʻoaʻoga aʻo tumau pea le malosi ( 🤗 Taʻiala PEFT a le Transformers , pepa LoRA ). O se tasi lea o taimi "aisea na tatou le faia ai lenei mea muamua?".
6) Fa'aleleia Atili o le Tulaga o le Fa'atulagaga: Fa'atulaga le Tele Sa'o o le Fa'ata'ita'iga 🧩
O nisi taimi o le auala sili e faʻaleleia atili ai o le… taofi le faʻaaogaina o se faʻataʻitaʻiga e telē tele mo le galuega. Ua ou iloa, o le faʻaleagaina 😄.
Fai se telefoni i ni nai mea taua:
-
Filifili pe e te manaʻomia le poto atoatoa i le lautele, pe e te manaʻomia se tagata tomai faapitoa.
-
Ia tausia le faamalama o le anotusi ia telē e pei ona manaʻomia, ae aua le faʻateleina.
-
Faaaoga se faʻataʻitaʻiga ua aʻoaʻoina mo le galuega o loʻo faia (faʻataʻitaʻiga faʻavasegaga mo galuega faʻavasegaga, ma isi mea faʻapena).
Fuafuaga aogā mo le fa'asa'oina o le tele
-
Fesuiai i se ivi tua laʻititi mo le tele o talosaga
Ona faʻasino lea o "fesili faigata" i se faʻataʻitaʻiga tele atu. -
Faaaoga se seti e lua vaega.
Ata vave o le faʻataʻitaʻiga, faʻamaoniga poʻo faʻasaʻoga malolosi o le faʻataʻitaʻiga.
E pei o le tusitusi ma se uo e filifili - faʻalavelave, ae aoga. -
Fa'aitiitia le umi o le galuega faatino
E tele tupe ma le taimi e alu ai i fa'ailoga o galuega faatino. Afai e le aoga lau fa'ata'ita'iga, e te totogia le tau o le galuega faatino.
Ua ou vaʻaia ni 'au o loʻo faʻaitiitia tele tau e ala i le faʻamalosia o ni galuega faʻapuʻupuʻu. E foliga faʻatauvaʻa. Ae e aoga.
7) Fa'aleleia o le Compiler + Graph: O fea e sau ai le saoasaoa 🏎️
O le vaega lea o le "faia e le komepiuta ni mea faakomepiuta atamai".
Tomai masani:
-
Fa'atasiga o le Operator (tu'ufa'atasia o kernels) ( NVIDIA TensorRT "layer fusion" )
-
Fa'agaoioia faifai pea (tau fa'atulagaina muamua) ( Fa'aleleia atili o le kalafi o le taimi fa'atino a le ONNX )
-
Filifiliga o le kernel ua fa'atulagaina e tusa ai ma masini komepiuta
-
Pu'eina o ata e fa'aitiitia ai le fa'aaogaina o le Python (
torch.compileoverview )
I se faaupuga faigofie: atonu e vave lau faʻataʻitaʻiga i le faʻamatematika, ae gesegese i le faʻatinoina. E faʻasaʻoina e le au faʻapipiʻi nisi o na mea.
Fa'amatalaga aogā (e ta'ua fo'i o ma'ila)
-
E mafai ona nofouta nei fa'aleleiga i suiga o foliga o le fa'ata'ita'iga.
-
O nisi faʻataʻitaʻiga e tele le saoasaoa, o nisi e toetoe lava a le minoi.
-
O nisi taimi e te maua ai se fa'atelevaveina ma se mea e fenumiai ai - e pei o se gremlin ua siitia mai 🧌
Ae ui i lea, a aoga, o se tasi lea o manumalo sili ona mama.
8) Fa'atusatusaga, Teuteuina, Fa'amamāina: La'ititi e aunoa ma le Tagi (Tele naua) 🪓📉
O le vaega lea e manaʻo ai tagata… auā e foliga mai o se faʻatinoga e leai se totogi. E mafai, ae e tatau ona e taulimaina e pei o se taotoga.
Fa'atusatusaga (mamafa/fa'agaoioiga maualalo le sa'o)
-
Lelei mo le saoasaoa o le malamalama ma le manatua
-
Lamatiaga: pa'ū le lelei, aemaise lava i tulaga faigata
-
Faiga sili ona lelei: iloilo i luga o se seti suega moni, ae le o ni vibes
O tofo masani e te faʻalogo i ai:
-
INT8 (e masani ona mautu) ( ituaiga fa'atatau TensorRT )
-
INT4 / bit-maualalo (sefega tetele, fa'ateleina le lamatiaga o le lelei) ( bitsandbytes k-bit quantization )
-
Fua fa'afefiloi (e le mana'omia e mea uma le sa'o tutusa)
Teuteuina (aveese tapula'a)
-
Aveese mamafa po'o fausaga "lē taua" ( PyTorch pruning tutorial )
-
E masani ona manaʻomia le toe aʻoaʻoina e toe faʻaleleia ai le lelei
-
E sili atu le lelei o le galuega nai lo le mea e mafaufau i ai tagata… pe a faia ma le fa'aeteete
Fa'amamāina (e a'oa'oina e le tamaititi a'oga mai le faia'oga)
O la'u lava lea lever e sili ona ou fiafia i ai mo se taimi umi. E mafai e le distillation ona maua ai se fa'ata'ita'iga la'ititi e amio tutusa, ma e masani ona sili atu ona mautu nai lo le quantization tele ( Distilling the Knowledge in a Neural Network ).
O se fa'ata'ita'iga e le atoatoa: o le fa'amamāina e pei o le sasa'aina o se supo faigata i se faamama ma maua ai… se supo la'ititi. E le o le auala lea e galue ai le supo, ae ua e malamalama i le manatu 🍲.
9) Auaunaga ma Fa'ai'uga: O Le Sone Moni o le Taua 🧯
E mafai ona e "fa'aleleia atili" se fa'ata'ita'iga ae e le lelei lava le fa'atinoina. O le fa'atinoina o le tautua e mafua ai ona moni le tuai ma le tau.
O le tautua e manumalo ai e taua
-
le Batching
le throughput. Ae fa'ateleina le latency pe afai e te so'ona faia. Fa'apaleni. ( Triton dynamic batching ) -
o le Caching
Prompt ma le toe fa'aaogaina o le KV-cache mo ni fa'amatalaga fa'asolosolo. ( Fa'amatalaga o le KV cache ) -
Fa'asalalauga tafe
E lagona e tagata fa'aoga e vave tele tusa lava pe tutusa le aofa'i o taimi. E tāua le va'aiga 🙂. -
Fa'aitiitia o tupe fa'aalu i fa'ailoga ta'itasi
O nisi fa'aputuga e faia galuega fa'aopoopo i fa'ailoga ta'itasi. Fa'aitiitia le tupe fa'aalu ma e te manumalo tele.
Ia mataala i le tuai o le si'usi'u
Atonu e foliga lelei lau averesi ae o lau p99 o se malaia. O tagata faʻaoga e nonofo i le siʻusiʻu, e faʻanoanoa. ( "Tail latency" ma le mafuaʻaga e pepelo ai averesi )
10) Fa'aleleia atili o le Malamalama i Meafaigaluega: Fa'afetaui le Fa'ata'ita'iga i le Masini 🧰🖥️
O le fa'aleleia atili e aunoa ma le iloa o masini komepiuta e pei o le fa'aleleia o se ta'avale tu'uga e aunoa ma le siakiina o pa'u. E moni, e mafai ona e faia, ae e fai si valea.
Mafaufauga o le GPU
-
O le bandwidth o le manatua e masani lava o le mea e fa'atapula'aina ai, ae le o le komepiuta mata
-
E mafai e le tele o vaega ona fesoasoani, se'ia o'o ina latou le toe fesoasoani
-
E matuā tele le fa'aogaina o le kernel fusion ma le fa'aleleia atili o le gauai mo transformers ( FlashAttention: IO-aware exact attention )
Mafaufauga o le CPU
-
E taua tele le fa'asologa o filo, fa'a-vektorina, ma le nofoaga o manatua
-
E mafai ona pulea e le tau o le Tokenization ( 🤗 Tokenizers "Vave" )
-
Atonu e te manaʻomia ni auala eseese e faʻatatau ai le aofaʻi nai lo le GPU
Mafaufauga i le pito / feavea'i
-
Ua avea le tulagavae o le manatua ma mea e faamuamua muamua
-
E tāua le fesuia'iga o le latency auā o masini e… lē mautonu
-
O faʻataʻitaʻiga laiti ma faʻapitoa e masani ona sili atu nai lo faʻataʻitaʻiga lautele tetele
11) Pa puipui lelei: Aua le "Fa'aleleia" Oe Lava i se Mea Fa'aletonu 🧪
O manumalo uma i le saoasaoa e tatau ona o faatasi ma se siaki lelei. A leai o le a e faamanatuina, faalauiloa, ona e mauaina lea o se savali e pei o le "aisea ua faafuasei ai ona tautala le fesoasoani e pei o se faomea?" 🏴☠️
Pa puipui aogā:
-
Fa'atonuga auro (seti mautu o fa'atonuga e te fa'ata'ita'iina i taimi uma)
-
Fua fa'atatau o galuega (sa'o, F1, BLEU, po'o le a lava le mea e fetaui)
-
Siakiina o tagata (ioe, o le mea moni)
-
Tulaga fa'atapula'a o le fa'asolosolo ("e le sili atu i le X% le pa'ū e fa'atagaina")
Siaki fo'i auala e fa'aletonu ai:
-
fa'asologa o le fa'atulagaina
-
suiga o amioga teena
-
soo o le mafaufau fa'alilolilo
-
fa'ateleina o le umi o tali
E mafai e le fa'aleleia atili ona suia amioga i ni auala e ofo ai. E ese. E fa'aita. E mafai ona vavaloina, pe a toe tepa i tua.
12) Lisi Siaki: Auala e Fa'aleleia Atili ai Fa'ata'ita'iga AI i lea La'asaga ma lea La'asaga ✅🤖
Afai e te manaʻo i se faʻasologa manino o galuega mo le Auala e Faʻaleleia atili ai Faʻataʻitaʻiga AI , o le faiga lea e masani ona faʻatumauina ai le mafaufau lelei o tagata:
-
Fa'amatala le manuia
Filifili ni fua fa'atatau autū e 1-2 (fa'atuai, tau, gaosiga, lelei). -
Fuafua le fa'avae
Fa'amatala galuega moni, fa'amaumau le p50/p95, manatua, tau. ( PyTorch Profiler ) -
Fa'aleleia fa'afitauli o le paipa
Utaina o fa'amaumauga, fa'ailogaina, fa'agasologa muamua, fa'aputuga. -
Fa'aaoga manumalo i le komepiuta e maualalo le lamatiaga.
Sa'o lelei, fa'aleleia atili o kernel, fa'aputuga sili atu. -
Taumafai i le fa'aleleia atili o le fa'aputuga/taimi fa'agaoioia (compile/runtime optimizations)
Pu'eina o ata (graph capture), taimi fa'agaoioia o fa'ai'uga (inference runtimes), fa'atasi o le operator (operator fusion). (torch.compiletutorial , ONNX Runtime docs ) -
Fa'aitiitia le tau o le fa'ata'ita'iga
Fuafua ma le fa'aeteete, fa'amamā pe a mafai, tipi pe a talafeagai. -
o le tautua o le Tune
, fa'asologa tutusa, su'ega o uta, fa'asa'oga o le tail latency. -
Fa'amaonia le lelei
Fa'atino su'ega regression ma fa'atusatusa fa'atasi ia taunuuga. -
Toe fai
Suiga laiti, fa'amatalaga manino, toe fai. Le fa'aalialia - aoga.
Ioe, o le Auala lea e Fa'aleleia Atili ai Fa'ata'ita'iga AI e tusa lava pe foliga mai o le "Auala e taofi ai le laa i luga o rake." O le mea lava lea e tasi.
13) Mea Sese Masani (Ina ia Aua Ne'i Toe Faia e Pei o Tatou Uma) 🙃
-
Fa'aleleia atili a'o le'i fuaina
O le a e fa'aumatia le taimi. Ona e fa'aleleia atili lea o le mea sese ma le mautinoa… -
O le tuliloaina o se fa'ailoga e tasi
E taoto fa'ailoga i le le amana'iaina. O lau avega o galuega o le mea moni lea. -
O le le amana'iaina o le manatua
O fa'afitauli i le manatua e mafua ai le fa'agesegese, fa'alavelave, ma le gatete. ( Malamalama i le fa'aaogaina o le manatua CUDA i le PyTorch ) -
O le tele naua o le fuaina i le taimi muamua
O le aofaʻi maualalo o le bit e mafai ona ofoofogia, ae amata muamua i laʻasaga e sili atu le saogalemu. -
Leai se fuafuaga e toe fa'afo'i ai.
Afai e le mafai ona e vave toe fo'i i tua, o taimi uma lava e fa'atino ai, e faigata ai. O le atuatuvale e mafua ai ni fa'aletonu.
Fa'ai'uga: O le Auala Fa'aletagata e Fa'aleleia Atili ai 😌⚡
O le Auala e Fa'aleleia Atili ai Fa'ata'ita'iga Fa'a-AI e lē o se togafiti e tasi. O se faiga e fa'aputu fa'atasi: fuaina, fa'aleleia le paipa, fa'aaoga fa'aputuga ma taimi e fa'atino ai, fa'atulaga le tautua, ona fa'aitiitia lea o le fa'ata'ita'iga i le fa'atulagaina o fuainumera po'o le fa'asusuina pe a mana'omia. Fai i lea la'asaga ma lea la'asaga, tausi lelei puipui, ma 'aua le fa'atuatuaina o le "e vave ona lagona" o se fua fa'atatau (e matagofie ou lagona, e le o se fa'amatalaga ou lagona).
Afai e te manaʻo i le meaʻai e puʻupuʻu ona 'ai:
-
Fuafua muamua 🔍
-
Fa'aleleia atili le paipa i le isi taimi 🧵
-
Ona fa'alelei lea o le fa'ata'ita'iga 🧠
-
Ona fa'aleleia lea o le tautua 🏗️
-
Ia siaki lelei i taimi uma ✅
Afai e fesoasoani, ia faamanatu ia te oe lava: o le sini e le o se "faʻataʻitaʻiga atoatoa." O le sini o se faʻataʻitaʻiga e vave, taugofie, ma faʻatuatuaina e mafai ai ona e moe i le po ... i le tele o po 😴.
Fesili e Masani Ona Fesiligia
O le uiga o le fa'aleleia atili o se fa'ata'ita'iga AI i le fa'atinoina
O le "Fa'aleleia" e masani ona fa'auigaina o le fa'aleleia atili o se tasi o tapula'a autu: latency, tau, tulagavae o le manatua, sa'o, mautu, po'o le throughput o le tautua. O le vaega faigata o fefa'ataua'iga - o le tuleia o se tasi vaega e mafai ona fa'aleagaina ai se isi. O se auala aoga o le filifilia lea o se sini manino (e pei o le p95 latency po'o le taimi-i-le-lelei) ma fa'aleleia atili agai i ai. A aunoa ma se sini, e faigofie ona "fa'aleleia" ae faia'ina pea.
Auala e faʻaleleia atili ai faʻataʻitaʻiga AI e aunoa ma le faʻaleagaina filemu o le lelei
Ia taulima soo se saoasaoa po o suiga o tau o se suiga lē leoa e ono tupu. Faaaoga ni puipuiga e pei o ni fa'atonuga auro, fua fa'atatau o galuega, ma siaki vave e tagata. Fa'atulaga se tulaga manino mo le fesuia'iga taliaina o le lelei ma fa'atusatusa fa'atasi ia taunuuga. O lenei mea e taofia ai le "e vave tele" mai le liua i le "aisea na fa'afuase'i ai ona ese i le gaosiga?" pe a uma ona e lafoina.
Mea e tatau ona fuaina a'o le'i amataina le fa'aleleia atili
Amata i pasene o le latency (p50, p95, p99), throughput (tokens/sekone po'o talosaga/sekone), fa'aaogaina o le GPU, ma le tumutumuga o le VRAM/RAM. Siaki le tau i le fa'ai'uga po'o le 1k tokens pe afai o le tau o se fa'atapula'aina. Fa'amatala se tulaga moni e te tu'uina atu, ae le o se fa'amatalaga meataalo. O le tausia o se "perf journal" la'ititi e fesoasoani ia te oe e 'alo'ese ai mai le mateina ma le toe faia o mea sese.
Manumalo vave ma maualalo le lamatiaga mo le faatinoga o aoaoga
O le sa'o fa'afefiloi (FP16/BF16) e masani lava o le muamua lever e sili ona vave, ae ia mataala i mea sese fa'afuainumera. Afai e fa'atapula'aina le tele o le batch, e mafai e le gradient accumulation ona fa'amautu le fa'aleleia atili e aunoa ma le fa'aleagaina o le manatua. O le gradient checkpointing e fesuia'i ai le compute fa'aopoopo mo le manatua maualalo, ma mafai ai ona fa'alauteleina ni vaega. Aua le fa'agaloina le tokenization ma le dataloader tuning - e mafai ona latou fa'aumatia filemu le GPU.
O afea e fa'aaoga ai le torch.compile, ONNX Runtime, po'o le TensorRT
O nei meafaigaluega e fa'atatau i galuega fa'atino: pu'eina o kalafi, tu'ufa'atasiga o le kernel, ma fa'aleleia atili o kalafi i le taimi e fa'atino ai. E mafai ona latou tu'uina atu ni fa'atelevavega mama o le fa'ai'uga, ae e eseese taunu'uga e tusa ai ma le foliga o le fa'ata'ita'iga ma masini. O nisi fa'atulagaga e foliga mai e pei o se togafiti; o isi e toetoe lava a le minoi. Fa'amoemoe i le maaleale i suiga o foliga ma nisi taimi o mea sese "gremlin" - fua a'o le'i amataina ma ina ua mae'a i lau galuega moni.
Pe aoga le quantization, ma pe faʻapefea ona ʻalofia le alu mamao tele
E mafai e le fa'atusatusaga ona fa'aitiitia le manatua ma fa'avavevave ai le fa'ai'uga, aemaise lava i le INT8, ae e mafai ona pa'ū le lelei i mataupu pito i luga. O filifiliga maualalo-bit (e pei o le INT4/k-bit) e aumaia ai ni fa'asaoina tetele ma le maualuga o le lamatiaga. O le masaniga sili ona saogalemu o le iloiloina lea i luga o se seti su'ega moni ma fa'atusatusa taunuuga, ae le o le lagona loloto. Amata muamua i la'asaga saogalemu, ona fa'aitiitia lea o le sa'o pe a mana'omia.
O le eseesega i le va o le teuteuina ma le fa'amamāina mo le fa'aitiitia o le tele o le fa'ata'ita'iga
O le tipiina e aveese ai tapula'a "mamafa mate" ma e masani ona mana'omia le toe a'oa'oina e toe fa'aleleia ai le lelei, aemaise lava pe a faia ma le malosi. O le fa'amamāina e a'oa'oina ai se fa'ata'ita'iga la'ititi a le tamaititi a'oga e fa'ata'ita'i i amioga a se faia'oga tele, ma e mafai ona avea ma ROI malosi mo se taimi umi nai lo le fa'atusatusaga tele. Afai e te mana'o i se fa'ata'ita'iga la'ititi e amio tutusa ma tumau le mautu, o le fa'amamāina e masani lava o le auala sili lea ona mama.
Auala e fa'aitiitia ai le tau o le fa'ai'uga ma le fa'atuai e ala i le fa'aleleia atili o le tautua
O le tautua o le mea lea e mafai ai ona faʻatinoina le faʻaleleia atili: o le faʻapipiʻiina o mea e faʻaleleia atili ai le gaosiga ae e mafai ona faʻaleagaina ai le latency pe a soona fai, o lea ia faʻatulaga ma le faʻaeteete. O le teuina o mea (faʻamaumauga vave ma le toe faʻaaogaina o le KV-cache) e mafai ona tele pe a toe faia mea. O le faʻasalalauga o le tafe e faʻaleleia atili ai le saoasaoa e tusa lava pe tutusa le taimi atoa. Vaʻai foʻi mo le faʻaopoopoga o le token-i-token i lau faʻaputuga - o galuega laiti i-token taʻitasi e vave ona faʻaopoopoina.
Aiseā e tāua tele ai le tail latency pe a faʻaleleia atili faʻataʻitaʻiga AI
E mafai ona foliga lelei le averesi a'o avea le p99 ma se mala, ma e masani ona nonofo tagata fa'aoga i le vaega mulimuli. O le fa'atuai o le vaega mulimuli e masani ona mafua mai i le jitter: vaevae o le manatua, osooso o le CPU preprocessing, fa'agesegese o le tokenization, po'o le le lelei o le amioga o le batching. O le mafua'aga lea e fa'amamafa ai e le ta'iala ia pasene ma avega moni. Afai e te fa'aleleia na'o le p50, e mafai lava ona e lafoina se aafiaga e "lagona fa'afuase'i le gese."
Fa'asinomaga
-
Auaunaga Upega Tafa'ilagi a le Amazon (AWS) - pasene o le AWS CloudWatch (fa'amatalaga o fuainumera) - docs.aws.amazon.com
-
Google - O le Siʻusiʻu i le Faʻateleina (faʻataʻitaʻiga sili ona lelei o le tail latency) - sre.google
-
Google - Sini Autū o le Tulaga o Auaunaga (Tusi SRE) - pasene o le latency - sre.google
-
PyTorch - torch.compile - docs.pytorch.org
-
PyTorch - FullyShardedDataParallel (FSDP) - docs.pytorch.org
-
PyTorch - PyTorch Profiler - docs.pytorch.org
-
PyTorch - CUDA semantics: pulega o manatua (CUDA memory allocator fa'amatalaga) - docs.pytorch.org
-
PyTorch - Fa'aogaina o le Sa'o Fa'afefiloi Fa'aautomatika (torch.amp / AMP) - docs.pytorch.org
-
PyTorch - torch.utils.checkpoint - docs.pytorch.org
-
PyTorch - Taiala mo le Fa'aleleia o le Fa'atinoga - docs.pytorch.org
-
PyTorch - A'oa'oga mo le Teuteuina o La'au - docs.pytorch.org
-
PyTorch - Malamalama i le faʻaaogaina o le manatua CUDA i le PyTorch - docs.pytorch.org
-
PyTorch - torch.compile aʻoaʻoga / aotelega - docs.pytorch.org
-
ONNX Runtime - Pepa Fa'amaumau o le ONNX Runtime - onnxruntime.ai
-
NVIDIA - Pepa Fa'amaumau o le TensorRT - docs.nvidia.com
-
NVIDIA - Ituaiga fa'atusatusa o le TensorRT - docs.nvidia.com
-
NVIDIA - Nsight Systems - developer.nvidia.com
-
NVIDIA - Triton Inference Server - fa'asologa fa'aonaponei - docs.nvidia.com
-
DeepSpeed - Fa'amaumauga o le ZeRO Vaega 3 - deepspeed.readthedocs.io
-
bitsandbytes (bitsandbytes-faavae) - bitsandbytes - github.com
-
Fusi Foliga - Fa'avavevave: Taiala Fa'aputuga o le Gradient - huggingface.co
-
O le fusi o foliga - Pepa fa'amaumau o Tokenizers - huggingface.co
-
Foliga o le fusi - Transformers: Taiala PEFT - huggingface.co
-
Foliga o le fusi - Transformers: Fa'amatalaga e uiga i le KV cache - huggingface.co
-
Fugging Face - Transformers: Tokenisers “Vave” (vasega tokenizer) - huggingface.co
-
arXiv - Fa'amamāina o le Malamalama i totonu o se Neural Network (Hinton et al., 2015) - arxiv.org
-
arXiv - LoRA: Fetuunaiga Maualalo o Faʻataʻitaʻiga Gagana Tetele - arxiv.org
-
arXiv - FlashAttention: Vave ma Lelei le Manatua o le Gaioiga Sa'o ma le IO-Awareness - arxiv.org