Auala e Fa'aleleia Atili ai Fa'ata'ita'iga AI

Auala e Fa'aleleia Atili ai Fa'ata'ita'iga AI

Tali pu'upu'u: Ina ia fa'aleleia atili fa'ata'ita'iga AI, filifili se tapula'a autu e tasi (latency, tau, manatua, lelei, mautu, po'o le throughput), ona pu'eina lea o se laina fa'avae fa'atuatuaina a'o le'i suia se mea. Ave'ese muamua fa'alavelave o le pipeline, ona fa'aoga lea o ni fa'aopoopoga maualalo e pei o le sa'o fa'afefiloi ma le batching; afai e tumau le lelei, agai i luma i le compiler/runtime tooling ma na'o le fa'aitiitia o le tele o le fa'ata'ita'iga e ala i le quantisation po'o le distillation pe a mana'omia.

Manatu autū:

Tapula'a : Filifili se fua fa'atatau se tasi pe lua; o le fa'aleleia atili o se tulaga o fefa'ataua'iga, ae le o ni manumalo fua.

Fuaina : Fa'atatau galuega moni fa'atasi ai ma le p50/p95/p99, le gaosiga, le fa'aaogaina, ma tumutumuga o le manatua.

Pipeline : Fa'aleleia le tokenisation, dataloaders, preprocessing, ma le batching a'o le'i pa'i atu i le fa'ata'ita'iga.

Auaunaga : Faaaoga le caching, batching fuafuaina, concurrency tuning, ma ia mata'ituina lelei le tail latency.

Pa puipui : Fa'atino ni fa'atonuga taua, fua fa'atatau o galuega, ma siaki vave pe a uma suiga ta'itasi o le fa'atinoga.

Auala e Fa'aleleia Atili ai Fa'ata'ita'iga AI Infographic

🔗 Auala e iloilo lelei ai faʻataʻitaʻiga o le AI.
O taʻiala autu ma laʻasaga e faʻamasino ai faʻataʻitaʻiga ma le tonu ma le faʻatuatuaina.

🔗 Auala e fuaina ai le faʻatinoga o le AI i fua faʻatatau moni
Faaaoga faʻailoga faʻatusatusa, latency, tau, ma faʻailoga lelei e faʻatusatusa ai.

🔗 Auala e fa'ata'ita'i ai fa'ata'ita'iga AI a'o le'i faia le gaosiga
Faiga fa'atino o su'ega: vaevaeina o fa'amaumauga, mataupu o le atuatuvale, ma le mata'ituina.

🔗 Fa'aaogaina o le AI mo le fatuina o anotusi
Liliu manatu i ni ata tusi vave fa'atasi ai ma ni fa'atonuga fa'atulagaina ma ni toe fa'ata'ita'iga.


1) O le ā le Uiga o le “Fa'aleleia” i le Fa'atinoga (Auā e Fa'aaogāina e Tagata Ta'ito'atasi i ni Auala 'Ese'ese) 🧠

A fai mai tagata "fa'aleleia se fa'ata'ita'iga AI," atonu o lona uiga:

  • Fa'avavevave (fa'aitiitia le latency)

  • Fa'atauva'a (fa'aitiitia itula o le GPU, fa'aitiitia le fa'aaluina o le ao)

  • Fa'aitiitia (tulaga o le manatua, fa'alauteleina o le pito)

  • Ia sili atu ona sa'o (fa'aleleia atili le lelei, fa'aitiitia ai ni fa'aaliga taufa'ase'e)

  • Ia sili atu ona mautu (itiiti ifo le eseesega, itiiti ifo le faaletonu i le gaosiga)

  • Fa'afaigofie le tautua (throughput, batching, fa'atinoga e mafai ona va'aia)

O le mea moni lenei e fai si fa'aita: e le mafai ona e fa'ateleina nei mea uma i le taimi e tasi. O le fa'aleleia atili e pei o le oomiina o se paluni - tulei le tasi itu i totonu ona oso a'e lea o le isi itu. E le o taimi uma, ae o le tele o taimi e tatau ai ona e fuafua mo ni fefa'ataua'iga.

O lea la a'o le'i pa'i atu i se mea, filifili lau tapula'a autū :


2) O le a le foliga o se lomiga lelei o le faʻaleleia atili o le faʻataʻitaʻiga AI ✅

O se fa'ata'ita'iga lelei o le fa'aleleia atili e le na'o le "fa'aaoga le quantization ma tatalo." O se faiga. O fa'atulagaga sili ona lelei e masani ona i ai:

  • O se fa'avae e te fa'atuatuaina
    Afai e le mafai ona e toe faia au taunuuga o lo'o iai nei, e le mafai ona e iloa ua e fa'aleleia se mea. Faigofie lava… ae e misia e tagata. Ona latou feliua'i lea.

  • O se fua fa'atatau manino
    "Vave" e le o mautinoa. O le "Fa'aitiitia le latency p95 mai le 900ms i le 300ms i le togi lelei tutusa" o se sini moni lava.

  • Pa puipui mo le lelei
    O fa'atinoga uma e manumalo ai e ono i'u ai i le pa'ū filemu o le lelei. E te mana'omia ni su'ega, iloiloga, pe a itiiti mai o se meafaigaluega mo le mafaufau lelei.

  • Malamalama i meafaigaluega fa'akomepiuta
    O se fa'ata'ita'iga "vave" i luga o le tasi GPU e mafai ona totolo i luga o le isi. O CPU o lo latou lava ituaiga fa'alavelave fa'apitoa.

  • Suiga faifai pea, ae le o se toe tusiaina tele.
    A e suia mea e lima i le taimi e tasi ma faaleleia le faatinoga, e te le iloa le mafuaaga. O le mea lea… e le mautonu ai.

O le fa'aleleia atili e tatau ona pei o le fa'atulagaina o se kitara - ni nai fetu'una'iga, fa'alogo lelei, toe fai 🎸. Afai e te lagona e pei o le fa'ata'ita'iina o naifi, o lona uiga ua i ai se mea ua sese.


3) Siata Fa'atusatusaga: Filifiliga Lauiloa e Fa'aleleia atili ai Fa'ata'ita'iga AI 📊

O loʻo i lalo se laulau faʻatusatusaga vave ma le le mama o meafaigaluega/auala masani e faʻaleleia atili ai faʻamatalaga. Leai, e le o se mea "talafeagai" atoatoa - e le faapena foi i le olaga moni.

Meafaigaluega / Filifiliga Le aofia Tau Aiseā e aoga ai
PyTorch torch.compile ( pepa fa'amaumau a PyTorch ) Tagata PyTorch Sa'oloto O le pu'eina o kalafi + togafiti a le fa'aputuga e mafai ona fa'aitiitia ai tupe alu… o nisi taimi e ofoofogia ✨
ONNX Runtime ( pepa o le ONNX Runtime ) 'Au fa'atino Sa'oloto Fa'aleleia atili o fa'ai'uga, lagolago lautele, lelei mo le tautua fa'atulagaina
TensorRT ( pepa a le NVIDIA TensorRT ) Fa'alauiloaina o le NVIDIA Vibes totogi (e masani ona fa'apipi'i fa'atasi) Fa'afefiloi malosi o le kernel + taulimaina sa'o, vave tele pe a kiliki
DeepSpeed ​​( pepa aloaia a le ZeRO ) 'Au a'oa'o Sa'oloto Fa'aleleia atili o le manatua + le saoasaoa (ZeRO ma isi). E mafai ona lagona e pei o se afi vaalele
FSDP (PyTorch) ( pepa fa'amaumau a le PyTorch FSDP ) 'Au a'oa'o Sa'oloto Fa'asologa/fa'asolosolo o vaega, e fa'aitiitia ai le mata'utia o fa'ata'ita'iga tetele
fa'atusatusaga o bitsandbytes ( bitsandbytes ) Tagata fai togafiti LLM Sa'oloto Mamafa maualalo, sefe tele o le manatua - e faʻalagolago le lelei, ae ui i lea 😬
Fa'amamāina ( Hinton et al., 2015 ) Vaega o oloa "Tau o le taimi" E mautofi e le faʻataʻitaʻiga a le tamaititi aʻoga laʻititi amioga, e masani lava o le ROI sili ona lelei i le lumanaʻi
Teuteuina ( aʻoaʻoga teuteuga PyTorch ) Su'esu'ega + oloa Sa'oloto Aveese le mamafa ua mate. E sili atu le aoga pe a fa'atasi ma le toe a'oa'oga
Flash Attention / fused kernels ( pepa FlashAttention ) Tagata atamamai i le faatinoga Sa'oloto Vave le gauai atu, sili atu le lelei o le manatua. Manumalo moni mo transformers
'Au'aunaga Fa'ai'uga Triton ( Fa'aputuga Fa'aonaponei ) Galuega/infra Sa'oloto O le tautua gaosiga, fa'aputuga, paipa fa'ata'ita'i eseese - e foliga mai e pei o se pisinisi fa'apisinisi

Ta'utinoga o le fa'atulagaina o mea sese: E le'i mama le "Tau" auā e mafai lava e le open-source ona taugata ai le fa'aleleia o mea sese i se fa'ai'uga o le vaiaso, o se tau lea. 😵💫


4) Amata i le Fuaina: Fa'amatala lau Fa'amatalaga e pei ona e Fa'auigaina 🔍

Afai e na'o le tasi le mea e te faia mai lenei ta'iala atoa, fai le mea lenei: fua sa'o.

I a'u lava suega, o "fa'aleleia atili o le fa'aleleia atili" sili ona tetele na mafua mai i le mauaina o se mea faigofie e fa'amāsiasi ai e pei o le:

  • o le utaina o fa'amaumauga e fa'a'ono'ono ai le GPU

  • Fa'afitauli i le fa'agasologa muamua o le CPU

  • laiti tele o le batch e mafua ai le overhead o le fa'alauiloaina o le kernel

  • fa'agesegese le fa'ailogaina (e mafai e tokenizers ona avea ma tagata leaga filemu)

  • fa'aputuga o manatua ( fa'amatalaga o le vaevaeina o manatua a le PyTorch CUDA )

  • o se komepiuta e pulea e le vaega e tasi

O le a le mea e fuaina (seti maualalo)

  • Fa'alētonu (p50, p95, p99) ( SRE i luga o pasene o le fa'alētonu )

  • Fa'asologa o galuega (tokens/sekone, talosaga/sekone)

  • Fa'aaogāina o le GPU (computer + memory)

  • VRAM / tumutumuga RAM

  • Tau i le 1k tokens (pe i le fa'ai'uga)

Mafaufauga fa'atino mo le fa'avasegaina o fa'amatalaga

  • Fa'amatala se tasi o tulaga e te fiafia i ai (ae le o se fa'amatalaga e uiga i meata'alo).

  • Fa'amaumau mea uma i se tama'i "api talaaga lelei."
    Ioe e faigata... ae e fa'asaoina ai oe mai le fa'ateleina o lou popole mulimuli ane.

(Afai e te manaʻo i se meafaigaluega maoti e amata ai: PyTorch Profiler ( torch.profiler docs ) ma Nsight Systems ( NVIDIA Nsight Systems ) o mea masani ia e masalomia.)


5) Fa'aleleia Atili o Fa'amaumauga + A'oa'oga: O Le Malosiaga Filemu 📦🚀

E popole tele tagata i le fausaga o faʻataʻitaʻiga ma galo ai le paipa. Ae o le paipa e susunuina filemu le afa o le GPU.

Manumalo faigofie e vave ona aliali mai

  • Faaaoga le sa'o fefiloi (FP16/BF16 pe a mautu) ( PyTorch AMP / torch.amp )
    E masani ona vave, e masani ona lelei - ae ia mataala mo mea sese tau numera.

  • Fa'aputuga o le gradient pe a fa'atapula'aina le tele o le batch ( 🤗 Taiala fa'avavevave )
    Fa'atumauina le mautu o le fa'aleleia atili e aunoa ma le fa'aleagaina o le manatua.

  • Siakiina o le Gradient ( torch.utils.checkpoint )
    Fesuia'i le compute mo le manatua - e mafai ai ona fa'atino ni fa'amatalaga tetele.

  • Fa'aaogaina lelei o le tokenization ( 🤗 Tokenizers )
    E mafai e le Tokenization ona avea ma fa'alavelave i le tele o taimi. E le o se mea matagofie; e taua.

  • Fa'atulagaina o le Dataloader
    Fa'ateleina tagata faigaluega, pine manatua, mua'i maua mai - e le fa'aalia ae aoga 😴➡️💪 ( Taiala Fa'atulagaina o le Fa'atinoga o le PyTorch )

Fa'aleleia atili o le fa'atulagaina o parakalafa

Afai o loʻo e faʻaleleia atili faʻataʻitaʻiga tetele, o metotia PEFT (e pei o mea faʻapipiʻi faʻa-LoRA) e mafai ona faʻaitiitia tele le tau o aʻoaʻoga aʻo tumau pea le malosi ( 🤗 Taʻiala PEFT a le Transformers , pepa LoRA ). O se tasi lea o taimi "aisea na tatou le faia ai lenei mea muamua?".


6) Fa'aleleia Atili o le Tulaga o le Fa'atulagaga: Fa'atulaga le Tele Sa'o o le Fa'ata'ita'iga 🧩

O nisi taimi o le auala sili e faʻaleleia atili ai o le… taofi le faʻaaogaina o se faʻataʻitaʻiga e telē tele mo le galuega. Ua ou iloa, o le faʻaleagaina 😄.

Fai se telefoni i ni nai mea taua:

  • Filifili pe e te manaʻomia le poto atoatoa i le lautele, pe e te manaʻomia se tagata tomai faapitoa.

  • Ia tausia le faamalama o le anotusi ia telē e pei ona manaʻomia, ae aua le faʻateleina.

  • Faaaoga se faʻataʻitaʻiga ua aʻoaʻoina mo le galuega o loʻo faia (faʻataʻitaʻiga faʻavasegaga mo galuega faʻavasegaga, ma isi mea faʻapena).

Fuafuaga aogā mo le fa'asa'oina o le tele

  • Fesuiai i se ivi tua laʻititi mo le tele o talosaga
    Ona faʻasino lea o "fesili faigata" i se faʻataʻitaʻiga tele atu.

  • Faaaoga se seti e lua vaega.
    Ata vave o le faʻataʻitaʻiga, faʻamaoniga poʻo faʻasaʻoga malolosi o le faʻataʻitaʻiga.
    E pei o le tusitusi ma se uo e filifili - faʻalavelave, ae aoga.

  • Fa'aitiitia le umi o le galuega faatino
    E tele tupe ma le taimi e alu ai i fa'ailoga o galuega faatino. Afai e le aoga lau fa'ata'ita'iga, e te totogia le tau o le galuega faatino.

Ua ou vaʻaia ni 'au o loʻo faʻaitiitia tele tau e ala i le faʻamalosia o ni galuega faʻapuʻupuʻu. E foliga faʻatauvaʻa. Ae e aoga.


7) Fa'aleleia o le Compiler + Graph: O fea e sau ai le saoasaoa 🏎️

O le vaega lea o le "faia e le komepiuta ni mea faakomepiuta atamai".

Tomai masani:

I se faaupuga faigofie: atonu e vave lau faʻataʻitaʻiga i le faʻamatematika, ae gesegese i le faʻatinoina. E faʻasaʻoina e le au faʻapipiʻi nisi o na mea.

Fa'amatalaga aogā (e ta'ua fo'i o ma'ila)

  • E mafai ona nofouta nei fa'aleleiga i suiga o foliga o le fa'ata'ita'iga.

  • O nisi faʻataʻitaʻiga e tele le saoasaoa, o nisi e toetoe lava a le minoi.

  • O nisi taimi e te maua ai se fa'atelevaveina ma se mea e fenumiai ai - e pei o se gremlin ua siitia mai 🧌

Ae ui i lea, a aoga, o se tasi lea o manumalo sili ona mama.


8) Fa'atusatusaga, Teuteuina, Fa'amamāina: La'ititi e aunoa ma le Tagi (Tele naua) 🪓📉

O le vaega lea e manaʻo ai tagata… auā e foliga mai o se faʻatinoga e leai se totogi. E mafai, ae e tatau ona e taulimaina e pei o se taotoga.

Fa'atusatusaga (mamafa/fa'agaoioiga maualalo le sa'o)

  • Lelei mo le saoasaoa o le malamalama ma le manatua

  • Lamatiaga: pa'ū le lelei, aemaise lava i tulaga faigata

  • Faiga sili ona lelei: iloilo i luga o se seti suega moni, ae le o ni vibes

O tofo masani e te faʻalogo i ai:

Teuteuina (aveese tapula'a)

  • Aveese mamafa po'o fausaga "lē taua" ( PyTorch pruning tutorial )

  • E masani ona manaʻomia le toe aʻoaʻoina e toe faʻaleleia ai le lelei

  • E sili atu le lelei o le galuega nai lo le mea e mafaufau i ai tagata… pe a faia ma le fa'aeteete

Fa'amamāina (e a'oa'oina e le tamaititi a'oga mai le faia'oga)

O la'u lava lea lever e sili ona ou fiafia i ai mo se taimi umi. E mafai e le distillation ona maua ai se fa'ata'ita'iga la'ititi e amio tutusa, ma e masani ona sili atu ona mautu nai lo le quantization tele ( Distilling the Knowledge in a Neural Network ).

O se fa'ata'ita'iga e le atoatoa: o le fa'amamāina e pei o le sasa'aina o se supo faigata i se faamama ma maua ai… se supo la'ititi. E le o le auala lea e galue ai le supo, ae ua e malamalama i le manatu 🍲.


9) Auaunaga ma Fa'ai'uga: O Le Sone Moni o le Taua 🧯

E mafai ona e "fa'aleleia atili" se fa'ata'ita'iga ae e le lelei lava le fa'atinoina. O le fa'atinoina o le tautua e mafua ai ona moni le tuai ma le tau.

O le tautua e manumalo ai e taua

  • le Batching
    le throughput. Ae fa'ateleina le latency pe afai e te so'ona faia. Fa'apaleni. ( Triton dynamic batching )

  • o le Caching
    Prompt ma le toe fa'aaogaina o le KV-cache mo ni fa'amatalaga fa'asolosolo. ( Fa'amatalaga o le KV cache )

  • Fa'asalalauga tafe
    E lagona e tagata fa'aoga e vave tele tusa lava pe tutusa le aofa'i o taimi. E tāua le va'aiga 🙂.

  • Fa'aitiitia o tupe fa'aalu i fa'ailoga ta'itasi
    O nisi fa'aputuga e faia galuega fa'aopoopo i fa'ailoga ta'itasi. Fa'aitiitia le tupe fa'aalu ma e te manumalo tele.

Ia mataala i le tuai o le si'usi'u

Atonu e foliga lelei lau averesi ae o lau p99 o se malaia. O tagata faʻaoga e nonofo i le siʻusiʻu, e faʻanoanoa. ( "Tail latency" ma le mafuaʻaga e pepelo ai averesi )


10) Fa'aleleia atili o le Malamalama i Meafaigaluega: Fa'afetaui le Fa'ata'ita'iga i le Masini 🧰🖥️

O le fa'aleleia atili e aunoa ma le iloa o masini komepiuta e pei o le fa'aleleia o se ta'avale tu'uga e aunoa ma le siakiina o pa'u. E moni, e mafai ona e faia, ae e fai si valea.

Mafaufauga o le GPU

  • O le bandwidth o le manatua e masani lava o le mea e fa'atapula'aina ai, ae le o le komepiuta mata

  • E mafai e le tele o vaega ona fesoasoani, se'ia o'o ina latou le toe fesoasoani

  • E matuā tele le fa'aogaina o le kernel fusion ma le fa'aleleia atili o le gauai mo transformers ( FlashAttention: IO-aware exact attention )

Mafaufauga o le CPU

  • E taua tele le fa'asologa o filo, fa'a-vektorina, ma le nofoaga o manatua

  • E mafai ona pulea e le tau o le Tokenization ( 🤗 Tokenizers "Vave" )

  • Atonu e te manaʻomia ni auala eseese e faʻatatau ai le aofaʻi nai lo le GPU

Mafaufauga i le pito / feavea'i

  • Ua avea le tulagavae o le manatua ma mea e faamuamua muamua

  • E tāua le fesuia'iga o le latency auā o masini e… lē mautonu

  • O faʻataʻitaʻiga laiti ma faʻapitoa e masani ona sili atu nai lo faʻataʻitaʻiga lautele tetele


11) Pa puipui lelei: Aua le "Fa'aleleia" Oe Lava i se Mea Fa'aletonu 🧪

O manumalo uma i le saoasaoa e tatau ona o faatasi ma se siaki lelei. A leai o le a e faamanatuina, faalauiloa, ona e mauaina lea o se savali e pei o le "aisea ua faafuasei ai ona tautala le fesoasoani e pei o se faomea?" 🏴☠️

Pa puipui aogā:

  • Fa'atonuga auro (seti mautu o fa'atonuga e te fa'ata'ita'iina i taimi uma)

  • Fua fa'atatau o galuega (sa'o, F1, BLEU, po'o le a lava le mea e fetaui)

  • Siakiina o tagata (ioe, o le mea moni)

  • Tulaga fa'atapula'a o le fa'asolosolo ("e le sili atu i le X% le pa'ū e fa'atagaina")

Siaki fo'i auala e fa'aletonu ai:

  • fa'asologa o le fa'atulagaina

  • suiga o amioga teena

  • soo o le mafaufau fa'alilolilo

  • fa'ateleina o le umi o tali

E mafai e le fa'aleleia atili ona suia amioga i ni auala e ofo ai. E ese. E fa'aita. E mafai ona vavaloina, pe a toe tepa i tua.


12) Lisi Siaki: Auala e Fa'aleleia Atili ai Fa'ata'ita'iga AI i lea La'asaga ma lea La'asaga ✅🤖

Afai e te manaʻo i se faʻasologa manino o galuega mo le Auala e Faʻaleleia atili ai Faʻataʻitaʻiga AI , o le faiga lea e masani ona faʻatumauina ai le mafaufau lelei o tagata:

  1. Fa'amatala le manuia
    Filifili ni fua fa'atatau autū e 1-2 (fa'atuai, tau, gaosiga, lelei).

  2. Fuafua le fa'avae
    Fa'amatala galuega moni, fa'amaumau le p50/p95, manatua, tau. ( PyTorch Profiler )

  3. Fa'aleleia fa'afitauli o le paipa
    Utaina o fa'amaumauga, fa'ailogaina, fa'agasologa muamua, fa'aputuga.

  4. Fa'aaoga manumalo i le komepiuta e maualalo le lamatiaga.
    Sa'o lelei, fa'aleleia atili o kernel, fa'aputuga sili atu.

  5. Taumafai i le fa'aleleia atili o le fa'aputuga/taimi fa'agaoioia (compile/runtime optimizations)
    Pu'eina o ata (graph capture), taimi fa'agaoioia o fa'ai'uga (inference runtimes), fa'atasi o le operator (operator fusion). ( torch.compile tutorial , ONNX Runtime docs )

  6. Fa'aitiitia le tau o le fa'ata'ita'iga
    Fuafua ma le fa'aeteete, fa'amamā pe a mafai, tipi pe a talafeagai.

  7. o le tautua o le Tune
    , fa'asologa tutusa, su'ega o uta, fa'asa'oga o le tail latency.

  8. Fa'amaonia le lelei
    Fa'atino su'ega regression ma fa'atusatusa fa'atasi ia taunuuga.

  9. Toe fai
    Suiga laiti, fa'amatalaga manino, toe fai. Le fa'aalialia - aoga.

Ioe, o le Auala lea e Fa'aleleia Atili ai Fa'ata'ita'iga AI e tusa lava pe foliga mai o le "Auala e taofi ai le laa i luga o rake." O le mea lava lea e tasi.


13) Mea Sese Masani (Ina ia Aua Ne'i Toe Faia e Pei o Tatou Uma) 🙃

  • Fa'aleleia atili a'o le'i fuaina
    O le a e fa'aumatia le taimi. Ona e fa'aleleia atili lea o le mea sese ma le mautinoa…

  • O le tuliloaina o se fa'ailoga e tasi
    E taoto fa'ailoga i le le amana'iaina. O lau avega o galuega o le mea moni lea.

  • O le le amana'iaina o le manatua
    O fa'afitauli i le manatua e mafua ai le fa'agesegese, fa'alavelave, ma le gatete. ( Malamalama i le fa'aaogaina o le manatua CUDA i le PyTorch )

  • O le tele naua o le fuaina i le taimi muamua
    O le aofaʻi maualalo o le bit e mafai ona ofoofogia, ae amata muamua i laʻasaga e sili atu le saogalemu.

  • Leai se fuafuaga e toe fa'afo'i ai.
    Afai e le mafai ona e vave toe fo'i i tua, o taimi uma lava e fa'atino ai, e faigata ai. O le atuatuvale e mafua ai ni fa'aletonu.


Fa'ai'uga: O le Auala Fa'aletagata e Fa'aleleia Atili ai 😌⚡

O le Auala e Fa'aleleia Atili ai Fa'ata'ita'iga Fa'a-AI e lē o se togafiti e tasi. O se faiga e fa'aputu fa'atasi: fuaina, fa'aleleia le paipa, fa'aaoga fa'aputuga ma taimi e fa'atino ai, fa'atulaga le tautua, ona fa'aitiitia lea o le fa'ata'ita'iga i le fa'atulagaina o fuainumera po'o le fa'asusuina pe a mana'omia. Fai i lea la'asaga ma lea la'asaga, tausi lelei puipui, ma 'aua le fa'atuatuaina o le "e vave ona lagona" o se fua fa'atatau (e matagofie ou lagona, e le o se fa'amatalaga ou lagona).

Afai e te manaʻo i le meaʻai e puʻupuʻu ona 'ai:

  • Fuafua muamua 🔍

  • Fa'aleleia atili le paipa i le isi taimi 🧵

  • Ona fa'alelei lea o le fa'ata'ita'iga 🧠

  • Ona fa'aleleia lea o le tautua 🏗️

  • Ia siaki lelei i taimi uma ✅

Afai e fesoasoani, ia faamanatu ia te oe lava: o le sini e le o se "faʻataʻitaʻiga atoatoa." O le sini o se faʻataʻitaʻiga e vave, taugofie, ma faʻatuatuaina e mafai ai ona e moe i le po ... i le tele o po 😴.

Fesili e Masani Ona Fesiligia

O le uiga o le fa'aleleia atili o se fa'ata'ita'iga AI i le fa'atinoina

O le "Fa'aleleia" e masani ona fa'auigaina o le fa'aleleia atili o se tasi o tapula'a autu: latency, tau, tulagavae o le manatua, sa'o, mautu, po'o le throughput o le tautua. O le vaega faigata o fefa'ataua'iga - o le tuleia o se tasi vaega e mafai ona fa'aleagaina ai se isi. O se auala aoga o le filifilia lea o se sini manino (e pei o le p95 latency po'o le taimi-i-le-lelei) ma fa'aleleia atili agai i ai. A aunoa ma se sini, e faigofie ona "fa'aleleia" ae faia'ina pea.

Auala e faʻaleleia atili ai faʻataʻitaʻiga AI e aunoa ma le faʻaleagaina filemu o le lelei

Ia taulima soo se saoasaoa po o suiga o tau o se suiga lē leoa e ono tupu. Faaaoga ni puipuiga e pei o ni fa'atonuga auro, fua fa'atatau o galuega, ma siaki vave e tagata. Fa'atulaga se tulaga manino mo le fesuia'iga taliaina o le lelei ma fa'atusatusa fa'atasi ia taunuuga. O lenei mea e taofia ai le "e vave tele" mai le liua i le "aisea na fa'afuase'i ai ona ese i le gaosiga?" pe a uma ona e lafoina.

Mea e tatau ona fuaina a'o le'i amataina le fa'aleleia atili

Amata i pasene o le latency (p50, p95, p99), throughput (tokens/sekone po'o talosaga/sekone), fa'aaogaina o le GPU, ma le tumutumuga o le VRAM/RAM. Siaki le tau i le fa'ai'uga po'o le 1k tokens pe afai o le tau o se fa'atapula'aina. Fa'amatala se tulaga moni e te tu'uina atu, ae le o se fa'amatalaga meataalo. O le tausia o se "perf journal" la'ititi e fesoasoani ia te oe e 'alo'ese ai mai le mateina ma le toe faia o mea sese.

Manumalo vave ma maualalo le lamatiaga mo le faatinoga o aoaoga

O le sa'o fa'afefiloi (FP16/BF16) e masani lava o le muamua lever e sili ona vave, ae ia mataala i mea sese fa'afuainumera. Afai e fa'atapula'aina le tele o le batch, e mafai e le gradient accumulation ona fa'amautu le fa'aleleia atili e aunoa ma le fa'aleagaina o le manatua. O le gradient checkpointing e fesuia'i ai le compute fa'aopoopo mo le manatua maualalo, ma mafai ai ona fa'alauteleina ni vaega. Aua le fa'agaloina le tokenization ma le dataloader tuning - e mafai ona latou fa'aumatia filemu le GPU.

O afea e fa'aaoga ai le torch.compile, ONNX Runtime, po'o le TensorRT

O nei meafaigaluega e fa'atatau i galuega fa'atino: pu'eina o kalafi, tu'ufa'atasiga o le kernel, ma fa'aleleia atili o kalafi i le taimi e fa'atino ai. E mafai ona latou tu'uina atu ni fa'atelevavega mama o le fa'ai'uga, ae e eseese taunu'uga e tusa ai ma le foliga o le fa'ata'ita'iga ma masini. O nisi fa'atulagaga e foliga mai e pei o se togafiti; o isi e toetoe lava a le minoi. Fa'amoemoe i le maaleale i suiga o foliga ma nisi taimi o mea sese "gremlin" - fua a'o le'i amataina ma ina ua mae'a i lau galuega moni.

Pe aoga le quantization, ma pe faʻapefea ona ʻalofia le alu mamao tele

E mafai e le fa'atusatusaga ona fa'aitiitia le manatua ma fa'avavevave ai le fa'ai'uga, aemaise lava i le INT8, ae e mafai ona pa'ū le lelei i mataupu pito i luga. O filifiliga maualalo-bit (e pei o le INT4/k-bit) e aumaia ai ni fa'asaoina tetele ma le maualuga o le lamatiaga. O le masaniga sili ona saogalemu o le iloiloina lea i luga o se seti su'ega moni ma fa'atusatusa taunuuga, ae le o le lagona loloto. Amata muamua i la'asaga saogalemu, ona fa'aitiitia lea o le sa'o pe a mana'omia.

O le eseesega i le va o le teuteuina ma le fa'amamāina mo le fa'aitiitia o le tele o le fa'ata'ita'iga

O le tipiina e aveese ai tapula'a "mamafa mate" ma e masani ona mana'omia le toe a'oa'oina e toe fa'aleleia ai le lelei, aemaise lava pe a faia ma le malosi. O le fa'amamāina e a'oa'oina ai se fa'ata'ita'iga la'ititi a le tamaititi a'oga e fa'ata'ita'i i amioga a se faia'oga tele, ma e mafai ona avea ma ROI malosi mo se taimi umi nai lo le fa'atusatusaga tele. Afai e te mana'o i se fa'ata'ita'iga la'ititi e amio tutusa ma tumau le mautu, o le fa'amamāina e masani lava o le auala sili lea ona mama.

Auala e fa'aitiitia ai le tau o le fa'ai'uga ma le fa'atuai e ala i le fa'aleleia atili o le tautua

O le tautua o le mea lea e mafai ai ona faʻatinoina le faʻaleleia atili: o le faʻapipiʻiina o mea e faʻaleleia atili ai le gaosiga ae e mafai ona faʻaleagaina ai le latency pe a soona fai, o lea ia faʻatulaga ma le faʻaeteete. O le teuina o mea (faʻamaumauga vave ma le toe faʻaaogaina o le KV-cache) e mafai ona tele pe a toe faia mea. O le faʻasalalauga o le tafe e faʻaleleia atili ai le saoasaoa e tusa lava pe tutusa le taimi atoa. Vaʻai foʻi mo le faʻaopoopoga o le token-i-token i lau faʻaputuga - o galuega laiti i-token taʻitasi e vave ona faʻaopoopoina.

Aiseā e tāua tele ai le tail latency pe a faʻaleleia atili faʻataʻitaʻiga AI

E mafai ona foliga lelei le averesi a'o avea le p99 ma se mala, ma e masani ona nonofo tagata fa'aoga i le vaega mulimuli. O le fa'atuai o le vaega mulimuli e masani ona mafua mai i le jitter: vaevae o le manatua, osooso o le CPU preprocessing, fa'agesegese o le tokenization, po'o le le lelei o le amioga o le batching. O le mafua'aga lea e fa'amamafa ai e le ta'iala ia pasene ma avega moni. Afai e te fa'aleleia na'o le p50, e mafai lava ona e lafoina se aafiaga e "lagona fa'afuase'i le gese."

Fa'asinomaga

  1. Auaunaga Upega Tafa'ilagi a le Amazon (AWS) - pasene o le AWS CloudWatch (fa'amatalaga o fuainumera) - docs.aws.amazon.com

  2. Google - O le Siʻusiʻu i le Faʻateleina (faʻataʻitaʻiga sili ona lelei o le tail latency) - sre.google

  3. Google - Sini Autū o le Tulaga o Auaunaga (Tusi SRE) - pasene o le latency - sre.google

  4. PyTorch - torch.compile - docs.pytorch.org

  5. PyTorch - FullyShardedDataParallel (FSDP) - docs.pytorch.org

  6. PyTorch - PyTorch Profiler - docs.pytorch.org

  7. PyTorch - CUDA semantics: pulega o manatua (CUDA memory allocator fa'amatalaga) - docs.pytorch.org

  8. PyTorch - Fa'aogaina o le Sa'o Fa'afefiloi Fa'aautomatika (torch.amp / AMP) - docs.pytorch.org

  9. PyTorch - torch.utils.checkpoint - docs.pytorch.org

  10. PyTorch - Taiala mo le Fa'aleleia o le Fa'atinoga - docs.pytorch.org

  11. PyTorch - A'oa'oga mo le Teuteuina o La'au - docs.pytorch.org

  12. PyTorch - Malamalama i le faʻaaogaina o le manatua CUDA i le PyTorch - docs.pytorch.org

  13. PyTorch - torch.compile aʻoaʻoga / aotelega - docs.pytorch.org

  14. ONNX Runtime - Pepa Fa'amaumau o le ONNX Runtime - onnxruntime.ai

  15. NVIDIA - Pepa Fa'amaumau o le TensorRT - docs.nvidia.com

  16. NVIDIA - Ituaiga fa'atusatusa o le TensorRT - docs.nvidia.com

  17. NVIDIA - Nsight Systems - developer.nvidia.com

  18. NVIDIA - Triton Inference Server - fa'asologa fa'aonaponei - docs.nvidia.com

  19. DeepSpeed ​​- Fa'amaumauga o le ZeRO Vaega 3 - deepspeed.readthedocs.io

  20. bitsandbytes (bitsandbytes-faavae) - bitsandbytes - github.com

  21. Fusi Foliga - Fa'avavevave: Taiala Fa'aputuga o le Gradient - huggingface.co

  22. O le fusi o foliga - Pepa fa'amaumau o Tokenizers - huggingface.co

  23. Foliga o le fusi - Transformers: Taiala PEFT - huggingface.co

  24. Foliga o le fusi - Transformers: Fa'amatalaga e uiga i le KV cache - huggingface.co

  25. Fugging Face - Transformers: Tokenisers “Vave” (vasega tokenizer) - huggingface.co

  26. arXiv - Fa'amamāina o le Malamalama i totonu o se Neural Network (Hinton et al., 2015) - arxiv.org

  27. arXiv - LoRA: Fetuunaiga Maualalo o Faʻataʻitaʻiga Gagana Tetele - arxiv.org

  28. arXiv - FlashAttention: Vave ma Lelei le Manatua o le Gaioiga Sa'o ma le IO-Awareness - arxiv.org

Saili le AI Fou i le Faleoloa Aloaia o Fesoasoani AI

Faatatau ia tatou

Toe foʻi i le blog