O le a le AI Scalability?

O le a le AI Scalability?

Afai na e va'ai i se fa'ata'ita'iga fa'ata'ita'iga na tu'imomomoina se uta fa'ata'ita'i la'ititi ona fa'a'aisa lea i le taimi e fa'aalia mai ai tagata moni, ua e feiloa'i i le tagata leaga: scaling. AI e matapeʻapeʻa-mo faʻamatalaga, faʻatusatusa, manatua, bandwidth-ma faʻafefe, gauai. O le a la le AI Scalability, moni, ma faʻafefea ona e mauaina e aunoa ma le toe tusia o mea uma i vaiaso uma?

Tala atonu e te mana'o e faitau pe a mae'a lenei:

🔗 O le a le fa'ailoga AI fa'amatala faigofie
A'oa'o pe fa'afefea ona fa'ailoga fa'aituau natia fa'ai'uga AI ma fa'ata'ita'iga taunu'uga.

🔗 Taiala amata: o le a le atamai faafoliga
Aotelega o AI, manatu autu, ituaiga, ma faʻaoga i aso uma.

🔗 O le a le faʻamalamalamaina AI ma pe aisea e taua ai
Saili pe fa'afefea ona fa'amaninoina e AI le fa'atuputeleina o le manino, fa'atuatuaina, ma le fa'atulafonoina o le tausisia.

🔗 O le a le AI vavalo ma le auala e galue ai
Malamalama AI vavalo, faʻaoga masani, faʻamanuiaga, ma tapulaʻa.


O le a le AI Scalability? 📈

AI Scalability o le mafai lea o se faiga AI e faʻatautaia atili faʻamatalaga, talosaga, tagata faʻaoga, ma faʻaoga mataupu aʻo tausia le faʻatinoga, faʻamaoni, ma tau i totonu o tapulaʻa taliaina. E le na'o le tele o sapalai - sili atu le atamai faʻataʻitaʻiga e faʻaitiitia ai le leo, maualuga le gaosiga, ma le lelei e tumau aʻo aʻe le piʻo. Mafaufau i mea tetele, faʻataʻitaʻiga sili ona lelei, ma le mataʻituina e taʻu moni atu ia te oe le mea o loʻo mu.


O le a le mea e lelei AI Scalability ✅

A lelei le AI Scalability, e te mauaina:

  • Fa'atonuga le tumau i lalo o le mamafa po'o le fa'aauau le uta 🙂

  • Fa'ato'a fa'atupuina e fa'atatau i mea fa'aopoopo po'o fa'atusa

  • Fa'atauga lelei e le paluni ile talosaga

  • Tulaga lelei a'o fa'a'ese'ese mea fa'aoga ma fa'atupula'ia voluma

  • Fa'atino filemu fa'afetai ile autoscaling, su'esu'e, ma SLO lelei

I lalo o le pulou e masani ona faʻafefiloi le faʻataʻitaʻiga faʻalava, faʻapipiʻiina, faʻapipiʻiina, faʻavasegaina, tautua malosi, ma faiga faʻavae faʻapitoa e fesoʻotaʻi ma paketi sese [5].


AI Scalability vs performance vs capacity 🧠

  • le fa'atinoga o le saosaoa lea e fa'amae'a ai se talosaga e tasi.

  • le gafatia o le tele o na talosaga e mafai ona e taulimaina i le taimi e tasi.

  • AI Scalability o le faʻaopoopoina o punaoa poʻo le faʻaogaina o auala atamai e faʻateleina ai le gafatia ma faʻaauau pea le faʻatinoga-e aunoa ma le sasaina o lau pili poʻo lau pager.

Fa'ailoga la'ititi, fa'ai'uga tetele.


Aisea e aoga ai le fua ile AI: ole manatu ole tulafono ole fua 📚

O se fa'amatalaga lautele fa'aoga i le ML fa'aonaponei o le fa'aleleia atili o le gau i ni auala e mafai ona va'aia a'o e fuaina le tele o fa'ata'ita'iga, fa'amaumauga, ma fa'atatau -i totonu o le mafua'aga. O lo'o iai fo'i se paleni fa'atatau-sili ona lelei i le va o le lapo'a fa'ata'ita'iga ma fa'ailoga a'oa'oga; fua fa'atasi fa'atasi e pa'u fa'atasi na'o le tasi. I le faʻataʻitaʻiga, o nei manatu e faʻaalia ai paketi aʻoaʻoga, faʻatulagaina o faʻamaumauga, ma le tautuaina o fefaʻatauaʻiga [4].

Fa'aliliuga vave: sili atu e mafai ona sili atu, ae na'o le taimi e te fuaina ai mea e fai ma fa'atatau i le fa'atatau-a le o lea e pei o le tu'u o pa'u palau i luga o le uila. E foliga malosi, e leai se mea e alu i ai.


Fa'asaga i luga o le sa'o: o le fa'asili e lua 🔩

  • Fua fa'atutusa : pusa tetele, GPU sili atu, sili atu le manatua. Faigofie, o nisi taimi e taugata. Lelei mo aʻoaʻoga tasi-node, faʻailoga maualalo, pe a musu lau faʻataʻitaʻiga e faʻafefe lelei.

  • Fua fa'asaga i luga : tele fa'atusa. E sili ona aoga i autoscalers e faʻaopoopo pe aveese pods faʻavae ile PPU/GPU poʻo fua faʻaoga masani. I Kubernetes, HorizontalPodAutoscaler fua pods e tali atu ai i manaʻoga-o lau faʻatonuga faʻapitoa mo le faʻafefe o feoaiga [1].

Fa'amatalaga (tuufa'atasi): I le taimi o le fa'alauiloa maualuga, na'o le fa'ataga o le tu'ufa'atasiga o le 'au'aumau ma tu'u le tagata fa'atautaavale e tali atu i le loloto o le laina fa'amautu le p95 e aunoa ma ni suiga o tagata fa'atau. Manumalo le mafaatusalia o manumalo pea.


Ole fa'aputuga atoa ole AI Scalability 🥞

  1. Fa'amaumauga o fa'amaumauga : faleoloa mea fa'anatinati, fa'asinomaga ve'a, ma fa'amama fa'a'ai e le fa'alavelaveina ai au faiaoga.

  2. Laega fa'aa'oa'oga : fa'asoa fa'ava'a ma fa'asologa e fa'atautaia fa'amaumauga/fa'ata'ita'iga tutusa, siaki, toe taumafai.

  3. Laega tautua : ta'aloga sili ona lelei, fa'aputuga malosi , fa'alogo itulau mo LLMs, fa'aoga, fa'afefe fa'ailoga. Triton ma vLLM o ni toa masani iinei [2][3].

  4. Tu'ufa'atasiga : Kubernetes mo le elasticity e ala i le HPA po'o le autoscalers masani [1].

  5. Mata'ituina : fa'ailoga, fua, ma ogalaau e mulimuli i malaga a tagata fa'aoga ma fa'ata'ita'iga amio ile prod; ia fa'ata'amilo i au SLO [5].

  6. Pulea & tau : tau-tataloga tau tamaoaiga, paketi, ma kill-switch mo galuega sosola.


Fa'atusatusaga laulau: meafaigaluega & mamanu mo AI Scalability 🧰

E fai si le tutusa i le faamoemoega-ona o le olaga moni e.

Meafaigaluega / Mamanu Tagata fa'alogo Tau-ish Aisea e aoga ai Fa'amatalaga
Kubernetes + HPA 'au fa'avae Open source + infra Fua fa'alava fa'alava a'o fa'atupu fua O fua fa'atatau o le auro [1]
NVIDIA Triton Fa'ailoga SRE Free server; GPU $ fa'aputuga fa'aola Fa'atonu e ala ile config.pbtxt [2]
vLLM (PagedAttention) LLM 'au Punavai tatala Maualalo maualuga e ala ile KV-cache paging lelei Lelei mo fa'aoso umi [3]
ONNX Taimi Taimi / TensorRT Perf nerds Mea faigaluega fua/fa'atau O fa'ata'ita'iga maualuga o le Kernel e fa'aitiitia ai le leo O auala e auina atu i fafo e mafai ona faʻafefe
RAG mamanu Vaega o talosaga Infra + index Aveesea le malamalama i le toe maua mai; fua le faasino igoa Lelei mo le fou

Maulu loloto 1: Tu'u atu togafiti e fa'aoso ai le nila 🚀

  • Fa'atosina fa'aputuga vaega laiti fa'ailoga e vala'au atu i vaega tetele i luga o le 'au'aunaga, fa'ateleina le fa'aogaina o le GPU e aunoa ma suiga o tagata o tausia [2].

  • O le gauai atu i itulau e teu ai le tele o talanoaga i le mafaufau e ala i le paging KV caches, lea e faʻaleleia ai le gaosiga i lalo o le concurrency [3].

  • Talosaga e tu'ufa'atasia ma fa'alumaina mo fa'atonuga tutusa po'o fa'apipi'i 'alo'ese galuega fa'alua.

  • Fa'ailoga fa'apitoa ma fa'asolo fa'ailoga e fa'aitiitia ai le fa'aletonu, e tusa lava pe tau le oso a'e le uati puipui.


Maulu loloto 2: Fa'ata'ita'iga-tulaga lelei - fa'atusatusa, fa'amama, teuteu 🧪

  • O le fa'atusatusaga e fa'aitiitia ai le sa'o o le fa'ata'otoga (fa'ata'ita'iga, 8-bit/4-bit) e fa'aitiitia ai le manatua ma fa'avave le fa'ai'uga; toe iloilo i taimi uma le lelei o galuega pe a uma suiga.

  • O le fa'amama e fa'aliliuina le malamalama mai se faia'oga tele i se tamaititi la'ititi e fiafia i ai au meafaigaluega.

  • Teuga fa'atulagaina e tipi mamafa/ulu e itiiti sona sao.

Tatou fa'amaoni, e pei lava o le fa'aitiitiga o lau atopa'u ona fa'amalosi lea e fetaui uma ou seevae. I se isi itu, e masani lava.


Maulu loloto 3: Fa'amaumauga ma fa'aa'oa'oga e aunoa ma loimata 🧵

  • Fa'aoga a'oa'oga fa'asoa e natia ai vaega fa'a'au'au o fa'ata'ita'iga ina ia mafai ai ona e va'aia fa'ata'ita'iga vave.

  • Manatua tulafono fa'afuainumera : fa'asoa le paketi i le lapo'a fa'atusa ma fa'ailoga ma le mafaufau lelei; ole fa'afuaina fa'atasi uma e fa'atatau ile fa'atatauina [4].

  • O matā'upu a'oa'oina ma fa'amaumauga lelei e masani ona fa'asolo i'uga e sili atu nai lo le ta'utinoga a tagata. E sili atu fa'amaumauga i nisi taimi e sili atu fa'amaumauga-tusa lava pe ua uma ona e fa'atonuina le fuifui tele.


Maulu loloto 4: RAG ose fuafuaga fa'afua mo le poto 🧭

Nai lo le toe a'oa'oina o se fa'ata'ita'iga e fa'atatau i suiga o mea moni, le RAG se la'asaga toe fa'afo'i mai i le fa'ai'uga. E mafai ona e fa'atumauina le fa'ata'ita'iga ma fa'asolo le fa'ailoga ma toe fa'afo'i a'o tuputupu a'e lou tino. Matagofie-ma e masani ona taugofie nai lo le toe a'oa'oina atoa mo polokalame mamafa-malamalama.


Mata'ituina e totogi mo ia lava 🕵️♀️

E le mafai ona e fuaina mea e le mafai ona e va'aia. E lua mea taua:

  • Fuafuaga mo le fuafuaina o le gafatia ma le autoscaling: latency percentiles, queue depth, GPU memory, batch size, token throughput, cache hit rates.

  • Fa'ailoga o lo'o mulimulita'i i se talosaga e tasi ile faitoto'a → toe maua → fa'ata'ita'iga → fa'ato'a fa'agasolo. Nonoa mea e te fuaina i au SLO ina ia tali fesili i lalo ole minute [5].

Pe a tali e lau laupapa fesili i lalo ole minute, e fa'aaogaina e tagata. A latou le faia, ia, latou te faafoliga latou te faia.


Pa puipui fa'atuatuaina: SLOs, tala fa'atatau o tupe, fa'asolo lelei 🧯

  • Fa'amatala SLO mo le taofiofia, avanoa, ma le lelei o taunuuga, ma fa'aaoga tala o tupe sese e faapaleni ai le fa'atuatuaina ma le saoasaoa fa'asao [5].

  • Fa'asoa i tua o vaeluaga o feoaiga, fai canaries, ma fa'ata'ita'i fa'ata'ita'iga a'o le'i fa'ate'aina le lalolagi. O lou lumana'i o le a lafo ni mea'ai.


Puleaina tau e aunoa ma se tala faatino 💸

O le fuaina e le na'o mea fa'apitoa; o mea tau tupe. Fa'atino itula ma fa'ailoga o le GPU e pei o alagaoa a le vasega muamua fa'atasi ai ma le tamaoaiga o le iunite (tau i le 1k fa'ailoga, i le fa'apipi'iina, mo le su'esu'ega vector). Faaopoopo paketi ma mataala; faamanatu le tapeina o mea.


Se fa'afanua faigofie ile AI Scalability 🗺️

  1. Amata ile SLO mo le p95 latency, avanoa, ma le sa'o o galuega; fuaina uaea/tulaga i le aso muamua [5].

  2. Filifili se fa'aputuga tautua e lagolagoina le fa'aputuga ma fa'aauau le fa'aputuga: Triton, vLLM, po'o mea tutusa [2][3].

  3. Fa'ata'ita'i le fa'ata'ita'iga : fa'atatau le mea e fesoasoani ai, fa'agaoioi fatu vave, po'o le fa'amama mo galuega fa'apitoa; fa'amaonia uiga lelei ma evals moni.

  4. Fa'ata'ita'i mo le fa'alelei : Kubernetes HPA fa'atasi ai ma fa'ailoga sa'o, ala faitau/tusi eseese, ma fa'atusa e leai ni fa'ailoga [1].

  5. Fa'aaoga le toe maua mai pe a taua le fou ina ia e fuaina lau fa'ailoga nai lo le toe a'oa'oina i vaiaso uma.

  6. Tapuni le matasele ma le tau : fa'atuina le tamaoaiga o iunite ma iloiloga fa'alevaiaso.


Faiga fa'aletonu masani & vave fa'aleleia 🧨

  • GPU i le 30% faʻaaogaina aʻo le tumau e leaga

    • Ki'i dynamic batching , si'i ma le faaeteete pulou fa'aputu, ma toe siaki le server concurrency [2].

  • Fa'ato'a fa'asolosolo fa'atasi ma fa'ai'uga uumi

    • Fa'aaoga le tautua e lagolago ai le gauai atu i itulau ma fa'alogo fa'asologa fa'atasi [3].

  • Fa'a'au'au ta'avale

    • Faʻataʻitaʻiga lamolemole ma faʻamalama; fua ile loloto ole laina po'o fa'ailoga masani-i-sekona nai lo le PPU mama [1].

  • E pa le tau pe a uma ona fa'alauiloa

    • Fa'aopoopo itū tau fa'atonuga, fa'ataga le fa'avasegaina i mea e saogalemu, fa'amauina fesili pito i luga, ma fa'atapula'a tau solitulafono sili ona leaga.


AI Scalability playbook: lisi siaki vave ✅

  • O lo'o iai SLO ma tala fa'atatau o tupe ma o lo'o va'aia

  • Metrics: latency, tps, GPU mem, batch size, token/s, cache hit

  • Fa'ailoga mai le ulufale i le fa'ata'ita'iga i le post-proc

  • Auauna: fa'apipi'i, fa'alogo fa'atasi, fa'amama mafanafana

  • Fa'ata'ita'iga: fa'atusatusa pe fa'amama i mea e fesoasoani ai

  • Infra: HPA fa'atulagaina ma fa'ailoga sa'o

  • Auala toe maua mai mo le malamalama fou

  • E iloilo soo le tamaoaiga o iunite


Ua Umi e le'i Faitauina ma Fa'amatalaga Mulimuli 🧩

AI Scalability e le o se mea e tasi poʻo se kili faalilolilo. Ose gagana fa'ata'ita'i: fa'alava fa'alava ma autoscalers, fa'a'au'au itu tu'ufa'atasiga mo le fa'aogaina, fa'ata'ita'iga fa'alelei lelei, toe fa'afo'i mai e ave'esea ai le malamalama, ma le mata'ituina e fa'afiafia ai ta'avale. Sausau i SLOs ma tau tumama ina ia fa'aoga tutusa tagata uma. E te le maua atoatoa i le taimi muamua-e leai se tasi na te faia-ae o le sa'o o fa'amatalaga fa'aalia, o le a tupu lau tino e aunoa ma lena lagona malulu-afu i le 2 i le taeao 😅


Fa'asinomaga

[1] Kubernetes Docs - Fa'asa'o Fa'asagaga Pod - faitau atili
[2] NVIDIA Triton - Dynamic Batcher - faitau atili
[3] vLLM Docs - Fa'alogo i itulau - faitau atili
[4] Hoffmann et al. (2022) - Fa'aa'oa'oga Fa'atatau-Fa'ata'ita'iga Gagana Tele - faitau atili
[5] Google SRE Workbook - Fa'atinoina o SLO - faitau atili

Su'e le AI Fou i le Faleoloa Fesoasoani Lagolago AI

Faatatau ia tatou

Toe fo'i ile blog