O le a le AI Scalability?

O le a le AI Scalability?

Afai na e va'ai i se fa'ata'ita'iga fa'ata'ita'iga na tu'imomomoina se uta fa'ata'ita'i la'ititi ona fa'a'aisa lea i le taimi e fa'aalia mai ai tagata moni, ua e feiloa'i i le tagata leaga: scaling. AI e matapeʻapeʻa-mo faʻamatalaga, faʻatusatusa, manatua, bandwidth-ma faʻafefe, gauai. O le a la le AI Scalability, moni, ma faʻafefea ona e mauaina e aunoa ma le toe tusia o mea uma i vaiaso uma?

O tala e te ono fia faitauina pe a uma lenei:

🔗 O le ā le fa'amatalaga faigofie o le AI bias
A'oa'o pe fa'afefea ona fa'ailoga fa'aituau natia fa'ai'uga AI ma fa'ata'ita'iga taunu'uga.

🔗 Taiala amata: o le a le atamai faafoliga
Aotelega o AI, manatu autu, ituaiga, ma faʻaoga i aso uma.

🔗 O le a le faʻamalamalamaina AI ma pe aisea e taua ai
Saili pe fa'afefea ona fa'amaninoina e AI le fa'atuputeleina o le manino, fa'atuatuaina, ma le fa'atulafonoina o le tausisia.

🔗 O le a le AI vavalo ma le auala e galue ai
Malamalama AI vavalo, faʻaoga masani, faʻamanuiaga, ma tapulaʻa.


O le a le AI Scalability? 📈

le AI Scalability o le gafatia lea o se faiga fa'a-AI e taulimaina ai le tele o fa'amaumauga, talosaga, tagata fa'aoga, ma mataupu fa'aoga a'o fa'atumauina pea le fa'atinoga, fa'atuatuaina, ma tau i totonu o tapula'a taliaina. E le gata i 'au'aunaga tetele - o fausaga atamai e fa'aitiitia ai le latency, maualuga le throughput, ma tutusa le lelei a'o fa'atupula'ia le pi'oga. Mafaufau i atina'e fa'alelei, fa'ata'ita'iga fa'aleleia, ma le mafai ona matauina e ta'u atu ia te oe le mea o lo'o mu.

 

Fa'alauteleina o le AI

O le a le mea e lelei AI Scalability ✅

A lelei le AI Scalability, e te mauaina:

  • Fa'atuai e mafai ona vavaloina i lalo o avega ma'ai pe fa'aauau pea 🙂

  • Fa'ato'a fa'atupuina e fa'atatau i mea fa'aopoopo po'o fa'atusa

  • Fa'aleleia o tau e le fa'ateleina i talosaga ta'itasi

  • Tulaga lelei a'o fa'a'ese'ese mea fa'aoga ma fa'atupula'ia voluma

  • Fa'atino filemu fa'afetai ile autoscaling, su'esu'e, ma SLO lelei

I lalo o le pulou e masani ona faʻafefiloi le faʻataʻitaʻiga faʻalava, faʻapipiʻiina, faʻapipiʻiina, faʻavasegaina, tautua malosi, ma faiga faʻavae faʻapitoa e fesoʻotaʻi ma paketi sese [5].


AI Scalability vs performance vs capacity 🧠

  • le fa'atinoga o le saosaoa lea e fa'amae'a ai se talosaga e tasi.

  • le gafatia o le tele o na talosaga e mafai ona e taulimaina i le taimi e tasi.

  • AI Scalability o le faʻaopoopoina o punaoa poʻo le faʻaogaina o auala atamai e faʻateleina ai le gafatia ma faʻaauau pea le faʻatinoga-e aunoa ma le sasaina o lau pili poʻo lau pager.

Fa'ailoga la'ititi, fa'ai'uga tetele.


Aisea e aoga ai le fua ile AI: ole manatu ole tulafono ole fua 📚

O se malamalamaaga lautele e faʻaaogaina i le ML faʻaonaponei o le faʻaleleia atili o le leiloa i ni auala e mafai ona vavaloina aʻo e faʻateleina le tele o le faʻataʻitaʻiga, faʻamaumauga, ma le faʻatusatusaga- i totonu o le mafuaʻaga talafeagai. E iai foʻi se paleni lelei mo le faʻatusatusaga i le va o le tele o le faʻataʻitaʻiga ma faʻailoga aʻoaʻoga; o le faʻateleina faʻatasi o ia mea uma e sili atu nai lo le faʻateleina o le tasi. I le faʻatinoina, o nei manatu e faʻamatalaina ai paketi aʻoaʻoga, fuafuaga o faʻamaumauga, ma le tautua o fefaʻatauaʻiga [4].

Fa'aliliuga vave: sili atu e mafai ona sili atu, ae na'o le taimi e te fuaina ai mea e fai ma fa'atatau i le fa'atatau-a le o lea e pei o le tu'u o pa'u palau i luga o le uila. E foliga malosi, e leai se mea e alu i ai.


Fa'asaga i luga o le sa'o: o le fa'asili e lua 🔩

  • Fua fa'atutusa: pusa tetele, GPU sili atu, sili atu le manatua. Faigofie, o nisi taimi e taugata. Lelei mo aʻoaʻoga tasi-node, faʻailoga maualalo, pe a musu lau faʻataʻitaʻiga e faʻafefe lelei.

  • Fua fa'asaga i luga: tele fa'atusa. E sili ona aoga i autoscalers e faʻaopoopo pe aveese pods faʻavae ile PPU/GPU poʻo fua faʻaoga masani. I Kubernetes, HorizontalPodAutoscaler fua pods e tali atu ai i manaʻoga-o lau faʻatonuga faʻapitoa mo le faʻafefe o feoaiga [1].

Fa'amatalaga (tuufa'atasi): I le taimi o le fa'alauiloa maualuga, na'o le fa'ataga o le tu'ufa'atasiga o le 'au'aumau ma tu'u le tagata fa'atautaavale e tali atu i le loloto o le laina fa'amautu le p95 e aunoa ma ni suiga o tagata fa'atau. Manumalo le mafaatusalia o manumalo pea.


Ole fa'aputuga atoa ole AI Scalability 🥞

  1. Vaega o faʻamaumauga: teuina vave o mea faitino, faʻasinomaga vector, ma le faʻaaogaina o le streaming e le faʻalavelaveina ai au seevae taʻalo.

  2. Laega fa'aa'oa'oga: fa'asoa fa'ava'a ma fa'asologa e fa'atautaia fa'amaumauga/fa'ata'ita'iga tutusa, siaki, toe taumafai.

  3. Laega tautua: ta'aloga sili ona lelei, fa'aputuga malosi, fa'alogo itulau mo LLMs, fa'aoga, fa'afefe fa'ailoga. Triton ma vLLM o ni toa masani iinei [2][3].

  4. Tu'ufa'atasiga: Kubernetes mo le elasticity e ala i le HPA po'o le autoscalers masani [1].

  5. Mata'ituina: fa'ailoga, fua, ma ogalaau e mulimuli i malaga a tagata fa'aoga ma fa'ata'ita'iga amio ile prod; ia fa'ata'amilo i au SLO [5].

  6. Pulega ma tau: tamaoaiga e tusa ai ma le talosaga, paketi, ma kill-switches mo galuega e le mafai ona fa'atinoina.


Fa'atusatusaga laulau: meafaigaluega & mamanu mo AI Scalability 🧰

E fai si le tutusa i le faamoemoega-ona o le olaga moni e.

Meafaigaluega / Mamanu Le aofia Tau fa'atatau Aiseā e aoga ai Fa'amatalaga
Kubernetes + HPA 'Au fa'avae Open source + infra Fua fa'alava fa'alava a'o fa'atupu fua O fua fa'atatau o le auro [1]
NVIDIA Triton Fa'ailoga SRE Free server; GPU $ fa'aputuga fa'aola Fa'atonu e ala ile config.pbtxt [2]
vLLM (PagedAttention) LLM 'au Punaoa tatala Maualalo maualuga e ala ile KV-cache paging lelei Lelei mo fa'aoso umi [3]
ONNX Taimi Taimi / TensorRT Perf nerds Mea faigaluega fua/fa'atau O fa'ata'ita'iga maualuga o le Kernel e fa'aitiitia ai le leo O auala e auina atu i fafo e mafai ona faʻafefe
RAG mamanu Vaega o talosaga Infra + index Aveesea le malamalama i le toe maua mai; fua le faasino igoa Lelei mo le fou

Maulu loloto 1: Tu'u atu togafiti e fa'aoso ai le nila 🚀

  • Fa'atosina fa'aputuga vaega laiti fa'ailoga e vala'au atu i vaega tetele i luga o le 'au'aunaga, fa'ateleina le fa'aogaina o le GPU e aunoa ma suiga o tagata o tausia [2].

  • O le gauai atu i itulau e teu ai le tele o talanoaga i le mafaufau e ala i le paging KV caches, lea e faʻaleleia ai le gaosiga i lalo o le concurrency [3].

  • Talosaga mo le tu'ufa'atasia ma le teuina o fa'amatalaga (cache) mo ni fa'atonuga po'o ni fa'apipi'iga tutusa e 'alo 'ese ai mai le faia fa'alua o galuega.

  • Fa'ailoga fa'apitoa ma fa'asolo fa'ailoga e fa'aitiitia ai le fa'aletonu, e tusa lava pe tau le oso a'e le uati puipui.


Maulu loloto 2: Fa'ata'ita'iga-tulaga lelei - fa'atusatusa, fa'amama, teuteu 🧪

  • O le fa'atusatusaga e fa'aitiitia ai le sa'o o le fa'ata'otoga (fa'ata'ita'iga, 8-bit/4-bit) e fa'aitiitia ai le manatua ma fa'avave le fa'ai'uga; toe iloilo i taimi uma le lelei o galuega pe a uma suiga.

  • O le fa'amama e fa'aliliuina le malamalama mai se faia'oga tele i se tamaititi la'ititi e fiafia i ai au meafaigaluega.

  • Teuga fa'atulagaina e tipi mamafa/ulu e itiiti sona sao.

Tatou fa'amaoni, e pei lava o le fa'aitiitiga o lau atopa'u ona fa'amalosi lea e fetaui uma ou seevae. I se isi itu, e masani lava.


Maulu loloto 3: Fa'amaumauga ma fa'aa'oa'oga e aunoa ma loimata 🧵

  • Fa'aoga a'oa'oga fa'asoa e natia ai vaega fa'a'au'au o fa'ata'ita'iga ina ia mafai ai ona e va'aia fa'ata'ita'iga vave.

  • Manatua tulafono fa'afuainumera: fa'asoa le paketi i le lapo'a fa'atusa ma fa'ailoga ma le mafaufau lelei; ole fa'afuaina fa'atasi uma e fa'atatau ile fa'atatauina [4].

  • le tulaga lelei o mataupu aoaoina ma faʻamaumauga iʻuga nai lo le mea e taʻutino mai e tagata. O nisi taimi e sili atu faʻamaumauga nai lo le tele o faʻamaumauga - e tusa lava pe ua uma ona e faʻatonuina le vaega tele.


Maulu loloto 4: RAG ose fuafuaga fa'afua mo le poto 🧭

Nai lo le toe a'oa'oina o se fa'ata'ita'iga e fa'atatau i suiga o mea moni, le RAG se la'asaga toe fa'afo'i mai i le fa'ai'uga. E mafai ona e fa'atumauina le fa'ata'ita'iga ma fa'asolo le fa'ailoga ma toe fa'afo'i a'o tuputupu a'e lou tino. Matagofie-ma e masani ona taugofie nai lo le toe a'oa'oina atoa mo polokalame mamafa-malamalama.


Mata'ituina e totogi mo ia lava 🕵️♀️

E le mafai ona e fuaina mea e le mafai ona e va'aia. E lua mea taua:

  • Fuafuaga mo le fuafuaina o le gafatia ma le autoscaling: latency percentiles, queue depth, GPU memory, batch size, token throughput, cache hit rates.

  • Fa'ailoga e mulimuli i se talosaga e tasi i le faitoto'a → toe maua mai → fa'ata'ita'iga → fa'agasologa mulimuli. Fa'afeso'ota'i mea e te fuaina i au SLO ina ia taliina e dashboards fesili i lalo ifo o le minute [5].

Pe a tali e lau laupapa fesili i lalo ole minute, e fa'aaogaina e tagata. A latou le faia, ia, latou te faafoliga latou te faia.


Pa puipui fa'atuatuaina: SLOs, tala fa'atatau o tupe, fa'asolo lelei 🧯

  • Fa'amatala SLO mo le taofiofia, avanoa, ma le lelei o taunuuga, ma fa'aaoga tala o tupe sese e faapaleni ai le fa'atuatuaina ma le saoasaoa fa'asao [5].

  • Fa'asoa i tua o vaeluaga o feoaiga, fai canaries, ma fa'ata'ita'i fa'ata'ita'iga a'o le'i fa'ate'aina le lalolagi. O lou lumana'i o le a lafo ni mea'ai.


Puleaina tau e aunoa ma se tala faatino 💸

O le fuaina e le na'o mea fa'apitoa; o mea tau tupe. Fa'atino itula ma fa'ailoga o le GPU e pei o alagaoa a le vasega muamua fa'atasi ai ma le tamaoaiga o le iunite (tau i le 1k fa'ailoga, i le fa'apipi'iina, mo le su'esu'ega vector). Faaopoopo paketi ma mataala; faamanatu le tapeina o mea.


Se fa'afanua faigofie ile AI Scalability 🗺️

  1. Amata ile SLO mo le p95 latency, avanoa, ma le sa'o o galuega; fuaina uaea/tulaga i le aso muamua [5].

  2. Filifili se fa'aputuga tautua e lagolagoina le fa'aputuga ma fa'aauau le fa'aputuga: Triton, vLLM, po'o mea tutusa [2][3].

  3. Fa'ata'ita'i le fa'ata'ita'iga: fa'atatau le mea e fesoasoani ai, fa'agaoioi fatu vave, po'o le fa'amama mo galuega fa'apitoa; fa'amaonia uiga lelei ma evals moni.

  4. Fa'ata'ita'i mo le fa'alelei: Kubernetes HPA fa'atasi ai ma fa'ailoga sa'o, ala faitau/tusi eseese, ma fa'atusa e leai ni fa'ailoga [1].

  5. Fa'aaoga le toe maua mai pe a taua le fou ina ia e fuaina lau fa'ailoga nai lo le toe a'oa'oina i vaiaso uma.

  6. Tapuni le matasele ma le tau: fa'atuina le tamaoaiga o iunite ma iloiloga fa'alevaiaso.


Faiga fa'aletonu masani & vave fa'aleleia 🧨

  • GPU i le 30% faʻaaogaina aʻo le tumau e leaga

    • Ki'i dynamic batching, si'i ma le faaeteete pulou fa'aputu, ma toe siaki le server concurrency [2].

  • Fa'ato'a fa'asolosolo fa'atasi ma fa'ai'uga uumi

    • Fa'aaoga le tautua e lagolago ai le gauai atu i itulau ma fa'alogo fa'asologa fa'atasi [3].

  • Fa'a'au'au ta'avale

    • Faʻataʻitaʻiga lamolemole ma faʻamalama; fua ile loloto ole laina po'o fa'ailoga masani-i-sekona nai lo le PPU mama [1].

  • E pa le tau pe a uma ona fa'alauiloa

    • Fa'aopoopo itū tau fa'atonuga, fa'ataga le fa'avasegaina i mea e saogalemu, fa'amauina fesili pito i luga, ma fa'atapula'a tau solitulafono sili ona leaga.


AI Scalability playbook: lisi siaki vave ✅

  • O lo'o iai SLO ma tala fa'atatau o tupe ma o lo'o va'aia

  • Metrics: latency, tps, GPU mem, batch size, token/s, cache hit

  • Fa'ailoga mai le ulufale i le fa'ata'ita'iga i le post-proc

  • Auauna: fa'apipi'i, fa'alogo fa'atasi, fa'amama mafanafana

  • Fa'ata'ita'iga: fa'atusatusa pe fa'amama i mea e fesoasoani ai

  • Infra: HPA fa'atulagaina ma fa'ailoga sa'o

  • Auala toe maua mai mo le malamalama fou

  • E iloilo soo le tamaoaiga o iunite


Ua Umi e le'i Faitauina ma Fa'amatalaga Mulimuli 🧩

O le Fa'alauteleina o le AI e lē o se vaega e tasi pe o se suiga faalilolilo. O se gagana mamanu: fa'alauteleina fa'alava ma fa'asolosolo otometi, fa'aputuga i le itu o le 'au'aunaga mo le fa'aaogaina, lelei o le tulaga o le fa'ata'ita'iga, toe maua mai e fa'aitiitia ai le malamalama, ma le mafai ona matauina e fa'afiafiaina ai le fa'alauiloaina. Fa'aopoopo i ai SLOs ma le tumama o tau e fa'atulaga ai tagata uma ia ogatasi. E te lē maua atoatoa i le taimi muamua—e leai se tasi e faia—ae fa'atasi ai ma le fa'asologa sa'o o manatu fa'afo'i, o le a tuputupu a'e lau faiga e aunoa ma le lagona malulu o le afu i le 2 i le vaveao 😅


Fa'asinomaga

[1] Kubernetes Docs - Fa'asa'o Fa'asagaga Pod - faitau atili
[2] NVIDIA Triton - Dynamic Batcher - faitau atili
[3] vLLM Docs - Fa'alogo i itulau - faitau atili
[4] Hoffmann et al. (2022) - Fa'aa'oa'oga Fa'atatau-Fa'ata'ita'iga Gagana Tele - faitau atili
[5] Google SRE Workbook - Fa'atinoina o SLO - faitau atili

Saili le AI Fou i le Faleoloa Aloaia o Fesoasoani AI

Faatatau ia tatou

Toe foʻi i le blog