Sovereign Edge / Client-Owned Compute
Kazakh-first 72B multilingual 3-month rollout
SOILEGPT.CHAT
Request Accessmail

Қазақстанға арналған
жергілікті LLM-инференс.

Орталық суперкомпьютерді желі арқылы “бәріне ортақ” ету — есептеу ресурсынан бөлек, кезек, пик, жоспарлау, желі және периметр тәуекелдерін қоса әкеледі. SOILEGPT.CHAT тәсілі: бір клиент — бір edge. Бұл модельде “көршінің шуылы” жоқ, қуат алдын ала белгілі, ал дерек клиент периметрінде қалады.

~3,170 edge (1×RTX A6000) ≈ 1 central cluster (496×H200)
$15,000 / edge • ₸7,800,000 @ 520 ₸/$
k ≥ 6.39 болса, edge ≥ center per-client compute (proxy)
Operational reality

Негізгі айырмашылық

Center → cableSOILEGPT.CHAT (edge)
Клиенттер бір GPU-пулды бөліседі → кезек пен пик “жұғады”. Ресурс бөлінбейді → әр клиенттің қуаты тұрақты.
SLA = compute + network + scheduler. SLA = local compute (network тек әкімшілікке).
Периметр: VPN/MPLS, IAM, аудит, шифрлау, шлюздер. Клиент периметрі “табиғи”: дерек шықпайды, басқару жеңіл.
Interactive

Sharing calculator

k = бір H200-ға бір мезетте қанша клиент отырғызылған (орталықтағы нақты oversubscription). Бұл “клиентке шаққандағы” үлесті анықтайды.

Deployment-ready / Live-mode logic

SOILEGPT.CHAT Ecosystem

Digitalqazaqstan стиліндегі “телеметрия” логикасы: әр модуль — операциялық өлшенетін бірлік. Мұнда сан емес, принцип маңызды: edge-та кезек пен пик оқшауланады.

SOILE.Edge

On‑prem inference node (one client — one compute).

READY Isolation: hard
Status
Deployable
Queue
0 (no shared)
Edge Mode
Local‑first
Data
Client perimeter

SOILE.Kaz72B

Kazakh‑first multilingual 72B‑class LLM interface.

72B Multilingual
Languages
kk / ru / en
Mode
On‑prem inference
Context
Policy‑bounded
Governance
Local controls

SOILE.Guard

PII gate + policy enforcement in the client domain.

SECURE Zero‑trust
PII Gate
Active
Audit
Local logs
Access
Org IAM
Risk
Reduced WAN
Architecture

What must exist to deliver “over the cable”

Орталық есептеу — тек бір қабат. Клиентке нақты сервисті жеткізу үшін төмендегі жүйелер міндетті түрде қосылады. Edge-та олардың көп бөлігі қажет емес немесе клиенттің өз инфрақұрылымына “сіңіп” кетеді.

Access Perimeter

VPN/MPLS, gateways, encryption, IAM, session control.

Dependency
Network
Latency
WAN‑bound
Cost
Recurring
Risk
Outages

Multi‑Tenant Scheduler

Quota, batching, fairness, admission control, noisy‑neighbor mitigation.

Queueing
Inevitable
Peaks
Coupled
SLO
Tail‑driven
Ops
24/7

Governance & Compliance

Data flows, retention, logs, policy, change management.

Audit
Central
Controls
Shared
Scope
Multi‑org
Lead time
Long
Дипломатиялық қорытынды: орталық суперкомпьютер — әсерлі ресурс. Бірақ “кабель арқылы” өнімге айналдыру желі мен мультиарендалы операциялық қабатқа тәуелді. Біз edge арқылы тәуекелді құрылымдық түрде азайтамыз.
System proof

Mathematical backbone

One number

3,170 edge ≈ 1 central cluster

Қолданылған прокси: FP16 Tensor peak. Бұл толық сервингтің бәрін қамтымайды, бірақ архитектуралық масштабты дәл береді (бір кластың GPU-на шаққандағы order‑of‑magnitude).

Given (public peak specs): H200_FP16 = 1,979 TFLOPS A6000_Tensor = 309.7 TFLOPS GPU_count = 496 Per-GPU ratio: r = H200_FP16 / A6000_Tensor = 1,979 / 309.7 = 6.39 Cluster equivalence: E = GPU_count × r = 496 × 6.39 = 3,170 (rounded)
Why queues explode

Peaks → tail latency

Бір GPU-пулға көптеген клиенттің сұраныстары “қабаттасқанда” — кезек пайда болады. Кезек теориясында ρ→1 болғанда, күту уақыты тез өседі. Edge-та бұл жұқтыру жоқ (оқшаулану).

Queueing intuition (M/M/1 baseline): λ = arrival rate, μ = service rate, ρ = λ/μ Mean time in system: W = 1 / (μ − λ) As λ → μ, W → ∞ (explodes) Shared pools push ρ upward during peaks.
Kazakh language priority

72B multilingual: what it means

72B = 72 миллиард параметр. Параметрлер — модельдің салмақтары: тілдік заңдылықтар, семантика және көптілді сәйкестік солар арқылы сақталады. 72B‑класта қазақша‑орысша аралас диалогта мағына жоғалтпай, күрделі тапсырмаларда тұрақтырақ жауап беру оңайырақ.

Неге бұл “супер” сезіледіҚолданушыға әсері
Көбірек параметрМағыналық дәлдік, ұзын нұсқаулықты орындау, контекстті ұстап тұру.
Көптілді ортаkk/ru/en аралас мәтінде “код ауыстыру” тұрақтылығы.
Edge оқшаулауыСапа тек модельмен емес, латенттіліктің тұрақтылығымен де өлшенеді: кезек жоқ.
Жергілікті бақылауСаясат, PII, журналдар — клиентте. “Сыртқы” тәуекел азаяды.
Economics

Cost predictability

Берілген шарт: $15,000 бір edge. Бағам: 520 ₸ = $1.

Per‑edge: USD = 15,000 KZT = 15,000 × 520 = 7,800,000
Edge құны “бірлік” ретінде тұрақты: 1 клиент = 1 edge. Жоспарлау оңай: N клиент = N edge.

Орталық модельде тек GPU емес: периметр, желілік жеткізу, планировщик, NOC және жүктеме шыңдары үшін артық қуат қажет болады (қызмет көрсету деңгейін ұстап тұру үшін).

WorkstreamНеге қымбат/ұзақ
ConnectivityКанал, резерв, QoS, шифрлау, шлюздер.
SchedulingКезек пен пикті басқару; admission control; fairness.
OperationsИнцидент, мониторинг, аудит, өзгеріс менеджменті.
OnboardingКлиент интеграциясы, тест, қауіпсіздік рәсімдері.
Timeline

3 months and production

WeekOutcome
1–2Edge стандарт: образ, саясат, мониторинг минимум, “бір клиент — бір edge”.
3–6Пилот: 3–10 клиент. Орнату регламенті, жаңарту, кері қайту (rollback).
7–10Масштабтау: логистика, сервистік қолдау, тұрақты релиз.
11–12Қабылдау: құжат, білім базасы, партиялық жеткізу.
Орталық модельде осы параллельге қосымша “кабельдік” қабат бар: желі периметрі, мультиарендалы жоспарлау, жүктеме шыңдарына capacity engineering. Бұл көбіне 12 аптадан ұзаққа созылады.
Proof Pack — formulas, assumptions, conclusions

1) Definitions

Бұл дәлел “клиентке шаққандағы” қамтамасыз етуді формальды түрде салыстырады. Мақсат — орталық (shared) пен edge (dedicated) архитектураларының құрылымдық айырмасын көрсету.

Let: H200 = NVIDIA H200 SXM (FP16 Tensor peak proxy) A6000 = NVIDIA RTX A6000 (Tensor peak proxy) N = number of H200 in the cluster = 496 H = H200_FP16 = 1,979 TFLOPS A = A6000_Tensor = 309.7 TFLOPS KZT/USD = 520

2) Cluster equivalence

Бір GPU класының жуық теңестіруі (order‑of‑magnitude proxy):

Per‑GPU ratio: r = H / A = 1,979 / 309.7 = 6.39 (H200 ≈ 6.39 × A6000) Cluster equivalence: E = N × r = 496 × 6.39 = 3,170 (rounded)

3) Sharing threshold (per‑client compute)

Орталықта бір H200-ға бір мезетте k клиент отырса, клиентке шаққандағы үлес: q_center = 1/k (H200‑equivalent). Edge-та 1 клиентке 1 A6000 → q_edge = A/H.

q_edge = A/H = 309.7 / 1,979 = 0.1565 (H200‑equivalent per client) q_center = 1/k Edge ≥ Center (per‑client compute proxy): 0.1565 ≥ 1/k ⇒ k ≥ 6.39

4) Why queues explode under peaks

Орталық мультиарендалы пулда сұраныстар қосылады. Кезек теориясының ең қарапайым базалық моделі (M/M/1) tail‑latency проблемасын интуитивті көрсетеді:

λ = request arrival rate μ = service rate ρ = λ/μ Mean time in system: W = 1 / (μ − λ) As λ → μ (ρ → 1), W → ∞.

5) Network as part of SLA (central delivery)

6) Operational workstreams (center must add)

7) Edge cost math (given constraints)

Per edge: USD = 15,000 KZT = 15,000 × 520 = 7,800,000 If central sharing implies total concurrent clients C, then one-edge-per-client requires C edges, budget = C × 15,000 USD.

References (public specs used in the proxy)

Бұл дәлелдің мақсаты — нақты tokens/s уәде беру емес, архитектуралық “құрылымдық артықшылықты” математикалық тілмен бекіту: орталықта per‑client үлес бөлінеді және кезек пигтерде өседі; edge-та үлес тұрақты, кезек жұқпайды.
3,170 equivalence — derivation

Прокси: FP16 Tensor peak арқылы бір кластың GPU-ларын салыстыру.

H200_FP16 = 1,979 TFLOPS A6000_Tensor = 309.7 TFLOPS r = 1,979 / 309.7 = 6.39 Cluster: N = 496 H200 E = N × r = 496 × 6.39 = 3,170 A6000 (rounded)

Ескерту: нақты LLM сервингте memory bandwidth, KV cache, batching және software stack әсер етеді. Бірақ бір класстағы GPU арақатынасы (H200 vs A6000) бұл проксиде де “дәрежені” дұрыс береді.

Sharing threshold — when edge ≥ center

Орталықта бір H200-ға k клиент бір мезетте отырса, клиент үлесі 1/k болады.

q_edge = A/H = 309.7 / 1,979 = 0.1565 (H200-equivalent per client) q_center = 1/k Edge ≥ Center ⇔ 0.1565 ≥ 1/k ⇔ k ≥ 6.39
Queues & peaks — why shared pools degrade

Орталықта сұраныстар суперпозицияланады: көптеген клиенттің келуі бір пулға түседі. Пиктер бір уақытта келсе, utilization өседі.

M/M/1 baseline: W = 1 / (μ − λ) Tail latency grows rapidly as λ approaches μ. Shared pools increase λ under synchronized peaks.
Cost model — edge vs cable delivery

Edge (given)

Per edge: USD = 15,000 KZT = 15,000 × 520 = 7,800,000

Scaling

Edge-та масштабтау сызықтық: N клиент = N edge. Бюджет = N × 15,000 USD.

Center delivery (what adds cost)

Edge капексі көрінетін және бірлікке байланған; орталықта “кабельдік” қабаттың опексі көбіне негізгі драйверге айналады.
72B note — parameters explained

72B = 72,000,000,000 параметр. Параметр — нейрондық желідегі салмақ. Параметр көп болған сайын модельдің “сыйымдылығы” өседі: тіл заңдылықтары, көптілді сәйкестік, ұзын контекст.

Transformer inference (intuition): More parameters → more representational capacity. Perceived quality depends on: (1) model + (2) inference stack + (3) latency stability. Edge improves (3) structurally: no shared queues, no WAN coupling.

Бұл жерде “супер” әсердің бір бөлігі — архитектура: бірдей модель болса да, кезексіз және тұрақты latency қолданушыға сапаны жоғары сезіндіреді.