Sovereign Edge / Client-Owned Compute

Kazakh-first 72B multilingual 3-month rollout

SOILEGPT.CHAT

Ecosystem Architecture Proof 72B Economics Timeline

Request Accessmail

Қазақстанға арналған
жергілікті LLM-инференс.

Орталық суперкомпьютерді желі арқылы “бәріне ортақ” ету — есептеу ресурсынан бөлек, кезек, пик, жоспарлау, желі және периметр тәуекелдерін қоса әкеледі. SOILEGPT.CHAT тәсілі: бір клиент — бір edge. Бұл модельде “көршінің шуылы” жоқ, қуат алдын ала белгілі, ал дерек клиент периметрінде қалады.

~3,170 edge (1×RTX A6000) ≈ 1 central cluster (496×H200)

$15,000 / edge • ₸7,800,000 @ 520 ₸/$

k ≥ 6.39 болса, edge ≥ center per-client compute (proxy)

Operational reality

Негізгі айырмашылық

Center → cable	SOILEGPT.CHAT (edge)
Клиенттер бір GPU-пулды бөліседі → кезек пен пик “жұғады”.	Ресурс бөлінбейді → әр клиенттің қуаты тұрақты.
SLA = compute + network + scheduler.	SLA = local compute (network тек әкімшілікке).
Периметр: VPN/MPLS, IAM, аудит, шифрлау, шлюздер.	Клиент периметрі “табиғи”: дерек шықпайды, басқару жеңіл.

Interactive

Sharing calculator

k = бір H200-ға бір мезетте қанша клиент отырғызылған (орталықтағы нақты oversubscription). Бұл “клиентке шаққандағы” үлесті анықтайды.

k (clients per H200)

Edge price (USD)

—

Deployment-ready / Live-mode logic

SOILEGPT.CHAT Ecosystem

Digitalqazaqstan стиліндегі “телеметрия” логикасы: әр модуль — операциялық өлшенетін бірлік. Мұнда сан емес, принцип маңызды: edge-та кезек пен пик оқшауланады.

SOILE.Edge

On‑prem inference node (one client — one compute).

READY Isolation: hard

Status

Deployable

Queue

0 (no shared)

Edge Mode

Local‑first

Data

Client perimeter

SOILE.Kaz72B

Kazakh‑first multilingual 72B‑class LLM interface.

72B Multilingual

Languages

kk / ru / en

Mode

On‑prem inference

Context

Policy‑bounded

Governance

Local controls

SOILE.Guard

PII gate + policy enforcement in the client domain.

SECURE Zero‑trust

PII Gate

Active

Audit

Local logs

Access

Org IAM

Risk

Reduced WAN

Architecture

What must exist to deliver “over the cable”

Орталық есептеу — тек бір қабат. Клиентке нақты сервисті жеткізу үшін төмендегі жүйелер міндетті түрде қосылады. Edge-та олардың көп бөлігі қажет емес немесе клиенттің өз инфрақұрылымына “сіңіп” кетеді.

Access Perimeter

VPN/MPLS, gateways, encryption, IAM, session control.

Dependency

Network

Latency

WAN‑bound

Cost

Recurring

Risk

Outages

Multi‑Tenant Scheduler

Quota, batching, fairness, admission control, noisy‑neighbor mitigation.

Queueing

Inevitable

Peaks

Coupled

SLO

Tail‑driven

Ops

24/7

Governance & Compliance

Data flows, retention, logs, policy, change management.

Audit

Central

Controls

Shared

Scope

Multi‑org

Lead time

Long

Дипломатиялық қорытынды: орталық суперкомпьютер — әсерлі ресурс. Бірақ “кабель арқылы” өнімге айналдыру желі мен мультиарендалы операциялық қабатқа тәуелді. Біз edge арқылы тәуекелді құрылымдық түрде азайтамыз.

System proof

Mathematical backbone

One number

3,170 edge ≈ 1 central cluster

Қолданылған прокси: FP16 Tensor peak. Бұл толық сервингтің бәрін қамтымайды, бірақ архитектуралық масштабты дәл береді (бір кластың GPU-на шаққандағы order‑of‑magnitude).

Given (public peak specs): H200_FP16 = 1,979 TFLOPS A6000_Tensor = 309.7 TFLOPS GPU_count = 496 Per-GPU ratio: r = H200_FP16 / A6000_Tensor = 1,979 / 309.7 = 6.39 Cluster equivalence: E = GPU_count × r = 496 × 6.39 = 3,170 (rounded)

Why queues explode

Peaks → tail latency

Бір GPU-пулға көптеген клиенттің сұраныстары “қабаттасқанда” — кезек пайда болады. Кезек теориясында ρ→1 болғанда, күту уақыты тез өседі. Edge-та бұл жұқтыру жоқ (оқшаулану).

Queueing intuition (M/M/1 baseline): λ = arrival rate, μ = service rate, ρ = λ/μ Mean time in system: W = 1 / (μ − λ) As λ → μ, W → ∞ (explodes) Shared pools push ρ upward during peaks.

Kazakh language priority

72B multilingual: what it means

72B = 72 миллиард параметр. Параметрлер — модельдің салмақтары: тілдік заңдылықтар, семантика және көптілді сәйкестік солар арқылы сақталады. 72B‑класта қазақша‑орысша аралас диалогта мағына жоғалтпай, күрделі тапсырмаларда тұрақтырақ жауап беру оңайырақ.

Неге бұл “супер” сезіледі	Қолданушыға әсері
Көбірек параметр	Мағыналық дәлдік, ұзын нұсқаулықты орындау, контекстті ұстап тұру.
Көптілді орта	kk/ru/en аралас мәтінде “код ауыстыру” тұрақтылығы.
Edge оқшаулауы	Сапа тек модельмен емес, латенттіліктің тұрақтылығымен де өлшенеді: кезек жоқ.
Жергілікті бақылау	Саясат, PII, журналдар — клиентте. “Сыртқы” тәуекел азаяды.

Economics

Cost predictability

Берілген шарт: $15,000 бір edge. Бағам: 520 ₸ = $1.

Per‑edge: USD = 15,000 KZT = 15,000 × 520 = 7,800,000

Edge құны “бірлік” ретінде тұрақты: 1 клиент = 1 edge. Жоспарлау оңай: N клиент = N edge.

Орталық модельде тек GPU емес: периметр, желілік жеткізу, планировщик, NOC және жүктеме шыңдары үшін артық қуат қажет болады (қызмет көрсету деңгейін ұстап тұру үшін).

Workstream	Неге қымбат/ұзақ
Connectivity	Канал, резерв, QoS, шифрлау, шлюздер.
Scheduling	Кезек пен пикті басқару; admission control; fairness.
Operations	Инцидент, мониторинг, аудит, өзгеріс менеджменті.
Onboarding	Клиент интеграциясы, тест, қауіпсіздік рәсімдері.

Timeline

3 months and production

Week	Outcome
1–2	Edge стандарт: образ, саясат, мониторинг минимум, “бір клиент — бір edge”.
3–6	Пилот: 3–10 клиент. Орнату регламенті, жаңарту, кері қайту (rollback).
7–10	Масштабтау: логистика, сервистік қолдау, тұрақты релиз.
11–12	Қабылдау: құжат, білім базасы, партиялық жеткізу.

Орталық модельде осы параллельге қосымша “кабельдік” қабат бар: желі периметрі, мультиарендалы жоспарлау, жүктеме шыңдарына capacity engineering. Бұл көбіне 12 аптадан ұзаққа созылады.

Қазақстанға арналған
жергілікті LLM-инференс.

Негізгі айырмашылық

Sharing calculator

SOILEGPT.CHAT Ecosystem

SOILE.Edge

SOILE.Kaz72B

SOILE.Guard

What must exist to deliver “over the cable”

Access Perimeter

Multi‑Tenant Scheduler

Governance & Compliance

Mathematical backbone

3,170 edge ≈ 1 central cluster

Peaks → tail latency

72B multilingual: what it means

Cost predictability

3 months and production

1) Definitions

2) Cluster equivalence

3) Sharing threshold (per‑client compute)

4) Why queues explode under peaks

5) Network as part of SLA (central delivery)

6) Operational workstreams (center must add)

7) Edge cost math (given constraints)

References (public specs used in the proxy)

Edge (given)

Scaling

Center delivery (what adds cost)

Қазақстанға арналғанжергілікті LLM-инференс.

Негізгі айырмашылық

Sharing calculator

SOILEGPT.CHAT Ecosystem

SOILE.Edge

SOILE.Kaz72B

SOILE.Guard

What must exist to deliver “over the cable”

Access Perimeter

Multi‑Tenant Scheduler

Governance & Compliance

Mathematical backbone

3,170 edge ≈ 1 central cluster

Peaks → tail latency

72B multilingual: what it means

Cost predictability

3 months and production

Қазақстанға арналған
жергілікті LLM-инференс.