aqqu.ai

Distributed AI Edge.
One client — one compute.

Орталық суперкомпьютер арқылы желіге тәуелді сервистің орнына: әр клиенттің өзінде локалды edge-есептеу. Нәтиже: детерминирленген қуат, нөлдік “кезек жұқтыруы”, минималды кідіріс, қауіпсіздік және құнның болжамдылығы.

No shared queues
Deterministic SLA
Local data sovereignty
Linear scale per site

Equivalence headline

~3,170
aqqu.ai edge (1×RTX A6000) ≈ 1 central “super-edge” (496×H200)
$15,000
per client edge (hardware unit cost)
7+
clients/H200 where edge ≥ center per-client compute (proxy)
3 months
delivery-to-deployment window for on-prem edge rollout

Interactive calculator

Кабельдік модельде бір H200 GPU-ға қанша клиент (k) бір уақытта отырады — соны беріңіз. Біз сол сәттегі “клиентке шаққандағы” қуатпен салыстырамыз.

Given: H200 FP16 Tensor = 1,979 TFLOPS RTX A6000 Tensor = 309.7 TFLOPS Cluster GPUs = 496 × H200 Ratio: a = 309.7 / 1,979 = 0.1565 (H200-equivalent per edge) Center per-client share: q_center = 1 / k Edge ≥ Center (per-client compute proxy) when: 0.1565 ≥ 1/k ⇒ k ≥ 6.39

Architecture comparison

Center → cable → client

PropertyImplication
Shared GPU poolКезек, шектеу, көп-арендалы жоспарлау; бір клиенттің пікі — басқаларына әсер етеді.
Network as part of SLAКідіріс пен тұрақтылық каналға тәуелді; QoS/резерв/маршрутизация міндетті.
Peak coupling“Noisy neighbor”: оқыс жүктемелерде деградация экспоненциалды сезіледі.
Operational stackТарификация/лимит/аудит, қауіпсіздік периметрі, NOC/monitoring, инциденттер.
Peripheral accessVPN/MPLS/edge gateways, identity, session control, encryption, compliance.

aqqu.ai: one edge per client

PropertyImplication
Dedicated computeКлиенттің ресурсы тек соған арналған; кезек “жұқпайды”.
Local inferenceКідіріс төмен; интернет нашар болса да функционал сақталады.
Data sovereigntyДерек клиент периметрінен шықпайды; саясат/реттеу тәуекелі азаяды.
Linear scaling+1 клиент = +1 edge. Жоспарлау қарапайым, құны болжамды.
Deployment simplicityОрнату/жаңарту/қызмет көрсету жергілікті; “үлкен орталық” тәуелділігі жоқ.
Бұл салыстырудың өзегі: “клиентке шаққандағы” қамтамасыз ету. Орталықта бұл үлес әрқашан бөлінеді; edge-та ол тұрақты және алдын ала белгілі.

72B Kazakh multilingual LLM

Неге 72B маңызды

72B — бұл 72 миллиард параметр. Параметр — модельдің “білімі” мен тілдік қабілетін кодтайтын салмақтар. Параметр саны артқан сайын: контекстті ұстау, семантикалық дәлдік, көптілді сәйкестік және домендік күрделілік жақсырақ болады.

Тақырып72B-тің практикалық мәні
КөптілділікҚазақша ↔ орысша ↔ ағылшынша аралас диалогта мағынаны жоғалтпайды; code-switch тұрақтылығы жоғары.
Күрделі тапсырмаларҰзын нұсқаулықтар, көп-қадамды reasoning, құжатпен жұмыс — сапа өседі.
Салалық білімМедицина/заң/өндіріс сияқты домендерде терминологияны сенімдірек ұстайды (дұрыс инференс стегімен).
“Super” әсерПайдаланушыға “ақылдырақ, тыныш, тұрақты” жауап беру — дәл осы масштабта сезіледі.
Model size concept: 72B params ≈ 72,000,000,000 learned weights. Quality drivers: (1) parameter count + (2) training data breadth + (3) inference stack + (4) latency stability. Edge advantage: stability of latency and isolation → perceived quality increases, even at same model.

Economics

Edge cost per client

Берілген шарт: 1 edge = $15,000. Айырбас бағамы: 520 ₸ = $1.

$15,000
USD per client
₸7,800,000
KZT per client
KZT conversion: 15,000 USD × 520 = 7,800,000 KZT

What the center must still build

WorkstreamCost / complexity driver
Client access perimeterVPN/MPLS, gateways, IAM, session control, encryption, audit.
Multi-tenant schedulerQuota, fairness, isolation, batching policy, noisy-neighbor mitigation.
SLA engineeringCapacity planning, admission control, peak management, incident response.
Compliance & governanceData flows, retention, logging, legal constraints, change management.
Rollout lead-timeProcurement → integration → testing → onboarding → operations.
Edge-та бұл блоктардың көбі клиенттің өз периметрінде “табиғи түрде” шешіледі: дерек шықпайды, ресурс бөлінбейді, кезек жоқ.

Timeline: 3 months to production

Delivery plan

WeekOutcome
1–2Edge образ/құрастыру, модель стегі, локалды саясат, мониторинг минимум.
3–6Пилот 3–10 клиент: орнату стандарты, қашықтан жаңарту, fallback, периметр тесті.
7–10Масштабтау 10→N: өндірістік логистика, сервис регламенті, SLA “бір клиент — бір edge” қағидасы.
11–12Қорытынды қабылдау: құжаттау, білім базасы, партиялық жеткізу, тұрақты релиз циклі.
Core claim: Edge rollout is bounded by logistics and standardization. Center rollout is bounded by network + multi-tenant orchestration + governance + peak engineering.

Mathematical backbone

One number that matters

“1 супер-edge” ретінде орталық кластерді (496×H200) алсақ, тензорлық FP16 прокси бойынша: 1×H200 ≈ 6.39×RTX A6000, сондықтан 496×H200 ≈ 3,170×A6000.

Definitions: H200_FP16 = 1,979 TFLOPS A6000_Tensor = 309.7 TFLOPS GPU_count = 496 Per-GPU ratio: r = H200_FP16 / A6000_Tensor = 1,979 / 309.7 = 6.39 Cluster equivalence: E = GPU_count × r = 496 × 6.39 = 3,170 (rounded) Per-client compute parity threshold under sharing: Edge_share = 309.7 / 1,979 = 0.1565 H200 Center_share = 1/k H200 Edge ≥ Center ⇔ 0.1565 ≥ 1/k ⇔ k ≥ 6.39
Бұл — “клиентке шаққандағы” есептеу үлесінің дәл логикасы. Ол кезек, пик, жоспарлау және желі әсерін модельдемейді; бірақ дәл осы факторлар орталықта тәуекелді күшейтеді, ал edge-та олар құрылымдық түрде жойылады.