Neurox Menangani Jurang Pemerhatian GPU untuk Beban Kerja AI pada Kubernetes

BigGo Editorial Team
Neurox Menangani Jurang Pemerhatian GPU untuk Beban Kerja AI pada Kubernetes

Ketika organisasi terus melabur berbilion dalam infrastruktur GPU untuk beban kerja AI, satu jurang kritikal telah muncul dalam keupayaan pemantauan dan pemerhatian. Neurox, satu platform baharu yang dihoskan sendiri, bertujuan untuk menyelesaikan masalah ini dengan menyediakan pemantauan GPU yang komprehensif yang direka khusus untuk persekitaran Kubernetes.

Tangkapan skrin ini menunjukkan repositori GitHub untuk Neurox Control Helm Chart, yang menyokong pemantauan GPU dalam persekitaran Kubernetes
Tangkapan skrin ini menunjukkan repositori GitHub untuk Neurox Control Helm Chart, yang menyokong pemantauan GPU dalam persekitaran Kubernetes

Masalah Pemerhatian GPU

Pertumbuhan pesat dalam infrastruktur AI telah mendedahkan batasan ketara dalam penyelesaian pemantauan sedia ada. Menurut perbincangan dalam komuniti teknologi, alat semasa gagal menjawab soalan asas tentang penggunaan GPU, pemilikan, dan kos. Metrik tradisional seperti DCGM_FI_DEV_GPU_UTIL boleh menunjukkan apa yang berlaku dengan GPU tetapi bukan mengapa - menyebabkan pasukan tidak dapat mendiagnosis isu seperti sumber yang kurang digunakan, aplikasi yang salah konfigurasi, atau tugasan yang diam-diam beralih kepada pemprosesan CPU.

Pemerhatian GPU rosak... Walaupun syarikat membelanjakan berbilion untuk GPU, tiada cara mudah untuk menjawab soalan asas: Apa yang berlaku dengan GPU saya? Siapa yang menggunakannya? Berapa kos projek ini kepada saya?

Kebanyakan organisasi kini menampal penyelesaian menggunakan Prometheus, Grafana, dan skrip kubectl, mewujudkan pandangan yang terpecah-pecah tentang infrastruktur GPU mereka. Pendekatan ini tidak mencukupi apabila pasukan perlu memahami hubungan antara metrik, keadaan Kubernetes, dan data kewangan merentasi persekitaran berbilang awan.

Pendekatan Neurox untuk Pemantauan GPU

Neurox menggabungkan tiga sumber data kritikal untuk menyediakan pemerhatian komprehensif: statistik masa jalan GPU dari NVIDIA SMI, maklumat pod yang sedang berjalan dari keadaan Kubernetes, dan data nod dengan peristiwa dari keadaan Kubernetes. Integrasi ini membolehkan pasukan mengesan isu seperti keadaan pod yang gagal, penjadualan yang tidak betul, dan aplikasi yang tidak menggunakan sumber GPU dengan betul.

Platform ini menawarkan papan pemuka yang dibina khusus untuk peranan berbeza dalam organisasi. Penyelidik boleh memantau beban kerja dari penciptaan hingga penyelesaian pada skrin Beban Kerja, manakala pasukan kewangan boleh mengakses data kos yang dikumpulkan mengikut pasukan atau projek pada skrin Laporan. Pendekatan berasaskan peranan ini menangani keperluan pelbagai pentadbir, pembangun, penyelidik, dan juruaudit kewangan yang bekerja dengan infrastruktur GPU.

Keperluan Platform Neurox:

  • Kubernetes dan CLI 1.29+
  • Helm CLI 3.8+
  • 12 CPU
  • 24 GB RAM
  • 120 GB Storan Volum Berterusan
  • Sekurang-kurangnya 1 nod GPU
  • Ingress boleh dicapai dari Internet

Ciri-ciri Utama:

  • Pemantauan penggunaan GPU masa nyata dan amaran untuk GPU yang tidak aktif
  • Perincian kos mengikut aplikasi/pasukan/projek
  • Paparan bersepadu merentasi infrastruktur AWS, GCP, Azure, dan on-premises
  • Menyedari Kubernetes: menghubungkan metrik nod kepada pod, kerja, dan pemilik yang sedang berjalan
  • Pemeriksaan kesihatan GPU

Fleksibiliti Penempatan dan Privasi Data

Aspek utama seni bina Neurox adalah pemisahan antara komponen satah kawalan dan beban kerja. Platform ini direka sebagai perisian yang dihoskan sendiri untuk menyimpan data sensitif dalam infrastruktur organisasi. Bagi pasukan dengan storan terhad pada kluster GPU, Neurox menawarkan model penempatan terpisah - satah kawalan boleh dipasang pada mana-mana kluster Kubernetes dengan storan berterusan (seperti EKS, AKS, atau GKE), manakala hanya ejen beban kerja ringan perlu berjalan pada kluster GPU.

Fleksibiliti ini menangani kebimbangan tentang keperluan storan berterusan 120GB yang disebut dalam dokumentasi, menjadikan penyelesaian ini sesuai untuk kluster GPU logam tulen dengan storan tempatan yang terhad. Seni bina ini juga berpotensi membolehkan pilihan satah kawalan yang dihoskan di awan pada masa hadapan sambil memastikan data beban kerja selamat.

Neurox menawarkan peringkat percuma untuk memantau sehingga 64 GPU, yang meliputi banyak kes penggunaan peribadi, akademik, dan komersial ringan. Walaupun buat masa ini bukan sumber terbuka, syarikat telah menunjukkan mereka sedang mempertimbangkan laluan ini untuk masa hadapan, mengiktiraf bahawa kebimbangan privasi dan kos mendorong minat dalam alternatif sumber terbuka.

Ketika infrastruktur AI terus berkembang dalam kerumitan dan skala merentasi persekitaran berbilang awan, alat pemerhatian yang dibina khusus seperti Neurox mungkin menjadi semakin penting bagi organisasi yang ingin mengoptimumkan pelaburan GPU mereka yang besar.

Rujukan: Carta Helm Kawalan Neurox