DeepSeek Janus-Pro Mencabar DALL-E 3 dengan AI Multimodal yang Cekap dan Sumber Terbuka

BigGo Editorial Team

DeepSeek Janus-Pro Mencabar DALL-E 3 dengan AI Multimodal yang Cekap dan Sumber Terbuka

Dalam perkembangan penting bagi industri AI, syarikat permulaan AI dari China, DeepSeek telah memperkenalkan Janus-Pro, model AI multimodal baharu yang menunjukkan bagaimana pendekatan yang cekap dan kos efektif mampu bersaing dengan gergasi industri. Pelancaran ini berlaku pada masa perdebatan mengenai kos pembangunan AI dan keperluan sumber semakin meningkat.

Pendekatan Baharu untuk AI Multimodal

Janus-Pro oleh DeepSeek mewakili rangka kerja autoregresi baharu yang boleh menganalisis dan menghasilkan imej. Keluarga model ini terdiri daripada 1 bilion hingga 7 bilion parameter, dengan versi utama Janus-Pro-7B dilaporkan mengatasi penyelesaian sedia ada seperti DALL-E 3 oleh OpenAI dan Stable Diffusion XL oleh Stability AI dalam ujian penanda aras termasuk GenEval dan DPG-Bench.

Spesifikasi Model:

Julat parameter: 1B hingga 7B
Keperluan latihan (model 1.5B): 128 GPU A100, 7 hari
Keperluan latihan (model 7B): 256 GPU A100, 14 hari
Had resolusi imej: 384 x 384 (model yang lebih kecil)

Inovasi Kos Efektif

Pembangunan Janus-Pro mempamerkan strategi kecil tetapi berkesan oleh DeepSeek. Proses latihan menunjukkan kecekapan yang luar biasa, dengan model 1.5B parameter memerlukan 128 GPU NVIDIA A100 selama tujuh hari, manakala versi 7B parameter memerlukan 256 GPU A100 selama empat belas hari. Pendekatan ini berbeza ketara dengan mentaliti industri yang biasanya mengutamakan saiz lebih besar dan keperluan pengkomputeran yang besar.

Sumber Terbuka dan Kebolehcapaian

Dilancarkan di bawah lesen MIT, Janus-Pro boleh digunakan secara percuma untuk kegunaan komersial melalui platform pembangunan AI seperti Hugging Face. Pendekatan sumber terbuka ini menjadikan teknologi AI termaju boleh diakses oleh individu dan perusahaan kecil, walaupun sesetengah model terhad kepada menganalisis imej pada resolusi 384 x 384.

Impak Pasaran dan Harga

Struktur harga perkhidmatan API DeepSeek kekal kompetitif, dengan kos ditetapkan pada Yuan 1 bagi setiap juta token input untuk cache hits dan Yuan 4 untuk cache misses, manakala token output dihargakan pada Yuan 16 setiap juta. Model harga ini, digabungkan dengan kecekapan model, mencabar andaian tradisional tentang sumber yang diperlukan untuk pembangunan AI yang kompetitif.

Struktur Harga:

Token input (cache hit): CNY¥1/sejuta
Token input (cache miss): CNY¥4/sejuta
Token output: CNY¥16/sejuta

Pertimbangan Keselamatan dan Akses

Berikutan cabaran keselamatan baru-baru ini, DeepSeek telah melaksanakan langkah-langkah pertahanan, dengan menyekat pendaftaran sementara kepada nombor telefon +86. Langkah ini menekankan kepentingan keselamatan yang semakin meningkat dalam penggunaan AI sambil mengekalkan ketersediaan perkhidmatan untuk pengguna teras.