Pelancaran terbaru model Skywork-OR1 (Open Reasoner 1) telah mencetuskan perbincangan hangat dalam komuniti AI, terutamanya mengenai bagaimana model-model ini dipersembahkan berbanding pendekatan pembangunan sebenar mereka. Walaupun model-model ini menunjukkan prestasi yang mengagumkan dalam penanda aras matematik dan pengkodan, ahli komuniti telah membangkitkan kebimbangan tentang ketelusan dalam cara model-model ini diterangkan dan dipasarkan.
Penalaan Halus berbanding Seni Bina Asal
Siri Skywork-OR1, yang merangkumi Skywork-OR1-Math-7B, Skywork-OR1-32B-Preview, dan Skywork-OR1-7B-Preview, telah dipromosikan kerana prestasi kukuhnya dalam penanda aras seperti AIME24, AIME25, dan LiveCodeBench. Walau bagaimanapun, ahli komuniti telah menekankan bahawa model-model ini adalah versi penalaan halus daripada model sedia ada dan bukannya seni bina baharu sepenuhnya - fakta yang hanya disebut di bahagian bawah pengumuman Skywork.
Bukan untuk mengurangkan hasil kerja mereka tetapi ini seharusnya tidak disembunyikan di bahagian bawah halaman - terdapat jurang besar antara model yang sepenuhnya baru dan penalaan halus.
Model-model ini dibina berdasarkan DeepSeek-R1-Distill-Qwen-7B dan DeepSeek-R1-Distill-Qwen-32B, yang sendirinya adalah versi penyulingan daripada model lain. Pendekatan berlapis dalam pembangunan model ini telah mencetuskan perbincangan tentang konvensyen penamaan dan ketelusan dalam komuniti penyelidikan AI. Sesetengah pengulas menyatakan bahawa syarikat lain seperti Meta secara jelas memerlukan karya terbitan untuk menyertakan nama model asal (seperti Llama) di awal nama model baharu.
![]() |
---|
Repositori GitHub untuk model Skywork-OR1, mempamerkan kod dan struktur mereka, berkaitan dengan perbincangan tentang penalaan halus berbanding seni bina asal |
Kesesuaian Penanda Aras Dipersoalkan
Satu lagi isu pertikaian dalam perbincangan komuniti berkisar tentang penanda aras yang digunakan untuk menilai model-model ini. Sesetengah pengguna mempersoalkan kesesuaian menggunakan skor AIME24 apabila model tersebut berkemungkinan telah dilatih menggunakan set data yang sama. Seorang pengulas menyatakan bahawa ini adalah masalah universal dalam penilaian model AI, kerana kebanyakan set data penanda aras akhirnya dimasukkan ke dalam data latihan.
Penurunan prestasi yang ketara antara skor AIME24 dan AIME25 (contohnya, Skywork-OR1-Math-7B mencatat 69.8 pada AIME24 tetapi hanya 52.3 pada AIME25) seolah-olah mengesahkan kebimbangan ini, menunjukkan bahawa model tersebut berprestasi lebih baik pada data yang berkemungkinan telah dilihatnya semasa latihan.
Perbandingan Prestasi Model (Avg@32)
Model | AIME24 | AIME25 | LiveCodeBench (Avg@4) |
---|---|---|---|
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 39.2 | 37.6 |
Light-R1-7B-DS | 59.1 | 44.3 | 39.5 |
Skywork-OR1-Math-7B | 69.8 | 52.3 | 43.6 |
Skywork-OR1-7B-Preview | 63.6 | 45.8 | 43.9 |
DeepSeek-R1-Distill-Qwen-32B | 72.9 | 59.0 | 57.2 |
Skywork-OR1-32B-Preview | 79.7 | 69.0 | 63.9 |
DeepSeek-R1 (671B) | 79.8 | 70.0 | 65.9 |
![]() |
---|
Graf garis yang menggambarkan prestasi model Skywork-OR1-Math-7B pada set data AIME24, menggambarkan kebimbangan mengenai kesesuaian penanda aras yang dibangkitkan dalam perbincangan |
Pertukaran Prestasi Model Tempatan
Perbincangan juga menyentuh topik yang lebih luas mengenai menjalankan model AI secara tempatan berbanding menggunakan perkhidmatan berasaskan awan. Ahli komuniti berkongsi pengalaman mereka dengan pelbagai model tempatan, menyatakan bahawa walaupun mereka boleh menjadi lebih pantas untuk tugas-tugas tertentu, sering terdapat pertukaran antara kelajuan, ketepatan, dan keserbabolehan.
Bagi pengguna dengan kekangan perkakasan tertentu, seperti memori GPU yang terhad, memilih model yang sesuai menjadi sangat penting. Beberapa pengulas menyebut bahawa walaupun tiada persamaan tempatan yang boleh melakukan segalanya dengan baik seperti model berasaskan awan seperti ChatGPT atau Gemini, model khusus boleh cemerlang dalam tugas-tugas tertentu seperti pengkodan (dengan model seperti qwen 2.5 coder 32b yang disyorkan).
Komitmen Sumber Terbuka
Walaupun terdapat kebimbangan yang dibangkitkan, komuniti telah memberi respons positif terhadap komitmen Skywork untuk menjadikan kerja mereka sumber terbuka. Syarikat tersebut telah berjanji untuk melepaskan bukan sahaja pemberat model tetapi juga data latihan dan kod mereka, walaupun pada masa pengumuman, beberapa sumber ini masih disenaraikan sebagai Coming Soon (Akan Datang).
Pendekatan terbuka ini berpotensi untuk menangani beberapa kebimbangan ketelusan yang dibangkitkan oleh komuniti, membolehkan orang lain untuk lebih memahami bagaimana model-model ini dibangunkan dan berpotensi untuk membangunkannya lebih lanjut.
Model-model Skywork-OR1 mewakili satu kajian kes yang menarik dalam landskap pembangunan model AI yang sentiasa berkembang, di mana garis antara penyelidikan asal, penyulingan, dan penalaan halus terus menjadi kabur. Apabila amalan-amalan ini menjadi lebih biasa, komuniti AI kelihatan menggesa untuk standard yang lebih jelas mengenai bagaimana kerja sedemikian dipersembahkan dan diiktiraf.
Rujukan: Skywork-OR1 (Open Reasoner 1)