Seri GPU Instinct AMD semakin populer di komunitas komputasi dan AI. Inilah alasannya.
Tidak diragukan lagi bahwa NVIDIA terus mendominasi ruang komputasi paralel dengan berbagai seri GPU populernya. Tetapi dengan akselerator AI Instinct AMD yang melengkapi dua superkomputer terbaru dan terbesar (Frontier dan El Capitan) dan dukungan komunitas yang semakin besar untuk platform ROCm open-source mereka, NVIDIA mungkin telah menemukan saingan terbesar mereka.
Jadi apa sebenarnya akselerator AI Instinct AMD? Apa yang membuatnya kuat, dan bagaimana perbandingannya dengan GPU Tensor NVIDIA?
Apa Itu Prosesor AMD Instinct?
Prosesor AMD Instinct adalah perangkat keras tingkat perusahaan yang digunakan untuk komputasi kinerja tinggi (HPC) dan pemrosesan yang dipercepat AI. Tidak seperti GPU kelas konsumen biasa, GPU Instinct dikhususkan untuk menangani pembelajaran AI dan tugas berkinerja tinggi lainnya dengan lebih baik melalui inovasi perangkat lunak dan perangkat keras.
Seri GPU AMD Instinct digunakan untuk memberi daya pada superkomputer pertama yang memecahkan penghalang Exascale, bekerja pada 1,1 EFLOP dengan operasi presisi ganda per detik. Superkomputer yang menggunakan GPU Instinct saat ini digunakan untuk meneliti perawatan kanker, energi berkelanjutan, dan perubahan iklim.
Bagaimana Prosesor Instinct Mempercepat AI dan HPC
Untuk server utama dan superkomputer terkuat di dunia untuk mencapai pemrosesan tingkat Exascale, akselerator Insting AMD harus dilengkapi dengan beberapa peningkatan dan inovasi teknologi.
Mari kita bahas beberapa teknologi baru dan terupdate yang digunakan pada GPU AMD Instinct.
1. Hitung DNA (CDNA)
Akselerator AMD Instinct terbaru (mulai dari MI100) telah menggunakan arsitektur CDNA perusahaan.
CDNA terutama berfokus pada fitur seperti pemrosesan paralel, hierarki memori, dan kinerja komputasi yang dioptimalkan melalui teknologi Matrix Core mereka. Bahkan HPC dan AI atau pembelajaran mesin yang berjalan di server tunggal dapat didukung oleh CDNA, serta komputer Exascale yang besar.
Teknologi Matrix Core AMD mempercepat pembelajaran AI dengan mendukung operasi presisi campuran. Kemampuan untuk menghitung dengan presisi berbeda memungkinkan GPU Instinct menghitung operasi matriks secara efisien berdasarkan tingkat presisi yang diperlukan.
Format presisi perhitungan yang paling populer termasuk FP64, FP32, FP16, BF16, dan INT8. FP singkatan dari Floating Point, BF untuk Brain Floating Point, dan INT untuk Integer. Semakin tinggi angka yang sesuai dengan formatnya, semakin akurat perhitungannya. Beroperasi pada 64-bit dikenal sebagai presisi ganda. Dengan 32-bit itu presisi tunggal, 16-bit setengah presisi, dan seterusnya.
Karena sebagian besar pelatihan model deep learning tidak memerlukan banyak ketelitian, memiliki kemampuan untuk menghitung matriks operasi dengan setengah presisi atau bahkan seperempat presisi untuk inferensi secara signifikan mengurangi beban kerja, sehingga mempercepat AI sedang belajar.
2. Memori Bandwidth Tinggi (HBM)
Setiap akselerator AMD Instinct AI hadir dengan hingga 880 Matrix Cores. Dengan prosesor AMD Matrix Core yang mampu melakukan 383 TFLOP kalkulasi setengah presisi, maka diperlukan memori ultra cepat. Penawaran terbaru AMD Instinct dilengkapi dengan High Bandwidth Memory (HBM) bukan RAM DDR4 atau DDR5 biasa.
Tidak seperti memori konvensional, HBM menggunakan apa yang dikenal sebagai arsitektur bertumpuk 3D. Jenis arsitektur ini mengacu pada pendekatan desain di mana DRAM mati ditumpuk secara vertikal di atas satu sama lain. Hal ini memungkinkan cetakan untuk ditumpuk pada sumbu vertikal dan horizontal, oleh karena itu disebut penumpukan 3D.
Dengan teknologi 3D stacking ini, HBM dapat memiliki kapasitas memori fisik sebesar beberapa ratus gigabyte per modul, sedangkan DRR5 hanya dapat melakukan hingga puluhan gigabyte per modul. Selain kapasitas, HBM juga dikenal memiliki performa lebih tinggi dalam hal kecepatan transfer dan efisiensi daya yang lebih baik daripada memori DDR biasa.
3. Kain Tak Terbatas
Inovasi lain yang termasuk dalam GPU Instinct adalah teknologi AMD's Infinity Fabric. Infinity Fabric adalah jenis sistem interkoneksi yang menghubungkan CPU dan GPU dengan cara dinamis yang cerdas. Hal ini memungkinkan komponen untuk berkomunikasi secara efisien satu sama lain.
Dengan Infinity Fabric, alih-alih menghubungkan komponen dengan bus biasa, komponen sekarang terhubung dalam jaringan seperti jala di mana bandwidth bisa mencapai beberapa ratus gigabyte per detik.
Selain interkoneksi seperti jaring, Infinity Fabric juga menggunakan sensor yang disematkan di setiap cetakan untuk secara dinamis frekuensi kontrol, kecepatan transfer data, dan perilaku adaptif lainnya, mengoptimalkan kinerja dan meminimalkan latensi.
4. Platform Pengembangan ROCm
CUDA NVIDIA (compute unified device architecture) adalah platform pengembangan yang paling banyak digunakan untuk melatih model AI. Masalah dengan CUDA adalah hanya bekerja dengan GPU NVIDIA. Ini adalah salah satu alasan utama mengapa NVIDIA memiliki mayoritas pangsa pasar untuk akselerator HPC dan AI GPU.
Dengan AMD yang ingin mendapatkan bagian yang lebih besar dari pasar HPC dan AI, mereka harus mengembangkan platform mereka sendiri, ROCm (Radeon Open Compute). ROCm adalah platform perangkat lunak sumber terbuka yang memungkinkan GPU Instinct digunakan sebagai akselerator AI.
Meskipun bukan bagian dari perangkat keras Instinct, ROCm sangat penting dalam hal kelangsungan lini GPU Instinct. Dengan ROCm, pengembang dan peneliti mendapatkan alat ROCm, kompiler, driver kernel, seluruh pustaka, dan akses ke kerangka kerja seperti TensorFlow dan PyTorch untuk dikembangkan dengan mereka disukai bahasa pemrograman AI.
Bagaimana Instinct AI Accelerators Dibandingkan dengan Radeon GPU AI Accelerators?
AMD menawarkan jajaran GPU Instinct untuk perusahaan dan GPU Radeon untuk konsumen biasa. Seperti yang telah dibahas sebelumnya, Instinct GPU menggunakan arsitektur AMD CDNA, HBM, dan interkoneksi Infinity Fabric. Sebaliknya, Radeon menggunakan arsitektur AMD RDNA, memori DDR6, dan Infinity Cache.
Meskipun kurang mampu, akselerator AI seri Radeon masih memiliki performa yang luar biasa dengan mengimplementasikan satu atau dua inti akselerator AI per unit komputasi. Terbaru GPU Radeon RX7900XT memiliki dua inti akselerator AI per unit komputasi, memungkinkan 103 TFLOP dengan setengah presisi puncak dan 52 TFLOP dengan komputasi presisi tunggal puncak.
Sementara GPU seri Instinct lebih cocok untuk LLM dan HPC, akselerator AI Radeon dapat digunakan untuk menyempurnakan model pra-pelatihan, inferensi, dan tugas intensif grafis.
AMD Instinct vs. Tensor NVIDIA
Menurut a survei TrendForce, NVIDA memiliki pangsa pasar 80% untuk GPU server, sedangkan AMD hanya memiliki 20%. Kesuksesan luar biasa dari NVIDIA ini karena mereka adalah perusahaan yang berspesialisasi dalam desain dan perakitan GPU. Hal ini memungkinkan mereka merancang GPU dengan kinerja yang jauh lebih baik yang tak tertandingi oleh penawaran lainnya.
Mari bandingkan AMD's Instinct MI205X dan NVIDIA's H100SXM5 menggunakan spesifikasi dari Situs web resmi AMD Dan Lembar data NVIDIA sendiri:
Model GPU |
FP64 (TFLOP) |
FP32 (TFLOP) |
FP16 (TFLOP) |
INT8 (TFLOP) |
---|---|---|---|---|
AMD Insting MI250X |
30.0 |
60.0 |
1000 |
2000 |
NVIDIA H100SXMS |
47.9 |
95.7 |
383.2 |
383 |
Seperti yang Anda lihat pada tabel, AMD MI250X bekerja lebih baik dalam hal presisi ganda dan setengah presisi perhitungan, sedangkan H100SXMS NVIDIA jauh lebih baik dalam hal matriks setengah presisi dan seperempat presisi perhitungan. Ini membuat AMD MI250X lebih cocok untuk HPC sementara NVIDIA H100SXMS dengan pembelajaran dan inferensi AI.
Masa Depan Prosesor Insting AMD
Meskipun penawaran terbaru AMD, MI250X, dirancang untuk HPC, MI300 mendatang mereka lebih berorientasi pada pelatihan AI. Akselerator AI ini diumumkan sebagai APU, menggabungkan GPU dan CPU dalam satu paket. Hal ini memungkinkan MI300 untuk menggunakan arsitektur CNDA3 Unified Memory APU mereka, di mana GPU dan CPU hanya akan menggunakan satu memori, meningkatkan efisiensi dan mengurangi harga.
Meskipun AMD tidak akan bersaing dengan NVIDIA di pasar akselerator AI hari ini, setelah MI300 dirilis dan ROCm menjadi dipoles, seri AMD Instinct mungkin cukup bagus untuk merebut sebagian besar pasar akselerator AI dari NVIDIA.