Pada tahun 1984, Sun terkenal dengan pernyataannya, “Jaringan adalah Komputer.” Empat puluh tahun kemudian, kita melihat siklus ini terulang kembali dengan munculnya AI. Sifat kolektif dari model pelatihan AI bergantung pada jaringan yang tanpa kehilangan dan sangat tersedia untuk menghubungkan setiap GPU dalam cluster secara mulus dan memungkinkan kinerja puncak. Jaringan juga menghubungkan model AI yang telah dilatih ke pengguna akhir dan sistem lain di pusat data seperti penyimpanan, memungkinkan sistem untuk menjadi lebih dari sekadar jumlah bagiannya. Akibatnya, pusat data berkembang menjadi pusat AI baru di mana jaringan menjadi pusat dari manajemen AI.
Tren dalam AI
Untuk memahami hal ini, mari kita pertama-tama melihat ledakan dataset AI. Seiring dengan peningkatan ukuran model bahasa besar (LLM) untuk pelatihan AI, paralelisasi data menjadi hal yang tak terhindarkan. Jumlah GPU yang dibutuhkan untuk melatih model yang lebih besar tidak dapat mengikuti jumlah parameter yang sangat besar dan ukuran dataset. Paralelisasi AI, baik data, model, atau pipeline, hanya seefektif jaringan yang menghubungkan GPU-GPU tersebut. GPU harus saling bertukar dan menghitung gradien global untuk menyesuaikan bobot model. Untuk itu, berbagai komponen dari teka-teki AI harus bekerja secara kohesif sebagai satu pusat AI: GPU, NIC, aksesori penghubung seperti optik/kabel, sistem penyimpanan, dan yang paling penting, jaringan yang ada di tengah-tengah semuanya.
Ada banyak alasan dan penyebab kinerja suboptimal di pusat data berbasis AI saat ini. Yang paling utama, jaringan AI membutuhkan Quality of Service end-to-end yang konsisten untuk transportasi tanpa kehilangan. Ini berarti bahwa NIC di server, serta platform jaringan, harus memiliki penanda/pemetaan seragam dan kontrol yang akurat serta pemberitahuan kemacetan (PFC & ECN dengan DCQCN), serta ambang batas pemanfaatan buffer yang sesuai agar setiap komponen dapat merespons kejadian jaringan seperti kemacetan dengan cepat, memastikan pengirim dapat mengontrol laju aliran lalu lintas secara tepat untuk menghindari kehilangan paket. Saat ini, NIC dan perangkat jaringan dikonfigurasi secara terpisah. Ketidaksesuaian konfigurasi apa pun bisa sangat sulit untuk dipahami di jaringan AI besar.
Salah satu alasan umum untuk kinerja yang buruk adalah kegagalan komponen. Server, GPU, NIC, transceiver, kabel, switch, dan router dapat gagal yang mengakibatkan go-back N – atau bahkan lebih buruk, dapat menghentikan seluruh pekerjaan, yang menyebabkan penalti kinerja yang besar. Dan probabilitas kegagalan komponen menjadi semakin besar seiring bertambahnya ukuran cluster. Secara tradisional, perpustakaan komunikasi kolektif (CCL) dari vendor GPU akan mencoba menemukan topologi jaringan yang mendasari menggunakan teknik lokalisasi, tetapi perbedaan antara topologi yang ditemukan dan yang sebenarnya dapat sangat mempengaruhi waktu penyelesaian pekerjaan pelatihan AI.
Aspek lain dari jaringan AI adalah bahwa sebagian besar operator memiliki tim terpisah yang merancang dan mengelola infrastruktur komputasi vs. jaringan yang berbeda. Ini melibatkan penggunaan sistem orkestrasi yang berbeda untuk konfigurasi, validasi, pemantauan, dan pembaruan. Kurangnya satu titik kontrol dan visibilitas membuatnya sangat sulit untuk mengidentifikasi dan menglokalisasi masalah kinerja. Semua masalah ini diperburuk seiring dengan bertambahnya ukuran cluster AI.
Sangat mudah untuk melihat bagaimana silo ini bisa semakin dalam, memperburuk masalah. Pemisahan operasi antara komputasi dan jaringan dapat menyebabkan tantangan dalam menghubungkan teknologi-teknologi ini untuk kinerja optimal, serta menyebabkan keterlambatan dalam mendiagnosis dan menyelesaikan penurunan kinerja atau kegagalan total. Jaringan itu sendiri bisa terpecah menjadi pulau-pulau cluster InfiniBand HPC yang terpisah dari pusat data berbasis Ethernet. Hal ini pada gilirannya dapat membatasi perlindungan investasi, menyebabkan tantangan dalam mentransfer data antar pulau tersebut, memaksa penggunaan gateway yang canggung, dan dalam menghubungkan komputasi ke penyimpanan dan pengguna akhir. Fokus pada salah satu teknologi (seperti komputasi, misalnya) secara terpisah dari semua aspek solusi holistik mengabaikan sifat saling bergantung dan saling terhubung dari teknologi-teknologi tersebut seperti yang ditunjukkan di bawah ini.
Silo Jaringan saat ini
/Images%20(Marketing%20Only)/Blog/AI-Blog-Art2.png?width=970&height=474&name=AI-Blog-Art2.png)
Bangkitnya Pusat AI Baru
Pusat AI baru mengakui dan menerima keseluruhan ekosistem modern yang saling bergantung ini. Seluruh sistem berkembang bersama untuk kinerja optimal, bukan terjebak dalam isolasi seperti pada silo jaringan sebelumnya. GPU membutuhkan jaringan yang teroptimasi dan tanpa kehilangan untuk menyelesaikan pelatihan AI dalam waktu sesingkat mungkin, dan kemudian model AI yang telah dilatih perlu terhubung ke klaster inferensi AI untuk memungkinkan pengguna akhir mengakses model tersebut. Node komputasi, yang mencakup baik GPU/akselerator AI maupun CPU/komputasi umum, perlu berkomunikasi dan terhubung dengan sistem penyimpanan serta sistem TI lainnya di pusat data yang ada. Tidak ada yang bekerja sendirian. Jaringan bertindak sebagai jaringan penghubung untuk menghubungkan semua titik interaksi tersebut, seperti halnya sistem saraf yang menyediakan jalur antara neuron pada manusia.
Nilai di dalamnya adalah hasil kolektif yang memungkinkan oleh keseluruhan sistem yang terhubung sebagai satu kesatuan, bukan pada komponen individu yang bekerja sendiri. Bagi manusia, nilai datang dari pikiran dan tindakan yang dimungkinkan oleh sistem saraf, bukan hanya neuron-neuron itu saja. Demikian pula, nilai dari Pusat AI adalah output yang dikonsumsi oleh pengguna akhir yang menyelesaikan masalah dengan AI, dimungkinkan oleh klaster pelatihan yang terhubung ke klaster inferensi yang terhubung ke penyimpanan dan sistem TI lainnya, yang terintegrasi ke dalam jaringan tanpa kehilangan sebagai sistem saraf pusat. Pusat AI bersinar dengan menghilangkan silo untuk memungkinkan penyetelan kinerja yang terkoordinasi, pemecahan masalah, dan operasi, dengan jaringan pusat memainkan peran penting dalam menciptakan dan menggerakkan sistem yang terhubung.
Ethernet dalam Skala Besar: Pusat AI
/Images%20(Marketing%20Only)/Blog/JU-Blog-AI-Center.png?width=970&height=467&name=JU-Blog-AI-Center.png)
Arista EOS Menyokong Pusat AI
EOSⓇ adalah sistem operasi terbaik Arista yang mendukung jaringan AI skala besar di dunia, menyatukan semua bagian ekosistem untuk menciptakan Pusat AI yang baru. Jika jaringan adalah sistem saraf dari Pusat AI, maka EOS adalah otak yang menggerakkan sistem saraf tersebut.
Sebuah inovasi baru dari Arista, yang dibangun ke dalam EOS, lebih lanjut memperluas konsep saling terhubung dari Pusat AI dengan lebih erat menghubungkan jaringan ke host yang terhubung sebagai sistem holistik. EOS memperluas kontrol jaringan secara keseluruhan, telemetri, dan karakteristik QoS tanpa kehilangan dari switch jaringan hingga agen EOS jarak jauh yang berjalan di NIC di server/GPU yang terhubung langsung. Agen jarak jauh yang diterapkan pada NIC/server AI ini mengubah switch untuk menjadi pusat dari jaringan AI untuk mengonfigurasi, memantau, dan memperbaiki masalah pada Host AI dan GPU. Ini memungkinkan titik kontrol dan visibilitas yang tunggal dan seragam. Dengan memanfaatkan agen jarak jauh ini, konsistensi konfigurasi termasuk penyetelan lalu lintas end-to-end dapat dipastikan sebagai entitas homogen tunggal. Arista EOS memungkinkan komunikasi Pusat AI untuk pelacakan dan pelaporan perilaku host dan jaringan secara instan. Dengan cara ini, kegagalan dapat diisolasi untuk komunikasi antara EOS yang berjalan di jaringan dan agen jarak jauh pada host. Ini berarti bahwa EOS dapat langsung melaporkan topologi jaringan, memusatkan penemuan topologi dan memanfaatkan konfigurasi dan konstruksi manajemen Arista EOS yang sudah dikenal di seluruh platform Arista Etherlink™ dan mitra-mitranya.
Ekosistem Mitra yang Kaya Termasuk AMD, Broadcom, Intel, dan NVIDIA
Dengan tujuan membangun jaringan AI hyperscale yang kuat dengan waktu penyelesaian pekerjaan terendah, Arista AI Centers menyatukan seluruh ekosistem di Pusat AI baru yang mencakup switch jaringan, NIC, transceiver, kabel, GPU, dan server untuk dikonfigurasi, dikelola, dan dipantau sebagai satu kesatuan. Ini mengurangi TCO (Total Cost of Ownership) dan meningkatkan produktivitas di seluruh domain komputasi atau jaringan. Visi dari Pusat AI adalah langkah pertama untuk memungkinkan interoperabilitas dan manajabilitas yang terbuka dan kohesif antara jaringan AI dan host. Kami tetap setia pada komitmen kami terhadap standar terbuka dengan Arista EOS, memanfaatkan OpenConfig untuk memungkinkan pusat AI.
Kami bangga dapat bermitra dengan rekan-rekan terhormat kami untuk mewujudkan hal ini.
