Pada tahun 1984, Sun terkenal karena menyatakan, “Jaringan adalah Komputer.” Empat puluh tahun kemudian, kita melihat siklus ini menjadi kenyataan lagi dengan munculnya AI. Sifat kolektif dari model pelatihan AI bergantung pada jaringan yang lossless dan sangat tersedia untuk menghubungkan setiap GPU di dalam klaster satu sama lain dan memungkinkan kinerja puncak. Jaringan juga menghubungkan model AI yang telah dilatih kepada pengguna akhir dan sistem lainnya di pusat data seperti penyimpanan, memungkinkan sistem untuk menjadi lebih dari sekadar jumlah dari bagian-bagiannya. Akibatnya, pusat data sedang berkembang menjadi Pusat AI baru di mana jaringan menjadi pusat manajemen AI. Trends in AI Untuk memahami hal ini, mari kita pertama-tama melihat ledakan dataset AI. Saat ukuran model bahasa besar (LLM) meningkat untuk pelatihan AI, paralelisasi data menjadi tak terhindarkan. Jumlah GPU yang diperlukan untuk melatih model-model ini yang lebih besar tidak dapat mengimbangi jumlah parameter besar dan ukuran dataset. Paralelisasi AI, baik itu data, model, atau pipeline, hanya efektif sebagaimana jaringan yang menghubungkan GPU-gpu tersebut. GPU harus bertukar dan menghitung gradien global untuk menyesuaikan bobot model. Untuk melakukannya, komponen-komponen yang berbeda dari teka-teki AI harus bekerja secara bersatu sebagai satu Pusat AI tunggal: GPU, NIC (Network Interface Controller), aksesori penghubung seperti optik/kabel, sistem penyimpanan, dan yang paling penting adalah jaringan di tengah-tengah semuanya. Today’s Network Silos Ada banyak alasan dan penyebab kinerja yang kurang optimal di pusat data berbasis AI saat ini. Pertama dan terutama, jaringan AI menuntut Kualitas Layanan yang konsisten dari ujung ke ujung untuk transportasi tanpa kehilangan data. Ini berarti bahwa NIC (Network Interface Controller) di server, serta platform jaringan, harus memiliki penanda/pemetaan yang seragam dan kontrol yang akurat serta pemberitahuan kejenuhan (PFC & ECN dengan DCQCN) serta ambang batas penggunaan buffer yang sesuai sehingga setiap komponen dapat bereaksi terhadap peristiwa jaringan seperti kejenuhan dengan cepat, memastikan pengirim dapat mengontrol laju aliran lalu lintas secara tepat untuk menghindari penurunan paket. Saat ini, NIC dan perangkat jaringan dikonfigurasi secara terpisah. Ketidakcocokan konfigurasi apa pun dapat sangat sulit untuk didebug di jaringan AI yang besar. Salah satu alasan umum untuk kinerja yang buruk adalah kegagalan komponen. Server, GPU, NIC, transceiver, kabel, switch, dan router dapat mengalami kegagalan yang mengakibatkan pengembalian ke N – atau bahkan lebih buruk lagi, dapat menahan seluruh pekerjaan, yang mengakibatkan hukuman kinerja yang besar. Dan probabilitas kegagalan komponen menjadi lebih jelas saat ukuran kluster bertambah. Secara tradisional, perpustakaan komunikasi kolektif (CCL) dari vendor GPU akan mencoba menemukan topologi jaringan yang mendasarinya menggunakan teknik lokalitas, tetapi ketidaksesuaian antara topologi yang ditemukan dan yang sebenarnya dapat secara serius mempengaruhi waktu penyelesaian pekerjaan pelatihan AI. Aspek lain dari jaringan AI adalah bahwa sebagian besar operator memiliki tim terpisah yang merancang dan mengelola infrastruktur komputasi dan jaringan yang berbeda. Hal ini melibatkan penggunaan sistem orkestrasi yang berbeda untuk konfigurasi, validasi, pemantauan, dan peningkatan. Kurangnya titik kontrol dan visibilitas tunggal membuat sangat sulit untuk mengidentifikasi dan mengisolasi masalah kinerja. Semua masalah ini diperparah dengan bertambahnya ukuran kluster AI. Mudah untuk melihat bagaimana silo-silo ini dapat tumbuh lebih dalam untuk memperburuk masalah. Operasi terbagi antara komputasi versus jaringan dapat menyebabkan tantangan dalam menghubungkan teknologi-teknologi tersebut bersama untuk kinerja optimal, serta dalam menangani penurunan kinerja atau kegagalan langsung. Jaringan itu sendiri dapat terbagi menjadi pulau-pulau kluster InfiniBand HPC yang berbeda dari pusat data berbasis Ethernet. Hal ini dapat membatasi perlindungan investasi, menimbulkan tantangan dalam melewati data antara pulau-pulau tersebut, memaksa penggunaan gateway yang canggung, serta dalam menghubungkan komputasi ke penyimpanan dan pengguna akhir. Fokus hanya pada satu teknologi (seperti komputasi, misalnya) secara terpisah dari semua aspek solusi holistik mengabaikan sifat saling tergantung dan terhubungnya teknologi-teknologi seperti yang ditunjukkan di bawah ini. Kebangkitan Pusat AI Baru Pusat AI baru mengakui dan merangkul keseluruhan dari ekosistem modern yang saling bergantung ini. Seluruh sistem naik bersama untuk kinerja optimal daripada terdampar dalam isolasi seperti pada silo jaringan sebelumnya. GPU membutuhkan jaringan yang dioptimalkan dan tanpa kehilangan data untuk menyelesaikan pelatihan AI dalam waktu sesingkat mungkin, dan kemudian model AI yang terlatih tersebut perlu terhubung ke klaster inferensi AI untuk memungkinkan pengguna akhir mengajukan pertanyaan kepada model. Node komputasi, yang mencakup baik GPU / akselerator AI maupun CPU / komputasi umum, perlu berkomunikasi dengan dan terhubung ke sistem penyimpanan serta sistem IT lainnya yang ada di pusat data yang sudah ada. Tidak ada yang bekerja sendiri-sendiri. Jaringan bertindak sebagai jaringan penghubung untuk memicu semua titik interaksi tersebut, sama seperti sistem saraf menyediakan jalur antara neuron dalam manusia. Nilai dari setiap komponen adalah hasil kolektif yang dimungkinkan oleh sistem total yang terhubung sebagai satu kesatuan, bukan dalam komponen-komponen individu yang beroperasi sendiri. Bagi manusia, nilai datang dari pikiran dan tindakan yang dimungkinkan oleh sistem saraf, bukan hanya dari neuron secara individual. Demikian pula, nilai dari sebuah Pusat AI adalah output yang dikonsumsi oleh pengguna akhir untuk memecahkan masalah dengan AI, dimungkinkan oleh klaster pelatihan yang terhubung ke klaster inferensi yang terhubung ke sistem penyimpanan dan sistem IT lainnya, yang terintegrasi dalam jaringan tanpa kehilangan data sebagai sistem saraf pusat. Pusat AI bersinar dengan menghilangkan silo untuk memungkinkan penyetelan kinerja yang terkoordinasi, pemecahan masalah, dan operasi, dengan jaringan pusat memainkan peran penting untuk menciptakan dan menggerakkan sistem yang terhubung tersebut. Arista EOS Menguasai Pusat AI EOSⓇ adalah sistem operasi kelas terbaik dari Arista yang menggerakkan jaringan AI scale-out terbesar di dunia, menggabungkan semua bagian dari ekosistem untuk menciptakan Pusat AI baru. Jika jaringan adalah sistem saraf dari Pusat AI, maka EOS adalah otak yang mengendalikan sistem saraf tersebut. Inovasi baru dari Arista, yang terintegrasi dalam EOS, lebih lanjut memperluas konsep terhubung dari Pusat AI dengan lebih erat menghubungkan jaringan ke host terhubung sebagai sistem holistik. EOS memperluas kontrol, telemetri, dan karakteristik QoS tanpa kehilangan data secara luas dari switch jaringan hingga agen EOS jarak jauh yang berjalan pada NIC di server/GPU yang terhubung langsung. Agen jarak jauh yang diterapkan pada NIC/server AI mengubah switch untuk menjadi pusat jaringan AI untuk mengonfigurasi, memantau, dan men-debug masalah pada Host dan GPU AI. Hal ini memungkinkan titik kontrol dan visibilitas tunggal dan seragam. Dengan memanfaatkan agen jarak…