Kemitraan antara Arista dan Meta telah menjadi kunci dalam mengembangkan solusi jaringan untuk AI, khususnya dengan penerapan Arista 7700R4 Distributed Etherlink Switch (DES) pada kluster AI berbasis Ethernet terbaru milik Meta. Tonggak ini mencerminkan kolaborasi yang dalam dan telah berlangsung lama, dimulai dengan pengembangan bersama sistem Arista 7368X4 minipack 100G pada tahun 2018, diikuti oleh beberapa iterasi sistem yang terinspirasi oleh OCP yang telah diterapkan secara luas. Perubahan Lanskap Jaringan AI Lanskap AI mengalami perubahan besar dengan kemunculan model AI besar seperti ChatGPT, yang menyoroti potensi besar dari AI kognitif. Seiring dengan berkembangnya beban kerja AI yang semakin besar dan kompleks, kebutuhan jaringan untuk menangani beban kerja tersebut juga berkembang. Meskipun banyak kebutuhan dasar dari kluster High-Performance Computing (HPC) pada tahun 2008—seperti performa tanpa hambatan, antarmuka berkecepatan tinggi, dan manajemen lalu lintas—masih relevan hingga saat ini, skala sistem ini telah meningkat secara dramatis. Pada tahun 2010, kluster HPC biasanya menggunakan Ethernet 10G, dengan ratusan node yang terhubung melalui sistem Arista 7500E series. Pada tahun 2024, ini telah berubah menjadi Ethernet 400G, dengan interkoneksi yang bekerja pada 800G, dan kluster AI sekarang terdiri dari ribuan node komputasi, masing-masing dengan beberapa XPU. Perubahan ini menegaskan semakin meningkatnya kebutuhan akan jaringan Ethernet berkecepatan tinggi untuk mendukung aplikasi AI, yang secara efektif menyelesaikan perdebatan antara penggunaan InfiniBand (IB) dan Ethernet. Menanggapi Permintaan Beban Kerja AI yang Besar Aplikasi AI modern, terutama model AI berskala besar dan pembelajaran mendalam, memberikan tuntutan yang sangat besar pada jaringan pusat data. Dengan ribuan node komputasi yang masing-masing membutuhkan pertukaran data yang cepat dan efisien, menjadi jelas bahwa memenuhi kebutuhan jaringan untuk infrastruktur sebesar itu dalam satu sistem saja tidak mungkin. Prosesor satu chip atau bahkan sistem multi-chip terbatas oleh kendala fisik seperti ukuran rak jaringan dan jarak antar node komputasi. Oleh karena itu, jaringan AI berskala besar biasanya menggunakan arsitektur “leaf-spine” multi-tier. Arsitektur ini memungkinkan fleksibilitas tetapi datang dengan tantangan dalam mengelola konfigurasi yang kompleks, termasuk manajemen kemacetan, penyetelan kinerja, dan penyeimbangan beban. Menanggapi tantangan ini, vendor, bersama pelanggan seperti Meta, bekerja sama melalui Ultra Ethernet Consortium untuk meningkatkan penanganan transportasi tanpa kehilangan (lossless), distribusi paket yang efisien, dan pengendalian kemacetan di jaringan multi-tier yang dirancang untuk beban kerja AI. Pendekatan Distributed Etherlink Switch (DES) Pengenalan platform Arista 7700R4 DES menandai perubahan signifikan dalam jaringan AI. Meskipun secara fisik mungkin terlihat mirip dengan jaringan leaf/spine dua-tier tradisional, sistem DES menawarkan pendekatan yang sangat berbeda. DES menyediakan penerusan satu hop dengan lapisan spine fabric yang efisien, memastikan skalabilitas dan kinerja yang tinggi. Apa yang membedakan DES adalah desainnya yang dirancang untuk menangani beban kerja AI yang sangat besar tanpa memerlukan penyetelan ekstensif yang biasanya diperlukan pada sistem multi-tier tradisional. 7700R4 DES mengintegrasikan Virtual Output Queues (VoQ) khusus untuk menampung aliran data intensif, penyeimbangan beban yang 100% efisien, dan kemampuan pengalihan cepat (fast failover). Fitur-fitur ini menghilangkan kebutuhan untuk konfigurasi yang rumit dan memberikan solusi yang andal untuk sistem AI berskala besar. Peran Meta dalam Pembentukan Solusi Masukan dari Meta sangat penting dalam pengembangan 7700R4 DES, memanfaatkan pengalaman mereka dengan sistem 7800R3 sebelumnya. Dengan pengetahuan mendalam mereka tentang beban kerja AI dan jaringan, Meta mengidentifikasi kebutuhan akan solusi skala lebih besar yang dapat berkembang dengan lancar ke 800G, sambil tetap mempertahankan manfaat dari arsitektur R-Series Arista. Sebagai kesimpulan, penerapan Arista 7700R4 DES dalam kluster AI Meta merupakan langkah maju yang signifikan dalam mengatasi tantangan jaringan yang ditimbulkan oleh model AI besar. Kolaborasi ini menunjukkan kekuatan kemitraan antara Meta dan Arista, karena kedua perusahaan terus berinovasi dan berkembang untuk memenuhi tuntutan aplikasi AI dan pembelajaran mesin yang semakin berkembang. 7700R4 berperilaku seperti satu sistem, dengan buffer dalam khusus untuk memastikan transportasi tanpa kehilangan di seluruh jaringan AI berbasis Ethernet. DES tidak bergantung pada topologi, siap untuk UEC, dioptimalkan untuk beban kerja pelatihan dan inferensi, dengan arsitektur yang 100% efisien, dan menawarkan telemetri yang kaya serta fitur cerdas yang dibutuhkan oleh Pusat AI modern. Keunggulan Utama DES Advantage Description Impact Accelerator Agnostic DES works with any XPU, workload, and vertical application. Future-proof solution that is flexible with no lock-ins. NIC Agnostic DES works with all high-speed networks and delivers a lossless, fully scheduled solution with packet spraying without needing a dedicated smart NIC. No special NICs are required, with substantial cost and power savings. Topology Agnostic DES accommodates commonly deployed 2-tier ToR and rail designs simultaneously. Maximizes performance and reduces the cost and power of optics and fibers. Ultra Ethernet Ready DES works with or without UEC enhancements. Future-proof solution, flexible – no need to wait. No Special Tuning Required DES is 100% efficient out of the box based on the R-Series VoQ and cell-based fabric architecture. Saves time and maximizes XPU investment by accelerating deployment. Fast Hardware Failover DES provides 100ms link failure detection and reroute. No active protocol failovers, no subnet manager or controller needed. Built for LPO All DES ports support Linear Drive Pluggable Optics. This allows a 50% or greater power reduction on leaf-spine links. Smart features for AI DES provides native visibility, advanced traffic management, and NIC integration. With a deep understanding of cluster performance and setting, troubleshooting is easy. Ringkasan Meningkatnya kebutuhan Pusat AI telah menciptakan tuntutan yang lebih besar pada jaringan terbuka modern. Portofolio Etherlink Arista menawarkan pilihan dalam bentuk faktor, mulai dari sistem chip tunggal hingga jaringan multi-chip modular multi-tier yang dapat diskalakan hingga ribuan port XPU. Arista 7700R4 Distributed Etherlink Switch menawarkan kesederhanaan dan skalabilitas dengan solusi yang hemat biaya dan efisien daya untuk Pusat AI. Kami sangat senang dengan kolaborasi rekayasa yang erat dengan Meta untuk era baru AI.
Month: December 2024
Era Baru Pusat AI
Pada tahun 1984, Sun terkenal dengan pernyataannya, “Jaringan adalah Komputer.” Empat puluh tahun kemudian, kita melihat siklus ini terulang kembali dengan munculnya AI. Sifat kolektif dari model pelatihan AI bergantung pada jaringan yang tanpa kehilangan dan sangat tersedia untuk menghubungkan setiap GPU dalam cluster secara mulus dan memungkinkan kinerja puncak. Jaringan juga menghubungkan model AI yang telah dilatih ke pengguna akhir dan sistem lain di pusat data seperti penyimpanan, memungkinkan sistem untuk menjadi lebih dari sekadar jumlah bagiannya. Akibatnya, pusat data berkembang menjadi pusat AI baru di mana jaringan menjadi pusat dari manajemen AI. Tren dalam AI Untuk memahami hal ini, mari kita pertama-tama melihat ledakan dataset AI. Seiring dengan peningkatan ukuran model bahasa besar (LLM) untuk pelatihan AI, paralelisasi data menjadi hal yang tak terhindarkan. Jumlah GPU yang dibutuhkan untuk melatih model yang lebih besar tidak dapat mengikuti jumlah parameter yang sangat besar dan ukuran dataset. Paralelisasi AI, baik data, model, atau pipeline, hanya seefektif jaringan yang menghubungkan GPU-GPU tersebut. GPU harus saling bertukar dan menghitung gradien global untuk menyesuaikan bobot model. Untuk itu, berbagai komponen dari teka-teki AI harus bekerja secara kohesif sebagai satu pusat AI: GPU, NIC, aksesori penghubung seperti optik/kabel, sistem penyimpanan, dan yang paling penting, jaringan yang ada di tengah-tengah semuanya. Ada banyak alasan dan penyebab kinerja suboptimal di pusat data berbasis AI saat ini. Yang paling utama, jaringan AI membutuhkan Quality of Service end-to-end yang konsisten untuk transportasi tanpa kehilangan. Ini berarti bahwa NIC di server, serta platform jaringan, harus memiliki penanda/pemetaan seragam dan kontrol yang akurat serta pemberitahuan kemacetan (PFC & ECN dengan DCQCN), serta ambang batas pemanfaatan buffer yang sesuai agar setiap komponen dapat merespons kejadian jaringan seperti kemacetan dengan cepat, memastikan pengirim dapat mengontrol laju aliran lalu lintas secara tepat untuk menghindari kehilangan paket. Saat ini, NIC dan perangkat jaringan dikonfigurasi secara terpisah. Ketidaksesuaian konfigurasi apa pun bisa sangat sulit untuk dipahami di jaringan AI besar. Salah satu alasan umum untuk kinerja yang buruk adalah kegagalan komponen. Server, GPU, NIC, transceiver, kabel, switch, dan router dapat gagal yang mengakibatkan go-back N – atau bahkan lebih buruk, dapat menghentikan seluruh pekerjaan, yang menyebabkan penalti kinerja yang besar. Dan probabilitas kegagalan komponen menjadi semakin besar seiring bertambahnya ukuran cluster. Secara tradisional, perpustakaan komunikasi kolektif (CCL) dari vendor GPU akan mencoba menemukan topologi jaringan yang mendasari menggunakan teknik lokalisasi, tetapi perbedaan antara topologi yang ditemukan dan yang sebenarnya dapat sangat mempengaruhi waktu penyelesaian pekerjaan pelatihan AI. Aspek lain dari jaringan AI adalah bahwa sebagian besar operator memiliki tim terpisah yang merancang dan mengelola infrastruktur komputasi vs. jaringan yang berbeda. Ini melibatkan penggunaan sistem orkestrasi yang berbeda untuk konfigurasi, validasi, pemantauan, dan pembaruan. Kurangnya satu titik kontrol dan visibilitas membuatnya sangat sulit untuk mengidentifikasi dan menglokalisasi masalah kinerja. Semua masalah ini diperburuk seiring dengan bertambahnya ukuran cluster AI. Sangat mudah untuk melihat bagaimana silo ini bisa semakin dalam, memperburuk masalah. Pemisahan operasi antara komputasi dan jaringan dapat menyebabkan tantangan dalam menghubungkan teknologi-teknologi ini untuk kinerja optimal, serta menyebabkan keterlambatan dalam mendiagnosis dan menyelesaikan penurunan kinerja atau kegagalan total. Jaringan itu sendiri bisa terpecah menjadi pulau-pulau cluster InfiniBand HPC yang terpisah dari pusat data berbasis Ethernet. Hal ini pada gilirannya dapat membatasi perlindungan investasi, menyebabkan tantangan dalam mentransfer data antar pulau tersebut, memaksa penggunaan gateway yang canggung, dan dalam menghubungkan komputasi ke penyimpanan dan pengguna akhir. Fokus pada salah satu teknologi (seperti komputasi, misalnya) secara terpisah dari semua aspek solusi holistik mengabaikan sifat saling bergantung dan saling terhubung dari teknologi-teknologi tersebut seperti yang ditunjukkan di bawah ini. Silo Jaringan saat ini Bangkitnya Pusat AI Baru Pusat AI baru mengakui dan menerima keseluruhan ekosistem modern yang saling bergantung ini. Seluruh sistem berkembang bersama untuk kinerja optimal, bukan terjebak dalam isolasi seperti pada silo jaringan sebelumnya. GPU membutuhkan jaringan yang teroptimasi dan tanpa kehilangan untuk menyelesaikan pelatihan AI dalam waktu sesingkat mungkin, dan kemudian model AI yang telah dilatih perlu terhubung ke klaster inferensi AI untuk memungkinkan pengguna akhir mengakses model tersebut. Node komputasi, yang mencakup baik GPU/akselerator AI maupun CPU/komputasi umum, perlu berkomunikasi dan terhubung dengan sistem penyimpanan serta sistem TI lainnya di pusat data yang ada. Tidak ada yang bekerja sendirian. Jaringan bertindak sebagai jaringan penghubung untuk menghubungkan semua titik interaksi tersebut, seperti halnya sistem saraf yang menyediakan jalur antara neuron pada manusia. Nilai di dalamnya adalah hasil kolektif yang memungkinkan oleh keseluruhan sistem yang terhubung sebagai satu kesatuan, bukan pada komponen individu yang bekerja sendiri. Bagi manusia, nilai datang dari pikiran dan tindakan yang dimungkinkan oleh sistem saraf, bukan hanya neuron-neuron itu saja. Demikian pula, nilai dari Pusat AI adalah output yang dikonsumsi oleh pengguna akhir yang menyelesaikan masalah dengan AI, dimungkinkan oleh klaster pelatihan yang terhubung ke klaster inferensi yang terhubung ke penyimpanan dan sistem TI lainnya, yang terintegrasi ke dalam jaringan tanpa kehilangan sebagai sistem saraf pusat. Pusat AI bersinar dengan menghilangkan silo untuk memungkinkan penyetelan kinerja yang terkoordinasi, pemecahan masalah, dan operasi, dengan jaringan pusat memainkan peran penting dalam menciptakan dan menggerakkan sistem yang terhubung. Ethernet dalam Skala Besar: Pusat AI Arista EOS Menyokong Pusat AI EOSⓇ adalah sistem operasi terbaik Arista yang mendukung jaringan AI skala besar di dunia, menyatukan semua bagian ekosistem untuk menciptakan Pusat AI yang baru. Jika jaringan adalah sistem saraf dari Pusat AI, maka EOS adalah otak yang menggerakkan sistem saraf tersebut. Sebuah inovasi baru dari Arista, yang dibangun ke dalam EOS, lebih lanjut memperluas konsep saling terhubung dari Pusat AI dengan lebih erat menghubungkan jaringan ke host yang terhubung sebagai sistem holistik. EOS memperluas kontrol jaringan secara keseluruhan, telemetri, dan karakteristik QoS tanpa kehilangan dari switch jaringan hingga agen EOS jarak jauh yang berjalan di NIC di server/GPU yang terhubung langsung. Agen jarak jauh yang diterapkan pada NIC/server AI ini mengubah switch untuk menjadi pusat dari jaringan AI untuk mengonfigurasi, memantau, dan memperbaiki masalah pada Host AI dan GPU. Ini memungkinkan titik kontrol dan visibilitas yang tunggal dan seragam. Dengan memanfaatkan agen jarak jauh ini, konsistensi konfigurasi termasuk penyetelan lalu lintas end-to-end dapat dipastikan sebagai entitas homogen tunggal. Arista EOS memungkinkan komunikasi…