Kemitraan antara Arista dan Meta telah menjadi kunci dalam mengembangkan solusi jaringan untuk AI, khususnya dengan penerapan Arista 7700R4 Distributed Etherlink Switch (DES) pada kluster AI berbasis Ethernet terbaru milik Meta. Tonggak ini mencerminkan kolaborasi yang dalam dan telah berlangsung lama, dimulai dengan pengembangan bersama sistem Arista 7368X4 minipack 100G pada tahun 2018, diikuti oleh beberapa iterasi sistem yang terinspirasi oleh OCP yang telah diterapkan secara luas.
Perubahan Lanskap Jaringan AI
Lanskap AI mengalami perubahan besar dengan kemunculan model AI besar seperti ChatGPT, yang menyoroti potensi besar dari AI kognitif. Seiring dengan berkembangnya beban kerja AI yang semakin besar dan kompleks, kebutuhan jaringan untuk menangani beban kerja tersebut juga berkembang. Meskipun banyak kebutuhan dasar dari kluster High-Performance Computing (HPC) pada tahun 2008—seperti performa tanpa hambatan, antarmuka berkecepatan tinggi, dan manajemen lalu lintas—masih relevan hingga saat ini, skala sistem ini telah meningkat secara dramatis.
Pada tahun 2010, kluster HPC biasanya menggunakan Ethernet 10G, dengan ratusan node yang terhubung melalui sistem Arista 7500E series. Pada tahun 2024, ini telah berubah menjadi Ethernet 400G, dengan interkoneksi yang bekerja pada 800G, dan kluster AI sekarang terdiri dari ribuan node komputasi, masing-masing dengan beberapa XPU. Perubahan ini menegaskan semakin meningkatnya kebutuhan akan jaringan Ethernet berkecepatan tinggi untuk mendukung aplikasi AI, yang secara efektif menyelesaikan perdebatan antara penggunaan InfiniBand (IB) dan Ethernet.
Menanggapi Permintaan Beban Kerja AI yang Besar
Aplikasi AI modern, terutama model AI berskala besar dan pembelajaran mendalam, memberikan tuntutan yang sangat besar pada jaringan pusat data. Dengan ribuan node komputasi yang masing-masing membutuhkan pertukaran data yang cepat dan efisien, menjadi jelas bahwa memenuhi kebutuhan jaringan untuk infrastruktur sebesar itu dalam satu sistem saja tidak mungkin. Prosesor satu chip atau bahkan sistem multi-chip terbatas oleh kendala fisik seperti ukuran rak jaringan dan jarak antar node komputasi.
Oleh karena itu, jaringan AI berskala besar biasanya menggunakan arsitektur “leaf-spine” multi-tier. Arsitektur ini memungkinkan fleksibilitas tetapi datang dengan tantangan dalam mengelola konfigurasi yang kompleks, termasuk manajemen kemacetan, penyetelan kinerja, dan penyeimbangan beban. Menanggapi tantangan ini, vendor, bersama pelanggan seperti Meta, bekerja sama melalui Ultra Ethernet Consortium untuk meningkatkan penanganan transportasi tanpa kehilangan (lossless), distribusi paket yang efisien, dan pengendalian kemacetan di jaringan multi-tier yang dirancang untuk beban kerja AI.
Pendekatan Distributed Etherlink Switch (DES)
Pengenalan platform Arista 7700R4 DES menandai perubahan signifikan dalam jaringan AI. Meskipun secara fisik mungkin terlihat mirip dengan jaringan leaf/spine dua-tier tradisional, sistem DES menawarkan pendekatan yang sangat berbeda. DES menyediakan penerusan satu hop dengan lapisan spine fabric yang efisien, memastikan skalabilitas dan kinerja yang tinggi.
Apa yang membedakan DES adalah desainnya yang dirancang untuk menangani beban kerja AI yang sangat besar tanpa memerlukan penyetelan ekstensif yang biasanya diperlukan pada sistem multi-tier tradisional. 7700R4 DES mengintegrasikan Virtual Output Queues (VoQ) khusus untuk menampung aliran data intensif, penyeimbangan beban yang 100% efisien, dan kemampuan pengalihan cepat (fast failover). Fitur-fitur ini menghilangkan kebutuhan untuk konfigurasi yang rumit dan memberikan solusi yang andal untuk sistem AI berskala besar.
Peran Meta dalam Pembentukan Solusi
Masukan dari Meta sangat penting dalam pengembangan 7700R4 DES, memanfaatkan pengalaman mereka dengan sistem 7800R3 sebelumnya. Dengan pengetahuan mendalam mereka tentang beban kerja AI dan jaringan, Meta mengidentifikasi kebutuhan akan solusi skala lebih besar yang dapat berkembang dengan lancar ke 800G, sambil tetap mempertahankan manfaat dari arsitektur R-Series Arista.
Sebagai kesimpulan, penerapan Arista 7700R4 DES dalam kluster AI Meta merupakan langkah maju yang signifikan dalam mengatasi tantangan jaringan yang ditimbulkan oleh model AI besar. Kolaborasi ini menunjukkan kekuatan kemitraan antara Meta dan Arista, karena kedua perusahaan terus berinovasi dan berkembang untuk memenuhi tuntutan aplikasi AI dan pembelajaran mesin yang semakin berkembang.
7700R4 berperilaku seperti satu sistem, dengan buffer dalam khusus untuk memastikan transportasi tanpa kehilangan di seluruh jaringan AI berbasis Ethernet. DES tidak bergantung pada topologi, siap untuk UEC, dioptimalkan untuk beban kerja pelatihan dan inferensi, dengan arsitektur yang 100% efisien, dan menawarkan telemetri yang kaya serta fitur cerdas yang dibutuhkan oleh Pusat AI modern.
Keunggulan Utama DES
| Advantage | Description | Impact |
| Accelerator Agnostic | DES works with any XPU, workload, and vertical application. | Future-proof solution that is flexible with no lock-ins. |
| NIC Agnostic | DES works with all high-speed networks and delivers a lossless, fully scheduled solution with packet spraying without needing a dedicated smart NIC. | No special NICs are required, with substantial cost and power savings. |
| Topology Agnostic | DES accommodates commonly deployed 2-tier ToR and rail designs simultaneously. | Maximizes performance and reduces the cost and power of optics and fibers. |
| Ultra Ethernet Ready | DES works with or without UEC enhancements. | Future-proof solution, flexible – no need to wait. |
| No Special Tuning Required | DES is 100% efficient out of the box based on the R-Series VoQ and cell-based fabric architecture. | Saves time and maximizes XPU investment by accelerating deployment. |
| Fast Hardware Failover | DES provides 100ms link failure detection and reroute. | No active protocol failovers, no subnet manager or controller needed. |
| Built for LPO | All DES ports support Linear Drive Pluggable Optics. | This allows a 50% or greater power reduction on leaf-spine links. |
| Smart features for AI | DES provides native visibility, advanced traffic management, and NIC integration. | With a deep understanding of cluster performance and setting, troubleshooting is easy. |
Ringkasan
Meningkatnya kebutuhan Pusat AI telah menciptakan tuntutan yang lebih besar pada jaringan terbuka modern. Portofolio Etherlink Arista menawarkan pilihan dalam bentuk faktor, mulai dari sistem chip tunggal hingga jaringan multi-chip modular multi-tier yang dapat diskalakan hingga ribuan port XPU. Arista 7700R4 Distributed Etherlink Switch menawarkan kesederhanaan dan skalabilitas dengan solusi yang hemat biaya dan efisien daya untuk Pusat AI. Kami sangat senang dengan kolaborasi rekayasa yang erat dengan Meta untuk era baru AI.
