如果把 AI 資料中心想像成一個城市,那麼「連接技術」就是城市的道路。
問題來了:未來 AI 城市的道路,到底是 銅線高速公路,還是 光纖超導軌道?
最近這個問題突然變得很熱門,因為兩個算力世界的巨頭站在不同陣營:
-
Broadcom:繼續強化 銅線 SerDes 技術
-
NVIDIA:All in CPO(Co-Packaged Optics)與矽光子
甚至 NVIDIA 還砸了 40 億美元投資
Lumentum 與 Coherent,
等於直接把「光通訊供應鏈」綁在 AI 戰車上。
於是科技圈就開始吵了:
未來是 光進銅退?
還是 銅進光退?
答案其實是:
兩邊都沒錯,但戰場不一樣。
今天我們就來聊聊這場
AI 資料中心的「銅光大戰」。
一、為什麼 AI 需要這麼多「連接」?
先理解一件事:
AI 的瓶頸早就不是算力,而是 資料傳輸速度。
你可以想像:
GPU 是一群天才工程師
但如果他們之間只能用 郵局寄信溝通
再聰明也沒用。
所以 AI 集群其實是三層網路:
1️⃣ GPU 與 GPU 之間(機架內)
2️⃣ 機架與機架之間(資料中心內)
3️⃣ 資料中心與資料中心之間
不同距離
適合的技術完全不同。
而這也是
Broadcom 與 NVIDIA 分歧的核心原因。
二、Broadcom:銅線其實還沒死
先看 Broadcom。
Broadcom 的核心武器是:
SerDes(Serializer / Deserializer)
簡單說就是:
把大量資料壓縮成高速訊號在一條線上跑
目前 Broadcom 的技術已經從
200G → 400G
而且還在往更高頻率衝。
很多人會問:
400G 的銅線還跑得動?
答案是:
短距離完全沒問題。
原因很簡單:
銅線有三個巨大優勢。
1 成本超低
光模組很貴。
一個高速光模組
動不動就
500~2000 美元
但銅線 DAC
可能 50~100 美元
當你有 10萬條連線時
成本差距會非常可怕。
2 功耗低
光模組需要:
-
雷射
-
調變器
-
光電轉換
每條線都要耗電。
銅線則只是電訊號。
在 AI 資料中心
電力就是命。
3 延遲更低
光模組需要:
電 → 光 → 電
這過程會增加延遲。
而銅線:
直接電訊號
更快。
所以 Broadcom 的邏輯其實很清楚:
機架內距離很短,為什麼不用便宜又快的銅?
於是它拼命強化 SerDes 技術。
這就是
銅派的核心思想。
三、NVIDIA:銅線遲早會撞牆
但 **NVIDIA**想的事情更遠。
因為 AI cluster 正在瘋狂變大。
以前:
1 個機架
可能 8 顆 GPU
現在:
1 個 cluster = 幾萬顆 GPU
問題來了:
銅線有一個致命缺點:
距離越長,訊號衰減越嚴重
大概幾公尺就開始痛苦。
當速度到
800G
1.6T
3.2T
銅線會變成:
高頻噪音製造機
所以 NVIDIA 直接選擇另一條路:
光。
四、CPO:把光直接放進晶片
NVIDIA 推的技術叫:
CPO(Co-Packaged Optics)
意思是:
把光模組直接放在交換器晶片旁邊
以前是這樣:
Switch → PCB → 光模組
現在變成:
Switch + 光模組 一起封裝
好處很多。
1 功耗大幅下降
資料傳輸距離變短
訊號損耗降低
功耗可以降 30%~40%
2 頻寬暴增
未來網路速度可能到
1.6T / 3.2T
銅線很難撐。
但光纖:
基本沒有頻寬極限。
3 散熱更容易
高速 SerDes 其實很熱。
光學連接
可以減少很多電路負擔。
所以 NVIDIA 做了一件很霸氣的事:
投資 40 億美元
綁定兩家光通訊公司:
-
Lumentum
-
Coherent
這代表:
AI 的未來
光通訊是核心基礎建設。
五、真正的戰場:Scale-Up vs Scale-Out
這場「銅光之爭」
其實是兩個不同場景。
Scale-Up(機架內)
GPU 在同一機架內。
距離:
1~3 公尺
在這裡:
銅線幾乎無敵
原因:
-
成本最低
-
延遲最低
-
功耗最低
所以
Broadcom 是對的。
Scale-Out(機架外)
不同機架互連。
距離:
10 公尺 → 100 公尺
甚至
跨資料中心。
這時候:
銅線會開始崩潰。
所以
光纖必須登場。
這就是
NVIDIA 的世界。
六、未來會不會「光取代銅」?
很多人喜歡問:
最後會不會只剩光?
短期答案是:
不會。
原因很簡單:
工程世界不追求「浪漫」
只追求 成本最佳化。
所以未來架構很可能是:
機架內
銅線
機架之間
光纖
超大型 AI cluster
CPO + 矽光子
換句話說:
不是光取代銅
而是:
銅守內城,光打外戰。
七、矽光子的真正野心
但事情其實還沒結束。
矽光子的終極目標是:
讓光直接在晶片內傳輸
也就是:
CPU / GPU / Memory
全部用光互連。
如果這一天真的來了:
資料中心會變成
光學電腦。
而不是現在的電子電腦。
但這件事至少還要:
10 年。
八、為什麼 NVIDIA 這麼積極?
因為 NVIDIA 的核心是:
GPU 叢集。
AI 模型越大
GPU 數量越多。
而 GPU 之間的互連速度
直接決定訓練效率。
如果互連慢:
GPU 就會
排隊等資料。
就像一群廚師
只有一條菜刀。
所以 NVIDIA 的邏輯很簡單:
網路速度 = AI 算力
這也是為什麼
它會全力押注光。
九、未來誰會贏?
如果一定要說輸贏:
其實答案是:
兩邊都會贏。
因為 AI 資料中心需要的是:
混合架構。
Broadcom 贏在:
-
SerDes
-
Switch ASIC
-
機架內高速連接
NVIDIA 贏在:
-
GPU cluster
-
AI network
-
CPO
所以這場戰爭
比較像是:
分工合作,而不是你死我活。
十、最後的答案:光進銅退?還是銅進光退?
真正的答案其實是:
光進,但銅不退。
銅會守住:
-
短距離
-
低成本
-
低延遲
光會負責:
-
長距離
-
超高頻寬
-
AI cluster
未來的 AI 資料中心
會變成一個很奇妙的地方:
裡面同時存在
銅
光
矽光子
CPO
像一個
交通系統。
有公車
有捷運
有高鐵
各跑各的路。
結語
所以當你下次看到新聞在問:
AI 時代是「光進銅退」嗎?
你可以很淡定地回答:
不是。
真正的劇情其實是:
銅在機架內加班
光在機架外爆肝。
而 AI 資料中心的工程師
則在旁邊看著這一切
一邊喝咖啡
一邊默默祈禱:
「拜託不要再升級到 3.2T 了…
我真的快接不動了。」

沒有留言:
張貼留言