IBM加州研究院實驗室的一款新芯片原型,醞釀已久,有可能顛覆人工智能的有效使用方式和地點。

IBM 推出高能效 NorthPole 機器學習處理器

我們正處于人工智能的寒武紀大爆發之中。在過去的十年中,人工智能已經從理論和小型測試發展到企業級用例。但是,用于運行AI系統的硬件雖然越來越強大,但在設計時并沒有考慮到當今的AI。隨著人工智能系統的規模擴大,成本飆升。摩爾定律,即處理器電路密度每年翻一番的理論,已經放緩。

但是,IBM研究院位于加利福尼亞州阿爾馬登的實驗室經過近二十年的新研究,有可能徹底改變我們如何有效地擴展強大的人工智能硬件系統。

自半導體工業誕生以來,計算機芯片主要遵循相同的基本結構,其中處理單元和存儲待處理信息的存儲器是離散存儲的。雖然這種結構允許更簡單的設計,這些設計幾十年來能夠很好地擴展,但它創造了所謂的馮諾依曼瓶頸,在這種瓶頸中,需要時間和精力在內存、處理和芯片內的任何其他設備之間不斷來回打亂數據。IBM研究院的Dharmendra Modha及其同事的工作旨在改變這種狀況,從大腦的計算方式中汲取靈感。“它開辟了一條與馮·諾依曼架構完全不同的道路,”Modha說。

在過去的八年里,Modha一直在研究一種用于神經推理的新型數字AI芯片,他稱之為NorthPole。它是TrueNorth的延伸,TrueNorth是Modha在2014年之前研究的最后一個大腦啟發芯片。在流行的ResNet-50圖像識別和YOLOv4對象檢測模型的測試中,新的原型設備展示了比目前市場上任何其他芯片更高的能效,更高的空間效率和更低的延遲,并且比TrueNorth快約4,000倍。

NorthPole芯片的第一組有希望的結果今天發表在《科學》雜志上。根據Modha的說法,NorthPole是芯片架構的突破,在能源,空間和時間效率方面提供了巨大的改進。使用ResNet-50型號作為基準,NorthPole比普通的12納米GPU和14納米CPU效率高得多。(NorthPole本身建立在12納米節點處理技術之上。在這兩種情況下,當涉及到每焦耳所需功率解釋的幀數時,NorthPole 的能源效率都提高了 25 倍。NorthPole 在延遲以及計算所需的空間方面也表現出色,就每十億個晶體管每秒解釋的幀而言。根據Modha的說法,在ResNet-50上,NorthPole的性能優于所有主要的流行架構 - 即使是那些使用更先進技術工藝的架構,例如使用4納米工藝實現的GPU。

它是如何以比現有芯片更高的效率進行計算的?與NorthPole的最大區別之一是設備的所有內存都在芯片本身上,而不是單獨連接。如果沒有馮諾依曼瓶頸,該芯片可以比市場上已有的其他芯片更快地進行AI推理。NorthPole 采用 12 納米節點工藝制造,在 800 平方毫米內包含 220 億個晶體管。它有 256 個內核,每個周期可以以 8 位精度執行 2,048 個操作,有可能分別將 4 位和 2 位精度的操作數量增加一倍和四倍。“這是一個芯片上的整個網絡,”Modha說。

PCIe 卡上的NorthPole芯片(圖片來源IBM網站)

“在架構上,NorthPole模糊了計算和內存之間的界限,”Modha說。“在單個內核級別,NorthPole 顯示為接近計算的內存,而在芯片外部,在輸入輸出級別,它顯示為活動內存。這使得 NorthPole 易于集成到系統中,并顯著降低了主機上的負載。

但NorthPole的最大優勢也是一個限制:它只能輕松地從船上的內存中提取。如果芯片必須從另一個地方訪問信息,那么芯片上所有可能的加速都將被削弱。通過一種稱為橫向擴展的方法,NorthPole 實際上可以支持更大的神經網絡,方法是將它們分解為適合 NorthPole 模型內存的較小子網,并將這些子網連接到多個 NorthPole 芯片上。因此,雖然NorthPole(或一組NorthPole)上有足夠的內存用于許多對特定應用有用的模型,但該芯片并不意味著萬事通。“我們不能在此上運行GPT-4,但我們可以滿足企業所需的許多模型,”Modha說。“當然,NorthPole只是為了推理。”

這種功效意味著該設備也不需要笨重的液體冷卻系統來運行 - 風扇和散熱器綽綽有余 - 這意味著它可以部署在一些相當小的空間中。

NorthPole的潛在應用

雖然對NorthPole芯片的研究仍在進行中,但其結構適用于新興的人工智能用例,以及更成熟的用例。

在測試中,NorthPole團隊主要關注與計算機視覺相關的用途,部分原因是該項目的資金來自美國國防部。考慮的一些主要應用是檢測、圖像分割和視頻分類。但它也在其他領域進行了測試,例如自然語言處理(在僅編碼器BERT模型上)和語音識別(在DeepSpeech2模型上)。該團隊目前正在探索將僅解碼器的大型語言模型映射到NorthPole 橫向擴展系統。

當你想到這些人工智能任務時,各種奇幻的用例浮現在腦海中,從自動駕駛汽車到機器人、數字助理或空間計算。許多需要實時處理大量數據的邊緣應用可能非常適合NorthPole。例如,它可能是將自動駕駛汽車從需要設定地圖和路線才能在小規模上運行的機器轉移到能夠思考和應對罕見邊緣情況的設備,這些情況使得在現實世界中導航變得如此具有挑戰性,即使是熟練的人類駕駛員。這些邊緣情況是未來NorthPole應用的確切最佳選擇。NorthPole可以使衛星監測農業和管理野生動物種群,監控車輛和貨運,確保道路更安全,更不擁擠,安全操作機器人,并檢測網絡威脅以實現更安全的企業。

下一步是什么

這只是Modha在NorthPole工作的開始。目前最先進的CPU是3納米,IBM本身已經在2納米節點上進行了多年的研究。這意味著除了基本的架構創新之外,NorthPole 還可以實施幾代芯片處理技術,以不斷提高效率和性能。

但對于莫達來說,這只是他職業生涯過去19年中主導的連續統一體的一個重要里程碑。在那段時間里,他一直在研究數字大腦啟發的芯片,知道大腦是我們所知道的最節能的處理器,并尋找以數字方式復制它的方法。TrueNorth完全受到大腦中神經元結構的啟發,并且其中的數字“突觸”與蜜蜂的大腦一樣多。但2015年,莫達坐在舊金山的公園長椅上,說他正在思考他迄今為止的工作。他相信,將最好的傳統處理設備與大腦中的處理結構結合起來是有道理的,其中記憶和處理散布在整個大腦中。答案是“具有硅速度的大腦啟發計算”,根據Modha的說法。

在接下來的八年里,Modha和他的同事們一心一意,將這一愿景變為現實。該團隊在亞瑪頓辛勤工作,直到今年才就他們的工作發表任何講座或發表任何論文。每個人都帶來了不同的技能和觀點,但每個人都在合作,因此作為一個整體,團隊的貢獻遠遠大于各部分的總和。現在,該計劃是展示NorthPole可以做什么,同時探索如何將設計轉化為更小的芯片生產工藝,并進一步探索架構的可能性。

這項工作源于簡單的想法——我們如何制造像大腦一樣工作的計算機——經過多年的基礎研究,已經提出了一個答案。這實際上只有在今天才能在像IBM研究院這樣的地方實現,那里有時間和空間來探索計算中的重大問題,以及它們可以帶我們去的地方。“NorthPole是硅晶片鏡子中大腦的微弱表示,”Modha說。