前沿拓展:
完美解碼win10
1、第一打開這個完美解碼這個軟件,讓我們看到的是一個黑色跟紫色融為一體的界面。
2、在主頁面中,右上角有個按鈕拉條是設置整個頁面的透明度,下面有個拉條是設置聲音的。
不久前NVIDIA剛剛發(fā)布了RTX 4080顯卡,雖然價格相對RTX 4090便宜了一些,但如果綜合對比性能和參數(shù)來看,RTX 4090反而更具性價比。今天為大家?guī)淼膭t是微星旗下超旗艦顯卡——微星GeForce RTX 4090 SUPRIM X 24G超龍的評測。
超龍是微星RTX 30系中新推出的超旗艦系列,做工用料以及規(guī)格參數(shù)相比魔龍更奢華,即便在眾多AIC品牌中,超龍也屬于性能巔峰系列。
在RTX 40系中,超龍系整體外觀變化不大,但在一些細節(jié)之處進行了改動升級,下面我們先來纖細了解一下外觀部分。
1 微星GeForce RTX 4090 SUPRIM X 24G超龍概覽
在包裝配件上,RTX 40系超龍送的鼠標墊將logo也替換為最新的SUPRIM鉆石,其創(chuàng)意靈感來源于鉆石晶體的幾何形狀。另外還有超龍系列專屬的顯卡支架,以及16pin供電轉換線。
微星兩代超龍系列雖然算不上大改,依然一眼能認出,但其實仔細看下來又好像哪哪都改了。第一在正面的導流罩上,整體的燈效沒有變,但裝飾設計和風扇有所變化。
微星GeForce RTX 3080 SUPRIM X 10G超龍
微星GeForce RTX 4090 SUPRIM X 24G超龍
微星RTX 30系的超龍在配色上更偏向玫瑰金,而RTX 40系則更偏向淡金色。除此之外,原本導流罩頭尾的灰色裝飾也改為不規(guī)則分布點綴。當然還有一處比較明顯的變化就是,RTX 40系的超龍只有中間風扇有微星logo。
微星RTX 4090超龍整體尺寸為336×142×78mm,沿襲了上一代的金屬拉絲工藝外殼,風扇邊框采用了八角形切口,切口部位經(jīng)過淺金色拋光處理,通過不同光線變化看上去耀眼奪目。
主動散熱部分采用三個9葉刀鋒7代風扇,扇葉采用獨特的環(huán)形設計,每3個扇葉連接成環(huán)形,并采用22°傾斜設計,即使低速轉動時,也能保持高壓氣流。
另外本代超龍,在散熱器邊框部位,同樣采用了淺金色曝光處理。簡潔銳利的線條不論在視覺上還是觸覺上都更能彰顯金屬風格。
在內(nèi)部的散熱模組上,微星采用了全新改進的氣流導向技術,大幅增加了散熱鰭片的密度,并對不同位置的散熱鰭片形狀精心微調(diào),增加了導流鰭片的設計,從而盡可能提升氣流流動效率,改善散熱效能和噪音。
從顯卡正面,透過風扇能夠看到不同部位的散熱鰭片形狀是不一樣的。
新一代TRI FROZR 3S散熱設計,除了鰭片的升級改進,諸多方面都有所提升。散熱器底座從上一代的鏡面銅底升級為均熱板,熱傳遞速度更快,散熱效能更強,可同時為GPU核心和顯存顆粒散熱。
10根純銅鍍鎳熱管(3根8mm,7根6mm)和均熱板接觸部分精心加工為方形,能夠完全接觸到覆蓋于均熱板表面,從而避免存在影響導熱的空隙
在PCB板上,微星RTX 4090超龍為26+4相供電,遠超公版設計。并且采用HCI電感,一體成型設計,具備更出色的電器濾波性能。而SPS智能供電設計能夠以較低的電阻進行精確的電流調(diào)節(jié),從而有效降低功率損耗和熱量。
微星RTX 4090超龍的背板也做了相當大的改進,整體采用拉絲工藝金屬背板,不僅顏值更高,能提升顯卡強度,還在內(nèi)側附加了導熱墊,能起到額外的輔助散熱作用。
最明顯的則是鉆石SUPRIM標志替代了RTX 30系中的龍盾形logo,并且設計了大量鏤空部位用以散熱。
微星RTX 4090超龍采用了雙BIOS設計,可在性能更強的GAMING模式和風扇噪音更低的SILENT模式之間切換。為了確保性能發(fā)揮,后續(xù)我們的測試均在GAMING模式下進行。
輔助供電為本代搭載的16pin電源接口,另外顯卡附帶了一組16pin電源轉接線,最高可提供600W供電能力,推薦電源850W及以上。
視頻輸出接口方面,微星RTX 4090超龍采用了三個DP1.4和1個HDMI2.1 顯示輸出接口,至于呼聲較高的DP2.0,其實目前絕大部分消費級游戲顯示器都沒有實裝,且DP1.4a標準也能夠支持8K60Hz刷新率的顯示器。所以,綜合來看,絕對夠用。
最后我們來上機看一下燈光效果,超龍系列整體的燈光不算多,避免喧賓奪主,但整體的質(zhì)感較強,飽和度高,沒有逸散。
2 NVIDIA GeForce RTX 4090 架構淺析
本次發(fā)布的GeForce RTX 40系顯卡由全新的NVIDIA Ada Lovelace架構打造,采用T**C 4N NVIDIA定制工藝,旗艦核心AD102達到了恐怖的760億個晶體管,而在RTX 30系顯卡中為280億個。
與上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升。最高可達到90-TFLOPS的著色器數(shù)據(jù)吞吐量,而本次發(fā)布的GeForce RTX 4090則達到83-TFLOPs,相比上一代NVIDIA Ampere則只有40-TFOPs。
完整的AD102核心共有18432個CUDA,其中包含12個圖形處理集群(GPCs), 72個紋理處理集群(TPCs), 144個流式多處理器(**s)。144個第三代光追核心(RT Cores)、576個第四代張量核心(Tensor Cores)。另外可以看到Boost頻率也從1.9GHz猛增到了2.5GHz。
另外一點在架構圖上沒有體現(xiàn)的是,AD102核心還包含288個FP64雙精度浮點核心(每** 2個),用來確保FP64代碼正確處理,包括FP64張量核心代碼。
通常來講,單精度浮點運算會用于深度學習模型訓練,而雙精度浮點運算則用于數(shù)值模擬工作。通常游戲卡都會砍掉FP64,這既節(jié)省了成本,又對游戲本身沒有影響。而專業(yè)卡都保留有FP64,目的就是為了精度更高訓練與計算。
了解了完整的GA102核心,我們再來看一下RTX 4090的核心,其實知道了RTX 4090的參數(shù),我們大概也能了解到后續(xù)可能推出的“Ti”系列究竟相差在哪。
相比完整的GA102來說,RTX 4090共有16384個CUDA,其中包含11個GPC、64個TPC以及128個**單元,第三代RT Cores為128個,第四代Tensor Cores為512個。
其實根據(jù)完整的架構圖就能看出,此次Ada架構整體結構性的改動并不大,這一點從**單元便能清晰印證,同樣的FP32 CUDA核心,同樣的FP32/INT32混合CUDA核心,同樣的L1級緩存等等。當然,每個**單元內(nèi)部的Tensor Core升級為第四代。
不過變化最為顯著的,則是第三代光追核心,我們結合兩代架構來看。在第二代光追核心中,包含負責邊界交叉測試的Box Intersection Engine引擎,和負責三角形交叉測試的Triangle Intersection Engine引擎。
而在第三代光追核心中,還增加了兩個新的引擎:Opacity Micro-Map Engines(OMM)和Displaced Micro-Mesh Engines(DMM),這兩個新的硬件單元可以極大地提升光追性能(具體原理后文詳細介紹)。
至此,每2個**單元組成一個TPC單元,每6組TPC單元組成一個完整的GPC頂層單元(在部分核心中,會出現(xiàn)5組TPC組成一個GPC單元的情況)。
而每個GPC單元又搭載一個**的光柵引擎、兩組ROP分區(qū)(每組包含8個ROP單元)。
由于整體架構分析篇幅較長,關于NVIDIA Ada架構的其他新特性就不在這里介紹了,將在文章末尾以附錄的形式展開說明,有興趣的用戶可翻至最后。
3 測試平臺簡介
第一介紹一下測試平臺,為了保障微星RTX 4090超龍的性能發(fā)揮,我們的平臺也再次進行了全面更新,采用了最新的旗艦處理器i9-13900k,并搭載了1300W PCIe 5.0電源。
第一看一下GPU-Z的參數(shù),微星RTX 4090超龍采用AD102核心,采用T**C 4N NVIDIA定制工藝,芯片面積608平方毫米,這里相對于RTX30 系的GA102的628平方毫米更小。
擁有16384個CUDA,相比RTX3090 Ti 的10752多52%,Boost頻率達到了2625MHz,相比公版的2520MHz有非常大的提升。
顯存方面,采用24GB GDDR6X Micron顯存,位寬為384bit,顯存帶寬達到了1008.4GB/s,光柵單元和紋理單元為176和512。
4 理論性能測試
下面先進行的是用來衡量顯卡DX11理論性能的3DMARKFS套裝:FS,FSE,FSU三者分別對應顯卡在1080P、2K、4K的理論性能,取顯卡分數(shù)實際測試結果如下:
在針對顯卡DX11性能的3DMARKFS 套裝測試中,微星RTX 4090超龍的提升非常驚人,可以看到在分辨率越高的情況下這張顯卡提升越大,相比RTX 3090 Ti其中FS提升了65%;FSE提升了77%;FSU則暴力提升了82%。
綜合來看,在整個FS套裝的測試中,微星RTX 4090超龍的提升約為75%。
3DMark FireStrike 系列的測試可以看作是大部分過去流行熱門游戲的基準,微星RTX 4090超龍相比上一代旗艦RTX3090Ti 以及RTX3090都有著巨幅性能提升。
而在針對DX12環(huán)境下的TimeSpy 和TimeSpy Extreme 測試中,微星RTX 4090超龍相較RTX 3090 Ti 的提升分別為:TS提升76%;TSE提升79%,綜合下來約為78%。
3DMarkTime Spy 系列是針對DX12的基準測試,能夠代表目前以及可預見未來游戲大作的性能提升表現(xiàn),微星RTX 4090超龍的成績同樣驚人。
PortRoyal是3DMARK中專門針對光追性能的測試項,微星RTX 4090超龍相較RTX 3090 Ti 的提升約為83%。
Speed Way測試是3DMARK最新更新的用于測試DirectX12 Ultimate 性能的顯卡基準測試。要運行此測試,顯卡必須支持DirectX12 Ultimate 并包含 6GB 及以上顯存。
這項測試結合了實時光線**和傳統(tǒng)渲染技術來測量顯卡性能。場景含有光線**反射、實時全局光照、網(wǎng)格著色器、體積照明、粒子和后處理效果。并且有意思的是,Speed Way測試支持自由探索場景,可查看光照及**設置的改變?nèi)绾斡绊懸曈X效果。
另外我們使用3DMARK剛剛更新的DLSS 3進行了相關性能測試。
由于該項測試類別較多,僅展示微星RTX 4090超龍顯卡自身成績,其實可以看到在DLSS 3的加持下,分辨率越高提升越明顯,尤其在8K分辨率,是從無法運行到流暢的標準。
5 常規(guī)游戲性能測試
由于本次RTX40 系加入了DLSS3 新技術,所以后面會進行單獨測試,這里依然選擇主流的幾款3A大作進行游戲性能對比。
第一在《地平線5》中,可以明顯看到,雖然我們使用了i9-13900K處理器,但在1080p分辨率下依然能感受到幀數(shù)瓶頸。
性能方面,微星RTX 4090超龍相比RTX 3090 Ti的提升分別為:1080p提升75%;2K提升75%;4K提升78%,綜合提升76%。
在《刺客信條:英靈殿》中,微星RTX 4090超龍相比RTX 3090 Ti的提升分別為:1080p提升78%;2K提升73%;4K提升61%,綜合提升71%。
在《無主之地3》中,微星RTX 4090超龍相比RTX 3090 Ti 的提升分別為:1080p提升75%;2K提升77%;4K提升68%,綜合提升73%。
《光明記憶:無限》的光追測試軟件是**于游戲的測試工具,比游戲中用到的光線**技術更多,測試條件為“RTX最高/DLSS質(zhì)量”。所以測試幀數(shù)相對較低,但實際游戲配置相當親民。
性能方面,微星RTX 4090超龍相比RTX 3090 Ti 的提升分別為:1080p提升78%;2K提升81%;4K提升73%,綜合提升77%。
在另外一款國產(chǎn)游戲《邊境》的跑分軟件中,情況基本與《光明記憶:無限》相同,測試條件均在“RTX最高/DLSS質(zhì)量”下進行。
在《邊境》中,微星RTX 4090超龍相比RTX 3090 Ti 的提升分別為:1080p提升85%;2K提升90%;4K提升85%,綜合提升87%。
《光明記憶:無限》和《邊境》兩款最早的光追測試程序,到今天也已經(jīng)陪伴著NVIDIA走過了三代光追核心,微星RTX 4090超龍的提升是肉眼可見的,從初代只能保證1080P下的流暢運行,到如今在4K分辨率下獲得87幀的運行幀率,能夠切實感受到NVIDIA的技術“大躍進”。
6 DLSS3性能測試
由于本次新技術DLSS 3的推出,將有35款游戲?qū)⒂诮谕瞥鋈碌腄LSS 3功能,本次我們也拿到了部分游戲的測試版。
其中11月15日已有10款加入DLSS 3的游戲,包括《逆水寒》、《微軟模擬飛行》、《毀滅全人類2:重新探測》、《瘟疫傳說:安魂曲》、《光明記憶:無限》、《暗影火炬城》、《F1 22》、《生**輪回》、《漫威蜘蛛俠:重制版》、《超級人類》。
另外還有《WRC Generations》、《極品飛車:不羈》、《戰(zhàn)錘40K:暗潮》將在RTX 4080推出后不久相繼發(fā)布,在圣誕前都可以玩上這些包含DLSS 3的游戲。
下面就讓我們來實際測試,擁有全新的DLSS 3的游戲,能達到何種幀率。
本次DLSS 3的測試圖表比較繁瑣,并且增加了1% Low FPS和延遲的測試,普通的FPS好理解,那么這個1% Low FPS是什么意思。
第一,游戲benchmark通常測試的FPS即為,一段時間內(nèi)的游戲平均幀。而1% Low FPS則是將一段時間內(nèi)的幀數(shù)從大到小排列,取最小的1%出來,再對這1%的數(shù)求平均值。
其實簡單來說,這兩個數(shù)值都不能代表我們在游玩時,具體哪一刻的感受,但FPS更注重整體,而1% Low FPS則是從最差的里面求平均,更謹慎一些。
看懂了1% Low FPS,我們再來看這張圖表,在坐標軸左側的為延遲(越低越好),坐標軸右側的均為幀數(shù)(越高越好),并且由于牽扯到正負坐標,所以兩側的值有可能會不同。
在《微軟模擬飛行》中,對于處理器的要求異常高,不過本次我們使用了旗艦級的13900k可以明顯感受到性能的強大,在4K分辨率下關閉DLSS不會出現(xiàn)與DLSS 2分數(shù)相同的情況。
而在DLSS 3中,我們能夠明顯看到幀數(shù)再次大幅提升,要知道我們所有DLSS 3的測試均在4K分辨率下進行??磥砝脦蓙硗黄艭PU瓶頸限制,實際表現(xiàn)確實如宣傳的那樣神奇。
不過幀生成并不是毫無弊端,這也是為什么此次測試加入了延遲。并且在開啟DLSS 3后,NVIDIA Reflex是捆綁開啟的。但相對于DLSS 2增加的這點延遲,在實際體驗中的感受并不強。
在《賽博朋克2077》中的數(shù)據(jù)反映比較真實穩(wěn)定,可以看到在DLSS關的光線**最高的情況下,即便微星RTX 4090超龍顯卡也只有39幀,看來新一代“顯卡殺手”的明確確如其名。
而在開啟DLSS 3后,幀數(shù)為139,提升了256%。雖然相比DLSS 2的延遲高了10毫秒左右,但依然維持在較低的水平。
《幻塔》是本次新增的DLSS 3測試,作為一款移動端和PC端多平臺的游戲,在PC端中已經(jīng)加入了光線**以及DLSS,并且相當耗費性能。
我們使用微星RTX 4090超龍在關閉DLSS后,預設最高畫質(zhì)僅有63幀。不過在開啟DLSS 2后有明顯改善,看來幀數(shù)的瓶頸依然在于顯卡。而在DLSS 3則讓這款游戲在4K分辨率開啟光追后達到了192的超高幀數(shù)。雖然提升沒有DLSS 2來的大,但DLSS 3的優(yōu)勢在于無視CPU BUNDLE,而13900k在此游戲有充足的性能釋放,192幀的成績確實令人驚訝。
《瘟疫傳說:安魂曲》目前已經(jīng)發(fā)布,相信不少玩家都感受到了其精美的畫面,不過除了顯卡需求較高,同屏30萬只老鼠對于CPU的要求也異常高。
不過由于DLSS 3的特性便是無視CPU BUNDLE,強行提高幀數(shù)。微星RTX 4090超龍在DLSS 3和DLSS關之間的幀數(shù)提升達到了133%,相比高顯卡要求的《幻塔》有著更高的提升。雖然DLSS 3的延遲有所增加,但仍然比DLSS關閉后要低。
目前《F1 22》的數(shù)據(jù)測試同樣有問題,在DLSS關和DLSS 2中均沒有延遲數(shù)據(jù)。這一組主要看幀數(shù)的提升。其中DLSS 3相比DLSS關的幀數(shù)提升了141%,DLSS 2的提升也達到了95%。
在國產(chǎn)游戲《逆水寒》的光追測試中,本次我們選擇的測試demo采用了真正的全局光照。所以在我嘗試關閉DLSS運行后,電腦直接崩潰。
所以關閉DLSS測試行不通,這組數(shù)據(jù)主要看開啟DLSS后的幀數(shù)變化。在開啟DLSS 2后,幀率已經(jīng)達到了52幀較為流暢的水準,而開啟DLSS 3后則達到了驚人的85幀。
《暗影火炬城》也是本次新增的DLSS 3測試,在開啟光追后對于性能要求明顯提高。其中DLSS 3相比DLSS關的幀數(shù)提升了90%,DLSS 2的提升則達到了74%。
在Unity的測試軟件中,將會自動播放一段即時演算視頻,我們通過FrameView記錄全程。不過由于程序僅提供關閉和開啟DLSS 3的**作,所以我們?nèi)山M分數(shù)。
可以看到在關閉DLSS 3后不僅平均FPS只有32幀,延遲也高達136.5ms。而開啟DLSS 3后提升非常大,性能提升達到了231%,演示效果肉眼可見的流暢。
在UE5提供的測試游戲中,方便的給出了DLSS的快捷測試,這里分為DLSS關(超分辨率關+幀生成關+Reflex關);DLSS 2(超分辨率性能+幀生成關+Reflex開);DLSS 3(超分辨率性能+幀生成開+Reflex開)三檔測試。
另外,在DLSS關閉狀態(tài)下,F(xiàn)rameView軟件無法監(jiān)測延遲。這組對比中,由于場景受限,我們選擇固定鏡頭測試,所以三組數(shù)據(jù)1% Low幀數(shù)相對較高。
當然針對畫質(zhì)方面,我們也進行了測試,在上圖中我們截取《賽博朋克2077》中的一角,可以看到在兩種DLSS模式下,相較原畫質(zhì)幾乎沒有明顯變化,只在柵欄處的光影效果有所不同,但對于如此大幅度的幀數(shù)提升,這點瑕疵幾乎可以忽略不計。
7 專業(yè)軟件測試
作為“90”級別的顯卡,擁有24GB的超大顯存,內(nèi)容創(chuàng)作者領域的應用是必不可少的。我們使用SPECviewperf13 這款工業(yè)、專業(yè)軟件跑分測試。
在SPECviewperf13 的軟件測試中,每款專業(yè)軟件對于性能提升的程度不盡相同,其中SW相比RTX3090Ti 提升了51%,MAYA相比RTX3090Ti 提升了62%,CREO相比RTX3090Ti 提升了56%,CATIA相比RTX3090 Ti 提升了77%,3D**AX 相比RTX3090Ti 提升了59%。
DaVinci_Resolve_18.0.2
下面我們通過達芬奇來對NVIDIA AV1編碼進行實測,對比輸出為H.264編碼。輸出尺寸為4K UHD,質(zhì)量選擇最好,來看看兩組成品有何區(qū)別。
由于我們沒有固定碼率,而選擇了相同的畫面質(zhì)量,可以看到在同質(zhì)量下,AV1所生成的視頻碼率更低,幾乎為H.264的三分之一。
而低碼率也就意味著視頻體積越小,該段視頻采用AV1編碼的大小為H.264編碼的四分之一,對于硬盤的空間節(jié)省非常明顯,下面再來看看兩段視頻的畫質(zhì)表現(xiàn)如何。
左H264 右AV1
我們選擇NVIDIA的ICAT軟件進行分屏對比,將這段4K視頻放大450%左右查看噪點情況??梢钥吹绞褂肁V1編碼遠處房屋的像素過度更平滑,幾乎沒有很明顯的顆粒感,從而使場景看起來更干凈。
當然AV1也不是沒有遺憾,就是目前很多播放器還不支持AV1解碼,泛用性沒有那么高,但隨著越來越多的產(chǎn)品支持AV1編碼,相信流通起來還是很快的。
8 功耗及溫度測試
功耗測試中,我們選擇FurMark軟件進行拷機測試,并采用GPU-Z檢測溫度,功耗僅計算顯卡自身。
可以看到微星RTX 4090超龍這張顯卡在45分鐘左右的拷機中,峰值溫度一直在66℃以下,熱點溫度為75℃左右,溫度控制的非常好。板載功耗在TDP 94%的情況下為451W左右,如果達到100%的TDP則為480W。
另外新版本的GPUZ還新增了對16pin電源接口的**功能,讓用戶可以通過傳感器獲取功率輸入信息,從而及時發(fā)現(xiàn)一些異常情況。
9 綜合提升79%!
公版RTX 4090的綜合提升相比RTX 3090 Ti達到74%左右,而微星超龍系列憑借高規(guī)格的做工用料以及極致性能,再次將性能提升4-5%左右。但無論公版還是AIC,總體來說RTX 4090的性能的確是讓人印象深刻,擔得起系列旗艦的名號。
在實際使用方面,在4K分辨率下,這張RTX 4090沒有任何瓶頸,即便在4K分辨率,部分常規(guī)3A游戲也能夠達到電競級幀數(shù)。
針對DLSS 3的測試,我們主要選擇帶有光線**幾款游戲,能夠發(fā)現(xiàn)在DLSS 2的加持下已經(jīng)能夠有非常大的提升,這主要是因為我們所使用的的測試平臺為i9-13900k處理器,很少會出現(xiàn)CPU瓶頸的問題。
但在《微軟模擬飛行》中,關閉DLSS和DLSS 2幾乎無變化,這是因為DLSS 2的幀數(shù)加成無法突破CPU瓶頸,當CPU滿負荷時,顯卡仍有較大的閑置空間。而DLSS 3則能夠利用幀生成來無視CPU瓶頸強行提高幀數(shù)。
并且DLSS 3的推出讓8K從不可能變?yōu)榭赡埽鲿?0幀的體驗這在RTX 30系都是不敢想象的。
微星超龍在RTX 40系的變化同樣相當大,雖然整體看上去和RTX 30系差不多,但細節(jié)做了更多調(diào)整,可以說在細節(jié)之處彰顯旗艦品質(zhì)。
由于不是首發(fā)評測,目前RTX 4080的成績大家也非常清楚,9499的售價雖然比RTX 4090低,但綜合來看性價比并不出色。想更新?lián)Q代RTX 40系旗艦顯卡的高端玩家,不如直接升級到RTX 4090,無論從性能提升還是性價比都更出色。
10 附錄1-NVIDIA Ada Lovelace架構解析
Shader Execution Reordering (SER)著色器執(zhí)行重排序
SER主要的作用是提升著色器性能,它可以將效率低下的工作負載,動態(tài)重組為更高效的工作負載。主要針對光線**的性能提升非常大。
簡單地說,GPU在執(zhí)行類似工作的時候效率最高。但隨著光追效果越來越強大,每個場景可能有數(shù)百萬條光線照射在不同材質(zhì)上,而我們知道不同材質(zhì)的反射率,以及反射效果也是不同的。所以這樣就為著色器創(chuàng)建了大量的、發(fā)散的,效率低下的工作負載。
SER則可以將這些雜亂的指令重新分門別類,動態(tài)重組為更高效的工作負載。根據(jù)NVIDIA的說法,SER可將著色器性能最多提升2倍,并將游戲幀率最高提升25%。
舉個簡單的例子,當光線第一次從發(fā)射端到碰撞端是非常有規(guī)律的射線,而碰撞到物體后的二次光追,則會出現(xiàn)大量發(fā)散的、無規(guī)律的反射,這對于光追負載是非常高的。而從圖中便能看到,SER可以將這些指令進行二次排序,以發(fā)揮出著色器的最大性能。
不過好在這么實用的功能并不是RTX 40系的專利,它是一個易于集成的SDK,目前需要游戲開發(fā)商集成在游戲中。另外由于它是一個通用的邏輯,后續(xù)也有可能直接集成在Windows的API中,這樣游戲開發(fā)者就無需特意引用,直接調(diào)用系統(tǒng)API即可。
可以說SER對于手持RTX 20系及以上(能夠開啟光線**)的N卡用戶來說,是極大地福音。畢竟免費提升的光追性能,誰不喜歡呢。
第三代 RT Cores
RT Core的作用在于更快的光線**計算能力,如果說在RTX 30系顯卡中,想要暢享4K高幀率游戲有點吃力,那么RTX 40系顯卡中,將顯得輕而易舉。
在GeForce RTX 4090這張顯卡上,達到了191 RT-TFLOPs的處理能力,而RTX 30系顯卡最快處理能力為78 RT-TFLOPs,足足為2.4倍。并且根據(jù)NVIDIA的官方說法,第三代RT Core的峰值RT-TFLOPs相比于前代提高了2.8倍。而這只能說明,這張4090并非Ada Lovelace架構的最終形態(tài)。
Opacity Micro-Map Engines(OMM)
在第三代RT Cores中引入了兩個重要的硬件單元,第一是Opacity Micro-Map Engines,可以理解為微映射透明度引擎,它主要的作用是優(yōu)化光線**渲染,可大幅減輕著色器的工作負擔。
比如樹葉之類的復雜物體,不同的光線都會影響它的表現(xiàn)狀態(tài),以及樹葉之間的光線反彈,所以對于光線**的計算量是巨大的。
不過Opacity Micro-Map Engines可以將光線**特性烘焙到不透明蒙版中,所以那些不規(guī)則形狀和半透明的對象,也就能夠更快更精準的渲染出來,從而極大減輕著色器的工作負擔。
Displaced Micro-Mesh Engines(DMM)
Displaced Micro-Mesh Engines可理解為微網(wǎng)格置換引擎,它構建光線**的BVH(Bounding volume hierarchy)的速度提高了10倍!所使用的的顯存減少了20倍!
DMM由第三代RT core本地處理,與前幾代相比,它只使用基本三角形渲染復雜幾何圖形,極大減少了存儲和處理需求。
具體的工作原理從圖中一目了然,新的DMM可以將面數(shù)非常多的復雜圖形做簡化,創(chuàng)造出簡單的模型,但整體的光線**效果不變。
通過一些模型數(shù)據(jù)我們可以具體看到,新的DMM將模型簡化了多少。原本1100萬三角面的模型,經(jīng)過簡化后,只有15萬左右的微網(wǎng)格,BVH的構建速度提升了8.5倍,小了6.5倍。
而這還不是最夸張的,越復雜的模型往往優(yōu)化的效果越好,在官方展示的這幾組對比示例中,最快可提升大于15倍的速度,容量簡化20倍的模型。
第四代 Tensor Cores
除了光追單元的升級外,第四代張量核心的升級更加恐怖。它采用了新的FP8張量引擎,在GeForce RTX 4090這張顯卡上,吞吐量達到了1.32 Tensor petaFLOPs,提高了5倍。
注意這里的單位——petaFLOPs。以往的TFLOPs為萬億次浮點運算,而petaFLOPs則為千萬億次浮點運算。
DLSS 3 神經(jīng)網(wǎng)絡渲染新時代
本次推出的DLSS 3也是RTX 40系一大賣點,從DLSS 2.3直接邁入了3.0版本,也能看出此次的升級之大。而DLSS 3也被NVIDIA官方稱為神經(jīng)網(wǎng)絡渲染新時代。
全新的DLSS 3在原有的DLSS超分辨率的基礎上,添加了光學多幀生成技術,以生成全新的幀,而不像原來只能生成像素。
DLSS 3結合了DLSS超分辨率、DLSS幀生成和NVIDIA Reflex這三大技術,能夠重建八分之七的像素,極大提高性能。
在GPU受限的游戲中,比如2K分辨率及以上的更高分辨率,DLSS 2能夠?qū)侍岣?倍,DLSS 3則能夠提升4倍。
本次DLSS 3跨越了一個大版本,從想法和原理上也再度升級,完全“猜想”1幀的技術,我們解釋起來簡單,但實施起來需要大量的推理與演算,以及絕對超前的想法。
不過“憑空”生成的1幀,在延遲上絕對要比DLSS 2高。所以此次完整的DLSS 3中,捆綁了NVIDIA Reflex,可以有效幫助減小延遲。
這也不負NVIDIA給它起了個“神經(jīng)網(wǎng)絡渲染新時代”的名號。縱觀目前市面上的XeSS、FSR技術,DLSS絕對稱得上“巨人的肩膀”。當然,連年的創(chuàng)新,苦的是手持上一代顯卡的玩家,想體驗DLSS 3的幀生成,目前唯一的辦法就是購入一張RTX 40系顯卡。
New Optical Flow Accelerator
New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的,這也是為何DLSS 3中的幀生成為RTX 40系顯卡獨享。
光流加速器在原本DLSS 2的基礎上,還可以計算兩個連續(xù)幀內(nèi)的光流場,能夠捕捉游戲畫面從第1幀到第2幀的方向和速度,從中捕捉粒子、反射和光照等像素信息。并分別計算運動矢量和光流來獲得精準的陰影重建效果。
以《賽博朋克2077》為例,在第一幀,光流加速器會捕捉到每一個像素中的粒子、反射和光照等信息。并在第二幀中查找匹配的像素區(qū)域,計算幀之間的差值。
如果說原來DLSS 2能夠“猜”出一張圖剩下的像素,那么DLSS 3除了這些,還能夠“猜”出下一幀的畫面。
另外由于DLSS 3的幀生成是在GPU中處理和運行的,所以即使遇到CPU瓶頸的游戲,AI同樣能夠提升幀率。這也是為什么在此次發(fā)布會中說到,DLSS 3能夠突破CPU的限制來提升幀數(shù)。
雙AV1編碼器
本次升級的第八代NVENC編碼器可以說是直播、視頻、后期工作者的極大福音。它首次加入了對AV1編碼的支持,最顯而易見的效果就是直播。
相比傳統(tǒng)的H.264編碼,AV1編碼的效率平均提升了40%,在同碼率下AV1編碼的畫質(zhì)將更好。目前大部分直播的分辨率和清晰度,均受限于平臺規(guī)定的最**特率。以Twitch限制的8Mbps為例,可以看到在同等帶寬下,同為2K 60幀的畫面,采用AV1編碼的清晰度明顯比H.264更高。
說起直播,OBS相信大家都不陌生,在10月份即將發(fā)布的補丁中,OBS就加入了對NVENC的AV1編碼支持
當然,直播只是我們更容易見到的AV1優(yōu)勢,在視頻工作的所有環(huán)節(jié),AV1編碼都可以帶來極大提升。
所以,如圖所見。NVIDIA已經(jīng)為廣大用戶鋪好了一條完整的生態(tài)鏈,從編碼API、軟件、平臺到播放器,將全面支持AV1編碼。
另外再說一下NVIDIA一直強調(diào)的雙AV1編碼。顧名思義,即部分顯卡內(nèi)搭載了兩個編碼器,它所帶來的效果也是顯而易見的。
第一,根據(jù)官方宣傳的,在4K H.265的導出速度上,RTX 4090是RTX 3090 Ti的2.2倍;在8K H.265的導出速度上更是達到了2.5倍。這部分的提升,大家常用的剪映同樣適用,感興趣的用戶不妨親自體驗一下。
除了導出速度,8K 60幀的視頻錄制在以前簡直難以想象,而雙編碼器的好處就是可以將圖像一分為二,兩個編碼器分別處理7680×2160的圖像信息,最后拼合完整。
關于編碼部分,可能大部分用戶的感受不深,但當有一天,你想錄屏的時候,卻發(fā)現(xiàn)顯卡不支持,才會發(fā)覺它的重要性……
隨著圖像逐漸進入到超清時代,硬件編碼和渲染幾乎已經(jīng)成為不可或缺的幫手。雖然論質(zhì)量,硬件編碼仍不及CPU軟編,但軟編做到了極限畫質(zhì),也要承受時間的無窮長。
甚至在一張8K渲染圖中,兩種編碼方式的時間差距就已經(jīng)達到了幾個小時,遑論一段10秒的CG動畫。在不斷進步的硬件編碼中,質(zhì)量和時間也在不斷地被挑戰(zhàn)和刷新。
11 附錄2-Ada Lovelace是誰?
下面我們來看一下此次推出NVIDIA Ada Lovelace架構,我們先從Ada Lovelace這個人講起,相較于Ampere,這位似乎大家更陌生一些。
Ada Lovelace(1815-1852)是英國數(shù)學家、計算機程序創(chuàng)始人,建立了循環(huán)和子程序概念,被稱為世界上第一位程序員。
Ada從小對數(shù)學有極高天賦,其父稱她為“平行四邊形公主”,后來的合作伙伴Charles Babbage稱她為“數(shù)字女巫”。在19歲時Ada嫁給了自己曾經(jīng)的科學家庭教師,婚后的她對數(shù)學熱情不減。
1842年到1843年花了9個月時間翻譯了Babbage的《分析機概論》的備忘錄,寫了很多注記,其中給出了用計算機進行Bernoulli數(shù)求解的詳細說明。由此,Ada被廣泛認為是世界上第一位程序員。
而以她名字命名的語言——ada語言,已經(jīng)成為了美國軍方開發(fā)戰(zhàn)斗機等尖端武器的語言。
從幾行簡短的生平簡介中,不難看出Ada的生命雖然只經(jīng)歷了短暫的37個春秋,但卻足以被后人銘記。
這也是為什么此次NVIDIA RTX 40的先行宣傳中,用到了“以未來敬傳奇”的slogan,下面我們詳細剖析一下,這次的Ada Lovelace還有哪些創(chuàng)新和超越。
拓展知識:
完美解碼win10
杜比好像只有那種聲卡才可以的吧。。win8也是這樣說的。然并卵。我宏基本本都不行。。想玩杜比,買聯(lián)想本本就好了。
本回答被網(wǎng)友采納
原創(chuàng)文章,作者:九賢生活小編,如若轉載,請注明出處:http://xiesong.cn/131681.html