基於機器學習,兩種重要的PC技術已經建立在2018年硬件加速射線跟踪和機器學習的過程中。這些技術構成了NVIDIA品牌從GTX更改為RTX的基礎,並且多年來已經進行了完善。隨著新的RTX 4000圖形線的到來,我們在性能增強技術方面有了新的創新。 DLSS 3向現有的基於DLSS 2的空間高尺度添加了AI框架的生成。在過去的十天中,我們將技術通過其步調,對結果印象深刻。
NVIDIA為我們提供了GeForce RTX 4090,以及三個DLSS 3個標題的不完整版本:Portal RTX帶有路徑追踪,Marvel's Spider-Man和Cyberpunk 2077。後者不應與新的RT Overdrive版本相混淆,並且與現有零售版本一起使用,僅與DLSS 3一起。即使具有最高性能,這些遊戲在4K屏幕上使用RTX 4090和DLSS 3運行,而120 Hz幾乎是錯誤的錯誤-自由的。 NVIDIA談論DLSS 3作為下一代體驗的先驅,並展示了其令人印象深刻的RTX,Portal RTX和Cyberpunk的Everdrive RT版本 - 無論您是否相信,實際上,實際上,實際上是一個遊戲的路徑跟踪是。漫威的蜘蛛俠? NVIDIA顯示了一個廣告視頻,其中RTX 4090用200FP執行遊戲。不幸的是,我們無法在本文的性能乘數中顯示自己的幀速率數字
基本上,DLSS 3是Nvidia多年來開發的三種不同技術的組合。它從現有的非常成功的DLSS 2開始 - 目前,我們最喜歡的基於圖像重建的上升(儘管Intel Xess和AMD FSR 2.X越來越近)。此外,還有DLSS框架的生成。 GPU實質上呈現兩個框架,然後插入兩者之間的新框架,這是由遊戲數據(例如運動矢量和光學河流分析)的混合物生成的,該數據由新的Ada Lovelace Architection中的修訂固定功能塊提供,這是由新的ADA Lovelace Architecture提供的。這是大聲的nvidia,比上一代的安培快三倍。
由於圖片現在已經被緩衝,因此,管道中還有一個額外的延遲,NVIDIA試圖通過其技術來減少延遲,反射。在最好的情況下,Reflex將彌補由於額外緩衝而造成的額外延遲,甚至可以節省另一毫秒。在最壞的情況下,遊戲可能會有額外的延遲 - 我們稍後將提出一些第一個結果。沒有什麼可反對完全不使用框架生成的說法,只是依靠反射時提供的滯後減少。由於Ada Lovelace的光學河分析儀的速度,以前的圖靈和安培卡無法執行DLSS圖像。對於RTX 2000和RTX 3000系列地圖的所有者,這意味著DLSS 3支持的標題仍然提供DLSS 2的升級和反射延遲優勢,但框架的生成不在桌面上。
當我查看緩衝如何用於框架生成時,我會想起與sli-sli-sli-sli-aftem一起使用的舊的AFR技術(替代框架渲染),其中兩張圖形卡串聯起作用並呈現了每個第二幀。這導致潛伏期類似,但沒有反射削弱。因此,同一GPU上的DLSS框架生成佔據了SLI時間的第二個圖形卡的位置。最重要的是DLSS 2/FSR 2.x/XESS渲染並減少延遲 - 框架的生成不會。我們所遇到的測試遊戲中滯後的影響不是問題,但是我認為該技術不適合超快速的電子競技標題,這對於頂級玩家來說都是每毫秒。
我們還必須處理這樣一個事實,即生成的圖像不如傳統渲染的圖片那麼“完美”。非常快速的動作 - 尤其是在相機附近 - 可能會導致工件。此外,HUD元素沒有可以通過技術追求的運動向量,這也會導致問題。但是,在實際遊戲中,問題很小。加速度將大多數遊戲每秒或以上帶到120幀,這意味著每個圖像的持久性非常低。而且,不要忘記這些產生的框架被“完美”,傳統上渲染的框架打斷。在我們的視頻中,您可以看到以每秒120幀的速度以半速度運行的錄音 - 甚至幾乎看不到視覺上的不連續性。只有經過長時間的看法,您才能看到DLSS 3框架一代留在那裡的地方。




即便如此,新技術的結果是由GPU在3毫秒內呈現的,它超過了存在的最佳離線框架高標度器。為了測試這一點,我們用DLSS 3錄製了Marvel的蜘蛛俠的相同內容,並將其與Adobe After After效果的Pixel Motion Technology進行了比較,以及來自Topaz視頻增強AI的Chronos Slowmo V3模型。在由RTX 3090支持的Ryzen 9 5950X上,每幀的計算成本為750 ms或125 ms。由於DLSS 3已集成到遊戲中,可以訪問重要的引擎數據,並在芯片上的特定硬件加速度得到支持,因此可以獲得更好的結果。毋庸置疑,當今電視中使用的所有“運動平滑”技術都優越- 因為它們僅限於真實的時間圖像插值,因此結果不可避免地比此處顯示的Adobe和Topaz的鏡頭更糟,而DLSS 3已經提供了更好的結果。
改進的性能是問題的含義 - 但您的應用程序可以實現新的體驗。 Portal RTX基於NVIDIA的新RTX Remix平台,該平台看起來像是一個瘋狂的科幻夢。本質上,混音已集成到較舊的標題中,因此可以重現經典PC遊戲的再現。在主題演講中,我們看到了Morrowind如何獲得新的RT外觀,但是我們已經嘗試了Portal RTX - 這是體驗遊戲的一種非常好的新方法。
出版物前不久,我們將更多地談論路徑跟踪功能如何集成到門戶網站,但與此同時,它顯示了測試中性能的最大增長。路徑追踪非常強大,工作量越高,越來越多,僅通過DLSS 3框架生成而進行性能的增加越多,也可以通過DLSS 2-UPSCALSING進行。下表顯示,僅DLSS 2的性能提高了3.19倍,由於額外的圖像生成,這增加了5.29倍。在屏幕截圖上,您可以看到我與水和兩個門戶組合在一起的“最壞情況”。還記錄了延遲數:在這種情況下,NVIDIA反射實際上會增加圖像圖像的緩衝而產生的額外延遲。感覺與DLSS 2版本相同,而DLSS 2版本又比本機渲染要多得多。
門戶RTX測試室14 | 完美的區別 | 反射 | 反射 |
---|---|---|---|
土著人4K | 100% | 129ms | 95ms |
DLSS 2性能 | 317% | 59ms | 53ms |
DLSS 3框架一代 | 529% | - | 56ms |
Marvel的蜘蛛俠代表了一個完全不同的挑戰:即使有了Core i9 12900K,如果激活了遊戲的射線追踪反射,CPU今天的GPU很容易被CPU放慢速度。查看下面的屏幕截圖表明,使用DLSS 2的QuickTime事件只會增加15.2%的幀速率。如果您認為這是一個1080p的基礎,將其擴展到4K,則性能應該更高。在這裡實際發生的是,在本機4K下,我們在使用DLSS 2達到CPU的限制時達到了GPU的限制。
由於DLSS 3框架生成不取決於創建幀的CPU命令,因此即使CPU已充分利用,性能也會增加。整個過程完全獨立於處理器。要看到這一點,請看Nvidia的廣告視頻On著重於穿過城市的運動 - 這是遊戲最多測試的遊戲的一部分。該預告片中的大部分動作將受到CPU的限制,每秒約100-120幀。 DLSS 3框架生成有效地翻了一番。
對於下表,我試圖盡可能多地將GPU拉緊 - 奇怪的是,彼得·帕克斯(Peter Parkers)訪問盛宴的總部對圖形的影響遠大。然而,由於性能僅增加了36%,我們仍然達到CPU限制。但是,框架的產生繼續提高刷新率。還值得注意的是,使用DLSS 3的反射並不能顯著改善延遲 - 該技術優化了CPU和GPU之間的比率,當CPU達到其功率上限時,這很難實現。然而,遊戲是如此之快,以至於延遲值極低。
漫威的蜘蛛俠盛宴總部 | 完美的差異 | 反射 | 反射 |
---|---|---|---|
土著人4K | 100% | 39ms | 36ms |
DLSS 2性能 | 136% | 24ms | 23ms |
DLSS 3框架一代 | 219% | - | 38ms |
用於測試的最後一個標題是CD Projekt Red的Cyberpunk 2077的預覽大樓。在視頻中,有兩項測試涵蓋了Cherr Blossom市場的穿越,以及在夜城和沙漠中更長的旅程。通過高驅動的4K分辨率和全面的射線追踪到Psycho Lighting,它可以再次看到基本幀速率越高。
在這種情況下,刷新率增加了四次,並將最苛刻的PC視頻遊戲之一轉換為在4K 120Hz屏幕上非常複製的體驗。在頁面上嵌入的視頻中,您可以看到一系列4K 120FPS錄製的錄音,這些錄音速度降低到60fps視頻中功能的速度的50%。這給您留下了一種印象,即它的運作方式。
在此預釋放預覽代碼中,具有DLSS 3的NVIDIA反射延遲值無法跟上DLSS 2的跟踪,而Reflex已關閉,這可能是“非正式”目標。儘管如此,這裡測量的12毫秒幾乎不會影響大多數三局遊戲的體驗,包括Cyberpunk 2077。畢竟,這不是抽搐的射擊者或電子競技比賽經驗,但除此之外,我們絕對必須看到未來的DLSS 3冠軍的潛伏期如何發展。
Cyberpunk 2077市場 | 完美的差異 | 反射 | 反射 |
---|---|---|---|
土著人4K | 100% | 108ms | 62ms |
DLSS 2性能 | 258% | 42ms | 31ms |
DLSS 3框架一代 | 399% | - | 54ms |
在測試結束時,我們有一些有關RTX 4090如何處理上一代Ampere體系結構RTX 3090 TI的性能的數據。除了我們不允許我們發布有關刷新率的任何數字之外,NVIDIA要求的唯一進一步的限制是限制與舊卡上的DLSS 2和新的DLSS 3的生成比較。這樣做的原因是,應在測試日放回禁運的純績效數字,用戶可以根據整個PC出版社提供的數字比較性能。即使DLSS 2和DLSS 3之間的比較有限,也不是完全理想的選擇,我會說,它代表了這些卡的使用情況。
首先,查看門戶RTX:圖片來自一個靜態場景,在該場景中,我創建了我能夠在測試室14中抬起的GPU負載。在這裡,可以全面看到水,以及兩個彼此相對的門戶。與Ada Lovelace上的DLSS 3相比,Ampere上的DLSS 2本質上可以提高總績效三倍。這是一個決定性的差異,即在4K屏幕上具有良好的體驗,其刷新頻率為60 Hz的4K顯示屏上的可變頻率幾乎沒有錯誤。
我們演奏的Cyberpunk 2077的預覽大樓也是如此。世代之間的性能乘數可能不像Portal RTX那樣大,但是RTX 3090 Ti頁面上的基本框架更大。再次是舊卡上的60Hz VRR體驗與RTX 4090的120Hz體驗之間的區別。
RTX 3090 TI DLSS 2 | RTX 4090 DLSS 3 | |
---|---|---|
門戶RTX應力測試 | 100% | 291% |
Cyberpunk 2077市場 | 100% | 247% |
最後,我們提出了一個核心問題,並解決了明顯的觀點。首先:人工智能產生的圖像的圖像質量是嗎?這取決於動作速度以及DLSS-3算法追求運動的能力。機芯越快,價格就越少,即生成的圖像 - 上面的變焦塊中蜘蛛俠的圖像是一個特別困難的例子。切換到每張圖片的完整圖像視圖,然後在圖像一,兩個和三個圖片之間移動。 AI產生的第二張圖片中的不連續性很容易識別 - 但是它們是否也很容易識別,是否只能看到8.3毫秒的每張圖片?答案是...不是真的。還要注意從框架到框架不同的蜘蛛武器手臂和腿的不同:這表明這三張圖像的運動速度在24.9毫秒的總上場時間內。
現在,第三人稱的圖片在Zoomer塊的左側再次更改為全屏模式,並在三個單獨的圖像之間來回切換,這些圖像已在24.9毫秒內記錄。這大致對應於遊戲中的正常運動。在這種情況下,DLSS 3生成的框架幾乎是完美的,只有黃色HUD元素有問題。在120Hz屏幕上播放時,可以看到輕微的閃爍。
下一個明顯的問題:為什麼RTX 2000和3000張卡上沒有DLSS 3框架生成? NVIDIA說,Ada Lovelace的光學河分析儀的速度比Ampere等效的三倍,這將對DLSS 3的3毫秒生成成本產生嚴重影響。無論如何,分析儀都是固定功能塊,每張RTX 4000卡都將同樣快速運行。我可以想像的舊卡的唯一替代方案對於較舊的卡片來說是較差的版本。我和我和Alex Battaglia在與Adobes Pixel Motion和Topaz視頻相比,Alex Battaglia的一件事增強了AI的Chronos Slowmo模型,即使在實時播放時,AI的AI幀甚至不好的AI框架,每秒120幀和8.3毫秒,每次8.3毫秒都可以很好地切斷每個幀。框架。
接下來,我們想了解圖片的產生如何克服CPU限制。在Marvel的蜘蛛俠中,在我們的測試中,表現與Core i9 12900k翻了一番,儘管CPU完全放慢了基本幀速率,但遊戲仍然感到流暢。但是,框架的生成也可以描述為框架加固。如果CPU無法提供良好的幀時間,也可以加強口吃。從我自己的好奇心中,我試圖用RT扮演Marvel的蜘蛛俠,這是一個薄弱的Ryzen 3 3100-A CPU,它沒有機會提供一致的幀時間。框架的一代急劇上升,但口吃也得到了加強。 DLSS 3有很棒的應用程序來克服CPU有限的遊戲 - 例如Microsoft飛行模擬器- 但是仍然需要從CPU進行良好的,持續的框架時間。
在此測試開始時,計劃在不顯示太多完整審查的情況下以出色的功能處理DLSS 3。但是,這項工作比我們想像的要廣泛。問題是我們仍然只刮擦DLSS 3提供的內容以及應如何測試的表面。
我們仍然要測試的未知人員之一是根據DLSS 2的基本框架的低點。例如,AI產生的幀中的視覺不連續性很困難,例如,如果您每秒使用增強120幀,但是100fps呢? 90fps? 80fps? DLSS 3能否真正製作30幀的遊戲,看起來像是每秒60幀的遊戲?圖像插值中是否存在固有的弱點,從而從遊戲到遊戲都相同?這是我們以前從未從GPU見過的開創性工作。
長期的含義很有趣,隨著RT 2077的RT超速升級,我們看到了一些非常令人興奮的東西。這是一款轉變的遊戲,其中整個照明通過射線縮放。基本上,這是市場上最苛刻的PC遊戲之一的路徑跟踪。遊戲機永遠無法做到這一點 - 它遠遠超出了它們的可能性。通過提供兩個不同的渲染器,您可以保留多平台開發,同時提供下一代全新的PC體驗。這是一個誘人的想法,我們將在未來的內容中回到DLSS 3和Cyberpunk 2077。