サムスン電子、業界最大容量の高帯域幅メモリー開発-上期量産を予定
コメント
選択しているユーザー
これですかね。
https://semiconductor.samsung.com/jp/dram/hbm/hbm3-icebolt/
HBM2e世代は8段スタックだったのが12段スタックになって容量が増えたようですが、キャッシュ的に使うHBMでも容量が必要なアプリケーションがあるんですかね。
注目のコメント
マイクロンがNVIDIA用に製造を開始したので黙っていられなくなったSamsung。AI用途がなければ高価なHBMがこんなに普及せず、Samsungの得意なGDDR6メモリが支配する世界だったかも。
https://jp.reuters.com/markets/world-indices/3FS3QMAFF5PDBD5YZU65U4UWVQ-2024-02-26/GPUのベンチマークをGoogleって探してみました。
https://docs.coreweave.com/coreweave-machine-learning-and-ai/gpu-selection-guide/gpu-benchmark-comparison#hgx-h100-benchmarks-and-comparisons
WikipeidaのNVIDIA Teslaのスペックも眺めなら考察してみますと、
https://ja.wikipedia.org/wiki/NVIDIA_Tesla#Hopper%E3%83%9E%E3%82%A4%E3%82%AF%E3%83%AD%E3%82%A2%E3%83%BC%E3%82%AD%E3%83%86%E3%82%AF%E3%83%81%E3%83%A3
Stable diffusion inferenceのベンチマーク( https://stablediffusionxl.com/ )ですが、
1GPUのところの値を比べる(そうでないところで比べるとGPU間のデータ転送の影響が出てしまいます)とH100とA100で、142.3と73.4で約1.93倍の計算の高速化になっているわけですが、スペック上はCUDAコアは2.44倍、クロックは、1.39倍となっています。GPUメモリは80Gbytesで容量は同じです。
メインメモリとGPU上のメモリへのデータ転送がボトルネックになっていなければ、クロックの倍率×演算器の数の比(ここではCUDAコア数の比)だけ計算スピードが伸びることが期待できるわけですが、そうはなっていないところをみると、やはり、GPUボード上にあるHBMメモリ上のデータを使った計算が先に終了してしまってメインメモリからのデータ待ちということが発生しているように見えます。
GPUボード上のメモリを増やせば速度向上が期待できますね。