1GB ページを使用するとパフォーマンスが低下する

Intel は親切にこの問題は、 for (uint64_t index ptr[index] = index * 5; } }

最も内側のルクロックを開 ptr[i] = i * 5;

基本的に、問答えではありませんが、この厄介な問題の詳細を提供します。

パフォーマンス

1 GiB ページの IPC 0.10.

これらの MAP_POPULATE g++-8.4.0 [example@unixlinux [example@unixlinux Duration: 2156150 Performance 2291.190394 11,448,252,551 3,268,573,978 430,248,155 758,917 224,593,751 561,979,341 271,067,656 668,118 <not supported> 220,251 286,864,314 6,314 6,366 2.291300162 seconds time elapsed Duration: 4349681 Performance 4385.282466 21,911,541,450 2,175,972,910 274,356,392 560,941 7,966,853 292,131,592 27,531 12,413 <not supported> 353,438 7,252,590 9,577 4.385392278 seconds time elapsed

Intel i9-9900KS ページ AMD Ryzen AMD Ryzen Performance 1,947 8,189,576,204 3,174,036 95,950 3,301,760,473 480,276,481 864,075 709,483,403 1,608,181,551 <not supported> <not supported> 78,963,441 46,639 301,463,437 301,698,272 2,774 243,732,886 <not supported> 1.727052901 seconds time elapsed 1.579089000 seconds user 0.147914000 seconds sys Duration: 1628512 Performance 1,947 8,037,708,678 4,684,831 2,445,415 2,217,699,442 281,522,918 549,427 312,930,677 1,614,505,314 <not supported> <not supported> 888,872 13,140 9,168 1,173 1,914 253,307,275 <not supported> 1.680230802 seconds time elapsed 1.628170000 seconds user 0.052005000 seconds sys

for (uint64_t i = 0; i < size / MESSINESS_LEVEL / sizeof(*ptr); i++) { j = 0; j < MESSINESS_LEVEL; j++) { = i + j * size / MESSINESS_LEVEL / sizeof(*ptr); ープでは、インデックスは 512KB のストライドで変化します。したがって、連続した参照は 512KB のオフセットでマップされます。通常、キャッシュには 2048 セット (2^11) があります。したがって、ビット 6:16 がセットを選択します。しかし、512KB のオフセットでストライドすると、ビット 6:16 は同じになり、最終的に同じセットが選択され、空間的局所性が失われます。始して時間を計る前に、以下のように (スモールページテストで) 1GB バッファー全体を順次初期化することをお勧めします

for (uint64_t i = 0; i < size / sizeof(*ptr); i++) 題はセットの競合にあり、非常に大きな一定のオフセットが原因で、小さなページと比較して巨大なページの場合にキャッシュ ミスが発生します。一定のオフセットを使用する場合、テストは実際にはランダムではありません .
 
  カウンターは、ほぼ同じ数の命令を示しますが、ヒュージ ページが使用された場合に消費されるサイクル数は約 2 倍です。
  4KiB ページの IPC 0.29、
 IPC 数値は、コードがメモリ アクセスでボトルネックになっていることを示しています (Skylake の CPU バウンド IPC は 3 以上です)。ヒュージ ページのボトルネックが難しくなります。
  | MAP_LOCKED | MAP_FIXED を使用するようにベンチマークを変更しました 固定アドレス 0x600000000000 付き どちらの場合も、ページ フォールトとランダム マッピング アドレスに関連する時間変動を排除します。私の Skylake システムでは、2MiB と 1GiB は 4kiB ページよりも 2 倍以上遅くなります。
  -std=gnu++14 -pthread -m{arch,tune}=skylake -O3 -DNDEBUG でコンパイル :
 [example@unixlinux.online:~/src/test] $ sudo hugeadm --pool-pages-min 2MB:64 --pool-pages-max 2MB:64 .online:~/src/test] $ sudo hugeadm --pool-pages-min 1GB:1 --pool-pages-max 1GB:1 .online:~/src/test] $ for s in small huge; do sudo chrt -f 40 taskset -c 7 perf stat -dd ./release/gcc/test $s random; done counter stats for './release/gcc/test small random': task-clock (msec)         #    1.000 CPUs utilized 1      context-switches          #    0.000 K/sec 0      cpu-migrations            #    0.000 K/sec 53      page-faults               #    0.023 K/sec cycles                    #    4.997 GHz                      (30.83%) instructions              #    0.29  insn per cycle           (38.55%) branches                  #  187.784 M/sec                    (38.55%) branch-misses             #    0.18% of all branches          (38.55%) L1-dcache-loads           #   98.025 M/sec                    (38.55%) L1-dcache-load-misses     #  250.22% of all L1-dcache hits    (38.44%) LLC-loads                 #  118.309 M/sec                    (30.73%) LLC-load-misses           #    0.25% of all LL-cache hits     (30.73%) L1-icache-loads L1-icache-load-misses                                         (30.73%) dTLB-loads                #  125.203 M/sec                    (30.73%) dTLB-load-misses          #    0.00% of all dTLB cache hits   (30.73%) 29      iTLB-loads                #    0.013 K/sec                    (30.73%) iTLB-load-misses          # 21951.72% of all iTLB cache hits  (30.73%) counter stats for './release/gcc/test huge random': task-clock (msec)         #    1.000 CPUs utilized 1      context-switches          #    0.000 K/sec 0      cpu-migrations            #    0.000 K/sec 53      page-faults               #    0.012 K/sec cycles                    #    4.997 GHz                      (30.70%) instructions              #    0.10  insn per cycle           (38.45%) branches                  #   62.563 M/sec                    (38.54%) branch-misses             #    0.20% of all branches          (38.63%) L1-dcache-loads           #    1.817 M/sec                    (38.70%) L1-dcache-load-misses     # 3666.84% of all L1-dcache hits    (38.65%) LLC-loads                 #    0.006 M/sec                    (30.81%) LLC-load-misses           #   45.09% of all LL-cache hits     (30.72%) L1-icache-loads L1-icache-load-misses                                         (30.65%) dTLB-loads                #    1.654 M/sec                    (30.65%) 440      dTLB-load-misses          #    0.01% of all dTLB cache hits   (30.65%) 274      iTLB-loads                #    0.062 K/sec                    (30.65%) iTLB-load-misses          # 3495.26% of all iTLB cache hits   (30.65%) (NUMA ではない)、4 つのスロットすべてに 4x8GiB 4GHz CL17 RAM、performance を搭載した Ubuntu 18.04.5 LTS で実行 CPU周波数スケーリングなしのガバナー、サーマルスロットリングなしの最大の液体冷却ファン、プリエンプションなしのFIFO 40優先度、CPU移行なしの1つの特定のCPUコア、複数の実行。結果は clang++-8.0.0 と同様です コンパイラ.
  フレームごとのストア バッファなど、ハードウェアに怪しいものがあり、4KiB ページでは単位時間あたり最大 2 倍のストアが可能です。
  3 CPU の結果を見るのは興味深いでしょう。
  3 5950X では、巨大なページのバージョンは最大 10% 遅くなります:
 Duration: 1578723 counter stats for './release/gcc/test small random': 1,726.89 msec task-clock                #    1.000 CPUs utilized 0      context-switches          #    0.000 K/sec 0      cpu-migrations            #    0.000 K/sec page-faults               #    0.001 M/sec cycles                    #    4.742 GHz                      (33.02%) stalled-cycles-frontend   #    0.04% frontend cycles idle     (33.14%) stalled-cycles-backend    #    0.00% backend cycles idle      (33.25%) instructions              #    0.40  insn per cycle #    0.00  stalled cycles per insn  (33.37%) branches                  #  278.116 M/sec                    (33.49%) branch-misses             #    0.18% of all branches          (33.59%) L1-dcache-loads           #  410.844 M/sec                    (33.59%) L1-dcache-load-misses     #  226.67% of all L1-dcache accesses  (33.59%) LLC-loads LLC-load-misses L1-icache-loads           #   45.726 M/sec                    (33.59%) L1-icache-load-misses     #    0.06% of all L1-icache accesses  (33.51%) dTLB-loads                #  174.570 M/sec                    (33.39%) dTLB-load-misses          #  100.08% of all dTLB cache accesses  (33.28%) 54      iTLB-loads                #    0.031 K/sec                    (33.16%) iTLB-load-misses          # 5137.04% of all iTLB cache accesses  (33.05%) L1-dcache-prefetches      #  141.140 M/sec                    (33.01%) L1-dcache-prefetch-misses counter stats for './release/gcc/test huge random': 1,680.06 msec task-clock                #    1.000 CPUs utilized 1      context-switches          #    0.001 K/sec 1      cpu-migrations            #    0.001 K/sec page-faults               #    0.001 M/sec cycles                    #    4.784 GHz                      (33.34%) stalled-cycles-frontend   #    0.06% frontend cycles idle     (33.34%) stalled-cycles-backend    #    0.03% backend cycles idle      (33.34%) instructions              #    0.28  insn per cycle #    0.00  stalled cycles per insn  (33.34%) branches                  #  167.567 M/sec                    (33.34%) branch-misses             #    0.20% of all branches          (33.33%) L1-dcache-loads           #  186.261 M/sec                    (33.33%) L1-dcache-load-misses     #  515.93% of all L1-dcache accesses  (33.33%) LLC-loads LLC-load-misses L1-icache-loads           #    0.529 M/sec                    (33.33%) L1-icache-load-misses     #    1.48% of all L1-icache accesses  (33.33%) dTLB-loads                #    0.005 M/sec                    (33.33%) 870      dTLB-load-misses          #    9.49% of all dTLB cache accesses  (33.33%) iTLB-loads                #    0.698 K/sec                    (33.33%) iTLB-load-misses          #  163.17% of all iTLB cache accesses  (33.33%) L1-dcache-prefetches      #  150.772 M/sec                    (33.33%) L1-dcache-prefetch-misses  id="turn-page2" class="textover"> gnutls_handshake() が失敗しました:ハンドシェイクに失敗しました GIT  ストック Alpine 3.12 Docker イメージに PHP7.4 をインストールすることは可能ですか?  class="feyj_container jglistbox1 bBox1"> class="content feyj_flexbetween">     IPブラックリストとしてUFWを使用する
                        
                    

                        
                        
                            
                               ハイパフォーマンスコンピューティングでChrootを使用する場合の欠点は？                             
                        
                    

                        
                        
                            
                               Gitオートコンプリート？