[インデックス 18905] ファイルの概要
このコミットは、Goコンパイラ(cmd/6g
および cmd/8g
)において、スタックフレームの小さなゼロ初期化処理を最適化するものです。具体的には、REP
プレフィックスを用いたSTOS
命令(REP STOS
)の使用を避け、代わりにストレートラインコード(直接的な命令列)でゼロ初期化を行うように変更しています。これにより、REP
プレフィックスが持つ高い起動コストを削減し、パフォーマンスを向上させることを目的としています。
コミット
- コミットハッシュ: 14664050b9dc5284f120faa3ca054eb3d04b77bb
- 作者: Keith Randall khr@golang.org
- 日付: Wed Mar 19 15:41:34 2014 -0700
- コミットメッセージ:
cmd/6g: do small zeroings with straightline code. Removes most uses of the REP prefix, which has a high startup cost. LGTM=iant R=golang-codereviews, iant, khr CC=golang-codereviews https://golang.org/cl/77920043
GitHub上でのコミットページへのリンク
https://github.com/golang/go/commit/14664050b9dc5284f120faa3ca054eb3d04b77bb
元コミット内容
cmd/6g: do small zeroings with straightline code.
Removes most uses of the REP prefix, which has a high startup cost.
LGTM=iant
R=golang-codereviews, iant, khr
CC=golang-codereviews
https://golang.org/cl/77920043
変更の背景
この変更の背景には、x86アーキテクチャにおけるREP
プレフィックスとSTOS
命令の組み合わせ(REP STOS
)のパフォーマンス特性があります。REP STOS
は、指定された回数だけメモリに値をストアする命令であり、大量のメモリを効率的にゼロ初期化する際に用いられることがあります。しかし、非常に小さなメモリ領域をゼロ初期化する場合、REP STOS
には「高い起動コスト(high startup cost)」が存在します。
この起動コストは、現代のCPUがREP STOS
のような複雑な命令をマイクロコードで実装していることに起因します。CPUは、この命令を実行するために内部的にマイクロコードルーチンをセットアップし、実行する必要があります。このセットアッププロセスにはオーバーヘッドがあり、処理するデータ量が少ない場合、このオーバーヘッドが実際のデータストアにかかる時間よりも支配的になってしまいます。結果として、少量のゼロ初期化においては、REP STOS
を使用するよりも、個別のMOV
命令やSTOS
命令をループで実行する「ストレートラインコード」の方が高速になることがあります。
Goランタイムでは、関数呼び出し時にスタックフレームをゼロ初期化する処理が行われます。これはガベージコレクタがポインタを正しく認識するために重要です。このゼロ初期化のサイズは、関数のスタック使用量によって様々ですが、比較的小さなサイズであることも少なくありませんでした。そのため、REP STOS
の起動コストが全体のパフォーマンスに影響を与える可能性がありました。このコミットは、この非効率性を解消し、Goプログラムの実行効率を向上させることを目的としています。
前提知識の解説
Goコンパイラ (cmd/6g
, cmd/8g
)
Go言語の初期のコンパイラは、ターゲットアーキテクチャごとに異なる名前を持っていました。
6g
: AMD64 (x86-64) アーキテクチャ向けのGoコンパイラ。8g
: x86 (32-bit) アーキテクチャ向けのGoコンパイラ。
これらのコンパイラは、Goのソースコードをアセンブリコードに変換し、最終的に実行可能なバイナリを生成する役割を担っていました。現在では、go build
コマンドが内部的に適切なコンパイラを選択するため、ユーザーが直接これらの名前を意識することは少なくなっています。
x86アセンブリ命令とREP
プレフィックス、STOS
命令
STOS
(Store String): この命令は、AL/AX/EAX/RAX
レジスタの内容をES:DI/EDI/RDI
レジスタが指すメモリ位置にストアし、その後DI/EDI/RDI
レジスタをインクリメントまたはデクリメントします(方向フラグDFによって決定)。STOSB
(バイト)、STOSW
(ワード)、STOSD
(ダブルワード)、STOSQ
(クアッドワード)などがあります。REP
(Repeat):REP
プレフィックスは、文字列操作命令(MOVS
,STOS
,CMPS
,SCAS
など)の前に付加され、CX/ECX/RCX
レジスタに指定された回数だけその命令を繰り返すようにCPUに指示します。例えば、REP STOSQ
は、RCX
回だけRAX
の内容をRDI
が指すメモリにストアし、RDI
をインクリメントします。これは、memset
のようなメモリ初期化処理でよく使われます。
REP STOS
の起動コスト
前述の通り、REP STOS
は現代のCPUではマイクロコードによって実装されています。これは、CPUがこの命令を直接ハードウェアで実行するのではなく、内部的に一連のより単純なマイクロ操作に分解して実行することを意味します。このマイクロコードのセットアップと実行には、以下のようなオーバーヘッドが伴います。
- マイクロコードのロードと初期化:
REP STOS
が実行される際、CPUは対応するマイクロコードを内部的にロードし、必要なレジスタや内部状態を初期化します。 - 最適化パスの選択: CPUは、データサイズ、アライメント、繰り返し回数などに基づいて、最適な実行パスを選択します。この選択プロセス自体にも時間がかかります。
- パイプラインのフラッシュ: 複雑な命令の実行は、CPUのパイプラインを一時的に停止させたり、フラッシュさせたりすることがあり、これもパフォーマンスに影響します。
これらのオーバーヘッドは、繰り返し回数が少ない(つまり、ゼロ初期化するメモリサイズが小さい)場合には、個々のストア命令を直接実行するよりもコストが高くなることがあります。繰り返し回数が多くなればなるほど、この起動コストは償却され、REP STOS
の効率性が発揮されます。
技術的詳細
このコミットは、src/cmd/6g/ggen.c
とsrc/cmd/8g/ggen.c
内のdefframe
関数を変更しています。この関数は、Goコンパイラが関数のプロローグ(関数が呼び出された直後に実行されるコード)を生成する際に、スタックフレームのゼロ初期化を行う部分です。
変更の核心は、stkzerosize
(ゼロ初期化するスタック領域のサイズ)の大きさに応じて、異なるゼロ初期化戦略を採用することです。
stkzerosize == 0
: ゼロ初期化するサイズがない場合、何も行いません。stkzerosize <= 2 * widthreg
(またはwidthptr
):widthreg
はレジスタの幅(64-bitアーキテクチャでは8バイト、32-bitアーキテクチャでは4バイト)を指します。- このケースでは、スタック領域が非常に小さい(1ワードまたは2ワード)場合を扱います。
AMOVQ
(64-bit)またはAMOVL
(32-bit)命令を直接使用して、0をスタック上の各ワードにストアします。これは、REP STOS
の起動コストを完全に回避する「ストレートラインコード」です。- 例:
MOVQ $0, (SP)+offset
を2回実行するようなイメージです。
stkzerosize <= 16 * widthreg
(またはwidthptr
):- スタック領域が中程度のサイズ(3ワードから16ワード)の場合を扱います。
- まず、
AX
レジスタ(またはEAX
)に0をロードします。 - その後、ループを展開する形で、
AMOVQ AX, (SP)+offset
(またはAMOVL EAX, (SP)+offset
)命令を繰り返し生成し、AX
レジスタの0をスタック上の各ワードにストアします。 - この方法も
REP STOS
を使用しませんが、AX
レジスタを再利用することで、定数0を繰り返しロードするオーバーヘッドを削減しています。
stkzerosize > 16 * widthreg
(またはwidthptr
):- スタック領域が比較的大きい場合を扱います。
- このケースでは、
REP STOS
の起動コストが償却されるため、従来のREP STOS
命令を使用します。 AX
レジスタに0をロードし、CX
レジスタに繰り返し回数(stkzerosize / widthreg
)を設定し、DI
レジスタにストア先のスタックアドレスを設定した後、AREP
プレフィックスとASTOSQ
(またはASTOSL
)命令を発行します。
この多段階のアプローチにより、Goコンパイラはスタックゼロ初期化のサイズに応じて最適なコードパスを選択し、全体的なパフォーマンスを向上させています。特に、頻繁に呼び出される小さな関数において、この最適化は顕著な効果を発揮すると考えられます。
コアとなるコードの変更箇所
変更は以下の2つのファイルにわたります。
src/cmd/6g/ggen.c
src/cmd/8g/ggen.c
それぞれのファイルのdefframe
関数内で、stkzerosize
の処理ロジックが変更されています。
src/cmd/6g/ggen.c
の変更点
--- a/src/cmd/6g/ggen.c
+++ b/src/cmd/6g/ggen.c
@@ -29,12 +30,25 @@ defframe(Prog *ptxt)
// so that garbage collector only sees initialized values
// when it looks for pointers.
p = ptxt;
- if(stkzerosize > 0) {
- p = appendpp(p, movptr, D_CONST, 0, D_AX, 0);
- p = appendpp(p, movptr, D_CONST, stkzerosize/widthptr, D_CX, 0);
- p = appendpp(p, leaptr, D_SP+D_INDIR, frame-stkzerosize, D_DI, 0);
- p = appendpp(p, AREP, D_NONE, 0, D_NONE, 0);
- appendpp(p, stosptr, D_NONE, 0, D_NONE, 0);
+ if(stkzerosize % widthreg != 0)
+ fatal("zero size not a multiple of ptr size");
+ if(stkzerosize == 0) {
+ // nothing
+ } else if(stkzerosize <= 2*widthreg) {
+ for(i = 0; i < stkzerosize; i += widthreg) {
+ p = appendpp(p, AMOVQ, D_CONST, 0, D_SP+D_INDIR, frame-stkzerosize+i);
+ }
+ } else if(stkzerosize <= 16*widthreg) {
+ p = appendpp(p, AMOVQ, D_CONST, 0, D_AX, 0);
+ for(i = 0; i < stkzerosize; i += widthreg) {
+ p = appendpp(p, AMOVQ, D_AX, 0, D_SP+D_INDIR, frame-stkzerosize+i);
+ }
+ } else {
+ p = appendpp(p, AMOVQ, D_CONST, 0, D_AX, 0);
+ p = appendpp(p, AMOVQ, D_CONST, stkzerosize/widthreg, D_CX, 0);
+ p = appendpp(p, leaptr, D_SP+D_INDIR, frame-stkzerosize, D_DI, 0);
+ p = appendpp(p, AREP, D_NONE, 0, D_NONE, 0);
+ appendpp(p, ASTOSQ, D_NONE, 0, D_NONE, 0);
}
src/cmd/8g/ggen.c
の変更点
--- a/src/cmd/8g/ggen.c
+++ b/src/cmd/8g/ggen.c
@@ -28,7 +29,20 @@ defframe(Prog *ptxt)
// so that garbage collector only sees initialized values
// when it looks for pointers.
p = ptxt;
- if(stkzerosize > 0) {
+ if(stkzerosize % widthptr != 0)
+ fatal("zero size not a multiple of ptr size");
+ if(stkzerosize == 0) {
+ // nothing
+ } else if(stkzerosize <= 2*widthptr) {
+ for(i = 0; i < stkzerosize; i += widthptr) {
+ p = appendpp(p, AMOVL, D_CONST, 0, D_SP+D_INDIR, frame-stkzerosize+i);
+ }
+ } else if(stkzerosize <= 16*widthptr) {
+ p = appendpp(p, AMOVL, D_CONST, 0, D_AX, 0);
+ for(i = 0; i < stkzerosize; i += widthptr) {
+ p = appendpp(p, AMOVL, D_AX, 0, D_SP+D_INDIR, frame-stkzerosize+i);
+ }
+ } else {
p = appendpp(p, AMOVL, D_CONST, 0, D_AX, 0);
p = appendpp(p, AMOVL, D_CONST, stkzerosize/widthptr, D_CX, 0);
p = appendpp(p, ALEAL, D_SP+D_INDIR, frame-stkzerosize, D_DI, 0);
コアとなるコードの解説
defframe
関数は、Goコンパイラのバックエンドの一部であり、アセンブリコード生成を担当します。この関数は、Go関数のスタックフレームのセットアップと、ガベージコレクタがポインタを正しく追跡できるようにするためのスタック領域のゼロ初期化を行います。
変更されたコードブロックは、stkzerosize
という変数に基づいて、スタックのゼロ初期化方法を決定します。
-
stkzerosize % widthreg != 0
(またはwidthptr
) のチェック:- これは、ゼロ初期化するサイズがポインタサイズ(またはレジスタ幅)の倍数であることを確認するためのアサーションです。そうでない場合は致命的なエラー(
fatal
)を発生させます。
- これは、ゼロ初期化するサイズがポインタサイズ(またはレジスタ幅)の倍数であることを確認するためのアサーションです。そうでない場合は致命的なエラー(
-
if(stkzerosize == 0)
:- ゼロ初期化するサイズが0の場合、何もする必要がないため、このブロックはスキップされます。
-
else if(stkzerosize <= 2*widthreg)
(またはwidthptr
):6g
(AMD64) の場合、widthreg
は8バイト(64ビット)です。したがって、stkzerosize
が16バイト以下(2ワード以下)の場合にこのブロックが実行されます。8g
(x86) の場合、widthptr
は4バイト(32ビット)です。したがって、stkzerosize
が8バイト以下(2ワード以下)の場合にこのブロックが実行されます。- このブロックでは、
for
ループを使って、AMOVQ
(64ビット)またはAMOVL
(32ビット)命令を直接生成し、定数0
をスタック上の各ワードにストアします。これは、REP STOS
の起動コストを避けるための最も直接的な方法です。
-
else if(stkzerosize <= 16*widthreg)
(またはwidthptr
):6g
(AMD64) の場合、stkzerosize
が16バイトより大きく、128バイト以下(16ワード以下)の場合にこのブロックが実行されます。8g
(x86) の場合、stkzerosize
が8バイトより大きく、64バイト以下(16ワード以下)の場合にこのブロックが実行されます。- このブロックでは、まず
AMOVQ D_CONST, 0, D_AX, 0
(またはAMOVL D_CONST, 0, D_AX, 0
)によってAX
レジスタに0
をロードします。 - その後、
for
ループを使って、AMOVQ D_AX, 0, D_SP+D_INDIR, frame-stkzerosize+i
(またはAMOVL D_AX, 0, D_SP+D_INDIR, frame-stkzerosize+i
)命令を生成します。これは、AX
レジスタに格納された0
をスタック上の各ワードにストアするものです。AX
レジスタを再利用することで、定数0
を繰り返し命令に埋め込むよりも効率的になります。
-
else
:- 上記の条件に当てはまらない、つまり
stkzerosize
が16ワードよりも大きい場合にこのブロックが実行されます。 - この場合、
REP STOS
の起動コストが償却されるため、従来のREP STOS
命令が使用されます。 AMOVQ D_CONST, 0, D_AX, 0
(またはAMOVL D_CONST, 0, D_AX, 0
)でAX
に0
をロードします。AMOVQ D_CONST, stkzerosize/widthreg, D_CX, 0
(またはAMOVL D_CONST, stkzerosize/widthptr, D_CX, 0
)でCX
レジスタに繰り返し回数を設定します。leaptr D_SP+D_INDIR, frame-stkzerosize, D_DI, 0
(またはALEAL D_SP+D_INDIR, frame-stkzerosize, D_DI, 0
)でDI
レジスタにストア開始アドレスを設定します。- 最後に、
AREP
プレフィックスとASTOSQ
(またはASTOSL
)命令を生成し、REP STOS
を実行します。
- 上記の条件に当てはまらない、つまり
この変更により、Goコンパイラは生成するアセンブリコードの品質を向上させ、特に小さなスタックフレームのゼロ初期化において、より効率的な実行パスを選択できるようになりました。
関連リンク
- Go CL (Code Review) リンク: https://golang.org/cl/77920043
参考にした情報源リンク
- stackoverflow.com: x86 REP prefix high startup cost stos instruction
- ycombinator.com: