Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

[インデックス 18213] ファイルの概要

このコミットは、Go言語のリンカ(liblink)におけるフォーマット動詞の衝突を解消し、コンパイラとリンカ間のコード重複を削減することを目的としています。具体的には、cmd/gc(Goコンパイラ)が内部的に使用する%S(Sym構造体)と%N(Node構造体)というフォーマット動詞が、liblinkでも異なる目的で使用されていた問題を解決します。これにより、将来的にコンパイラとリンカで共通のフォーマットルーチンを使用できるよう、基盤を整備しています。

コミット

commit d155f6a309feea100207cdf707b4bb349851b9e0
Author: Anthony Martin <ality@pbrane.org>
Date:   Thu Jan 9 19:01:08 2014 -0800

    liblink: adjust format verbs to avoid collisions
    
    The %S and %N format verbs are used by cmd/gc to
    represent Sym and Node structures, respectively.
    
    In liblink, these two verbs are used only by the %D
    format routine and never referenced externally.
    
    This change will allow us to delete the duplicated
    code for the %A, %D, %P, and %R format routines in
    both the compiler and linker.
    
    R=golang-codereviews, rsc
    CC=golang-codereviews
    https://golang.org/cl/49720043

GitHub上でのコミットページへのリンク

https://github.com/golang/go/commit/d155f6a309feea100207cdf707b4bb349851b9e0

元コミット内容

liblink: adjust format verbs to avoid collisions

%S%Nというフォーマット動詞は、cmd/gc(Goコンパイラ)によってそれぞれSym構造体とNode構造体を表現するために使用されています。

liblinkでは、これら2つの動詞は%Dフォーマットルーチン内でのみ使用され、外部からは参照されていませんでした。

この変更により、コンパイラとリンカの両方で重複している%A%D%P%Rフォーマットルーチンのコードを削除できるようになります。

変更の背景

Go言語のツールチェイン、特にコンパイラ(cmd/gc)とリンカ(liblink)は、内部的に様々なデータ構造や値を文字列として表現するために、独自のフォーマットシステムを使用しています。これはC言語のprintfのような機能を提供しますが、Goの内部構造に特化しています。

このコミット以前は、%S%Nという特定のフォーマット動詞が、cmd/gcではSym(シンボル)とNode(抽象構文木のノード)という重要なデータ構造の表示に使用されていました。しかし、liblinkでもこれらのフォーマット動詞が、%D(アドレス/オペランド)のフォーマットルーチン内で、異なる意味合いで使われていました。

このようなフォーマット動詞の「衝突」は、以下のような問題を引き起こします。

  1. コードの重複: コンパイラとリンカが同じようなフォーマット機能を持つにもかかわらず、異なる意味で同じフォーマット動詞を使用しているため、共通化が困難でした。結果として、%A%D%P%Rといった共通のフォーマットルーチンが両方のツールで重複して実装されており、メンテナンスの負担となっていました。
  2. 将来的な統合の妨げ: Goツールチェインの進化において、コンパイラとリンカのコードベースをより密接に統合し、共通のユーティリティ関数やデータ構造を利用することは、コードの品質向上、バグの削減、開発効率の向上に繋がります。フォーマット動詞の衝突は、このような統合を阻害する要因となっていました。

このコミットは、この衝突を解消し、将来的なコードの共通化と重複の削除を可能にするための、重要な基盤整備の一環です。

前提知識の解説

このコミットを理解するためには、以下のGo言語ツールチェインの内部構造とC言語のフォーマット関数に関する知識が必要です。

  1. Goツールチェインの構造:

    • cmd/gc: Goコンパイラの主要部分です。Goのソースコードを解析し、抽象構文木(AST)を構築し、最終的にアセンブリコードを生成します。
    • liblink: Goリンカのライブラリ部分です。コンパイラによって生成されたオブジェクトファイルや、他のライブラリを結合して実行可能ファイルを生成します。
    • fmtinstall: Goツールチェインの内部で使用される、C言語のprintfに似たカスタムフォーマットシステムの一部です。特定の文字(フォーマット動詞、例: %D, %S)と、それに対応するフォーマット関数(例: Dconv, Sconv)を関連付けます。これにより、sprintなどの関数で、登録されたフォーマット動詞を使って構造体や値を文字列に変換できるようになります。
    • Fmt *fp: fmtinstallで登録されるフォーマット関数が受け取る引数で、フォーマットの状態を管理する構造体へのポインタです。
    • sprint: Goツールチェイン内部で使われる、C言語のsprintfに似た関数です。フォーマット文字列と引数を受け取り、結果の文字列をバッファに書き込みます。
  2. フォーマット動詞:

    • %A: オペコード(命令のニーモニック)をフォーマットするために使用されます。
    • %D: アドレスや命令のオペランドをフォーマットするために使用されます。
    • %P: 命令(Prog構造体)をフォーマットするために使用されます。
    • %R: レジスタをフォーマットするために使用されます。
    • %S (旧): cmd/gcではSym構造体(シンボル)を、liblinkでは文字列定数(a->u.sval)をフォーマットするために使用されていました。
    • %N (旧): cmd/gcではNode構造体(ASTノード)を、liblinkではAddr構造体(アドレス)をフォーマットするために使用されていました。
  3. SymNode構造体:

    • Sym: Goコンパイラがプログラム内のシンボル(変数名、関数名など)を管理するために使用するデータ構造です。
    • Node: GoコンパイラがGoのソースコードを解析して構築する抽象構文木(AST)の各ノードを表すデータ構造です。

このコミットは、これらのフォーマット動詞の役割と、それらがGoツールチェインの異なる部分でどのように使用されていたかを理解することで、その重要性が明確になります。

技術的詳細

このコミットの技術的な核心は、liblink内部で使用されていたフォーマット動詞%S%Nを、それぞれ%$%Mという新しい動詞に置き換えることです。これにより、cmd/gcが使用する%S%Nとの衝突を解消します。

具体的な変更点は以下の通りです。

  1. フォーマット関数のリネーム:

    • src/liblink/list5.cにおいて、static int Sconv(Fmt *fp);static int DSconv(Fmt *fp); に、static int Nconv(Fmt *fp);static int Mconv(Fmt *fp); にそれぞれリネームされました。これは、これらの関数が新しいフォーマット動詞に対応することを示すためです。
  2. fmtinstallの変更:

    • src/liblink/list5.csrc/liblink/list6.csrc/liblink/list8.cの各listinit関数(listinit5, listinit6, listinit8)内で、fmtinstallの呼び出しが変更されました。
      • fmtinstall('S', Sconv);fmtinstall('$', DSconv); に変更されました。
      • fmtinstall('N', Nconv);fmtinstall('M', Mconv); に変更されました(list5.cのみ)。
    • これにより、liblinkは独自のフォーマット動詞$Mを使用するようになり、cmd/gc%S%Nとの名前空間の分離が実現されます。
  3. Dconvルーチン内のsprint呼び出しの変更:

    • src/liblink/list5.csrc/liblink/list6.csrc/liblink/list8.cDconv関数内で、sprintのフォーマット文字列が更新されました。
      • %Nを使用していた箇所は%Mに置き換えられました。
      • %Sを使用していた箇所は%$に置き換えられました。
    • これは、Dconvが内部的に文字列やアドレスをフォーマットする際に、新しいliblink固有のフォーマット動詞を使用するようにするためです。
  4. コメントの追加:

    • src/liblink/list6.cには、新しいフォーマット動詞%$に関する説明がコメントとして追加されました。これは、この動詞が「文字列定数アドレス(内部使用のみ)」を意味することを示しています。

これらの変更により、liblinkcmd/gcとは独立したフォーマット動詞のセットを持つことになります。コミットメッセージにあるように、liblinkにおける%S%Nの使用は%Dルーチン内部に限定されており、外部からは参照されていなかったため、この変更はliblinkの外部インターフェースに影響を与えることなく実施できました。

この分離は、将来的にコンパイラとリンカで共通のフォーマットルーチン(%A, %D, %P, %Rなど)を共有し、重複するコードを削除するための重要なステップです。これにより、Goツールチェイン全体のコードベースの保守性と一貫性が向上します。

コアとなるコードの変更箇所

このコミットで変更された主要なファイルとコードの変更箇所は以下の通りです。

src/liblink/list5.c

--- a/src/liblink/list5.c
+++ b/src/liblink/list5.c
@@ -41,18 +41,18 @@ enum
 
 static int	Aconv(Fmt *fp);\
 static int	Dconv(Fmt *fp);\
-static int	Nconv(Fmt *fp);\
+static int	Mconv(Fmt *fp);\
 static int	Pconv(Fmt *fp);\
 static int	Rconv(Fmt *fp);\
-static int	Sconv(Fmt *fp);\
+static int	DSconv(Fmt *fp);\
 
 void
 listinit5(void)
 {
 	fmtinstall('A', Aconv);
 	fmtinstall('P', Pconv);
-\tfmtinstall('S', Sconv);\
-\tfmtinstall('N', Nconv);\
+\tfmtinstall('$', DSconv);\
+\tfmtinstall('M', Mconv);\
 	fmtinstall('D', Dconv);
 	fmtinstall('R', Rconv);
 }
@@ -139,14 +139,14 @@ Dconv(Fmt *fp)\
 	case D_NONE:\
 		str[0] = 0;\
 		if(a->name != D_NONE || a->reg != NREG || a->sym != nil)\
-\t\t\tsprint(str, "%N(R%d)(NONE)", a, a->reg);\
+\t\t\tsprint(str, "%M(R%d)(NONE)", a, a->reg);\
 		break;\
 
 	case D_CONST:\
 		if(a->reg != NREG)\
-\t\t\tsprint(str, "$%N(R%d)", a, a->reg);\
+\t\t\tsprint(str, "$%M(R%d)", a, a->reg);\
 		else
-\t\t\tsprint(str, "$%N", a);\
+\t\t\tsprint(str, "$%M", a);\
 		break;\
 
 	case D_CONST2:\
@@ -166,27 +166,27 @@ Dconv(Fmt *fp)\
 
 	case D_OREG:\
 		if(a->reg != NREG)\
-\t\t\tsprint(str, "%N(R%d)", a, a->reg);\
+\t\t\tsprint(str, "%M(R%d)", a, a->reg);\
 		else
-\t\t\tsprint(str, "%N", a);\
+\t\t\tsprint(str, "%M", a);\
 		break;\
 
 	case D_REG:\
 		sprint(str, "R%d", a->reg);\
 		if(a->name != D_NONE || a->sym != nil)\
-\t\t\tsprint(str, "%N(R%d)(REG)", a, a->reg);\
+\t\t\tsprint(str, "%M(R%d)(REG)", a, a->reg);\
 		break;\
 
 	case D_FREG:\
 		sprint(str, "F%d", a->reg);\
 		if(a->name != D_NONE || a->sym != nil)\
-\t\t\tsprint(str, "%N(R%d)(REG)", a, a->reg);\
+\t\t\tsprint(str, "%M(R%d)(REG)", a, a->reg);\
 		break;\
 
 	case D_PSR:\
 		sprint(str, "PSR");
 		if(a->name != D_NONE || a->sym != nil)\
-\t\t\tsprint(str, "%N(PSR)(REG)", a);\
+\t\t\tsprint(str, "%M(PSR)(REG)", a);\
 		break;\
 
 	case D_BRANCH:\
@@ -203,7 +203,7 @@ Dconv(Fmt *fp)\
 		break;\
 
 	case D_SCONST:\
-\t\tsprint(str, "$\"%S\"", a->u.sval);\
+\t\tsprint(str, "$\"%$\"", a->u.sval);\
 		break;\
 	}\
 	return fmtstrcpy(fp, str);\
@@ -242,7 +242,7 @@ Rconv(Fmt *fp)\
 }\
 
 static int\
-Sconv(Fmt *fp)\
+DSconv(Fmt *fp)\
 {\
 	int i, c;\
 	char str[STRINGSZ], *p, *a;\
@@ -289,7 +289,7 @@ Sconv(Fmt *fp)\
 }\
 
 static int\
-Nconv(Fmt *fp)\
+Mconv(Fmt *fp)\
 {\
 	char str[STRINGSZ];\
 	Addr *a;\

src/liblink/list6.c

--- a/src/liblink/list6.c
+++ b/src/liblink/list6.c
@@ -34,11 +34,24 @@
 #include <link.h>\
 #include "../cmd/6l/6.out.h"\
 
+//\
+// Format conversions\
+//	%A int		Opcodes (instruction mnemonics)\
+//\
+//	%D Addr*	Addresses (instruction operands)\
+//		Flags: "%lD": seperate the high and low words of a constant by "-"\
+//\
+//	%P Prog*	Instructions\
+//\
+//	%R int		Registers\
+//\
+//	%$ char*	String constant addresses (for internal use only)\
+\
 static int	Aconv(Fmt *fp);\
 static int	Dconv(Fmt *fp);\
 static int	Pconv(Fmt *fp);\
 static int	Rconv(Fmt *fp);\
-static int	Sconv(Fmt *fp);\
+static int	DSconv(Fmt *fp);\
 
 enum
 {
@@ -50,7 +63,7 @@ listinit6(void)\
 {\
 	fmtinstall('A', Aconv);\
 	fmtinstall('P', Pconv);\
-\tfmtinstall('S', Sconv);\
+\tfmtinstall('$', DSconv);\
 	fmtinstall('D', Dconv);\
 	fmtinstall('R', Rconv);\
 }\
@@ -174,7 +187,7 @@ Dconv(Fmt *fp)\
 		break;\
 
 	case D_SCONST:\
-\t\tsprint(str, "$\"%S\"", a->u.sval);\
+\t\tsprint(str, "$\"%$\"", a->u.sval);\
 		break;\
 
 	case D_ADDR:\
@@ -337,7 +350,7 @@ Rconv(Fmt *fp)\
 }\
 
 static int\
-Sconv(Fmt *fp)\
+DSconv(Fmt *fp)\
 {\
 	int i, c;\
 	char str[STRINGSZ], *p, *a;\

src/liblink/list8.c

--- a/src/liblink/list8.c
+++ b/src/liblink/list8.c
@@ -38,7 +38,7 @@ static int	Aconv(Fmt *fp);\
 static int	Dconv(Fmt *fp);\
 static int	Pconv(Fmt *fp);\
 static int	Rconv(Fmt *fp);\
-static int	Sconv(Fmt *fp);\
+static int	DSconv(Fmt *fp);\
 
 enum
 {
@@ -50,7 +50,7 @@ listinit8(void)\
 {\
 	fmtinstall('A', Aconv);\
 	fmtinstall('P', Pconv);\
-\tfmtinstall('S', Sconv);\
+\tfmtinstall('$', DSconv);\
 	fmtinstall('D', Dconv);\
 	fmtinstall('R', Rconv);\
 }\
@@ -181,7 +181,7 @@ Dconv(Fmt *fp)\
 		break;\
 
 	case D_SCONST:\
-\t\tsprint(str, "$\"%S\"", a->u.sval);\
+\t\tsprint(str, "$\"%$\"", a->u.sval);\
 		break;\
 
 	case D_ADDR:\
@@ -298,7 +298,7 @@ Rconv(Fmt *fp)\
 }\
 
 static int\
-Sconv(Fmt *fp)\
+DSconv(Fmt *fp)\
 {\
 	int i, c;\
 	char str[STRINGSZ], *p, *a;\

コアとなるコードの解説

このコミットの核心は、Goリンカ(liblink)が内部的に使用するフォーマット動詞の命名規則を変更し、Goコンパイラ(cmd/gc)との衝突を避けることにあります。

  1. SconvからDSconvへ、NconvからMconvへのリネーム:

    • src/liblink/list5.cにおいて、Sconv関数はDSconvに、Nconv関数はMconvにそれぞれ名前が変更されました。これらの関数は、それぞれ文字列(Sconv)とアドレス(Nconv)のフォーマットを担当していました。
    • このリネームは、関数名自体がその役割をより明確にし、かつcmd/gcの同名の関数との混同を避けるための措置です。
  2. fmtinstallのフォーマット動詞の変更:

    • fmtinstallは、特定の文字(フォーマット動詞)と、その文字がsprintなどのフォーマット関数内で使用されたときに呼び出される関数を関連付ける役割を担っています。
    • 変更前は、fmtinstall('S', Sconv);fmtinstall('N', Nconv); のように、'S''N'という文字がフォーマット動詞として登録されていました。
    • 変更後は、fmtinstall('$', DSconv);fmtinstall('M', Mconv); となりました。
    • これにより、liblinkは独自のフォーマット動詞'$''M'を使用するようになります。'$'は文字列定数、'M'はアドレス(Addr構造体)のフォーマットに対応します。
  3. Dconv関数内のsprint呼び出しの更新:

    • Dconv関数は、アドレスやオペランドをフォーマットするためのルーチンです。この関数内部では、さらに詳細な情報を表示するために、他のフォーマット動詞(旧%N%S)を使用していました。
    • 例えば、sprint(str, "%N(R%d)(NONE)", a, a->reg); のような行は、sprint(str, "%M(R%d)(NONE)", a, a->reg); に変更されました。
    • また、文字列定数を扱うD_SCONSTケースでは、sprint(str, "$\"%S\"", a->u.sval);sprint(str, "$\"%$\"", a->u.sval); に変更されました。
    • これらの変更は、liblinkが内部的に使用するフォーマット動詞が、新しい'$''M'に統一されたことを反映しています。

これらの変更は、Goツールチェインの内部的な整合性を高め、将来的なコードベースの共通化と重複排除を可能にするための重要なステップです。特に、cmd/gcliblinkがそれぞれ独立したフォーマット動詞の名前空間を持つことで、両者の開発がよりスムーズに進むようになります。

関連リンク

  • Go言語の公式リポジトリ: https://github.com/golang/go
  • このコミットのChange-ID: 49720043 (GoのコードレビューシステムGerritのID)

参考にした情報源リンク

  • Go言語のソースコード(特にsrc/liblinkおよびsrc/cmd/gcディレクトリ)
  • Go言語のツールチェインに関するドキュメントやブログ記事(一般的なGoのコンパイラ/リンカの仕組みについて)
  • C言語のprintfフォーマット指定子に関する一般的な知識
  • GoのGerritコードレビューシステムに関する情報 (例: https://go-review.googlesource.com/)