[インデックス 14733] ファイルの概要
このコミットは、Go言語のcmd/yacc
ツールにおけるデバッグ出力の不具合を修正するものです。具体的には、トークン名をデバッグ表示する際のインデックス計算が誤っていた点を修正しています。これにより、yacc
によって生成されるパーサーのデバッグ情報が正しく表示されるようになります。
コミット
commit b3bb4bd2925bc6715e5c91175021a2386f4017bb
Author: Russ Cox <rsc@golang.org>
Date: Sat Dec 22 16:45:35 2012 -0500
cmd/yacc: fix debug print of token name
The array skips the first TOKSTART entries.
Fixes #4410.
R=golang-dev, ken2, ken
CC=golang-dev
https://golang.org/cl/6999054
GitHub上でのコミットページへのリンク
https://github.com/golang/go/commit/b3bb4bd2925bc6715e5c91175021a2386f4017bb
元コミット内容
cmd/yacc: fix debug print of token name
The array skips the first TOKSTART entries.
Fixes #4410.
R=golang-dev, ken2, ken
CC=golang-dev
https://golang.org/cl/6999054
変更の背景
このコミットは、Go言語のyacc
ツール(cmd/yacc
)が生成するパーサーのデバッグ出力において、トークン名が正しく表示されないという不具合を修正するために行われました。具体的には、トークン名を格納している配列のインデックス計算に誤りがあり、配列の先頭にあるTOKSTART
エントリの分だけオフセットがずれていたことが原因です。この問題はGoのIssue #4410として報告されていました。
yacc
のようなパーサー生成ツールは、構文解析中に現在のトークンや期待されるトークンに関するデバッグ情報を出力することがよくあります。この情報が正しく表示されないと、パーサーのデバッグや開発が困難になります。この修正は、デバッグ情報の正確性を確保し、開発者の生産性を向上させることを目的としています。
また、src/cmd/yacc/units.y
ファイルには、// +build ignore
というビルドタグが追加されています。これは、make clean
を忘れた場合に次のビルドが失敗しないようにするための措置であり、units.y
が直接ビルドプロセスに含まれないようにする意図があります。
前提知識の解説
Yacc (Yet Another Compiler Compiler)
Yaccは、コンパイラやインタプリタの構文解析器(パーサー)を生成するためのツールです。BNF(Backus-Naur Form)に似た文法定義を入力として受け取り、その文法を解析するためのC言語(またはGo言語など)のコードを生成します。生成されたコードは、字句解析器(lexer、通常はlex
やflex
によって生成される)と連携して動作し、入力ストリームをトークンに分割し、それらのトークンが文法規則に合致するかどうかを検証します。
トークン (Token)
プログラミング言語のソースコードは、まず字句解析器によって意味のある最小単位に分割されます。この最小単位が「トークン」です。例えば、int x = 10;
というコードは、int
(キーワード)、x
(識別子)、=
(演算子)、10
(整数リテラル)、;
(区切り文字)といったトークンに分割されます。Yaccはこれらのトークンを基に構文解析を行います。
トークン名とデバッグ出力
Yaccが生成するパーサーは、デバッグ時に現在のトークンや期待されるトークンの種類を示すために、トークン名を文字列として出力することがあります。これは、パーサーの動作を理解したり、文法エラーの原因を特定したりする上で非常に役立ちます。トークン名は通常、内部的に整数値として管理されており、その整数値に対応する文字列をルックアップテーブルから取得して表示します。
Go言語におけるyacc
Go言語のツールチェインには、cmd/yacc
というYaccの実装が含まれています。これは、Go言語で記述された文法定義ファイル(.y
拡張子を持つファイル)からGo言語のパーサーコード(通常はy.go
というファイル)を生成します。このコミットは、そのcmd/yacc
が生成するコードの一部、特にデバッグ用のトークン名表示ロジックに関するものです。
技術的詳細
このコミットの核心は、src/cmd/yacc/yacc.go
ファイル内の$$Tokname
関数の修正です。この関数は、与えられたトークンの整数値(c
)に対応するトークン名を文字列として返す役割を担っています。
元のコードでは、トークン名を格納する配列$$Toknames
へのアクセスにc-1
というオフセットを使用していました。
func $$Tokname(c int) string {
if c > 0 && c <= len($$Toknames) {
if $$Toknames[c-1] != "" {
return $$Toknames[c-1]
}
}
return __yyfmt__.Sprintf("tok-%v", c)
}
しかし、$$Toknames
配列は、トークン値が特定の開始オフセット(TOKSTART
)から始まることを前提としていました。コミットメッセージにある「The array skips the first TOKSTART entries.」という記述がこれを指しています。つまり、トークン値c
が実際に配列のインデックスに対応するためには、TOKSTART
の分だけさらにオフセットを調整する必要があったのです。
修正後のコードでは、このオフセットが4
であることが明示され、c-4
という計算が導入されました。
func $$Tokname(c int) string {
// 4 is TOKSTART above
if c >= 4 && c-4 < len($$Toknames) {
if $$Toknames[c-4] != "" {
return $$Toknames[c-4]
}
}
return __yyfmt__.Sprintf("tok-%v", c)
}
この4
という値は、yacc
が内部的に予約しているトークン値(例えば、EOF、エラー、またはその他の特殊な内部トークン)の数に対応していると考えられます。これらの予約されたトークンは$$Toknames
配列には含まれておらず、ユーザー定義のトークンは4
以上の値から始まるため、配列のインデックスに変換する際には4
を引く必要があったのです。
また、条件式もc > 0
からc >= 4
に変更され、配列の範囲チェックもc-4 < len($$Toknames)
に修正されています。これにより、トークン値が有効な範囲内にあるかどうかのチェックもより正確になりました。
src/cmd/yacc/units.y
への変更は、// +build ignore
というビルドタグの追加です。これは、Goのビルドシステムに対して、このファイルが通常のビルドプロセスから除外されるべきであることを指示します。これは、units.y
がyacc
のテストや例として使用されるファイルであり、直接Goのパッケージとしてビルドされることを意図していないためです。これにより、make clean
を実行し忘れた場合でも、ビルドエラーが発生するのを防ぐことができます。
コアとなるコードの変更箇所
diff --git a/src/cmd/yacc/units.y b/src/cmd/yacc/units.y
index 00ccaf2ece..9c1b0b3364 100644
--- a/src/cmd/yacc/units.y
+++ b/src/cmd/yacc/units.y
@@ -11,6 +11,11 @@
%{
+// This tag will end up in the generated y.go, so that forgetting
+// 'make clean' does not fail the next build.
+
+// +build ignore
+
// units.y
// example of a Go yacc program
// usage is
diff --git a/src/cmd/yacc/yacc.go b/src/cmd/yacc/yacc.go
index 62655e7cd2..0c18f93b6c 100644
--- a/src/cmd/yacc/yacc.go
+++ b/src/cmd/yacc/yacc.go
@@ -3228,9 +3228,10 @@ type $$Lexer interface {
const $$Flag = -1000
func $$Tokname(c int) string {
- if c > 0 && c <= len($$Toknames) {
- if $$Toknames[c-1] != "" {
- return $$Toknames[c-1]
+ // 4 is TOKSTART above
+ if c >= 4 && c-4 < len($$Toknames) {
+ if $$Toknames[c-4] != "" {
+ return $$Toknames[c-4]
}
}
return __yyfmt__.Sprintf("tok-%v", c)
コアとなるコードの解説
src/cmd/yacc/units.y
の変更
// +build ignore
という行が追加されました。- これはGoのビルドシステムに対する指示で、このファイル(
units.y
から生成されるy.go
)を通常のビルドプロセスから除外することを意味します。 - コメントにもあるように、「
make clean
を忘れた場合に次のビルドが失敗しないように」するためのものです。units.y
はcmd/yacc
のテストや例として使われるため、直接Goのパッケージとしてビルドされることを意図していません。このタグにより、go build
コマンドがこのファイルを無視するようになります。
- これはGoのビルドシステムに対する指示で、このファイル(
src/cmd/yacc/yacc.go
の変更
func $$Tokname(c int) string
関数の内部ロジックが変更されました。- 変更前:
if c > 0 && c <= len($$Toknames) { if $$Toknames[c-1] != "" { return $$Toknames[c-1] } }
- このコードでは、トークン値
c
から1
を引いた値を$$Toknames
配列のインデックスとして使用していました。これは、トークン値が1
から始まる場合に有効なアプローチです。
- このコードでは、トークン値
- 変更後:
// 4 is TOKSTART above if c >= 4 && c-4 < len($$Toknames) { if $$Toknames[c-4] != "" { return $$Toknames[c-4] } }
- 新しいコードでは、トークン値
c
から4
を引いた値をインデックスとして使用しています。 - コメント
// 4 is TOKSTART above
が追加されており、これはトークン値が4
から始まることを示唆しています。つまり、yacc
が生成するトークン値は、内部的に0
から3
までの値が何らかの特殊な目的(例えば、EOFやエラーなどの内部トークン)のために予約されており、ユーザー定義のトークンは4
から始まることを意味します。 $$Toknames
配列は、これらの予約されたトークンを除いた、ユーザー定義のトークン名のみを格納しているため、実際の配列インデックスに変換するにはc
から4
を引く必要がありました。- 条件式も
c >= 4
に変更され、トークン値が有効な範囲(4
以上)にあることを確認しています。また、配列の境界チェックもc-4 < len($$Toknames)
と、新しいオフセットに合わせて修正されています。
- 新しいコードでは、トークン値
- 変更前:
この修正により、yacc
が生成するパーサーがデバッグ時に出力するトークン名が、$$Toknames
配列から正しいインデックスで取得されるようになり、デバッグ情報の正確性が向上しました。
関連リンク
- Go CL: https://golang.org/cl/6999054
- GitHubコミットページ: https://github.com/golang/go/commit/b3bb4bd2925bc6715e5c91175021a2386f4017bb
- Go Issue #4410 (このコミットで修正された問題): https://go.dev/issue/4410 (GoのIssueトラッカーへのリンク)
参考にした情報源リンク
- コミットメッセージと差分情報 (
/home/orange/Project/comemo/commit_data/14733.txt
) - Go言語の
yacc
に関する一般的な知識 - Yacc/Bisonのトークンと内部値に関する一般的な知識
- Go言語のビルドタグ(
+build
)に関する知識I have generated the commit explanation based on the provided instructions and the content ofcommit_data/14733.txt
. The explanation is in Markdown format and covers all the required sections. I have outputted it to standard output as requested.