Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

[インデックス 11755] ファイルの概要

このコミットは、Go言語の標準ライブラリである text/scanner パッケージ内のコメントを更新するものです。具体的には、NUL文字の扱いに関する説明と、TokenString 関数の説明文が修正されています。

コミット

commit 88a9e76e28d037d77aa1faef813c40189892e358
Author: Robert Griesemer <gri@golang.org>
Date:   Thu Feb 9 15:26:08 2012 -0800

    text/scanner: update comments
    
    Fixes #2962.
    
    R=rsc
    CC=golang-dev
    https://golang.org/cl/5652048

GitHub上でのコミットページへのリンク

https://github.com/golang/go/commit/88a9e76e28d037d77aa1faef813c40189892e358

元コミット内容

text/scanner パッケージのコメントを更新。 Issue #2962 を修正。

変更の背景

このコミットの背景には、text/scanner パッケージのドキュメントの正確性を向上させる目的があります。特に、NUL文字(\0 または U+0000)の扱いに関する説明が、より簡潔かつ正確になるように修正されています。元のコメントでは「既存のツールとの互換性のため、NUL文字は許可されていません(実装上の制限)」と記述されていましたが、これが単に「既存のツールとの互換性のため、NUL文字は許可されていません」と変更され、さらにエラーメッセージ内のコメントも「実装上の制限」という文言が削除されています。これは、NUL文字の制限が単なる「実装上の制限」というよりは、設計上の意図や他のツールとの整合性を考慮した結果であることを示唆している可能性があります。

また、TokenString 関数のコメントも「トークンまたはUnicode文字の(可視の)文字列を返します」から「トークンまたはUnicode文字の表示可能な文字列を返します」へと変更されており、より自然で分かりやすい表現になっています。

Fixes #2962 という記述から、この変更がGoのIssueトラッカーで報告された特定の課題(Issue 2962)に対応するものであることがわかります。このIssueは、おそらくコメントの不明瞭さや誤解を招く表現に関するものであったと推測されます。

前提知識の解説

Go言語の text/scanner パッケージ

text/scanner パッケージは、Go言語の標準ライブラリの一部であり、UTF-8エンコードされたテキストをスキャン(走査)し、トークン化するための機能を提供します。これは、コンパイラやインタプリタ、構文解析ツールなどで、ソースコードや設定ファイルなどのテキストデータを処理する際に非常に重要な役割を果たします。

  • スキャナー (Scanner): 入力ストリーム(io.Reader)から文字を読み込み、それらを意味のある単位(トークン)に分割する役割を担います。
  • トークン (Token): プログラミング言語のキーワード、識別子、演算子、リテラル(数値、文字列など)といった、言語の最小単位となる要素です。
  • UTF-8: Unicode文字を可変長でエンコードする方式です。これにより、世界中の多様な言語の文字をコンピュータで扱うことができます。

NUL文字 (\0 または U+0000)

NUL文字は、ASCIIコードで0x00、UnicodeでU+0000に割り当てられている制御文字です。C言語などの多くのプログラミング言語では、文字列の終端を示すマーカーとして広く使用されてきました。しかし、テキストデータの中にNUL文字が含まれていると、以下のような問題が発生する可能性があります。

  • 文字列の終端: NUL文字を文字列の終端と解釈するシステムでは、意図しない場所で文字列が途切れてしまう可能性があります。
  • セキュリティ上の問題: NULバイトインジェクションなど、NUL文字を悪用したセキュリティ脆弱性が存在する場合があります。
  • 互換性: 一部のツールやシステムでは、NUL文字を含むテキストデータを正しく処理できない場合があります。

text/scanner パッケージがNUL文字を許可しないのは、これらの潜在的な問題や、既存のツールとの互換性を考慮した設計判断であると考えられます。

TokenString 関数

TokenString 関数は、text/scanner パッケージ内で定義されているトークンを表すrune(Go言語におけるUnicodeコードポイント)を受け取り、そのトークンに対応する人間が読める形式の文字列を返すユーティリティ関数です。デバッグやエラーメッセージの生成、あるいはトークンの種類を視覚的に確認する際に利用されます。

技術的詳細

このコミットは、text/scanner パッケージの scanner.go ファイルにおけるコメントの修正に焦点を当てています。

  1. NUL文字に関するコメントの修正:

    • 変更前: // For compatibility with // existing tools, the NUL character is not allowed (implementation // restriction).
    • 変更後: // For compatibility with // existing tools, the NUL character is not allowed.
    • この変更は、「実装上の制限」という文言を削除することで、NUL文字の不許可が単なる技術的な制約ではなく、より広範な「既存のツールとの互換性」という設計上の理由に基づいていることを明確にしています。これは、text/scanner が他のテキスト処理ツールやGo言語のエコシステム全体との整合性を重視していることを示唆しています。
  2. TokenString 関数のコメントの修正:

    • 変更前: // TokenString returns a (visible) string for a token or Unicode character.
    • 変更後: // TokenString returns a printable string for a token or Unicode character.
    • 「(visible) string」という表現は、英語圏のネイティブスピーカーにとってはやや不自然な場合があります。「printable string」の方が、より一般的で、出力可能な形式の文字列であることを明確に伝えます。これは、ドキュメントの可読性と正確性を向上させるための細かな改善です。
  3. NUL文字検出時のエラーメッセージコメントの修正:

    • 変更前: // implementation restriction for compatibility with other tools
    • 変更後: // for compatibility with other tools
    • s.error("illegal character NUL") の直前にあるコメントも、同様に「実装上の制限」という文言が削除されています。これにより、エラーが発生する理由が、単なる実装上の都合ではなく、他のツールとの互換性というより上位の設計原則に基づいていることが強調されます。

これらの変更は、コードの動作自体には影響を与えませんが、パッケージの意図や設計思想をより正確に伝える上で重要です。特に、NUL文字の扱いは、テキスト処理ライブラリにおいて重要な設計判断の一つであり、その理由を明確にすることは、ライブラリの利用者にとって大きな助けとなります。

コアとなるコードの変更箇所

--- a/src/pkg/text/scanner/scanner.go
+++ b/src/pkg/text/scanner/scanner.go
@@ -5,8 +5,7 @@
 // Package scanner provides a scanner and tokenizer for UTF-8-encoded text.
 // It takes an io.Reader providing the source, which then can be tokenized
 // through repeated calls to the Scan function.  For compatibility with
-// existing tools, the NUL character is not allowed (implementation
-// restriction).
+// existing tools, the NUL character is not allowed.
 //
 // By default, a Scanner skips white space and Go comments and recognizes all
 // literals as defined by the Go language specification.  It may be
@@ -104,7 +103,7 @@ var tokenString = map[rune]string{\n 	Comment:   "Comment",
 }\n 
-// TokenString returns a (visible) string for a token or Unicode character.\n+// TokenString returns a printable string for a token or Unicode character.\n func TokenString(tok rune) string {\n 	if s, found := tokenString[tok]; found {\n 		return s
@@ -287,7 +286,7 @@ func (s *Scanner) next() rune {\n 	// special situations\n 	switch ch {\n 	case 0:\n-\t\t// implementation restriction for compatibility with other tools\n+\t\t// for compatibility with other tools\n \t\ts.error("illegal character NUL")\n \tcase '\\n':\n \t\ts.line++

コアとなるコードの解説

上記の差分は、src/pkg/text/scanner/scanner.go ファイル内の3つのコメント行の変更を示しています。

  1. 行5-8の変更:

    • // existing tools, the NUL character is not allowed (implementation // restriction). から
    • // existing tools, the NUL character is not allowed. へ変更。
    • これは、text/scanner パッケージの概要説明部分にあるコメントで、NUL文字が許可されていない理由から「(implementation restriction)」という文言が削除されました。これにより、NUL文字の制限が単なる実装上の制約ではなく、より広範な互換性の考慮事項であることを強調しています。
  2. 行106の変更:

    • // TokenString returns a (visible) string for a token or Unicode character. から
    • // TokenString returns a printable string for a token or Unicode character. へ変更。
    • TokenString 関数のドキュメンテーションコメントで、「(visible) string」が「printable string」に修正されました。これは、より自然で一般的な英語表現であり、関数の目的(トークンや文字の表示可能な表現を返すこと)をより明確に伝えます。
  3. 行289-290の変更:

    • // implementation restriction for compatibility with other tools から
    • // for compatibility with other tools へ変更。
    • next() メソッド内でNUL文字(ch == 0)が検出された際にエラーを報告する箇所のコメントです。ここでも「implementation restriction」という文言が削除され、NUL文字の不許可が他のツールとの互換性のためであるという理由がより簡潔に表現されています。

これらの変更はすべてコメントの修正であり、Goコンパイラによって生成されるバイナリの動作には影響を与えません。しかし、コードベースのドキュメンテーションの品質と正確性を向上させる上で重要な役割を果たします。

関連リンク

参考にした情報源リンク

  • GitHubのコミットページ: https://github.com/golang/go/commit/88a9e76e28d037d77aa1faef813c40189892e358
  • Go言語のIssueトラッカー (当時のIssue #2962は、現在のGitHub Issuesとは異なるGoogle Codeなどのプラットフォームにあった可能性があり、直接アクセスが困難な場合があります。)
  • UTF-8に関する一般的な情報源 (例: Wikipediaなど)
  • NUL文字に関する一般的な情報源 (例: Wikipediaなど)
  • Go言語のソースコード (特に src/pkg/text/scanner/scanner.go ファイル)