[インデックス 17138] ファイルの概要
このコミットは、Go言語の標準ライブラリであるencoding/json
パッケージにおいて、JSON文字列をエスケープする際に、これまでエスケープされていなかった&
(アンパサンド)文字を常にエスケープするように変更するものです。これにより、JSONエンコーディングの一貫性とセキュリティが向上します。
コミット
commit 080e00d55d37be67be30e2723233594e64097edf
Author: Russ Cox <rsc@golang.org>
Date: Fri Aug 9 18:33:57 2013 -0400
encoding/json: escape & always
There are a few different places in the code that escape
possibly-problematic characters like < > and &.
This one was the only one missing &, so add it.
This means that if you Marshal a string, you get the
same answer you do if you Marshal a string and
pass it through the compactor. (Ironically, the
compaction makes the string longer.)
Because html/template invokes json.Marshal to
prepare escaped strings for JavaScript, this changes
the form of some of the escaped strings, but not
their meaning.
R=golang-dev, bradfitz
CC=golang-dev
https://golang.org/cl/12708044
GitHub上でのコミットページへのリンク
https://github.com/golang/go/commit/080e00d55d37be67be30e2723233594e64097edf
元コミット内容
encoding/json: escape & always
このコミットは、encoding/json
パッケージがJSON文字列をエスケープする際に、&
文字を常にエスケープするように変更します。コードベースには<
や>
といった問題のある文字をエスケープする箇所がいくつか存在しますが、&
だけが欠けていたため、これを追加します。
この変更により、文字列をjson.Marshal
でエンコードした場合と、エンコード後にコンパクター(おそらく内部的な最適化処理)を通した場合とで、同じ結果が得られるようになります。(皮肉なことに、この変更によって文字列が長くなる場合があります。)
html/template
パッケージは、JavaScript向けにエスケープされた文字列を準備するためにjson.Marshal
を呼び出すため、この変更はエスケープされた文字列の形式を変更しますが、その意味は変わりません。
変更の背景
JSON(JavaScript Object Notation)は、データ交換のための軽量なデータ形式です。Webアプリケーションにおいて、JSONデータはしばしばHTMLドキュメント内に埋め込まれたJavaScriptコード内で利用されます。この際、JSON文字列に含まれる特定の文字が、HTMLやJavaScriptの構文と衝突し、セキュリティ上の脆弱性(特にクロスサイトスクリプティング: XSS)を引き起こす可能性があります。
Goのencoding/json
パッケージは、JSON仕様に準拠しつつ、これらのセキュリティリスクを軽減するためのエスケープ処理を行っています。しかし、これまでの実装では、HTMLの特殊文字である&
(アンパサンド)がJSON文字列内でエスケープされていませんでした。
例えば、JSON文字列が<script>
タグ内に直接埋め込まれる場合、&
がエスケープされていないと、HTMLエンティティとして解釈され、意図しない挙動を引き起こす可能性があります。特に、&
はHTMLエンティティの開始文字であるため、&
や&
のようにエスケープされるべきです。
このコミットの背景には、encoding/json
が生成するJSON文字列が、HTMLコンテキスト、特にhtml/template
パッケージを通じてJavaScriptに埋め込まれる際に、より安全で一貫性のあるエスケープ処理を提供する必要性があったと考えられます。既存のコードベースで<
や>
はエスケープされていたにもかかわらず、&
が漏れていたという点が、この変更の直接的な動機となっています。
前提知識の解説
JSON (JavaScript Object Notation)
JSONは、人間が読み書きしやすく、機械が解析・生成しやすいデータ交換フォーマットです。JavaScriptのオブジェクトリテラルをベースにしていますが、言語に依存しないデータ形式として広く利用されています。
エスケープ処理
エスケープ処理とは、特定の文字が特別な意味を持つコンテキストにおいて、その文字を通常の文字として扱わせるために、別の表現に変換することです。例えば、JSON文字列内でダブルクォーテーション"
を表現したい場合、\"
のようにバックスラッシュを前置してエスケープします。
Webセキュリティの文脈では、HTMLやJavaScriptの特殊文字を適切にエスケープすることが非常に重要です。これにより、悪意のあるスクリプトの挿入(XSS攻撃)を防ぐことができます。
クロスサイトスクリプティング (XSS)
XSSは、Webアプリケーションの脆弱性の一つで、攻撃者が悪意のあるスクリプトをWebページに挿入し、そのスクリプトがユーザーのブラウザで実行されることで発生します。これにより、セッションハイジャック、個人情報の窃取、Webサイトの改ざんなどが行われる可能性があります。
JSONデータがHTMLやJavaScriptに埋め込まれる場合、JSON文字列内の特殊文字が適切にエスケープされていないと、XSSの脆弱性につながることがあります。例えば、JSON文字列内に<script>
タグやイベントハンドラ属性(onclick
など)を挿入されると、それがHTMLとして解釈されてしまい、攻撃者の意図するスクリプトが実行されてしまう可能性があります。
html/template
パッケージ
Go言語のhtml/template
パッケージは、HTMLテンプレートを安全に生成するためのパッケージです。このパッケージは、テンプレートに挿入されるデータに対して自動的にエスケープ処理を施し、XSSなどの脆弱性を防ぐことを目的としています。
html/template
は、JavaScriptコンテキストにデータを挿入する際に、内部的にjson.Marshal
を利用することがあります。このため、json.Marshal
が生成するJSON文字列が、html/template
のセキュリティ要件を満たすように、適切なエスケープ処理を行う必要があります。
Unicodeエスケープシーケンス
JSONでは、非ASCII文字や特定の制御文字を\uXXXX
形式のUnicodeエスケープシーケンスで表現することができます。例えば、&
は\u0026
とエスケープされます。これは、文字そのものではなく、その文字のUnicodeコードポイントを16進数で表現したものです。
技術的詳細
このコミットの主要な変更点は、src/pkg/encoding/json/encode.go
ファイルのencodeState.string
メソッドにおける文字エスケープロジックの修正です。
変更前は、0x20
(スペース)以上のASCII文字で、かつ\
、"
、<
、>
ではない文字はそのまま出力されていました。しかし、この条件に&
が含まれていなかったため、&
はエスケープされずにJSON文字列にそのまま出力されていました。
変更後は、この条件に&& b != '&'
が追加され、&
文字もエスケープ対象となりました。これにより、&
はJSONの仕様に従って\u0026
としてエスケープされるようになります。
この変更は、特にhtml/template
パッケージがjson.Marshal
を利用してJavaScriptコンテキストにデータを埋め込む際に重要です。html/template
は、HTMLのセキュリティを確保するために、挿入されるデータに対して厳格なエスケープ処理を行います。json.Marshal
が&
をエスケープしない場合、html/template
が生成するHTML/JavaScriptコードに潜在的な脆弱性が残る可能性がありました。
例えば、html/template
がJSON文字列を<script>
タグ内に挿入する際、&
がエスケープされていないと、ブラウザがそれをHTMLエンティティの開始として解釈し、予期せぬ挙動やXSS攻撃につながる可能性があります。\u0026
としてエスケープすることで、このリスクが排除され、JSON文字列がJavaScriptコードとして安全に解釈されることが保証されます。
また、コミットメッセージにある「Marshalした文字列と、compactorを通した文字列が同じになる」という点は、encoding/json
パッケージ内部の最適化や処理フローにおける一貫性の向上を示唆しています。compactor
がどのような処理を指すのかは明確ではありませんが、おそらくJSON文字列の整形や最適化を行う内部的なコンポーネントであり、そこでのエスケープルールとMarshal
のエスケープルールが統一されたことを意味していると考えられます。
テストファイルの変更は、この新しいエスケープルールが正しく適用されていることを確認するためのものです。特にsrc/pkg/html/template/content_test.go
とsrc/pkg/html/template/escape_test.go
では、&
を含む文字列が\u0026
としてエスケープされていることを検証するテストケースが追加または修正されています。これにより、html/template
がjson.Marshal
と連携して安全な出力を生成できることが保証されます。
コアとなるコードの変更箇所
src/pkg/encoding/json/encode.go
--- a/src/pkg/encoding/json/encode.go
+++ b/src/pkg/encoding/json/encode.go
@@ -734,7 +734,7 @@ func (e *encodeState) string(s string) (int, error) {
start := 0
for i := 0; i < len(s); {
if b := s[i]; b < utf8.RuneSelf {
- if 0x20 <= b && b != '\\' && b != '"' && b != '<' && b != '>' {
+ if 0x20 <= b && b != '\\' && b != '"' && b != '<' && b != '>' && b != '&' {
i++
continue
}
src/pkg/html/template/content_test.go
--- a/src/pkg/html/template/content_test.go
+++ b/src/pkg/html/template/content_test.go
@@ -123,29 +123,29 @@ func TestTypedContent(t *testing.T) {
{
`<script>alert({{.}})</script>`,
[]string{
- `"<b> \"foo%\" O'Reilly &bar;"`,
+ `"<b> \"foo%\" O'Reilly \u0026bar;"`,
`"a[href =~ \"//example.com\"]#foo"`,
- `"Hello, <b>World</b> &tc!"`,
+ `"Hello, <b>World</b> \u0026amp;tc!"`,
`" dir=\"ltr\""`,
// Not escaped.
`c && alert("Hello, World!");`,
// Escape sequence not over-escaped.
`"Hello, World & O'Reilly\x21"`,
- `"greeting=H%69&addressee=(World)"`,
+ `"greeting=H%69\u0026addressee=(World)"`,
},
},
{
`<button onclick="alert({{.}})">`,
[]string{
- `"<b> "foo%" O'Reilly &bar;"`,
+ `"<b> "foo%" O'Reilly \u0026bar;"`,
`"a[href =~ "//example.com"]#foo"`,
- `"Hello, <b>World</b> &amp;tc!"`,
+ `"Hello, <b>World</b> \u0026amp;tc!"`,
`" dir=\"ltr\""`,
// Not JS escaped but HTML escaped.
`c && alert("Hello, World!");`,
// Escape sequence not over-escaped.
`"Hello, World & O'Reilly\x21"`,
- `"greeting=H%69&addressee=(World)"`,
+ `"greeting=H%69\u0026addressee=(World)"`,
},
},
src/pkg/html/template/escape_test.go
--- a/src/pkg/html/template/escape_test.go
+++ b/src/pkg/html/template/escape_test.go
@@ -538,7 +538,7 @@ func TestEscape(t *testing.T) {
{
"typed HTML in script",
`<button onclick="alert({{.W}})">`,
- `<button onclick="alert("¡\u003cb class=\"foo\"\u003eHello\u003c/b\u003e, \u003ctextarea\u003eO'World\u003c/textarea\u003e!")">`,
+ `<button onclick="alert("\u0026iexcl;\u003cb class=\"foo\"\u003eHello\u003c/b\u003e, \u003ctextarea\u003eO'World\u003c/textarea\u003e!")">`,
},
{
"typed HTML in RCDATA",
コアとなるコードの解説
src/pkg/encoding/json/encode.go
の変更
encodeState.string(s string)
メソッドは、Goの文字列s
をJSON文字列としてエンコードする際の主要なロジックを含んでいます。このメソッドは、文字列をバイト列として走査し、エスケープが必要な文字を検出します。
変更前のコード:
if 0x20 <= b && b != '\\' && b != '"' && b != '<' && b != '>' {
i++
continue
}
このif
文は、現在のバイトb
がエスケープ不要な文字であるかどうかをチェックしています。
0x20 <= b
: ASCIIのスペース文字(U+0020)以上の文字であること。これより小さい文字は制御文字であり、常にエスケープが必要です。b != '\\'
: バックスラッシュではないこと。バックスラッシュはJSONのエスケープ文字なので、それ自体をエスケープする必要があります。b != '"'
: ダブルクォーテーションではないこと。JSON文字列の区切り文字なので、エスケープが必要です。b != '<'
: 小なり記号ではないこと。HTMLコンテキストでのXSS対策としてエスケープが必要です。b != '>'
: 大なり記号ではないこと。HTMLコンテキストでのXSS対策としてエスケープが必要です。
この条件を満たす文字は、そのまま出力され、i++
で次の文字に進みます。しかし、この条件には&
が含まれていなかったため、&
はエスケープされずにそのまま出力されていました。
変更後のコード:
if 0x20 <= b && b != '\\' && b != '"' && b != '<' && b != '>' && b != '&' {
i++
continue
}
追加された&& b != '&'
により、&
もエスケープが必要な文字として認識されるようになりました。これにより、&
が検出された場合、上記のif
条件はfalse
となり、後続のエスケープ処理ロジック(switch
文など)によって\u0026
として適切にエスケープされるようになります。
src/pkg/html/template/content_test.go
および src/pkg/html/template/escape_test.go
の変更
これらのファイルは、html/template
パッケージのテストケースを含んでいます。html/template
は、HTMLテンプレートにデータを安全に挿入するために、内部でjson.Marshal
を利用することがあります。
変更されたテストケースでは、&
を含む文字列がJSONエンコードされた際に、期待される出力が\u0026
を含むように修正されています。
例えば、content_test.go
の以下の行が変更されています。
"
"foo%" O'Reilly &bar;"が
"<b> \"foo%\" O'Reilly \u0026bar;"
に"Hello, <b>World</b> &tc!"
が"Hello, <b>World</b> \u0026amp;tc!"
に"greeting=H%69&addressee=(World)"
が"greeting=H%69\u0026addressee=(World)"
に
これらの変更は、encoding/json
の変更がhtml/template
の出力にどのように影響するか、そしてその影響が期待通りにセキュリティを向上させるものであることを検証しています。特に、&
のように既にHTMLエンティティとしてエスケープされている文字列に対しても、JSONエンコード時にはさらに&
が\u0026
としてエスケープされることで、二重のエスケープが行われ、より堅牢なセキュリティが確保されることを示しています。
このコミットは、Goの標準ライブラリにおけるセキュリティと一貫性を向上させるための重要な修正であり、特にWebアプリケーション開発においてXSS脆弱性を防ぐ上で役立ちます。
関連リンク
- Go言語
encoding/json
パッケージドキュメント: https://pkg.go.dev/encoding/json - Go言語
html/template
パッケージドキュメント: https://pkg.go.dev/html/template - JSON (JavaScript Object Notation) 公式サイト: https://www.json.org/json-en.html
- クロスサイトスクリプティング (XSS) について (OWASP): https://owasp.org/www-community/attacks/xss/
参考にした情報源リンク
- Go言語のソースコード (GitHub): https://github.com/golang/go
- Go言語のコードレビューシステム (Gerrit): https://go-review.googlesource.com/ (コミットメッセージに記載されている
https://golang.org/cl/12708044
はGerritの変更リストへのリンクです。) - JSON RFC 7159: https://www.rfc-editor.org/rfc/rfc7159 (JSONの正式な仕様)
- HTML Living Standard: https://html.spec.whatwg.org/multipage/ (HTMLの仕様、特にエスケープに関する部分)
- JavaScript仕様 (ECMAScript): https://tc39.es/ecma262/ (JavaScriptの仕様、特に文字列リテラルのエスケープに関する部分)
- Russ CoxのブログやGoに関する発表資料 (一般的なGoの設計思想や背景を理解するため)
- Brad FitzpatrickのGoに関する活動 (レビュー担当者として記載されているため)