[インデックス 12704] ファイルの概要
このコミットは、Go言語の標準ライブラリ sort
パッケージにおける maxDepth
の計算ロジックのバグ修正に関するものです。具体的には、quickSort
関数がヒープソートに切り替えるべき深さを決定する際に使用する maxDepth
の計算が、特定の大きな入力サイズ(n > 1<<30
、32ビット整数環境の場合)で無限ループに陥る問題を解決しています。この修正により、ソートアルゴリズムの堅牢性が向上し、非常に大きなデータセットに対しても正しく動作するようになります。
コミット
commit c5488d4f004e9f38e5fb996dd709a73aed03cd00
Author: Stefan Nilsson <snilsson@nada.kth.se>
Date: Tue Mar 20 14:23:12 2012 -0700
sort: fix computation of maxDepth to avoid infinite loop
The current computation loops indefinitely if n > 1<<30 (for 32-bit ints).
R=golang-dev, gri
CC=golang-dev
https://golang.org/cl/5848067
GitHub上でのコミットページへのリンク
https://github.com/golang/go/commit/c5488d4f004e9f38e5fb996dd709a73aed03cd00
元コミット内容
sort: fix computation of maxDepth to avoid infinite loop
The current computation loops indefinitely if n > 1<<30 (for 32-bit ints).
R=golang-dev, gri
CC=golang-dev
https://golang.org/cl/5848067
変更の背景
Go言語の sort
パッケージでは、quickSort
(クイックソート)がデフォルトのソートアルゴリズムとして使用されています。クイックソートは平均的には高速ですが、最悪の場合にはO(n^2)の計算量となり、非常に遅くなる可能性があります。この最悪ケースを避けるため、多くの実装では、再帰の深さが一定の閾値を超えた場合に、より安定したO(n log n)の計算量を持つヒープソートなどの別のアルゴリズムに切り替える「イントロソート」のような戦略を採用しています。
このコミット以前のGoのsort
パッケージでは、この閾値(maxDepth
)を計算するロジックに問題がありました。具体的には、n
(ソート対象の要素数)が非常に大きい場合、特に32ビットシステムでn > 1<<30
(約10億)のような値になると、maxDepth
を計算するためのループが無限に続く可能性がありました。これは、1<<uint(maxDepth)
という計算がオーバーフローを起こし、予期せぬ小さな値になることで、ループの終了条件が満たされなくなるためです。この無限ループは、ソート処理が完了しない、あるいはシステムリソースを枯渇させるなどの問題を引き起こす可能性がありました。
このバグは、特に大規模なデータセットをソートする際に顕在化するため、Go言語のソート機能の信頼性とパフォーマンスを確保するために修正が必要でした。
前提知識の解説
- クイックソート (QuickSort): 分割統治法に基づくソートアルゴリズム。配列からピボット要素を選び、ピボットより小さい要素を左に、大きい要素を右に配置し、これを再帰的に繰り返します。平均計算量はO(n log n)と高速ですが、最悪計算量はO(n^2)になります。
- ヒープソート (HeapSort): 選択ソートの一種で、ヒープというデータ構造を利用します。計算量は常にO(n log n)であり、安定した性能を提供します。
- イントロソート (IntroSort): クイックソート、ヒープソート、挿入ソートを組み合わせたハイブリッドソートアルゴリズム。クイックソートを主に使用し、再帰の深さが一定の閾値を超えるとヒープソートに切り替え、要素数が非常に少なくなると挿入ソートに切り替えます。これにより、クイックソートの平均的な高速性と、ヒープソートの最悪ケースでの安定性を両立させます。Goの
sort
パッケージもこの戦略に似たアプローチを取っています。 maxDepth
: イントロソートにおいて、クイックソートからヒープソートに切り替える再帰の深さの閾値。通常、2 * ceil(log2(n))
(n
は要素数)のように計算されます。これは、クイックソートの再帰の深さがlog2(n)
程度になることを期待し、その2倍の深さに達したら最悪ケースに陥っている可能性が高いと判断して切り替えるためです。ceil(log2(n))
:n
の2を底とする対数を切り上げた値。これは、n
個の要素を二分探索木で表現した場合の深さ、あるいはn
を1にするために2で割る回数に相当します。ビット演算では、n
の最上位ビットの位置を求めることと関連します。- ビットシフト演算 (
<<
,>>
):1 << k
: 1をk
ビット左にシフトする。これは2^k
と同じ意味になります。i >>= 1
:i
を1ビット右にシフトする。これはi
を2で割って小数点以下を切り捨てることと同じ意味になります。この操作をi
が0になるまで繰り返すことで、log2(i)
の整数部分を効率的に計算できます。
- 整数オーバーフロー: 整数型で表現できる最大値を超えた場合に、値が予期せず最小値に戻ったり、負の値になったりする現象。32ビット符号なし整数(
uint32
)の場合、2^32 - 1
が最大値であり、これを超えると0に戻ります。
技術的詳細
Goのsort
パッケージのSort
関数内では、クイックソートのmaxDepth
を計算するために以下のループが使用されていました。
// 旧コード
maxDepth := 0
for 1<<uint(maxDepth) < n {
maxDepth++
}
maxDepth *= 2
このコードの意図は、maxDepth
がlog2(n)
の整数部分(またはそれに近い値)になるように計算することです。1<<uint(maxDepth)
は2^maxDepth
を意味します。ループは2^maxDepth
がn
以上になるまでmaxDepth
をインクリメントします。
しかし、この実装には以下の問題がありました。
1<<uint(maxDepth)
のオーバーフロー:maxDepth
が大きくなりすぎると、1<<uint(maxDepth)
の計算がuint
型の最大値を超えてオーバーフローを起こす可能性があります。例えば、32ビットシステムでuint
がuint32
の場合、maxDepth
が32以上になると、1<<uint(maxDepth)
は0または非常に小さな値にラップアラウンドします。- 無限ループ:
1<<uint(maxDepth)
がオーバーフローしてn
よりも小さくなった場合、ループ条件1<<uint(maxDepth) < n
が再び真になり、maxDepth
が無限にインクリメントされ続けることになります。コミットメッセージにあるn > 1<<30
という条件は、このオーバーフローが起こりやすいn
の範囲を示唆しています。
この問題を解決するため、maxDepth
の計算ロジックが以下のように変更されました。
// 新コード
// Switch to heapsort if depth of 2*ceil(lg(n+1)) is reached.
n := data.Len()
maxDepth := 0
for i := n; i > 0; i >>= 1 {
maxDepth++
}
maxDepth *= 2
新しいコードでは、maxDepth
の計算にfor i := n; i > 0; i >>= 1
というループを使用しています。このループは、i
をn
から開始し、i
が0になるまでi
を1ビット右にシフト(2で割る)し続けます。maxDepth
はループが実行された回数をカウントします。
この新しい計算方法は、n
の2を底とする対数(log2(n)
)の整数部分を正確かつ安全に計算します。例えば、n=8
の場合、
i=8
,maxDepth=0
->i=4
,maxDepth=1
i=4
,maxDepth=1
->i=2
,maxDepth=2
i=2
,maxDepth=2
->i=1
,maxDepth=3
i=1
,maxDepth=3
->i=0
,maxDepth=4
(ループ終了) 結果としてmaxDepth
は4になります。これはceil(log2(8+1))
に近い値です(log2(9)
は約3.17、切り上げると4)。
この方法の利点は以下の通りです。
- オーバーフローの回避:
i >>= 1
という操作は、i
の値を常に減少させるため、オーバーフローの心配がありません。 - 正確な計算:
log2(n)
の整数部分を効率的に計算できます。 - 堅牢性: どのような
n
の値に対しても、正しくmaxDepth
を計算し、無限ループに陥ることを防ぎます。
また、コメントも2*ceil(lg(n))
から2*ceil(lg(n+1))
に変更されています。これは、n=0
の場合にlog2(0)
が未定義になるのを避けるため、あるいはn
が2のべき乗の場合にlog2(n)
が整数になるため、n+1
とすることで常に切り上げが必要な状況を作り出し、より正確なceil
の挙動を模倣するためと考えられます。
コアとなるコードの変更箇所
--- a/src/pkg/sort/sort.go
+++ b/src/pkg/sort/sort.go
@@ -186,10 +186,10 @@ func quickSort(data Interface, a, b, maxDepth int) {
// Sort sorts data.
// The algorithm used is not guaranteed to be a stable sort.
func Sort(data Interface) {
- // Switch to heapsort if depth of 2*ceil(lg(n)) is reached.
+ // Switch to heapsort if depth of 2*ceil(lg(n+1)) is reached.
n := data.Len()
maxDepth := 0
- for 1<<uint(maxDepth) < n {
+ for i := n; i > 0; i >>= 1 {
maxDepth++
}
maxDepth *= 2
コアとなるコードの解説
変更はsrc/pkg/sort/sort.go
ファイル内のSort
関数にあります。
変更前:
// Switch to heapsort if depth of 2*ceil(lg(n)) is reached.
n := data.Len()
maxDepth := 0
for 1<<uint(maxDepth) < n { // 問題のあったループ
maxDepth++
}
maxDepth *= 2
この旧コードでは、maxDepth
を計算するために1<<uint(maxDepth)
という左シフト演算を使用していました。この演算は2
のmaxDepth
乗を計算しますが、maxDepth
がuint
型(通常はuint32
またはuint64
)のビット幅を超えると、オーバーフローが発生し、結果が予期せぬ小さな値になります。例えば、32ビットシステムでmaxDepth
が32以上になると、1<<32
は0になります。これにより、0 < n
という条件が常に真となり、ループが無限に実行され続ける可能性がありました。
変更後:
// Switch to heapsort if depth of 2*ceil(lg(n+1)) is reached.
n := data.Len()
maxDepth := 0
for i := n; i > 0; i >>= 1 { // 新しい、安全なループ
maxDepth++
}
maxDepth *= 2
新しいコードでは、maxDepth
の計算にfor i := n; i > 0; i >>= 1
というループが導入されました。
i := n
:i
をソート対象の要素数n
で初期化します。i > 0
: ループはi
が0になるまで続きます。i >>= 1
:i
を1ビット右にシフトします。これはi
を2で割って小数点以下を切り捨てることと同じです。
このループは、n
を2で割り続けることで、n
が何回2で割れるか(つまりlog2(n)
の整数部分)をmaxDepth
にカウントします。この方法はオーバーフローの心配がなく、どのようなn
の値に対しても安全かつ正確にmaxDepth
を計算できます。
また、コメントが2*ceil(lg(n))
から2*ceil(lg(n+1))
に変更されました。これは、n=0
の場合のlog2(0)
の未定義を避けるため、またはn
が2のべき乗の場合でも常に切り上げが必要な状況を明示するためと考えられます。
関連リンク
参考にした情報源リンク
- Go言語の
sort
パッケージのドキュメントやソースコード - クイックソート、ヒープソート、イントロソートに関する一般的なアルゴリズムの解説
- ビットシフト演算と対数計算の関係に関する情報
- 整数オーバーフローに関する一般的なプログラミングの知識