ウォード法は、クラスタリング手法の一つであり、特に階層的クラスタリングでよく用いられます。この手法の基本的な考え方は、クラスタ内の分散(情報のばらつき)の増加を最小限に抑えるようにクラスタを統合していく点にあります。
具体的には、最初にすべてのデータポイントをそれぞれ独立した一つのクラスタと見なします。その後、どの二つのクラスタを統合すれば、その新しいクラスタにおける二乗誤差の増加、すなわちクラスタ内の情報のまとまり具合の悪化が最も小さく済むかを評価します。ウォード法でいう「距離」や「類似度」は、この二乗誤差の増加分で定義されます。
統合によって生じる二乗誤差の増加分は、統合される二つのクラスタの重心間の距離と、それぞれのクラスタに含まれるデータポイントの数に基づいて計算されます。
この値が最小となるペアを段階的に選び、クラスタを一つにまとめていく操作を繰り返します。このプロセスにより、各クラスタが内部で可能な限り均質になるように、つまり、似たデータが同じグループに集まるように階層的な構造(デンドログラム)が構築されます。
ウォード法は、特にクラスタが比較的コンパクトで球状に近い形をしている場合に、効果的なクラスタリング結果をもたらすことで知られています。
この手法の利点は、データの構造を把握しやすく、解釈しやすい階層的な分類を提供できる点にあります。
