$x^+$: plus plane 위의 점, $x^-$: minus plane 위의 점이라 하자.
$x^+=x^-+\lambda w$라 하면 $w^Tx^++b=1$은 $w^T(x^-+\lambda w )+b=1 $로 표현된다.
이를 전개하면 $w^Tx^- +b + \lambda w^Tw=1$,
$-1+ \lambda w^Tw=1, \; 따라서 \; \lambda = \frac{2}{w^Tw}$
$Margin=distance(x^+,x^-)=\left\| x^+-x^- \right\|_2=\left\| \lambda w \right\|_2 = \lambda \sqrt{w^Tw}$
$ \lambda = \frac{2}{w^Tw}$를 대입하면 $\frac{2}{w^Tw} \cdot \sqrt{w^Tw}=\frac{2}{\sqrt{w^Tw}}=\frac{2}{\left\| w \right\|_2}$
즉 여백을 최고로 하는 목적함수는 다음과 같다. $$max Margin = max \frac{2}{\left\| w \right\|_2} \leftrightarrow min \frac{1}{2}\left\| w \right\|_2$$
그런데 위 식은 제곱근을 포함하고 있기 때문에 계산이 어려워, 계산상의 편의를 위해 다음과 같이 목적함수를 변경한다.
$$ min \frac{1}{2}\left\| w \right\|_2 \leftrightarrow min \frac{1}{2}\left\| w \right\|_2 ^2$$ $$학습조건 \; subject \, to \, y_i(w^Tx_i) \geq 1, \; i=1,2,...,n$$
위 문제를 Lagrangian multiplier를 이용하여 Lagrangian primal 문제로 변환한다.
위 1, 2번을 이용해 $min_{w,b} \, L(w,b,\alpha)=\frac{1}{2} \left\|w\right\|_2^2 - \sum_{i=1}^{n} \alpha_i(y_i(w^Tx_i+b)-1)$를 다음과 같이 바꿀 수 있다. $$\sum_{i=1}^{n}\alpha_i - \frac{1}{2} \sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_i\alpha_j y_i y_j x_i^T x_j$$ $$where \; \sum_{i=1}^{n}\alpha_iy_i = 0$$
SVM을 이용한 비선형 문제
$$minimize_{w,b,\xi} \frac{1}{2} \left\| w \right\|_2^2 + C \sum_{i=1}^{n}\xi_i$$ $$ subject \, to \, y_i(w^Tx_i+b) \geq 1-\xi, \; \xi \geq 0 \; i=1,2,...,n$$
이때 $C$는 margin과 training error에 대한 트레이드 오프를 결정하는 turnning paramter (크면 오버피팅, 작으면 언더피팅)