1. Binary classification with +/- 1 labels - why zero-one loss is not applicable for the loss function?

⇒ z가 positive 이면, $\phi(z)$가 작고, z가 negative 이면, $\phi(z)$가 커야한다.

가장 쉽게 생각할 수 있는건 다음과같은 zero-one loss이다.

Untitled

이렇게 모델링하면, $J(\theta)$는 “sample the average number of mistakes — misclassification the parameter $\theta$ makes on the training data”가 된다.

하지만, 이렇게 모델링할 수 없는 이유가 있는데,

$\phi_{zo}$가 discontinuous, non-convex, NP-hard to minimize이기 때문이라고 한다.

<aside> 🙋 그리고 왜 이게 문제가 되는지에 대해서는 beyond the scope of the course 라고한다..

</aside>