⇒ z가 positive 이면, $\phi(z)$가 작고, z가 negative 이면, $\phi(z)$가 커야한다.
가장 쉽게 생각할 수 있는건 다음과같은 zero-one loss이다.
이렇게 모델링하면, $J(\theta)$는 “sample the average number of mistakes — misclassification the parameter $\theta$ makes on the training data”가 된다.
하지만, 이렇게 모델링할 수 없는 이유가 있는데,
$\phi_{zo}$가 discontinuous, non-convex, NP-hard to minimize이기 때문이라고 한다.
<aside> 🙋 그리고 왜 이게 문제가 되는지에 대해서는 beyond the scope of the course 라고한다..
</aside>