Как правильно выбирать признаки для SVM классификации? Нужно ли при этом нормализовывать численные значения этих признаков?
Есть задача — с помощью SVM научиться отделять зерна от плевел.
У зерен есть некоторые характерные признаки по которым их можно выделять, но какие именно признаки брать?
Приведу пример. Допустим у зерна есть вес в миллиграммах. У плевла тоже есть вес, но в среднем отличный от зернового. Можно ли в качестве признака брать вес зерна или нужно брать логарифм от веса, ведь бывают очень мелкие зерна, а бывают очень крупные?
Как правильно подбирать соотношение зерен и плевел в обучающей выборке? Каким оно должно быть? 50/50? Или взятым из реальной жизни — собрали урожай зерна, взяли из него горстку и по ней сделали выборку (т.е. соотношение близко к реальному)?
Что делать если количество зерен в реальности (в обучающей выборке) относится к количеству плевел как 1/200? Портит ли это обучающую выборку?
Ведь нужно выделить именно зерна — они важны, а их как раз очень мало.
Есть ли какой-нибудь мануал из серии «SVM для чайников», где освещались бы эти вопросы простые вопросы на пальцах, без решения сложных систем уравнений?