Как правильно выбирать признаки для SVM классификации? Нужно ли при этом нормализовывать численные значения этих признаков?
Есть задача — с помощью SVM научиться отделять зерна от плевел.
У зерен есть некоторые характерные признаки по которым их можно выделять, но какие именно признаки брать?
Приведу пример. Допустим у зерна есть вес в миллиграммах. У плевла тоже есть вес, но в среднем отличный от зернового. Можно ли в качестве признака брать вес зерна или нужно брать логарифм от веса, ведь бывают очень мелкие зерна, а бывают очень крупные?
Как правильно подбирать соотношение зерен и плевел в обучающей выборке? Каким оно должно быть? 50/50? Или взятым из реальной жизни — собрали урожай зерна, взяли из него горстку и по ней сделали выборку (т.е. соотношение близко к реальному)?
Что делать если количество зерен в реальности (в обучающей выборке) относится к количеству плевел как 1/200? Портит ли это обучающую выборку?
Ведь нужно выделить именно зерна — они важны, а их как раз очень мало.
Есть ли какой-нибудь мануал из серии «SVM для чайников», где освещались бы эти вопросы простые вопросы на пальцах, без решения сложных систем уравнений?
Предполагаем, что схожесть некоторых объектов мы можем вычислить путем вычисления метрики относительно классификации объектов разными классификаторами.
Т.е. у каждого объекта для каждого классификатора имеем своё соответствие.
Вопрос:
как быстро найти n наиболее (или наименее) схожих объектов для объекта X, когда порядок объектов исчисляется десятками миллионов, а классификаторов десятками тысяч?