Библиотека с реализованным основным функционалом для обучения логистической регрессии, l2 нормализации, robust скейлинга, подсчета метрик типа F1.
Библиотека была написана для реализации минимального функционала для обучения модели и последующего ее использования, говоря конкретно, мнне нужна была быстрая и легковесная модель, которая бы не требовала api запросов и различных дополнительных задержек, нежелательных даже в оффлайн части поисковика, которая могла бы классифицировать html документы с наименьшими перспективами индексации, нежелательные для нахождения в базе и поискового ранжирования.
https://www.kaggle.com/datasets/abstractbox/13k-html-scores?select=htmld_scored.csv - Датасет был мной собран с помощью моего предыдущего проекта https://github.com/box1bs/wfts, в процессе были выделены наиболее перспективные признаки и были протестированы различные скейлеры, нормализаторы и произвольные фичи, что в итоге позволило получить ошибку ~0.7% по recall и ~3.5% по F1, которые были впоследствии достигнуты с помощью чистого go.