BigD & ML 2019

  • Подписчики: 10 подписчиков
  • ID: 177289750
Блокировка:
Нет ограничений
Верификация:
Сообщество не верифицировано администрацией ВКонтакте
Видимость
открытое
Популярность:
У сообщества нет огня Прометея
Домен:
club177289750

Описание

Что мы делаем: Классификатор текста. Скачали объявления с сайта Навигатор, делаем классификатор, который определяет категорию объявления по тексту. Можно отмотать группу в самое начало - там все есть. Уже сделано: + 1. Научиться скачивать данные с сайта и сохранять в файл + 2. Скачать нужные страницы + 3. Пройти по скачанным страницам, разобрать их и сложить данные в CSV-файл + 4. Сделать простой классификатор на CountVectorizer и логистической регрессии Что дальше по плану: 5. Попробовать разные векторизаторы. 6. Заменить логистическую регрессию на случайный лес 7. Заменить логистическую регрессию на градиентный бустинг 8. Заменить логистическую регрессию на полносвязную нейронную сеть 9. Построить языковую модель ULM-fit (на конец 2018 года самое лучшее в мире решение по классификации текстов нейронными сетями)