Kaggle: Talking Data Mobile (TOP 5%)

В этой заметке хочу кратко описать основные действия в решении задачи на Kaggle от компании Talking Data Mobile.

По итогу соревнования  я вошел в ТОП 5%. Очень этому рад, так как это первое мое соревнование. Да и в принципе темой занимаюсь не так давно.

О чем задача

Если совсем кратко, то в задаче нужно было предсказать пол и возраст пользователей.

Теперь чуть подробнее… Компания Talking Data Mobile предоставила данные о пользователях мобильных приложениях из Китая:

tdmobile

(more…)

Read More

Задача с Kaggle: Predicting Red Hat Business Value

В этой заметке задокументирую основные шаги решения конкурсной задачи от Red Hat. Конкурс проходил на площадке Kaggle.

Времени лично у меня было очень мало – около 7-10 дней. Поэтому финальный результат – ТОП 12%, хотя до последнего дня держался в ТОП 9%. В принципе это неплохо (учитывая, что это мое второе подобное соревнование), но можно было лучше.

Вот здесь можно скачать упрощенный вариант моего решения. Эта версия кода дает результат порядка 99% AUC (это далеко не лучшее мое решение, но зато очень наглядное и простое; в финальном варианте я использовал микс из более сложных моделей)

Исходные данные

Компания Red Hat предоставила для соревнования информацию о своих клиентах. Данные, как и во многих задачах, обезличены. В одной таблице хранится какая-то персональная информация о людях. В другой информация об их активности (возможно, это какие-то покупки, предзаказы, обращения в службу поддержки или что-то типа этого).

В задаче нужно выявить людей, которые потенциально могут принести наибольшую пользу бизнесу. Фактически нужно поставить 1 или 0 напротив каждой активности.

Используемая метрика: AUC. (more…)

Read More