Добро пожаловать в репозиторий, где я делюсь проектами, выполненными в рамках курса "Специалист по Data Science" от Яндекс Практикума!
Также приглашаю вас ознакомиться с моими проектами на Kaggle.
Описание проекта.
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов. Результаты исследования будут учтены при построении модели кредитного скоринга.
Описание проекта.
В рамках проекта предлагается выполнить исследовательский анализ данных и определить параметры, влияющие на цену объектов, используя архив объявлений сервиса Яндекс Недвижимость о продаже квартир в Санкт-Петербурге и соседних населённых пунктах. Это позволит создать автоматизированную систему, способную отслеживать аномалии и выявлять мошенническую деятельность. Для анализа будут использованы два типа данных по каждой квартире: пользовательские данные, которые включают характеристики и описание объектов, и автоматически собранные данные на основе картографии, такие как расстояние до центра города, аэропорта, а также количество парков и водоёмов.
Описание проекта.
В этом проекте проводится анализ данных о пользователях и их поездках в сервисе аренды самокатов GoFast. Данные включают информацию о пользователях из нескольких городов, а также детали их поездок. Цель анализа — выявить ключевые тренды и проверить гипотезы, которые помогут улучшить бизнес-показатели сервиса и способствовать его росту.
Описание проекта.
В проекте требуется разработать две модели машинного обучения для отбора коров в молочное хозяйство. Первая модель должна прогнозировать удой коровы, то есть предсказывать количество молока, которое корова будет давать в течение года. Целевым показателем для этой модели является удой в килограммах, и требуется, чтобы модель обеспечивала прогнозы, при которых средний удой коровы составляет не менее 6000 килограммов в год.
Вторая модель предназначена для оценки вероятности того, что молоко от коровы будет соответствовать установленным критериям вкуса. Целевой признак здесь — качество молока, и модель должна точно предсказывать вероятность получения молока, соответствующего требованиям вкуса.
Обе модели будут обучены на данных о коровах, предоставленных ассоциацией пастбищ «ЭкоФерма». Эти данные включают характеристики коров, информация о их удоях и оценки вкусовых качеств молока. Конечная цель проекта — поддержка процесса отбора коров для расширения поголовья, обеспечивая, чтобы каждая корова соответствовала требованиям по удою и качеству молока.
Описание проекта.
Интернет-магазин «В один клик» столкнулся с проблемой снижения активности постоянных покупателей. Для решения этой проблемы необходимо разработать модель машинного обучения, которая прогнозирует вероятность снижения покупательской активности в следующие три месяца и сегментирует клиентов для предоставления персонализированных предложений. Модель должна учитывать данные о коммуникациях с клиентами, продуктовом поведении, поведении на сайте и финансовом поведении, а также информацию о выручке и времени, проведённом на сайте. Данные
- market_file.csv: Данные о коммуникациях с клиентами, продуктовом поведении, поведении на сайте и финансовом поведении.
- market_money.csv: Выручка от каждого покупателя за различные периоды.
- market_time.csv: Время, проведенное покупателями на сайте.
- money.csv: Среднемесячная прибыль от покупателей за последние три месяца.
Описание проекта.
В рамках проекта для добывающей компании «ГлавРосГосНефть» требуется определить оптимальную локацию для бурения новой скважины. Проект включает следующие шаги:
- Сбор данных: В трёх избранных регионах собраны характеристики скважин, включая качество нефти и объём её запасов.
- Разработка модели: Построить модель машинного обучения для предсказания объёма запасов нефти в новых скважинах на основе собранных данных.
- Оценка и выбор: Определить скважины с наивысшими оценками объёма запасов.
- Анализ прибыли: Рассчитать суммарную прибыль отобранных скважин в каждом регионе и выбрать регион с максимальной прибылью. Дополнительно, применить технику Bootstrap для анализа возможной прибыли и рисков, чтобы обеспечить надёжность и точность предсказаний.
Описание проекта.
Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для оценки рыночной стоимости автомобилей. Задача: создать модель машинного обучения, которая предсказывает стоимость автомобиля на основе его технических характеристик, комплектации и цен аналогичных автомобилей. Критерии, которые важны заказчику:
- качество предсказания;
- время обучения;
- время предсказания.
Значение метрики RMSE должно быть меньше 2500.
Описание проекта.
Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Постройте модель для такого предсказания. Значение метрики RMSE на тестовой выборке должно быть не больше 48.
Описание проекта.
Интернет-магазин «Викишоп» запускает новый сервис, позволяющий пользователям редактировать и дополнять описания товаров, а также комментировать изменения других. Для обеспечения безопасного и позитивного общения в системе требуется инструмент для автоматического обнаружения токсичных комментариев. Задача: разработать модель машинного обучения для классификации комментариев как позитивных или негативных. Значение метрики F1 не менее 0.75.
Описание проекта.
Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы: Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы; Контролировать добросовестность кассиров при продаже алкоголя. Задача: постройте модель, которая по фотографии определит приблизительный возраст человека. В распоряжении набор фотографий людей с указанием возраста.
Описание проекта.
В интернет-магазине «Стримчик», специализирующемся на продаже компьютерных игр , необходимо выявить закономерности, влияющие на популярность игр.
Цель проекта — разработать модель, которая поможет прогнозировать успех игр в 2017 году и далее, для планирования рекламной кампании и определения потенциально успешных продуков.
Описание проекта.
Компания предоставляет данные с характеристиками сотрудников, включая уровень их удовлетворённости работой. Уровень удовлетворённости измеряется от 0 (совершенно неудовлетворён) до 1 (полностью удовлетворён) на основе тест-опросников. Задачи проекта:
- Прогнозирование удовлетворённости: разработать модель для предсказания уровня удовлетворённости сотрудника на основе предоставленных данных. Удовлетворённость влияет на отток сотрудников, и точное предсказание может помочь в управлении рисками.
- Прогнозирование увольнения: создать модель, которая будет прогнозировать вероятность увольнения сотрудника. Это поможет предсказать возможные потери ключевых сотрудников и минимизировать риски для компании.
Описание проекта.
Металлургический комбинат «Стальная птица» стремится оптимизировать производственные расходы, снизив потребление электроэнергии при обработке стали. Для этого необходимо контролировать температуру сплава. Требуется разработать модель для предсказания этой температуры. Модель будет использоваться для имитации технологического процесса.
Значение метрики MAE не более 6.8.