Skip to content

Latest commit

 

History

History
106 lines (75 loc) · 14.7 KB

README.md

File metadata and controls

106 lines (75 loc) · 14.7 KB

Data Science Projects

Добро пожаловать в репозиторий, где я делюсь проектами, выполненными в рамках курса "Специалист по Data Science" от Яндекс Практикума!

Также приглашаю вас ознакомиться с моими проектами на Kaggle.

Project_01

Описание проекта.

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов. Результаты исследования будут учтены при построении модели кредитного скоринга.

Project_02 Исследование объявлений о продаже квартир

Описание проекта.

В рамках проекта предлагается выполнить исследовательский анализ данных и определить параметры, влияющие на цену объектов, используя архив объявлений сервиса Яндекс Недвижимость о продаже квартир в Санкт-Петербурге и соседних населённых пунктах. Это позволит создать автоматизированную систему, способную отслеживать аномалии и выявлять мошенническую деятельность. Для анализа будут использованы два типа данных по каждой квартире: пользовательские данные, которые включают характеристики и описание объектов, и автоматически собранные данные на основе картографии, такие как расстояние до центра города, аэропорта, а также количество парков и водоёмов.

Project_03 Статистический анализ данных

Описание проекта.

В этом проекте проводится анализ данных о пользователях и их поездках в сервисе аренды самокатов GoFast. Данные включают информацию о пользователях из нескольких городов, а также детали их поездок. Цель анализа — выявить ключевые тренды и проверить гипотезы, которые помогут улучшить бизнес-показатели сервиса и способствовать его росту.

Project_04 Линейные модели в машинном обучении

Описание проекта.

В проекте требуется разработать две модели машинного обучения для отбора коров в молочное хозяйство. Первая модель должна прогнозировать удой коровы, то есть предсказывать количество молока, которое корова будет давать в течение года. Целевым показателем для этой модели является удой в килограммах, и требуется, чтобы модель обеспечивала прогнозы, при которых средний удой коровы составляет не менее 6000 килограммов в год.

Вторая модель предназначена для оценки вероятности того, что молоко от коровы будет соответствовать установленным критериям вкуса. Целевой признак здесь — качество молока, и модель должна точно предсказывать вероятность получения молока, соответствующего требованиям вкуса.

Обе модели будут обучены на данных о коровах, предоставленных ассоциацией пастбищ «ЭкоФерма». Эти данные включают характеристики коров, информация о их удоях и оценки вкусовых качеств молока. Конечная цель проекта — поддержка процесса отбора коров для расширения поголовья, обеспечивая, чтобы каждая корова соответствовала требованиям по удою и качеству молока.

Project_05 Обучение с учителем: качество модели

Описание проекта.

Интернет-магазин «В один клик» столкнулся с проблемой снижения активности постоянных покупателей. Для решения этой проблемы необходимо разработать модель машинного обучения, которая прогнозирует вероятность снижения покупательской активности в следующие три месяца и сегментирует клиентов для предоставления персонализированных предложений. Модель должна учитывать данные о коммуникациях с клиентами, продуктовом поведении, поведении на сайте и финансовом поведении, а также информацию о выручке и времени, проведённом на сайте. Данные

  • market_file.csv: Данные о коммуникациях с клиентами, продуктовом поведении, поведении на сайте и финансовом поведении.
  • market_money.csv: Выручка от каждого покупателя за различные периоды.
  • market_time.csv: Время, проведенное покупателями на сайте.
  • money.csv: Среднемесячная прибыль от покупателей за последние три месяца.

Project_06 Выбор локации для скважины

Описание проекта.

В рамках проекта для добывающей компании «ГлавРосГосНефть» требуется определить оптимальную локацию для бурения новой скважины. Проект включает следующие шаги:

  • Сбор данных: В трёх избранных регионах собраны характеристики скважин, включая качество нефти и объём её запасов.
  • Разработка модели: Построить модель машинного обучения для предсказания объёма запасов нефти в новых скважинах на основе собранных данных.
  • Оценка и выбор: Определить скважины с наивысшими оценками объёма запасов.
  • Анализ прибыли: Рассчитать суммарную прибыль отобранных скважин в каждом регионе и выбрать регион с максимальной прибылью. Дополнительно, применить технику Bootstrap для анализа возможной прибыли и рисков, чтобы обеспечить надёжность и точность предсказаний.

Project_07 Определение стоимости автомобилей

Описание проекта.

Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для оценки рыночной стоимости автомобилей. Задача: создать модель машинного обучения, которая предсказывает стоимость автомобиля на основе его технических характеристик, комплектации и цен аналогичных автомобилей. Критерии, которые важны заказчику:

  • качество предсказания;
  • время обучения;
  • время предсказания.

Значение метрики RMSE должно быть меньше 2500.

Project_08 Прогнозирование заказов такси

Описание проекта.

Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Постройте модель для такого предсказания. Значение метрики RMSE на тестовой выборке должно быть не больше 48.

Project_09 ВикиФильтр: Система автоматической модерации пользовательских правок

Описание проекта.

Интернет-магазин «Викишоп» запускает новый сервис, позволяющий пользователям редактировать и дополнять описания товаров, а также комментировать изменения других. Для обеспечения безопасного и позитивного общения в системе требуется инструмент для автоматического обнаружения токсичных комментариев. Задача: разработать модель машинного обучения для классификации комментариев как позитивных или негативных. Значение метрики F1 не менее 0.75.

Project_10 Определение возраста покупателей по фото

Описание проекта.

Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Фотофиксация в прикассовой зоне поможет определять возраст клиентов, чтобы: Анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы; Контролировать добросовестность кассиров при продаже алкоголя. Задача: постройте модель, которая по фотографии определит приблизительный возраст человека. В распоряжении набор фотографий людей с указанием возраста.

Project_11 Сборный проект №1

Описание проекта.

В интернет-магазине «Стримчик», специализирующемся на продаже компьютерных игр , необходимо выявить закономерности, влияющие на популярность игр.
Цель проекта — разработать модель, которая поможет прогнозировать успех игр в 2017 году и далее, для планирования рекламной кампании и определения потенциально успешных продуков.

Project_12 Сборный проект №2

Описание проекта.

Компания предоставляет данные с характеристиками сотрудников, включая уровень их удовлетворённости работой. Уровень удовлетворённости измеряется от 0 (совершенно неудовлетворён) до 1 (полностью удовлетворён) на основе тест-опросников. Задачи проекта:

  • Прогнозирование удовлетворённости: разработать модель для предсказания уровня удовлетворённости сотрудника на основе предоставленных данных. Удовлетворённость влияет на отток сотрудников, и точное предсказание может помочь в управлении рисками.
  • Прогнозирование увольнения: создать модель, которая будет прогнозировать вероятность увольнения сотрудника. Это поможет предсказать возможные потери ключевых сотрудников и минимизировать риски для компании.

Project_13 Прогнозирование температуры стали (Финальный проект)

Описание проекта.

Металлургический комбинат «Стальная птица» стремится оптимизировать производственные расходы, снизив потребление электроэнергии при обработке стали. Для этого необходимо контролировать температуру сплава. Требуется разработать модель для предсказания этой температуры. Модель будет использоваться для имитации технологического процесса.

Значение метрики MAE не более 6.8.