Skip to content

OnlyOneUseAcc/Evraz-SCC-prediction

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

96 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Легирование сталей

Прогнозирование химического состава шлака

В данной работе мы изучили данные физико-химического процесса легирования сталей и создали алгоритм определения химического состава шлака по исходным данным.

План работ

1. Сделать EDA (exploratory data analysis):

  • Пропуски
  • Выбросы
  • Дисперсия

2. Чистка датасета

  • Убрать ненужные столбцы:
    • Несущие бесполезную информацию (Например, признак "nplv")
    • Сильно коррелирующие с другими (Например, признаки "t обработка" и "t продувка"; "t под током" и "эл. энергия")
  • Удалить строки содержащие малое количество информации
  • Удалить строки, в которых значения таргета неизвестно
  • Удаление шумов (выбросов) с помощью IsolationForest

3. Заполнение пропущенных значений

  • Заполнение с помощью метода MICE (Multiple Imputation by Chained Equations) Image

4. Нормализация вещественных признаков

5. Разбиение датасета на обучающую и тестовую выборки

6. Выбор модели для прогнозирования

  • Была выдвинута и подтверждена теория, что одну целевую переменную можно предсказывать основываясь на других
  • Нами было принято решение использовать GradientBoostingRegressor

7. Подбор гиперпараметров модели

  • Подбор гиперпаметров происходил по n_estimators и lr (learning rate). Эти параметры являются важнейшими для GBR

8. Обучение модели на обучающей выборке

  • Мы обучали 4 модели для каждого таргета. Для этого создали 4 датасета, каждый из которых включал в себя помимо первоначальных признаков, 3 оставшихся таргета. Мы выбрали данный подход, так как заметили сильную корреляцию между целевыми переменными на этапе обработки данных.

9. Получение предсказаний модели на тестовой выборке по самой популярной марки

Были получены следующие результаты для таргетов:

  • химшлак последний Al2O3
    Image
  • химшлак последний CaO
    Image
  • химшлак последний R
    Image
  • химшлак последний SiO2
    Image Image

Описание репозитория

Репозиторий содержит в себе папку src, где хранятся папки для отборочного и финального тура. EDA.ipynb содержит в себе выполнение пунктов 1-6, GBR.ipynb выполнение пунктов 7-9. Каталог data содержит исходный датасет, и полученные в результате выполнения EDA.ipynb обучающую и тестовую выборки. Каталог source содержит графики, полученные при анализе данных.

Выводы по EDA

  • График распределения целевой переменной "химшлак последний Al2O3" Image
  • График распределения целевой переменной "химшлак последний CaO" Image
  • График распределения целевой переменной "химшлак последний R" Image
  • График распределения целевой переменной "химшлак последний SiO2" Image
  • График корреляций между признаками Image
  • График корреляции между таргетами Image
  • Дисперсия признакового пространства до обработки Image
  • Дисперсия признакового пространства после обработки Image

Финальный тур

  • График корреляции между целевой переменной и признаками Image
  • График предсказанных значений, используя LinearRegression Image
  • График предсказанных значений, используя GBR Image
  • График предсказанных значений, используя CatBoostRegressor Image

Обертка

Мы обернули обученную модель в чат-бота Telegram. О нем вы можете узнать больше, посетив эту страницу

About

Тестовое задание be.coder

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •