Описание задачи

Листовой прокат — вид металлопродукции, широко используемый в промышленности и строительной индустрии для изготовления самых различных металлоконструкций. Листы получаются в результате горячей прокатки слябов стали на прокатных станах. Для контроля качества продукции сразу после прокатки  производится измерение механических свойств листа. Натурный эксперимент требует физического отбора пробы от листа и последующего измерения механических свойств в лаборатории.

Так как физические измерения требуют дополнительного времени и усложняют логистику заказа, предлагается построить прогнозную модель механических свойств листа на основе параметров прокатки и химического состава стали. Такой статистический контроль на основе линейной регрессии уже применяется на производстве. Однако для более сложных марок стали достижение высокой точности прогноза требует применение современных методов машинного обучения.

Данные

Подготовленный датасет представляет собой анонимизированный набор числовых табличных данных в формате csv. Каждая строка содержит параметры работы прокатных станов, физические параметры (напр., вес, размеры, температура) листового проката, химический состав стали, а также значение механического свойства, измеренного для прокатанного с указанными параметрами листа.

Прокат осуществляется на двух станах в несколько проходов. Количество проходов в общем случае разное и может достигать 15. На каждом стане для каждого прохода фиксируется по 4 параметра.  Если проходов было меньше 15, в значениях параметров указываются нули. Первые 120 параметров в файле описываются следующим правилом.

| A1, A2, …, A15: | значения параметра A, измеряемого на первом стане для каждого их 15 проходов | | --- | --- | | B1, B2, …, B15: | значения параметра B, измеряемого на первом стане для каждого их 15 проходов | | C1,C2, …, C15: | значения параметра C, измеряемого на первом стане для каждого их 15 проходов | | D1, D2, …, D15: | значения параметра D, измеряемого на первом стане для каждого их 15 проходов | | E1, E2, …, E15: | значения параметра E, измеряемого на втором стане для каждого их 15 проходов | | F1, F2, …, F15: | значения параметра F, измеряемого на втором стане для каждого их 15 проходов | | G1, G2, …, G15: | значения параметра G, измеряемого на втором стане для каждого их 15 проходов | | H1, H2, …, H15: | значения параметра H, измеряемого на втором стане для каждого их 15 проходов |

Таким образом, для параметров A, B, C, D число нулей в каждой группе должно быть одинаковым, т.к. оно обозначает число проходов. То же самое для параметров E, F, G, H.

Параметры X1, X2, …, X46 не разбиваются на проходы и включают в себя такие начальные данные, как размеры сляба, его вес, температуру, химический состав и т.п.

Последняя колонка в файле Y является целевой переменной, подлежащей прогнозированию.

Описание файлов

train.csv: обучающий набор с 4237строками. Содержит параметры и Y.

test.csv: набор с 908 строками, для которых не указан Y.

sample_submission.csv: пример файла для отправки прогноза для набора test.csv. Содержит 908 строк, в каждой из которых одно вещественное число. Файл должен быть без заголовка.

Untitled

Метрики

Прогноз оценивается по критерию R2.

Untitled