В 2016 году суперкомпьютер победил чемпиона мира по сложной настольной игре го. Как? Используя обучение с подкреплением, тип искусственного интеллекта, с помощью которого компьютеры обучаются после программирования с помощью простых инструкций. Компьютеры, модели которых для собственного пользования можно посмотреть на https://www.apltech.kz/katalog/kompyutery, учатся на своих ошибках и шаг за шагом становятся очень мощными.
Главный недостаток обучения с подкреплением заключается в том, что его нельзя использовать в некоторых реальных приложениях. Это потому, что в процессе обучения компьютеры сначала пробуют, все что угодно, прежде чем в конечном итоге выберут правильный путь. Этот начальный этап проб и ошибок может быть проблематичным для определенных приложений, таких как системы климат-контроля, где резкие перепады температуры недопустимы.
Как обучают машину
Инженеры CSEM разработали подход, позволяющий преодолеть эту проблему. Они показали, что компьютеры можно сначала обучить на чрезвычайно упрощенных теоретических моделях, а затем приступить к обучению на реальных системах. Это означает, что когда компьютеры запускают процесс машинного обучения в реальных системах, они могут использовать то, что они узнали ранее на моделях. Таким образом, компьютеры могут быстро выбрать правильное решение без периода резких колебаний.
«Это похоже на изучение руководства для водителя перед тем, как завести автомобиль», - говорит Пьер-Жан Але, руководитель отдела исследований интеллектуальных энергетических систем в CSEM и соавтор исследования. «На этом этапе предварительной подготовки компьютеры создают базу знаний, на которую они могут опираться, чтобы не летать вслепую в поисках правильного ответа».
Снижение потребления энергии более чем на 20%
Инженеры протестировали свой подход на системе отопления, вентиляции и кондиционирования (HVAC) для сложного здания из 100 комнат, используя трехэтапный процесс. Во-первых, они обучили компьютер «виртуальной модели», построенной из простых уравнений, которые примерно описывали поведение здания. Затем они загрузили в компьютер фактические данные о здании (температура, как долго были открыты жалюзи, погодные условия и т. д.), чтобы сделать обучение более точным. Наконец, они позволили компьютеру запустить свои алгоритмы обучения с подкреплением, чтобы найти лучший способ управления системой HVAC.
Это открытие может создать новые горизонты для машинного обучения, расширив его использование до приложений, в которых большие колебания рабочих параметров могут повлечь за собой значительные финансовые затраты или нарушение безопасности