Машинное обучение с подкреплением — это как у людей обучение с учителем, который сразу закрепляет изученный материал примерами. Еще точнее — это как «дедовский» метод научить плавать. Когда тебя сажают в лодку и везут на середину водоема. Пока везут — объясняют, что делать, чтобы выплыть. Потом на середине сбрасывают в воду, захочешь жить — выплывешь. Вот и подкрепляют пройденный теоретический материал практическим занятием.
С машинами происходит что-то подобное. К примеру, обученного робота могут бросить в лабиринт, откуда он должен выйти самостоятельно. В поисках выхода он постоянно натыкается на препятствия. Тем самым он обучается и использует полученную информацию для анализа: где выхода нет, а где он возможен. И постепенно робот находит выход.
Машинное обучение с подкреплением часто используется в задачах, требующих анализа и имеющих множество решений. То есть, чтобы достичь определенной цели, нужно найти лучший для этого путь. Поэтому машина с искусственным интеллектом решает подобные задачи, ошибается, обучается, опять ошибается, и так постоянно, пока не получает лучший из возможных результатов. А потом, получив какой-то результат, ищет способы улучшить показатели до идеальных или требуемых.
Какие цели преследует обучение с подкреплением
Люди обучают машины с единственной целью — сделать свою жизнь проще и легче и внедрить машины туда, где сами люди не в состоянии показывать идеальные результаты. Типичный современный пример — это беспилотные автомобили. Суть в обучении автомобильного робота заключается в не в том, чтобы он «запомнил» карты своего передвижения наизусть, а именно в том, чтобы он учился анализировать ситуацию на дороге:
- наличие светофоров;
- наличие других участников дорожного движения;
- разметка на дороге;
- пешеходы на пешеходном переходе и вне его;
- и т. д.
Но если все-таки выделить более глубокие цели в машинном обучении с подкреплением, то получаем следующие:
- Минимизация ошибок. Главная цель — это проводить обучение с подкреплением до того уровня, когда у робота при решении задачи не будет ошибок вообще. Ведь согласитесь, не очень-то хотелось бы сесть в беспилотный автомобиль, который допускает ошибки при передвижении. Именно поэтому их «натаскивают» в виртуальном городе, где создают вероятные ситуации на дорогах, и учат их правильно реагировать.
- Максимальная выгода. То есть цель — запрограммировать и обучить робота так, чтобы это было целесообразным и помогало достигать максимальных результатов, особенно там, где люди на это неспособны. Выгода может быть разной: безаварийная поездка, оптимальный расход ресурсов, скорость в решении задачи, обслуживание большого количества клиентов и т. д.
Где используется обучение с подкреплением у роботов
В целом обучение с подкреплением применяется в тех местах, где нужно получить какую-то обоснованную выгоду от применения робота. Как правило, это сложные задачи с немедленными действиями, где выгода и результат будут видны через какое-то время. А робот способен уследить взаимосвязь между своими действиями раньше и полученным результатом сейчас.
Конкретные примеры, где используется машинное обучение с подкреплением:
- Компьютерные игры. Во многих современных компьютерных играх используются боты. Делается это по разным причинам. Разработчики используют ботов с целью улучшить качество своей игры. А многие игроки — для прохождения игр или улучшения собственной статистики в игре.
- Роботы-манипуляторы. Те, кто хоть немного интересуется робототехникой, знают, что есть роботы, которые разливают кофе в кофейнях, готовят бургеры и пиццу, режут салаты и т. п. Есть роботы-швейцары, которые открывают/закрывают дверь и проверяют пропуска. Есть роботы в медицине, которые проводят простые и не очень операции. Роботы внедряются во многие человеческие сферы.
- Бот-продажник. Это типичный представитель компьютерной программы, которая помогает торговать на биржах. Трейдинг — дело не такое легкое, как кажется на первый взгляд. Для удачных торгов там нужно проводить постоянный анализ огромного количества информации. Люди это, конечно, делают, но не с таким усердием, как роботы. Именно подобные боты помогли минимизировать финансовые потери от трейдинга. Да, они тоже ошибаются, но в целом ведут статистику торгов в положительной плоскости.
- Робот-водитель. Обучение с подкреплением в автомобилестроении заметно больше всего. Ни для кого не секрет, что на дорогах уже можно встретить авто без водителей. Но это как раз и стало возможным благодаря машинному обучению с подкреплением в виртуальной среде, но с реальными ситуациями на дорогах.
Это лишь пара примеров, где используется машинное обучение с подкреплением, но они дают возможность понять, что такая технология используется в разнообразных сферах человеческой жизни. Если учесть, что искусственному интеллекту не так много лет, то достижения уже впечатляют.
На данный момент даже трудно представить, что будет через несколько десятков лет и насколько технологии шагнут вперед. Хочется верить, что все разработки будут только улучшать человеческую жизнь.

Другое