Другое

Машинное обучение с подкреплением: что это, с чего началось, применение

Lorem ipsum dolor

Машинное обучение с подкреплением — это как у людей обучение с учителем, который сразу закрепляет изученный материал примерами. Еще точнее — это как «дедовский» метод научить плавать. Когда тебя сажают в лодку и везут на середину водоема. Пока везут объясняют, что делать, чтобы выплыть. Потом на середине сбрасывают в воду, захочешь жить — выплывешь. Вот и подкрепляют пройденный теоретический материал практическим занятием.

С машинами происходит что-то подобное. К примеру, обученного робота могут бросить в лабиринт, откуда он должен выйти самостоятельно. В поисках выхода он постоянно натыкается на препятствия. Тем самым он обучается и использует полученную информацию для анализа: где выхода нет, а где он возможен. И постепенно робот находит выход.

Машинное обучение с подкреплением часто используется в задачах, требующих анализа и имеющих множество решений. То есть, чтобы достичь определенной цели, нужно найти лучший для этого путь. Поэтому машина с искусственным интеллектом решает подобные задачи, ошибается, обучается, опять ошибается, и так постоянно, пока не получает лучший из возможных результатов. А потом, получив какой-то результат, ищет способы улучшить показатели до идеальных или требуемых.

Какие цели преследует обучение с подкреплением

Люди обучают машины с единственной целью — сделать свою жизнь проще и легче и внедрить машины туда, где сами люди не в состоянии показывать идеальные результаты. Типичный современный пример — это беспилотные автомобили. Суть в обучении автомобильного робота заключается в не в том, чтобы он «запомнил» карты своего передвижения наизусть, а именно в том, чтобы он учился анализировать ситуацию на дороге:

  • наличие светофоров;
  • наличие других участников дорожного движения;
  • разметка на дороге;
  • пешеходы на пешеходном переходе и вне его;
  • и т. д.

Но если все-таки выделить более глубокие цели в машинном обучении с подкреплением, то получаем следующие:

  1. Минимизация ошибок. Главная цель это проводить обучение с подкреплением до того уровня, когда у робота при решении задачи не будет ошибок вообще. Ведь согласитесь, не очень-то хотелось бы сесть в беспилотный автомобиль, который допускает ошибки при передвижении. Именно поэтому их «натаскивают» в виртуальном городе, где создают вероятные ситуации на дорогах, и учат их правильно реагировать.
  2. Максимальная выгода. То есть цель запрограммировать и обучить робота так, чтобы это было целесообразным и помогало достигать максимальных результатов, особенно там, где люди на это неспособны. Выгода может быть разной: безаварийная поездка, оптимальный расход ресурсов, скорость в решении задачи, обслуживание большого количества клиентов и т. д.

Где используется обучение с подкреплением у роботов

В целом обучение с подкреплением применяется в тех местах, где нужно получить какую-то обоснованную выгоду от применения робота. Как правило, это сложные задачи с немедленными действиями, где выгода и результат будут видны через какое-то время. А робот способен уследить взаимосвязь между своими действиями раньше и полученным результатом сейчас.

Конкретные примеры, где используется машинное обучение с подкреплением:

  1. Компьютерные игры. Во многих современных компьютерных играх используются боты. Делается это по разным причинам. Разработчики используют ботов с целью улучшить качество своей игры. А многие игроки  для прохождения игр или улучшения собственной статистики в игре.
  2. Роботы-манипуляторы. Те, кто хоть немного интересуется робототехникой, знают, что есть роботы, которые разливают кофе в кофейнях, готовят бургеры и пиццу, режут салаты и т. п. Есть роботы-швейцары, которые открывают/закрывают дверь и проверяют пропуска. Есть роботы в медицине, которые проводят простые и не очень операции. Роботы внедряются во многие человеческие сферы.
  3. Бот-продажник. Это типичный представитель компьютерной программы, которая помогает торговать на биржах. Трейдинг — дело не такое легкое, как кажется на первый взгляд. Для удачных торгов там нужно проводить постоянный анализ огромного количества информации. Люди это, конечно, делают, но не с таким усердием, как роботы. Именно подобные боты помогли минимизировать финансовые потери от трейдинга. Да, они тоже ошибаются, но в целом ведут статистику торгов в положительной плоскости.
  4. Робот-водитель. Обучение с подкреплением в автомобилестроении заметно больше всего. Ни для кого не секрет, что на дорогах уже можно встретить авто без водителей. Но это как раз и стало возможным благодаря машинному обучению с подкреплением в виртуальной среде, но с реальными ситуациями на дорогах.

Это лишь пара примеров, где используется машинное обучение с подкреплением, но они дают возможность понять, что такая технология используется в разнообразных сферах человеческой жизни. Если учесть, что искусственному интеллекту не так много лет, то достижения уже впечатляют.

На данный момент даже трудно представить, что будет через несколько десятков лет и насколько технологии шагнут вперед. Хочется верить, что все разработки будут только улучшать человеческую жизнь. 

 

Схожие статьи

Stack trace в разработчике С++: что это, для чего нужен и как его использовать
Другое

Stack trace в разработчике С++: что это, для чего нужен и как его использовать

Как узнать, на каком языке написана программа? Инструкция для чайников
Другое

Как узнать, на каком языке написана программа? Инструкция для чайников

Преимущества системы CRM для бизнеса
Другое

Преимущества системы CRM для бизнеса

Что такое геттеры и сеттеры: терминология и сравнение методов
Другое

Что такое геттеры и сеттеры: терминология и сравнение методов