Вернуться




Машинное обучение с подкреплением: что это, с чего началось, применение



Машинное обучение с подкреплением — это как у людей обучение с учителем, который сразу закрепляет изученный материал примерами. Еще точнее — это как «дедовский» метод научить плавать. Когда тебя сажают в лодку и везут на середину водоема. Пока везут объясняют, что делать, чтобы выплыть. Потом на середине сбрасывают в воду, захочешь жить — выплывешь. Вот и подкрепляют пройденный теоретический материал практическим занятием.

С машинами происходит что-то подобное. К примеру, обученного робота могут бросить в лабиринт, откуда он должен выйти самостоятельно. В поисках выхода он постоянно натыкается на препятствия. Тем самым он обучается и использует полученную информацию для анализа: где выхода нет, а где он возможен. И постепенно робот находит выход.

Машинное обучение с подкреплением часто используется в задачах, требующих анализа и имеющих множество решений. То есть, чтобы достичь определенной цели, нужно найти лучший для этого путь. Поэтому машина с искусственным интеллектом решает подобные задачи, ошибается, обучается, опять ошибается, и так постоянно, пока не получает лучший из возможных результатов. А потом, получив какой-то результат, ищет способы улучшить показатели до идеальных или требуемых.

Какие цели преследует обучение с подкреплением

Люди обучают машины с единственной целью — сделать свою жизнь проще и легче и внедрить машины туда, где сами люди не в состоянии показывать идеальные результаты. Типичный современный пример — это беспилотные автомобили. Суть в обучении автомобильного робота заключается в не в том, чтобы он «запомнил» карты своего передвижения наизусть, а именно в том, чтобы он учился анализировать ситуацию на дороге:

  • наличие светофоров;
  • наличие других участников дорожного движения;
  • разметка на дороге;
  • пешеходы на пешеходном переходе и вне его;
  • и т. д.

Но если все-таки выделить более глубокие цели в машинном обучении с подкреплением, то получаем следующие:

  1. Минимизация ошибок. Главная цель это проводить обучение с подкреплением до того уровня, когда у робота при решении задачи не будет ошибок вообще. Ведь согласитесь, не очень-то хотелось бы сесть в беспилотный автомобиль, который допускает ошибки при передвижении. Именно поэтому их «натаскивают» в виртуальном городе, где создают вероятные ситуации на дорогах, и учат их правильно реагировать.
  2. Максимальная выгода. То есть цель запрограммировать и обучить робота так, чтобы это было целесообразным и помогало достигать максимальных результатов, особенно там, где люди на это неспособны. Выгода может быть разной: безаварийная поездка, оптимальный расход ресурсов, скорость в решении задачи, обслуживание большого количества клиентов и т. д.

Где используется обучение с подкреплением у роботов

В целом обучение с подкреплением применяется в тех местах, где нужно получить какую-то обоснованную выгоду от применения робота. Как правило, это сложные задачи с немедленными действиями, где выгода и результат будут видны через какое-то время. А робот способен уследить взаимосвязь между своими действиями раньше и полученным результатом сейчас.

Конкретные примеры, где используется машинное обучение с подкреплением:

  1. Компьютерные игры. Во многих современных компьютерных играх используются боты. Делается это по разным причинам. Разработчики используют ботов с целью улучшить качество своей игры. А многие игроки  для прохождения игр или улучшения собственной статистики в игре.
  2. Роботы-манипуляторы. Те, кто хоть немного интересуется робототехникой, знают, что есть роботы, которые разливают кофе в кофейнях, готовят бургеры и пиццу, режут салаты и т. п. Есть роботы-швейцары, которые открывают/закрывают дверь и проверяют пропуска. Есть роботы в медицине, которые проводят простые и не очень операции. Роботы внедряются во многие человеческие сферы.
  3. Бот-продажник. Это типичный представитель компьютерной программы, которая помогает торговать на биржах. Трейдинг — дело не такое легкое, как кажется на первый взгляд. Для удачных торгов там нужно проводить постоянный анализ огромного количества информации. Люди это, конечно, делают, но не с таким усердием, как роботы. Именно подобные боты помогли минимизировать финансовые потери от трейдинга. Да, они тоже ошибаются, но в целом ведут статистику торгов в положительной плоскости.
  4. Робот-водитель. Обучение с подкреплением в автомобилестроении заметно больше всего. Ни для кого не секрет, что на дорогах уже можно встретить авто без водителей. Но это как раз и стало возможным благодаря машинному обучению с подкреплением в виртуальной среде, но с реальными ситуациями на дорогах.

Это лишь пара примеров, где используется машинное обучение с подкреплением, но они дают возможность понять, что такая технология используется в разнообразных сферах человеческой жизни. Если учесть, что искусственному интеллекту не так много лет, то достижения уже впечатляют.

На данный момент даже трудно представить, что будет через несколько десятков лет и насколько технологии шагнут вперед. Хочется верить, что все разработки будут только улучшать человеческую жизнь. 

 



Если вам понравилась эта статья поделитесь ею с друзьями, тем самым вы помогаете нам развиваться и добавлять всё больше интересного и полезного контента!




Cхожие статьи





Стоит ли учиться программировать в 2021

Стоит ли учиться программировать в 2021

Не случайно в разговорах о рынке труда, перспективах развития и важнейших с ...

21 Февраля 2021    Другое

Плюсы и минусы Baas для разработки мобильных приложений

Плюсы и минусы Baas для разработки мобильных приложений

Если вы хотите заказать разработку мобильного приложения, причем чтобы вам ...

23 Марта 2021    Другое

Начинающий программист

Начинающий программист

Самыми легкими в изучении можно считать такие языки как JavaScript, Python, ...

23 Марта 2021    Другое