Вернуться




Разметка данных: что это такое, ее роль в машинном обучении



Разметка данных — это своеобразная проверка данных в машинном обучении. То есть мы имеем некие входные данные, которые мы даем на обработку искусственному интеллекту. Потом проверяем исходные данные, полученные после их анализа ИИ, и сопоставляем их с эталонными данными. Если очень простым языком, то берем картинку коровы, даем искусственному интеллекту опознать объект на картине. Если он определил, что это корова, то значит, что все хорошо, а если он определил, что это слон, значит, все плохо. Разметка данных в этом случае это проверка, что определил на изображении искусственный интеллект: корову или другое животное?

Разметка данных — это своего рода процесс обучения искусственного интеллекта.

 

Что это такое разметка данных?

Задачей любого машинного обучения является качественное обучение алгоритма ИИ, а точнее, помощь быстрее находить закономерности во входных данных, чтобы в дальнейшем искусственный интеллект качественнее выполнял свою задачу. Все это не было бы возможным, если бы не существовала разметка данных, то есть если бы не было проверки изначальной работы искусственного интеллекта.

Что самое интересное разметка данных спровоцировала возникновение новой профессии «разметчики данных». По сути, это люди, которые проверяют работу искусственного интеллекта.

Вообще, сам процесс разметки данных и машинного обучения можно сопоставить с парой «учитель/ученик». Учитель обладает определенными знаниями, которые хочет передать ученику, чтобы тот занял свое место в жизни. Изначально ученик, идя в школу, практически ничего не знает, а задача учителя научить его. Как происходит процесс обучения людей? Учитель дает «порцию» информации ученику, а потом проверяет, как он ее понял. Когда ученик начинает «отвечать» по изученному материалу, то, естественно, он может ошибаться. Учитель на ошибки реагирует дополнительными наводящими вопросами, чтобы ученик исправил озвученную ошибку и в конце выдал эталонный ответ по материалу. Чем старше и опытнее становится ученик, тем сложнее обучающий материал.

С искусственным интеллектом происходит такая же ситуация. «Подачей» материала ИИ занимаются разработчики, а в роли «учителей» выступают «разметчики данных». Проверка того, как понял материал «ученик»,это и есть разметка данных. Только у людей проверку материала делает один учитель, а у искусственного интеллекта их очень много по одному предмету.

К примеру, если вернемся к изображению коровы, которое мы дали проверить нашему искусственному интеллекту. ИИ определил, что на нем изображена корова. Чтобы для него это стало истиной, нужно будет, чтобы несколько разных разметчиков данных подтвердили этот факт. Как только это подтвердят «учителя», ИИ поймет, что его алгоритм определения коровы на изображении верен. И далее по нему он будет определять коров на изображении. Виток машинного обучения сделали — чему-то уже научили наш ИИ. 

Но как и у людей, дальше задачи усложняются. Мы берем наше изображение и просим ИИ определить, какого цвета корова. Корова у нас черно-белая, а он определил как коричнево-белая. Разметчики это определили, значит, ИИ понял, что с алгоритмом определения цвета что-то не так. Проверил еще раз, после чего определил цвет правильно. Разметчики это подтвердили, значит, алгоритм определения цвета верен.

Далее опять берем наше изображение и просим интеллект определить, а чем занимается корова на изображении: ест, пьет, спит, лежит, бежит и т. д? И так с каждым разом процесс усложняется. И каждый подобный этап обучения проверяет разметка данных. А весь такой комплекс мероприятий и есть процесс машинного обучения.

Заметьте, что мы описали пример одной фотографии, чтобы ИИ определил, что изображено на картинке, и дал нам небольшое описание из разряда: «Черно-белая корова пасется на лугу». При этом сколько манипуляций было задействовано? А представьте то же самое в более крупных масштабах, сколько манипуляций нужно провести? Допустим, у нас есть 1 млн разнообразных фото, по которым нужно обучить искусственный интеллект, тогда различных манипуляций будут десятки миллионов.

 

Разметка данных по факту

По факту разметка данных — это очень энерго- и трудозатратный процесс, который силами разработчиков чисто физически не может быть решен, потому что нужно обрабатывать сотни тысяч единиц информации.

Для отладки взаимодействия между заказчиками, которым нужно обучить свой ИИ, и разметчиками, которые могут это сделать, есть несколько площадок:

  • MarkLab;

  • Handl;

  • Annotate online;

  • Clarifai;

  • Яндекс.Толока;

  • и др.

Разметка данных на подобных площадках происходит просто:

  • заказчики загружают необработанную информацию, которую необходимо проверить на ресурс;

  • фрилансеры и другие удаленные работники проверяют эту информацию за небольшое вознаграждение;

  • площадка возвращает заказчику уже размеченные данные.

Именно так налажена современная разметка данных.

 

Заключение

Разметка данных в машинном обучении — это важная часть, без которой такое обучение было бы невозможным. По сути, любой пользователь интернета может прикоснуться к машинному обучению и стать «учителем» искусственного интеллекта, потому что пока этот процесс невозможно автоматизировать. А может, это и хорошо, потому что «человеческая» разметка данных предполагает, что на вершине всего обучения стоит человек и именно он определяет эталон знаний любого искусственного интеллекта.



Если вам понравилась эта статья поделитесь ею с друзьями, тем самым вы помогаете нам развиваться и добавлять всё больше интересного и полезного контента!




Cхожие статьи





Стоит ли учиться программировать в 2021

Стоит ли учиться программировать в 2021

Не случайно в разговорах о рынке труда, перспективах развития и важнейших с ...

21 Февраля 2021    Другое

Плюсы и минусы Baas для разработки мобильных приложений

Плюсы и минусы Baas для разработки мобильных приложений

Если вы хотите заказать разработку мобильного приложения, причем чтобы вам ...

23 Марта 2021    Другое

Начинающий программист

Начинающий программист

Самыми легкими в изучении можно считать такие языки как JavaScript, Python, ...

23 Марта 2021    Другое



Напишем