С тех пор как в середине двадцатого века появились первые компьютеры, наука и промышленность поняли, что обработка и анализ больших массивов данных могут быть чрезвычайно полезными. Но по мере роста наборов данных возрастает и вычислительная сложность их обработки. Ключом к решению этой задачи является развитие искусственного интеллекта (ИИ).
Огромная задача обработки больших данных
Аналитика больших данных – наука о преобразовании больших необработанных наборов данных в полезные знания – сегодня разрушила почти все отрасли и сектора мировой экономики. Анализ данных - это фундаментальная технология, лежащая в основе почти всех технологических разработок за последние полвека, от фондовых рынков до космических аппаратов.
Ценность, которую владельцы данных могут извлечь из этих больших наборов данных, зависит от их размера: при достаточно большой выборке будущее поведение выборки в целом становится предсказуемым с удивительной степенью точности.
Но это создает проблему: чем больше набор данных (и чем он ценнее), тем труднее его обрабатывать. Обработка данных включает в себя сбор данных в удобном или машиночитаемом формате, их хранение, извлечение, сравнение с другими точками данных и выполнение функций или действий над ними или с ними.
Это достигается с помощью алгоритмов: математических инструкций, которые сообщают компьютеру, какую задачу выполнять с каким фрагментом данных и когда, а также что делать с полученной информацией.
Вычислительную мощность компьютера можно рассматривать как скорость, с которой он может выполнять отдельные задачи: сверхбыстрые компьютеры, которые вы используете сегодня, вычисляют почти мгновенно и могут выполнять миллионы задач одновременно.
Однако наборы данных продолжали расти в размерах и сложности с тех пор, как появились первые компьютеры. Отчасти это связано с осознанием того, какую ценность они представляют для своих владельцев. Исследователи и промышленность начали активно искать способы увеличить свою деятельность по сбору данных.
В последние годы сети пользователей быстро расширялись, поскольку такие компании, как Google и Facebook, использовали полезное технологическое предложение для получения доступа к ценным для маркетологов данным.
Пассивное зондирование, удаленные объекты и автоматизированные сети также добавили больше потоков данных к рабочей нагрузке обработки. Интернет вещей (IoT) и Промышленный Интернет вещей (IIoT) извлекают данные из объектов и устройств, которые ранее были отключены.
В то же время технологические возможности по передаче, хранению и обработке больших объемов данных экспоненциально возросли. Широкополосная связь с высокой пропускной способностью, мобильные сети передачи данных и облачные вычисления являются факторами растущего масштаба потребностей в обработке данных.
Наряду с увеличением технологических возможностей передачи, хранения и обработки данных с улучшением аппаратного обеспечения и компьютерной архитектуры, современная наука о данных использует искусственный интеллект (ИИ) для быстрой обработки данных.
Искусственный интеллект - это применение алгоритмов для того, чтобы заставить компьютеры вести себя так, чтобы они казались разумными. Компьютеры, которые могут выполнять миллионы математических функций одновременно, могут учиться на данных, с которыми они взаимодействуют, и даже изменять поведение, чтобы реагировать на то, что они узнали. Это называется машинным обучением (ML) и является одним из примеров инструмента искусственного интеллекта, используемого для обработки данных.
AIDA: Проект института Алана Тьюринга по искусственному интеллекту для анализа данных
Проект "Искусственный интеллект для аналитики данных" представлял собой расширенную пятилетнюю исследовательскую программу Института Алана Тьюринга, британского исследовательского органа, специализирующегося на искусственном интеллекте, кульминацией которой стало лето 2021 года.
Это заполнило пробел в исследованиях решений искусственного интеллекта для "пререканий" с данными, трудоемких задач понимания доступных данных, интеграции их из различных источников, поиска недостающих, беспорядочных или аномальных данных и извлечения метрик для компьютерного моделирования.
Исследователи говорят, что эти трудоемкие задачи обработки данных составляют до 80% типичных рабочих нагрузок проектов в области науки о данных.
Проект AIDA опирался на разработки искусственного интеллекта и машинного обучения для частичной автоматизации задач обработки данных, известных как пререкания. С помощью более чем 20 статей, а также кода и наборов данных, сопровождавших их, исследователи продемонстрировали успешное достижение всех основных целей:
создание помощников искусственного интеллекта, которые могут помочь с задачами;
создание платформы с открытым исходным кодом;
интеграция ассистентов с платформой;
приведение примеров использования передовых реальных данных.Многие результаты проекта привели непосредственно к разработкам в области искусственного интеллекта, которые позволили машинам быстрее обрабатывать данные.
Ранним результатом стала разработка пользовательского интерфейса под названием Data Diff. Разница данных позволила исследователям легче повторять задачи анализа данных на разных наборах данных.
Позже команда разработала семейство систем, предназначенных для улучшения так называемого "семантического понимания" ИИ данных в табличном формате. Семантический ИИ работает путем эмуляции языковых данных или работы с ними. Первое издание этого семейства, ColNet было способно предсказывать семантические типы из ряда данных.
В статье "Борьба с беспорядочными CSV-файлами путем обнаружения шаблонов строк и типов", опубликованной в журнале Data Mining and Knowledge Discovery, команда AIDA представила новый метод искусственного интеллекта для автоматического обнаружения параметров форматирования в файлах CSV, разделенных запятыми. Этот метод автоматически стандартизирует CSV-данные, быстро ускоряя любой вид обработки данных.
Другое