Машинное обучение: просто о сложном. Машинное обучение что такое

Содержание

Многие посты — промышленные пользователи задаются вопросом: машинное обучение — что это такое? Прекрасное будущее уже достигнуто или другая темная теория, например, квантовый дуализм. Нет.

Машинное обучение: просто о сложном

Машинное обучение (ML) стало широко популярным за последние 15 лет, но большинство людей не до конца осознают его роль в повседневной жизни. Многие из нас используют повседневные приложения, основанные на технологиях искусственного интеллекта (ИИ) и машинного обучения. Эти технологии уже вызывают революцию во многих отраслях, например, Siri, содействие виртуальных помощников, таких как семейство виртуальных помощников «Салют» (Сбер, Джой и Афина), и способность предсказывать дорожное движение на Google Maps. Что такое машинное обучение, чем оно является сегодня и какие преимущества оно приносит предприятиям различных отраслей?

Машинное обучение — это особый способ обучения компьютеров без необходимости планирования. Это отчасти похоже на процесс обучения младенца, который учится классифицировать независимые объекты и события и выявлять отношения между ними.

ML открывает перед компьютерами новые возможности для решения задач, которые раньше выполнялись людьми, обучая компьютерные системы точному вводу данных. Он стимулирует развитие потенциала искусственного интеллекта, является ее необходимым помощником и, по мнению многих, даже синонимом ее.

Наконец, машинное обучение является одним из наиболее распространенных видов использования искусственного интеллекта в современном бизнесе. Если компании еще не используют ML, они оценят его потенциал в ближайшем будущем, и искусственный интеллект станет ключевым рычагом во многих бизнес-стратегиях. Более того, искусственный интеллект уже играет важную роль в трансформации разработок в ИТ-секторе. Клиенты будут уделять больше внимания интеллектуальным приложениям, чтобы развивать свой бизнес с помощью искусственного интеллекта. Это относится к рабочим процессам, реализованным в программном обеспечении — не только в традиционных аспектах бизнеса, но и в исследованиях, производственных процессах и все чаще в самих продуктах.

Заметки с конференции Intelligence Journey Intelligence Journey (AI Journey), посвященной искусственному интеллекту и аналитике данных, Жан-Филипп Куртуа, председатель совета директоров по глобальным продажам, маркетингу и бизнесу Microsoft, Covid-19 Повышенный интерес к использованию машинного обучения… и заявил, что 80% из компаний уже внедрили его в свою деятельность, а 56% планируют увеличить свои инвестиции в этот сектор.

Выдающийся успех машинного обучения привел к тому, что исследователи и специалисты TN по определению выбирают его для решения проблем.

Machine Learning: принципы и задачи

Машинное обучение основано на трех одинаково важных элементах

Данные. Собираются всевозможными способами. Чем больше данных, тем эффективней машинное обучение и точнее будущий результат.
Признаки. Определяют, на каких параметрах строится машинное обучение.
Алгоритм. Выбор метода машинного обучения (при условии наличия хороших данных) будет влиять на точность, скорость работы и размер готовой модели.

ПРИМЕЧАНИЯ.

Уверенность в результатах машинного обучения должна быть основана на понимании того, что алгоритмы настолько хороши, насколько хороши данные, на которых они обучены.

Существуют три фундаментальных принципа, которые поддерживают существование и развитие машинного обучения

Инновационность: возможности ML открывают новые перспективы развития и роста практически всех отраслей экономики.
Специфичность: машинное обучение применяется для внедрения и разработки новых продуктов исключительно людьми, которые разбираются в IT-технологиях.
Простота: продукты, реализуемые с использованием технологий машинного обучения, становятся понятны даже школьникам и людям преклонного возраста.

Задачи, которые может решить машинное обучение, сразу определяют преимущества его способности решать социальные проблемы для предприятий и правительств. Основные обязательства следующие

Регрессия. Предоставляет прогноз на основе выборки объектов с различными признаками.По итогам анализа данных на выходе получается число или числовой вектор. Например, таким образом работает кредитный скоринг — оценка кредитоспособности потенциального заёмщика.
Классификация. Выявляет категории объектов на основе имеющихся параметров. Продолжает традиции машинного зрения, поэтому часто можно встретить термин «распознавание образов»: например, идентификация разыскиваемых людей по фото или на основании словесного описания внешности.
Кластеризация. Разделяет данные на схожие категории по объединяющему признаку. Например, космические объекты кластеризируют по удаленности, размерам, типам и другим признакам.
Идентификация. Отделяет данные с заданными параметрами от остального массива данных. К примеру, участвует в постановке медицинского диагноза по набору симптомов.
Прогнозирование. Работает с объемами данных за определенный период и предсказывает на основе анализа их значение через заданный период времени. Примером может служить прогноз погоды.
Извлечение знаний. Исследует зависимости между рядом показателей одного и того же явления или события. Например, находит закономерности во взаимодействии биржевых показателей.

Как видите, сфера применения машинного обучения широка, что подтверждает перспективность его использования как в коммерческом бизнесе, так и в социальных проектах.

Как это работает: типы машинного обучения

Для удобства типы машинного обучения обычно делятся на три категории

обучение с учителем (supervised learning);
обучение без учителя (unsupervised learning);
обучение с подкреплением (reinforcement learning).

Типы машинного обучения

Обучение с учителем

Этот тип максимально похож на процесс обучения ребенка, за исключением того, что алгоритм играет роль ребенка. Поскольку данные, подготовленные для анализа, изначально содержат правильный ответ, целью алгоритма является не ответ, а понимание «почему так». Определите корреляции. В результате можно строить точные прогнозы и модели.

Обучение без учителя

Для этого типа обучения основополагающей концепцией являются паттерны. Для обработки больших объемов данных алгоритм должен сначала самостоятельно обнаружить закономерности. На следующем этапе машина интерпретирует и систематизирует данные на основе выявленных закономерностей.

Обучение с подкреплением

Принципы обучения с подкреплением заимствованы из психологических экспериментов. Машина пытается найти наилучшее действие, которое необходимо выполнить в ряде различных сценариев. Эти действия могут иметь как краткосрочные, так и долгосрочные последствия, и алгоритм должен обнаружить эти связи.

Переобученная модель классификации (зеленая линия) выдает верные результаты на всем тренировочном наборе, но правильно обученная модель (черная линия), скорее всего, будет не так сильно ошибаться на новых данных

Сфера применения

Мы рассмотрели машинное обучение — что оно означает. Теперь давайте рассмотрим, почему машинное обучение используется в бизнесе и в жизни.

Спросите любого, кто увлекается робототехникой, о масштабах машинного обучения. Вы услышите много замечательных историй. Например, роботов можно обучить выполнять человеческие задачи. Для добычи полезных ископаемых из недр Земли, разработки нефтяных скважин и источников природного газа, исследования морского дна, тушения пожаров и т.д. Разработчикам не нужно создавать громоздкие, сложные программы, боясь ошибиться в коде. Роботы, благодаря МО, учатся действовать в конкретных ситуациях на основе анализа данных.

Великолепно, но пока отлично. В будущем, даже в не слишком отдаленном будущем, это станет реальностью.

Что сейчас могут сделать искусственный интеллект и машинное обучение? Сегодня технологии все чаще используются в маркетинговых целях. Например, Google и Яндекс используют искусственный интеллект для показа релевантных объявлений пользователям. Замечали ли вы, что после поиска в интернете интересующего вас товара, похожие предложения появляются в течение нескольких часов или дней?

Смарт-ленты в социальных сетях основаны на том же принципе. Аналитические системы на FB, VK, Instagram и Twitter изучают ваши интересы. То есть, какие посты вы часто посещаете, на какие клики вы нажимаете, какие группы и сообщества посещаете и т.д. Чем чаще вы активны в социальных сетях, тем более персонализированным становится ваш поток новостей. Это может быть как хорошо, так и плохо. С одной стороны, камера выхватывает ряд безразличной (по ее мнению) информации, а с другой — ограничивает ваш кругозор. Маркетинг — это не личное!

Машинное обучение используется в структурах безопасности. Например, система распознавания лиц в метро. Камеры сканируют лица людей, входящих и выходящих из метро. Анализирующая камера сравнивает изображение с желаемым лицом. Если сходство высокое, система подает сигнал. Офицер идет проверять документы конкретного человека.

Искусственный интеллект уже применяется в медицинских учреждениях. Примеры включают обработку данных о пациенте, предварительную диагностику и даже подбор индивидуального лечения на основе информации о болезни человека.

Виды машинного обучения

Методы машинного обучения — это серия задач, в которых используется искусственный интеллект для проверки предположений и поиска наилучшего решения. Существует три области.

Обучение с учителем (supervised learning). В этом случае в аналитическую систему загружается массив данных по конкретной задаче и задается направление – цель анализа. Как правило, нужно предсказать что-либо или проверить какую-либо гипотезу.Например, у нас есть данные о доходах интернет-магазина за полгода работы. Мы знаем, сколько продано товаров, сколько потрачено денег на привлечение клиентов, ROI, средний чек, количество кликов, отказов и другие метрики. Задача машины проанализировать весь массив данных и выдать прогноз дохода на предстоящий период – месяц, квартал, полгода или год. Это регрессивный метод решения задач. Другой пример. На основе массива данных, критериев выборки нужно определить является ли текст письма на электронную почту спамом. Или, имея данные успеваемости школьников по предметам, зная их IQ по тестам, пол и возраст, нужно помочь выпускникам определиться с профориентацией. Аналитическая машина выискивает и проверяет общие черты, сравнивает и классифицирует результаты тестов, оценки по школьной программе, склад ума. На основе данных делает прогноз. Это задачи классификации.
Обучение без учителя (unsupervised learning). Обучение строится на том, что человеку и программе неизвестны правильные ответы заранее, имеется только некий массив данных. Аналитическая машина, обрабатывая информацию, сама ищет взаимосвязи. Зачастую на выходе имеем неочевидные решения.Например, мы знаем данные о весе, росте и типе телосложения 10 000 потенциальных покупателей джемперов определенного фасона. Загружаем информацию в машину, чтобы разбить клиентов по кластерам в соответствии с имеющимися данными. В результате мы получим несколько категорий людей со схожими характеристиками, чтобы для них выпустить джемпер нужного фасона. Это задачи кластеризации. Другой пример. Чтобы описать какое-либо явление приходится задействовать 200-300 характеристик. Соответственно визуализировать такие данные крайне сложно, а разобраться в них просто невозможно. Аналитическая система получает задание обработать массив характеристик и выбрать схожие, то есть сжать данные до 2-5-10 характеристик. Это задачи уменьшения размерности.
Глубокое обучение (Deep learning). Глубокое машинное обучение – это обязательно анализ «Больших данных» – Big Data. То есть одним компьютером, одной программой переработать столько информации просто невозможно. Поэтому используются нейронные сети. Суть такого обучения в том, что огромное поле информации разделяется на небольшие сегменты данных, обработка которых делегируется другим устройствам. Например, один процессор только собирает информацию по задаче и передает дальше, четыре других процессора анализируют собранные данные и передают результаты дальше. Следующие в цепочке процессоры ищут решения.Например, система распознавания объектов работает по принципу нейросети. Сначала фотографируется объект целиком (получение графической информации), потом система разбивает данные на точки, находит линии из этих точек, строит из линий простые фигуры, а из них – сложные двумерные и далее 3D-объекты.

Классы задач машинного обучения

Ниже приводится краткое описание задач искусственного интеллекта.

Регрессия. На основании массива признаков или характеристик предсказать вещественный результат. То есть машина должна выдать конкретную цифру. Например, предсказать стоимость акций на бирже, количество запросов по ключевому слову, бюджет контекстной рекламы и другое.
Классификация. Задача определить по количеству и качеству признаков, характеристик категорию объекта. Например, распознать по снимку конкретного человека в розыске, имея только описания на словах, определить спам, выявить болезнь у пациента.
Кластеризация. Данные разбиваются на похожие категории. Например, космические объекты относят в конкретные категории по схожим признакам (удаленность, размер, планета или звезда и другие).
Уменьшение размерности. Сжатие массива характеристик объекта до меньшего количества признаков для дальнейшей визуализации или использования в работе. Например, сжатие массива данных в архивы для передачи по сети.

McKinsey & Co: «Машинное обучение основано на алгоритмах, которые могут учиться на данных, не полагаясь на программирование, основанное на правилах.

Машинное обучение что такое

Автор АннаВичугова.

Общий термин «машинное обучение» или «машинное обучение» относится к набору математических, статистических и вычислительных методов для разработки алгоритмов, которые могут решать задачи не напрямую, а на основе поиска закономерностей в различных входных данных1. Решения рассчитываются не по явным формулам, а по установленным зависимостям результатов от определенного набора функций и их значений. Например, если в течение недели каждый день на земле лежит снег, а температура значительно ниже нуля, возможно, приближается зима. Именно поэтому машинное обучение используется для диагностики, прогнозирования, идентификации и принятия решений в самых разных областях — от медицины до банковского дела.

Типы и суть Machine Learning

Существует два типа машинного обучения1: 1.

Индуктивное или по прецедентам, которое основано на выявлении эмпирических закономерностей во входных данных;
Дедуктивное, которое предполагает формализацию знаний экспертов и их перенос в цифровую форму в виде базы знаний.

Индуктивные выражения обычно относятся к области экспертных систем. Таким образом, общий термин «машинное обучение» относится к обучению через прецедент. Предыдущая или обучающая выборка — это набор входных данных и соответствующих результатов. Не существует четкой формулы, подробно описывающей взаимосвязь между результатами и затратами. Например, если будний день ледяной и солнечный, с низкой влажностью, без ветра и дождя, то какой будет погода завтра? Необходимо учитывать множество других параметров, таких как географические координаты, почва, движение фронтов горячего и холодного воздуха и т.д. Вам нужно построить алгоритм, который дает достаточно точные результаты для каждого возможного входа. Точность результатов зависит от оцененной функции качества. Поэтому решения формируются эмпирически, на основе анализа опыта. Таким образом, обучающая система должна быть способна к обобщению — адекватному обращению с данными, отличными от имеющихся обучающих образцов. На практике исходные данные могут быть неполными, неточными и неоднородными. Поэтому существует множество методов машинного обучения.2 Машинное обучение можно рассматривать как применение рассуждений на основе прецедентов (CBR). Это метод решения проблем по аналогии, при котором делаются предположения на основе аналогичных (предыдущих) примеров.

Методы Machine Learning

Существует множество методов машинного обучения. Перечислены наиболее популярные из них, а их подробная классификация оставлена для специализированных источников 1, 2 и 3. Существует два типа классического машинного обучения

С учителем (supervised learning), когда необходимо найти функциональную зависимость результатов от входов и построить алгоритм, на входе принимающий описание объекта и на выходе выдающий ответ. Функционал качества, как правило, определяется через среднюю ошибку ответов алгоритма по всем объектам выборки. К обучению с учителем относятся задачи классификации, регрессии, ранжирования и прогнозирования.
Без учителя (unsupervised learning), когда ответы не задаются, и нужно искать зависимости между объектами. Сюда входят задачи кластеризации, поиска ассоциативных правил, фильтрации выбросов, построения доверительной области, сокращения размерности и заполнения пропущенных значений.

К неклассическим, но очень популярным методам относятся вспомогательное обучение, в частности генетические алгоритмы, и искусственные нейронные сети. Входной объект — это пара «состояние, решение», а ответ — функциональное значение качества, которое характеризует точность принятого решения (реакцию среды). Эти методы успешно используются при составлении инвестиционных стратегий, автоматическом управлении техническими процессами, самообучении роботов и других подобных задачах2.

На следующей диаграмме представлена классификация наиболее часто используемых методов машинного обучения3.