Перейти к материалам

Что такое машинное зрение и чем оно отличается от человеческого? Сейчас объясним понятно!

Quardia / Shutterstock

Современный бизнес старается автоматизировать все что можно — и не без причин. С некоторыми задачами машины справляются гораздо лучше людей. В этом помогают такие технологии, как машинное зрение. Вместе с компанией Центр2М объясняем простым языком, что это за зрение и как оно работает.

Очень короткая (и упрощенная!) история машинного зрения

Для начала стоит разобраться в терминологии. Есть компьютерное зрение, а есть машинное зрение. Компьютерное зрение — это одновременно и теория, и набор связанных с ней технологий. Они про то, как машины могут визуально ощущать объективную реальность. Проще говоря, как компьютеры видят мир.

Впервые про компьютерное зрение, если не считать писателей-фантастов, начал говорить британский ученый Оливер Селфридж. В 1955 году он опубликовал статью «Глаза и уши компьютера», в которой предсказал действительность, в которой мы уже живем. Один из главных примеров — системы распознавания лиц. Сегодня мы выкладываем в социальной сети фотографию с вечеринки, а искусственный интеллект за доли секунды узнает на ней друга и предлагает его отметить.

Машинное зрение — это немного другое. Здесь речь про область применения знаний и технологий. Машинное зрение помогает сделать производство товаров и услуг более эффективным, — впрочем, используя те же принципы, что и компьютерное. Первой компанией, производящей решения в этой сфере, принято считать американскую Automatix, которая в начале 1980-х выпустила несколько моделей машин, способных паять микросхемы. Они были оснащены аналоговыми камерами, которые передавали картинку процессору на обработку. Тот высчитывал параметры изображения и, основываясь на них, отдавал команды частям системы, непосредственно задействованным в производстве.

Словом, машинное зрение — это технологии, которые помогают оборудованию увидеть процесс производства чего-либо, проанализировать данные и принять информированное решение. И все это за доли секунды.

Adike / Shutterstock

А чем это лучше человеческого зрения?

Разберемся, как мы сами видим мир. Световые частицы (они же — фотоны) постоянно отражаются от разных объектов и попадают на сетчатку глаз. В каждом глазу находится примерно 126 миллионов чувствительных к фотонам клеток, которые расшифровывают информацию и отправляют ее в мозг. Эти клетки делят на два типа — колбочки и палочки. Первые отвечают за распознавание цвета, вторые позволяют нам, в частности, видеть ночью, работая с оттенками серого. Колбочек у нас три типа — одни специализируются на синих цветах, вторые на зеленых, третьи — на красных. Получается полный набор радуги.

Наша зрительная система, впрочем, не самая продвинутая на планете. Куда сложнее устроены, например, глаза раков-богомолов. У них сразу 16 видов колбочек, а еще их глаза двигаются независимо друг от друга, и каждый разделен еще на три части. При этом у раков-богомолов очень маленький и примитивный по сравнению с нашим мозг. Он не может обрабатывать большие данные, но получает уже готовую детальную расшифровку от глаз. У людей наоборот — глаза устроены чуть попроще, зато мозг — самый мощный среди всех видов.

В машинном зрении применяются оба подхода. Есть системы с обычными цифровыми (иногда даже аналоговыми) камерами, которые, реагируя на специальные датчики (они засекают, если что-то пошло не так), получают сырое изображение, обрабатывают его, распознают элементы и их закономерности, принимают решение и отдают сигнал другим системам. А есть вариант с умными камерами. Это как раз случай рака-богомола. Тут камеры уже самостоятельно проводят часть анализа и разгружают процессоры системы.

А кто точнее — машина или человек?

Еще пять лет назад технологии машинного зрения были куда менее совершенными и успешно распознавали всего 65–70% объектов, которые попадали в их поле видимости. Это высокий показатель, но все же недостаточный для того, чтобы машинному зрению можно было доверить ответственные задачи. Сейчас машины уже узнают до 98% объектов. Причем действительно узнают — не только фиксируют наличие, но и определяют, что именно они видят, а потом даже могут решить, что делать дальше.

Системы восприятия реальности у человека все же остаются более гибкими. Мы, например, лучше интерпретируем контекст. Вернее, даже так: мы единственные, кто знает, что это такое. Машины старательно изучают новые для них ситуации, но человек всегда может выдумать что-то, чтобы запутать машину. По крайней мере пока. Поэтому доля удачных случаев распознавания держится на 98% и не достигает 100%.

Однако у систем машинного зрения есть одно бесспорное преимущество перед человеческим зрением. Обычно мы можем сконцентрироваться на трех-семи объектах, которые видим. Это зависит от особенностей конкретного человека, но редко сильно больше. Системы машинного зрения фиксируют абсолютно все объекты и действия, которые через картинку поступают в их процессоры. Внимание компьютера невозможно отвлечь — для него все происходящее имеет равное значение.

Metamorworks / Shutterstock

Вот какие задачи можно решить при помощи машинного зрения

Представьте, перед вами поднос, на котором лежит 50 гаек. Из них 48 — нормальные, качественные гайки, у одной есть царапина сбоку, а у еще одной — вздутие на одной из граней. К тому же среди гаек почему-то лежит болт. Наверное, за пару секунд вы обнаружите лишние и бракованные детали. Однако перед вами тут же появляется второй поднос с гайками. А потом еще один. И так на протяжении восьми часов.

Это типичная смена оператора производства. Вполне вероятно, что через пару часов такой сотрудник (вне зависимости от профессионализма) потеряет концентрацию — на секунду задумается об обеде или концовке вчерашнего сериала. Может быть, отвлечется на реплику коллеги. В любом случае, скорее всего, рано или поздно он пропустит пару бракованных деталей. Это нормально: фактор недосмотра, вероятно, уже заложен в производственных показателях. Однако если вместо человека контролировать производство будет система с машинным зрением, то она будет работать одинаково надежно хоть целый год без перерыва. Происходит это так: датчики сканируют все детали и отправляют сигнал — если что-то не так. Камеры, работающие в паре со светодиодами, внимательно изучают картинку и передают изображения компьютеру. У него уже имеется большая база с фотографиями гаек именно этой серии, и он мгновенно отдаст команду роботу, оперирующему дальше по конвейеру, отсортировать их.

Такое решение позволяет сэкономить. А контролера производства всегда можно переучить в оператора такой системы — его опыт при настройках машины явно пригодится. Сегодня они достаточно простые и работают интуитивно. Один из примеров — PowerAI Vision от IBM. Чтобы передать системе свои знания и вообще показать ей особенности своей работы, вовсе не нужно быть специалистом по глубинному обучению.

Другая популярная схема применения технологии — безопасность. Работая по той же схеме, что и с гайками, система с машинным зрением мгновенно проанализирует цех и отыщет работника, который забыл надеть защитный шлем. А дальше просто заблокирует его станок или сделает ему предупреждение по громкой связи.

Третья область для машинного зрения — интернет вещей. Так называют совокупность технологий, позволяющих различным приборам взаимодействовать друг с другом. Например, уже существуют холодильники, которые с помощью машинного зрения обнаруживают испортившиеся продукты.

Внедрять такие решения можно не только в заводских и фабричных цехах, но и на складах, в ритейле, банках, системах логистики и транспортных услуг, сельском хозяйстве и животноводстве и так далее. На американском рынке системы машинного зрения начали использовать раньше и активнее (в силу большего числа предлагаемых решений), и сейчас они применяются во множестве отраслей — от автомобильной промышленности до фармацевтики.

В России такое тоже есть

По оценке Market Research Future, объем мирового рынка систем машинного зрения к 2022 году составит 15,5 миллиарда долларов. В России такие технологии уже используются. В частности, их внедрением занимается компания Центр2М. Их система видеоаналитики CenterVision (кстати, основанная на том же PowerAI Vision) использует нейронные сети, чтобы распознавать объекты на производстве с точностью до 98%. Она следит за всем происходящим в реальном времени и передает оповещения в ситуационный центр, а кроме того — готовит отчеты обо всех нарушениях правил безопасности.

Эту систему используют, например, в нефтегазовой отрасли — чтобы поддерживать безопасность производства. Если сотрудник решил снять каску, респиратор или защитные очки, которые требуется носить обязательно на опасном производстве, умная камера это увидит — и сразу же сообщит в ситуационный центр. То же самое произойдет, если будет нарушен периметр безопасности, то есть на территории появится человек, которого там быть не должно.

CenterVision применяют и в менее специфичной среде, например в банке или магазине. Камера увидит, если соберется большая очередь, и сообщит диспетчеру о том, что нужно решить эту проблему.

Система использует умные камеры, которые могут распознавать даже малые объекты с расстояния в 50–70 метров, а также дальномеры, лазеры и системы оповещения. Данные видеонаблюдения передаются на рабочую станцию, которая обрабатывает эту информацию и с откликом в 2,4 секунды передает конечному пользователю — диспетчеру или оператору. Посмотрите на видео, как она работает:

Машинное зрение не единственная технология, задействованная в решениях, избавляющих людей от рутинных задач. Здесь же применяются технологии машинного и глубинного обучения (еще это называют нейросетями). То есть вся эта автоматизированная компьютерная система сама обучается на основе пропущенных через себя данных и способна принимать решения самостоятельно (в тех ситуациях, когда ей это разрешили, конечно). Иными словами, машинное зрение — это составная часть промышленной системы искусственного интеллекта, которая помогает убедиться, что на вашем производстве все в порядке и с оборудованием, и с продукцией, и с персоналом.