Как называется распознавание объектов на снимке

Как называется распознавание объектов на снимке

ДЕШИФРИРОВАНИЕ СНИМКОВ

Султангулова Зиля Сабитовна

Голдырев Александр Вячеславович

студенты 4 курса, географический факультет, БашГУ, РФ, г. Уфа

Вильданов Ильдар Радикович

научный руководитель, асс., БашГУ, РФ, г. Уфа

Космический снимок содержит подробную информацию о состоянии объектов земной поверхности в момент съемки. Для дешифрирования снимков используют специальные методы и дополнительные данные, полученные из различных источников — карт, отчетов о полевых исследованиях и ранее полученных результатов анализа снимков той же территории. Дешифрирование основывается на определенных физических характеристиках объектов и явлений, а его результаты зависят от опыта оператора, типа распознаваемого объекта и качества снимка.

Дешифрирование определяют как процесс изучения снимков с целью идентификации объектов и оценки их значимости. Дешифрирование является сложной задачей, для решения которой необходимо выполнить ряд работ по классификации и подсчету количества объектов, измерению их параметров и определению границ.

Первым этапом дешифрирования является классификация объектов, в ходе которой оператор относит различные объекты на снимке к определенным классам или кластерам. Процедура классификации также состоит из нескольких этапов, первым из которых является выделение пространственных объектов. Затем на этапе распознавания устанавливается тождество между отдельными объектами и соответствующими классами. Для выполнения этого шага необходимы дополнительные знания об изучаемой территории. Наконец, на заключительном этапе, который называется идентификацией, каждый объект на снимке приписывается с некоторой степенью вероятности к одному из определенных классов.

Следующий этап дешифрирования — подсчет количества объектов на снимке — во многом зависит от того, насколько точно была проведена их классификация.

Третий этап состоит в определении геометрических характеристик объекта: длины, площади, объема и высоты. К этому этапу относится и денситометрия — измерение яркостных характеристик объекта.

Последний этап заключается в определении контуров однородных по своим свойствам объектов или пространственных областей, которые при этом закрашиваются определенным цветом или штриховкой. Эту задачу проще выполнять при наличии у объектов четких границ и гораздо сложнее там, где свойства объектов изменяются плавно, например, на границе водоема и песчаных почв [1, c. 87].

Для успешного дешифрирования очень важно понимать, от каких параметров зависит представление объекта на снимке.

Для систематической идентификации, распознавания и определения границ объектов используют определенные характеристики изображений, которые называются дешифровочными признаками. Примеры таких признаков приводятся ниже.

Размер объекта зависит от масштаба. Как правило, при дешифрировании анализируются относительные размеры объектов на одном и том же снимке. Например, размер частного дома должен быть меньше размера крупного торгового центра.

Форма объекта или его контуров является очень четким критерием дешифрирования. Как правило, объекты, созданные человеком (например, дороги, каналы, здания), имеют четкие границы и правильную форму, а форма природных объектов — лесных массивов, водоемов и пр. — является очень нерегулярной.

Тон объекта характеризует его относительную яркость или цвет. Это один из наиболее важных качественных критериев дешифрирования. Обычно тон объекта определяется как темный, средний или яркий.

Структура изображения определяется взаимным расположением объектов на снимке. Как правило, отчетливая и хорошо распознаваемая структура возникает в местах периодически повторяемых тонов и текстур. Так, например, разную структуру образуют упорядоченные дома в городе и деревья в саду.

Текстура, или частота изменений тона в определенной области снимка, является качественным параметром и обычно характеризуется как резкая или плавная. Например, сухие песчаники обладают плавной текстурой без выраженных вариаций тона. Наоборот, текстура смешанного леса является очень резкой из-за частых пространственных изменений тона, которые связаны с различием в форме и размерах верхушек деревьев разных пород и вариациями плотности лесного покрова.

Тень является одним из наиболее важных критериев дешифрирования, поскольку она дает представление об относительной высоте и профиле объекта. В горных районах тень хорошо подчеркивает топографические особенности рельефа и является полезным критерием при дешифрировании геологических структур.

Взаимосвязи — еще один важный критерий дешифрирования, определяющий закономерности взаимного расположения близлежащих объектов. Например, небольшие участки земли белого цвета, расположенные нерегулярно вдоль реки, свидетельствуют о наличии у нее сухого песчаного берега. Сетка линий и регулярно расположенные прямоугольные объекты между ними указывают на территорию городского типа.

Тип местности является описательной характеристикой территории, в том числе ее топографии, почвенного или растительного покрова и т. д

Реестр результатов дешифрирования— это способ собрать воедино всю имеющуюся информацию. Такие реестры выполняют двойную функцию, являясь одновременно:

1. Средством обучения молодых специалистов методам дешифрирования сложных снимков или тематического дешифрирования в новой области.

2. Способом документирования информации и примеров дешифрирования, относящихся к определенной тематической области.

По существу, реестр результатов дешифрирования — это набор справочных материалов, с помощью которых можно быстро и точно идентифицировать объекты на снимках. Обычно реестр состоит из двух частей: набора снимков или стереопар с примечаниями и графического или словесного описания. Реестры систематизируются так, чтобы в любой момент можно было легко найти нужный снимок, относящийся, например, к определенной дате, территории или объекту.

Реестр результатов дешифрирования — это еще и способ систематизации сведений о важнейших характеристиках объекта или явления. В то же время, следует подчеркнуть, что для использования реестров необходимы знания в тематической области. Сведения, содержащиеся в реестре, не могут заменить опыта специалиста, это всего лишь способ систематизации информации, который помогает ускорить процесс обучения дешифрированию.

Читайте также:  Gt p3100 зарядное устройство

Реестры результатов дешифрирования являются эффективным способом распространения опыта ведущих специалистов. Они помогают развивать практические навыки работы со снимками и позволяют получать четкое представление о самом процессе дешифрирования [2, c. 95].

Оборудование, которое используется для дешифрирования снимков, является относительно простым и, за исключением отдельных компонентов, недорогостоящим. В лаборатории дешифрирования должно быть достаточно места для хранения снимков и работы с ними. Для дешифрирования требуется следующее оборудование.

Светостол с прозрачной поверхностью и подсветкой снизу для удобного просмотра пленок. Если используются пленки в рулонах, стол должен быть оснащен специальными держателями и валиками, так чтобы пленку можно было свободно проматывать от одного края стола к другому.

Специальные измерительные шкалы, мирры, которые используют при дешифрировании, имеют очень точную градуировку. Точность обычных линеек, которые встречаются в быту, совершенно недостаточна для целей дешифрирования.

Стереоскопы — приборы, предназначенные для стереоскопического просмотра аэрофотоснимков. Наиболее простым из этих устройств является карманный стереоскоп. Благодаря своим малым размерам и небольшой стоимости карманный стереоскоп стал одним из самых популярных приборов, применяемых для визуального дешифрирования.

Увеличители — устройства, предназначенные для более подробного изучения снимков. Коэффициенты увеличения при анализе изображений выбирают в зависимости от личных предпочтений и исследовательской задачи.

Денситометр — прибор, принцип действия которого основан на изменении яркости светового луча при его прохождении через пленку. С помощью денситометров измеряют плотность снимков — количественную характеристику тона изображения.

Параллаксометр — устройство, которое используется вместе со стереоскопом. С его помощью можно оценить топографическую высоту объектов, представленных на стереопаре. Параллаксометр снабжен двумя стеклянными пластинами, каждая из которых располагается под одной из линз стереоскопа. На каждой пластине нанесена небольшая черная точка. Одна пластина остается неподвижной, а вторую перемещают параллельно шкале параллаксометра до тех пор, пока две точки не совместятся. Измеренная величина перемещения в этом положении используется для расчета высоты точки рельефа.

Увеличивающий трансфероскоп — прибор, выпускаемый корпорацией «Бауш и Ломб» для визуального совмещения снимков. С его помощью можно точно совмещать карты и снимки разного масштаба. При этом оператор наблюдает оба изображения через бинокулярные линзы и может изменять увеличение и ориентацию одного из снимков. После совмещения снимков оператор может выделить необходимые детали на одном из них и перенести их на промежуточный слой, который затем отпечатывается на другом снимке.

Основные принципы дешифрирования были сначала разработаны для аэрофотоснимков, а затем адаптированы к задачам дистанционного зондирования с использованием космических снимков.

Список литературы:

  1. Билич Ю.С., Васмут А.С Проектирование и составление карт. М.: «НЕДРА», 1984. — 360 с.
  2. Чандра А.М., Гош С.К. Дистанционное зондирование и географические информационные системы. М.: Техносфера, 2008. — 312 с.

Попытки научить различные системы видеть и понимать мир так же, как это делает человек, начались несколько десятилетий назад, но уже сейчас эти технологии стали настолько совершенны, что активно используются во многих сферах нашей жизни. На Хабре уже есть подробные статьи о машинном зрении, нейросетях и алгоритмах распознавания, поэтому мы не будем углубляться и вновь описывать эти сложные технологии, мы расскажем о практическом использовании этих систем в реальном мире.

Как это работает? Кратко

То, что для нас является фотографией, для системы распознавания образов — лишь набор пикселей с разными параметрами цвета. Чтобы научить систему распознавать на изображении отдельные объекты, необходимо предоставить ей датасет — набор из тысяч изображений, в которых указано, где именно находится нужный объект. Например, если мы хотим, чтобы система научилась распознавать на снимках людей, нужно показать ей множество фотографий людей разного возраста, в разных позах и одежде, в разных условиях. После подобной тренировки система сможет безошибочно распознать человека на фотографиях. Однако напрашивается другой вопрос: если для системы фотография — это просто совокупность пикселей, то как же нейросеть понимает, что именно изображено на фото?

Для распознавания объектов на изображении используются различные методы, но одним из самых перспективных признан метод гистограмм ориентированных градиентов (HOG). Изображение обесцвечивается, а затем в блоках 16х16 пикселей система находит направление смены цвета (вектор градиента), строит по всему изображению карту этих векторов, и тем самым «снимок» признаков объекта, которые не меняются в зависимости от позы/положения и освещения. Усовершенствованная версия алгоритма называется CoHOG — в ней учитываются границы объектов, то есть производится распознавание формы, а не только векторов градиентов.

Toshiba усовершенствовала метод CoHOG, значительно улучшив распознавание при плохом освещении — традиционный CoHOG, к примеру, плохо справляется с быстрым распознаванием в темноте, когда пешеходов практически не видно в свете фар. Метод ECoHOG (технология гистограмм совместного присутствия ориентированных градиентов) определяет человека за счёт дополнительного анализа направлений и размеров его очертаний, находя голову, ноги, руки, плечи. Если CoHOG просто вычленяет на изображении антропометрические очертания (анализ «граница объекта — векторы границ»), то для ECoHOG важны размерности границ объекта относительно друг друга.

Читайте также:  Iq 109 что это значит

Пять ключевых сфер применения

Маркетинг

Распознавание образов — перспективное направление в рекламе и маркетинге. Нейросети позволяются за считанные часы узнать вещи, для поиска которых в других случаях нужна большая команда профессионалов и недели, а то и месяцы исследований. Например, российский сервис YouScan, система мониторинга социальных медиа, отслеживает упоминание брендов в соцсетях. Причём делает это не только в тексте постов, но и на фотографиях, а также помогает сделать определённые выводы о продукте. С помощью распознавания образов на фото нашли интересную закономерность, поиск которой никому бы и не пришел в голову: среди животных коты чаще встречаются с техникой Apple, а собаки — с брендом Adidas. Эта необычная информация может пригодиться для таргетирования рекламы.


При поиске по логотипу Adidas сервис YouScan отфильтровал фотографии со смартфонами в руках владельцев. Копирайт: YouScan

Видеонаблюдение

Распознавание образов на камерах городского видеонаблюдения — это, пожалуй, самая неотвратимая перспектива использования машинного зрения. С 2017 года в Москве тестируется система умного видеонаблюдения с целью идентификации преступников в местах массового скопления людей. К городской сети камер подключена технология от российской компании NTechLab, которая уже помогла задержать несколько десятков правонарушителей. В Китае подобная система видеонаблюдения способна распознавать не только лица, но и марки автомобилей и одежды на людях, что может быть впоследствии использовано маркетологами для своих исследований.

На видео показана реальная работа распознавания образов и лиц SenseTime

Медицина

Распознавание образов уже стало настоящим прорывом в медицине — во многих случаях компьютеры замечают вещи, которые пропускают даже самые опытные врачи. Они выступают своеобразными помощниками, чье «техническое» мнение подтверждает гипотезу врача или дает повод для более глубоких исследований.

В России ведутся разработки программных комплексов для диагностики раковых образований на снимках КТ, МРТ и ПЭТ. Для этого через нейросеть прогоняют тысячи размеченных снимков, после чего точность распознавания новых снимков возрастает до 95-97%. Среди прочих разработкой такой платформы занимается Департамент информационных технологий Москвы, используя открытую библиотеку Google TensorFlow.

Созданная Google нейросеть Inception анализирует микроскопическое исследование биопсии лимфатических узлов в поиске раковых клеток в молочных железах. Для человека это очень долгий и трудоемкий процесс, в ходе которого легко ошибиться или пропустить что-то важное, так как в некоторых случаях размер изображения составляет 100 000 х 100 000 пикселей. Нейросеть Inception обеспечивает чувствительность около 92% против 72% у врача. Нейросеть не упустит из виду все подозрительные участки снимков, хотя и допускаются ложные срабатывания, которые позже отфильтрует врач.

Автомобили

Распознавание объектов в автомобилях — это необходимая часть систем безопасности ADAS (Advanced driver-assistance systems). ADAS могут быть реализованы как сложными средствами, вроде радара и инфракрасных датчиков, так и при помощи монокулярной камеры. В прошлой статье мы уже рассказывали, что одной видеокамеры вполне достаточно для того, чтобы автомобиль в реальном времени смог распознать пешеходов, знаки и светофоры. Однако такое распознавание «на лету» — очень ресурсоемкая задача, для выполнения которой нужен специализированный процессор. Toshiba уже в течение нескольких лет развивает серию таких процессоров. Они строят трехмерную модель на основе движущегося изображения с одной камеры, и тем самым замечают неизвестные препятствия на дороге. Ведь если нейросеть обучена распознавать только людей, разметку и знаки, то лежащая на асфальте покрышка или кусок ограждения не будут распознаны и расценены, как опасность.


Процессоры Visconti выделяют на изображении зоны, классифицируют их и помогают автопилоту или ADAS принять решение. Источник: Toshiba

Дроны

В дронах распознавание объектов используется как в развлекательных, так и в научных целях. В 2015 году немало шума наделал коптер Lily с автоматическим включением двигателей при подбрасывании и функцией слежения за владельцем. Lily направлял объектив на хозяина, независимо от траектории и скорости его передвижения. Правда, к распознаванию образов эта функция Lily не имела никакого отношения, так как дрон следил не столько за образом человека, сколько за пультом управления, который был надет на руку владельца.

Дроны с распознаванием изображений используются и для более серьезных вещей. Например, норвежская компания eSmart Systems разработала интеллектуальные решения для энергосетей. В рамках одного из их проектов — Connected Drone — дроны используются для поиска неисправностей на линиях электропередач. Обученные распознаванию элементов энергосетей, они проверяют целостность проводов, изоляторов и других частей ЛЭП. Это особенно важно для быстрой локализации неисправности, когда от линии зависит электроснабжение города или предприятия. Учитывая, что часто ЛЭП построены в труднодоступных местах, послать бригаду дронов на поиск неисправности где-нибудь в тайге или в горах гораздо эффективней, чем послать бригаду людей.


Дроны eSmart находят элементы энергетической инфраструктуры и в случае обнаружения повреждений помечают объект, оставляя предупреждение для оператора. Источник: eSmart Systems

Читайте также:  Monster core power 100

Яндекс Алиса и другие приложения научились распознавать картинки и фото с камеры, и делать с ними различные полезные действия.

Сейчас уже существует довольно много мобильных приложений, которые распознают фотографии для получения некоторой полезной информации о людях или объёктах на нём. Одно из таких приложений – Facer, показывает на кого из знаменитостей вы похожи, используя алгоритмы на основе нейронных сетей.

Загружаете фото лица крупным планом и через пару секунд вы видите трёх знаменитостей, на которых вы похожи, с указанием процента сходства. Среди похожих на себя звёзд можно встретить российских и зарубежных музыкантов, актёров, блогеров или спортсменов. Приложение Facer можно скачать по ссылкам: на Android и iOS.

У компании Яндекс тоже есть функции распознавания изображений, они встроены в их голосового помощника. Алиса научилась искать информацию по фотографиям с камеры или любым другим картинкам, которые вы ей отправите. На основе загруженного изображения помощник может сделать некоторые полезные действия. Эти новыми функциями можно воспользоваться в приложении Яндекс и Яндекс.Браузер.

Содержание

Где скачать Алису с поиском по картинкам

Голосовой ассистент Алиса встроен в приложение под названием «Яндекс». Скачать приложение для Android и iOS можно по этим ссылкам:

Как включить поиск по картинкам в Алисе

  1. Чтобы открыть Алису нажимаем на красный значок приложения «Яндекс».
  2. Первый способ открыть функцию распознавания изображений: нажимаем на серый значок фотоаппарата с лупой в поисковой строке и переходим к шагу 4. Второй способ: нажимаем на фиолетовый значок Алисы или говорим «Привет, Алиса!» если у вас включена голосовая активация.
  3. Откроется диалог (чат) с Алисой. Нужно дать команду Алисе «Распознай изображение» или «Сделай фото». Также вы можете нажать на серый значок фотоаппарата с лупой.
  4. Приложение попросит доступ к камере вашего мобильного устройства. Нажимаем «Разрешить».
  5. Откроется режим съёмки. Здесь вы можете загрузить изображение из вашей галлереи или сделать новый снимок прямо сейчас. Нажмите на фиолетовый круг, чтобы сделать снимок.
  6. Алиса распознает объект на изображении.
  7. Давайте попробуем загрузить фотографию из памяти, т.е. галереи вашего iPhone или Android. Нажимаем на иконку с фотографией.
  8. Алиса попросит доступ к вашим фотографиям. Нажимаем «Разрешить».
  9. Выбираем фотографию.
  10. Через некоторое время фотография загрузится на сервера Яндекса и Алиса вам скажет, на что похоже загруженное изображение. В нашем случае мы загрузили фотографию умной колонки Amazon Echo Dot, и Алиса её успешно распознала.

Возможности Алисы по распознаванию изображений и список команд

Помимо общей команды «сделай фото», Алисе можно дать более точную команду по распознаванию объекта. Алиса умеет делать следующие операции с изображениями по соответствующим командам:

Узнать знаменитость по фото

  • Кто на фотографии?
  • Что за знаменитость на фотографии?

Алиса распознаёт фото знаменитых людей. Мы загрузили изображение актёра Константина Хабенского и Алиса успешно распознала его.

Распознать надпись или текст и перевести его

  • Распознай текст
  • Распознай и переведи надпись

Вы можете загрузить фотографию с текстом и Алиса распознает его и даже поможет его перевести. Для того, чтобы распознать и перевести текст с помощью Алисы необходимо:

— Загрузить фото с текстом.
— Прокрутить вниз.
— Нажать «Найти и перевести текст».

— Откроется распознанный текст. Нажимаем «Перевести».
— Откроется Яндекс.Переводчик с переведённым текстом.

Узнать марку и модель автомобиля

  • Определи марку автомобиля
  • Распознай модель автомобиля

Алиса умеет определять марки автомобилей. Например, она без труда распознаёт новый автомобиль Nissan X-Trail, в который встроена мультимедийная система Яндекс.Авто с Алисой и Яндекс.Навигатором.

Узнать породу животного

  • Распознай животное
  • Определи породу собаки

Алиса умеет распознавать животных. Например, Алиса распознала не только, что на фото собака, но и точно определила породу Лабрадор по фото.

Узнать вид растения

  • Определи вид растения
  • Распознай растение

Если вы встретили экзотическое растение, Алиса поможет вам узнать его название.

Узнать автора и название картины

  • Распознай картину
  • Определи что за картина

Если вы увидели картину и хотите узнать её название, автора и описание, просто попросите Алису вам помочь. Картину «Утро в сосновом лесу» художника Ивана Ивановича Шишкина Алиса определяет моментально.

Найти предмет в Яндекс.Маркет

  • Определи товар
  • Найди товар

Если вы увидите интересный предмет, который вы не прочь были бы приобрести – вы можете попросить Алису найти похожие на него товары. Найденный товар вы можете открыть на Яндекс Маркете и там прочитать его характеристики, или сразу заказать.

Распознать QR-код

  • Определи Кью Эр код
  • Распознай Кью Эр код

Алиса пока не так быстро и качественно распознаёт QR коды, нам потребовалось несколько попыток, чтобы успешно распознать QR код.

Попробуйте распознать с помощью Алисы какое-нибудь изображение и напишите о своём опыте и впечатлениях в комментариях.

Яндекс постоянно добавляет новые команды для Алисы. Мы сделали приложение со справкой по командам , которое регулярно обновляем. Установив это приложение, у вас всегда будет под рукой самый актуальный список команд:

«>

Ссылка на основную публикацию
Adblock detector