Александр Гурьянов

Проблема компьютерного распознавания образов существует многие десятилетия. На этом пути достигнут огромный прогресс. Человечество создало разнообразные системы ИИ, но задача далека от окончательного решения. Причина в отсутствии хотя бы качественной теории мозга, а значит, и понимании того, как распознавание происходит в человеческой голове. Однако кое-что ясно уже сейчас. При идентификации объекта на изображениях люди опираются на взаимное расположение различных его частей, то есть всегда оценивают форму объекта в целом.

Нейронные сети сегодня доминируют среди математических моделей явлений, происходящих в визуальных отделах коры головного мозга. Но обладают ли сети чувствительностью к форме? На этот вопрос в своем новом исследовании постарались ответить двое профессоров, канадец Джейс Илдер (James Elder) из Йоркского университета и американец Николас Бейкер (Nicholas Baker) из колледжа Лойолы в Чикаго. Картинки силуэтов животных, предъявляемые ИИ и людям для опознания, они разрезали на две части, которые затем неправильно соединяли. Силуэт предмета оказывался искаженным, но детали каждой части сохранялись. Получившиеся объекты исследователи называли франкенштейнами по имени главного героя известного романа Мэри Шелли.

Человека франкенштейны вводили в заблуждение, тренированные же сети не были чувствительны к их конфигурации. Общая форма объекта для сетей оказалась не важна. И смена методов тренировки сети, и изменение ее архитектуры не вели к устанению этого различия. Ни одна из самых сложных сетей так и не сумела полностью воспроизвести последовательность человеческих ответов при распознавании предметов.

Авторы делают вывод о принципиальных отличиях в восприятии образов сетями и мозгом. Это означает, что сеть имеет неустранимые недостатки, заложенные в принципах ее организации. Поэтому, говорит профессор Илдер, нейросети могут быть опасны в реальных приложениях, особенно в индустриальных и военных применениях. Один из негативных примеров — это системы управления трафиком на дорогах. Объекты здесь загораживают друг друга, поэтому человек опознает их, домысливая невидимые фрагменты. ИИ же может только воспринимать фрагменты, но не способен их домыслить. Поэтому его оценка рисков может не соответствовать реальности дорожного движения.

Профессора надеются, что для достижения адекватности сетей их нужно тренировать на более широком наборе объективных задач, не ограничиваясь при этом категорией распознавания образов. Вывод, на наш взгляд, сколь неоднозначный, столь и сомнительный.


iScience, 25, 9, 104913, 2022

 
Разные разности
Магнитная навигация муравьев
Пустынные муравьи Cataglyphis — настоящие ассы навигации. В поисках пищи они удаляются по извилистым тропинкам на несколько сотен метров от своего подземного гнезда. Зато обратно бегут по прямой, срезая все углы и повороты, — как стрел...
Микробы делают чай вкуснее
Что влияет на количество теанина в чае? Этот вопрос исследовали китайские ученые. Они тщательно изучили и сравнили по содержанию теанина 17 сортов чая и выяснили, что все зависит от количества и активности азотфиксирущих бактерий, обитающих на к...
Анатомия «Руанского собора»
В Музее изобразительных искусств имени Пушкина в Москве в феврале и марте прошла необычная выставка. Всего две картины Клода Моне — «Руанский собор в полдень» и «Руанский собор вечером». А рядом были представлены результаты физико-хими...
Пирожное как источник топлива
На волне интереса к биотопливу появилась идея использовать невостребованные хлебобулочные изделия в качестве сырья для биотоплива. А почему бы и нет? Хлеб содержит много крахмала. Он легко расщепляется ферментами на молекулы сахара, которые затем дро...