Учебная работа. Доклад: Нейросетевые методы распознавания изображений
Выполнен обзор нейросетевых методов, используемых при распознавании изображений. Нейросетевые методы — это методы, базирующиеся на применении различных типов нейронных сетей (НС). Основные направления применения различных НС для распознавания образов и изображений:
- применение для извлечение ключевых характеристик или признаков заданных образов,
- классификация самих образов или уже извлечённых из них характеристик (в первом случае извлечение ключевых характеристик происходит неявно внутри сети),
- решение оптимизационных задач.
Архитектура искусственных НС имеет некоторое сходство с естественными нейронными сетями. НС, предназначенные для решения различных задач, могут существенно различаться алгоритмами функционирования, но их главные свойства следующие [1-3].
НС состоит из элементов, называемых формальными нейронами, которые сами по себе очень просты и связаны с другими нейронами. каждый нейрон преобразует набор сигналов, поступающих к нему на вход в выходной сигнал. именно связи между нейронами, кодируемые весами, играют ключевую роль. Одно из преимуществ НС (а так же недостаток при реализации их на последовательной архитектуре) это то, что все элементы могут функционировать параллельно, тем самым существенно повышая эффективность решения задачи, особенно в обработке изображений. Кроме того, что НС позволяют эффективно решать многие задачи, они предоставляют мощные гибкие и универсальные механизмы обучения, что является их главным преимуществом перед другими методами [4,5] (вероятностные методы, линейные разделители, решающие деревья и т.п.). Обучение избавляет от необходимости выбирать ключевые признаки, их значимость и отношения между признаками. Но тем не менее выбор исходного представления входных данных (вектор в n-мерном пространстве, частотные характеристики, вэйвлеты и т.п.), существенно влияет на качество решения и является отдельной темой. НС обладают хорошей обобщающей способностью (лучше чем у решающих деревьев [5]), т.е. могут успешно распространять опыт, полученный на конечном обучающем наборе, на всё множество образов.
Опишем применение НС для распознавания изображений, отмечая возможности применения для распознавания человека по изображению лица.
1. Многослойные нейронные сети
Архитектура многослойной нейронной сети (МНС) состоит из последовательно соединённых слоёв, где нейрон каждого слоя своими входами связан со всеми нейронами предыдущего слоя, а выходами — следующего. НС с двумя решающими слоями может с любой точностью аппроксимировать любую многомерную функцию. НС с одним решающим слоем способна формировать линейные разделяющие поверхности, что сильно сужает круг задач ими решаемых, в частности такая сеть не сможет решить задачу типа “исключающее или”. НС с нелинейной функцией активации и двумя решающими слоями позволяет формировать любые выпуклые области в пространстве решений, а с тремя решающими слоями — области любой сложности, в том числе и невыпуклой. При этом МНС не теряет своей обобщающей способности. Обучаются МНС при помощи алгоритма обратного распространения ошибки, являющегося методом градиентного спуска в пространстве весов с целью минимизации суммарной ошибки сети. При этом ошибки (точнее величины коррекции весов) распространяется в обратном направлении от входов к выходам, сквозь веса, соединяющие нейроны.
Простейшее применение однослойной НС [6] (называемой автоассоциативной памятью) заключается в обучении сети восстанавливать подаваемые изображения. Подавая на вход тестовое изображение и вычисляя качество реконструированного изображения, можно оценить насколько сеть распознала входное изображение. Положительные свойства этого метода заключаются в том, что сеть может восстанавливать искажённые и зашумленные изображения, но для более серьёзных целей он не подходит.
Рис. 1. многослойная нейронная сеть для классификации изображений. Нейрон с максимальной активностью (здесь первый) указывает принадлежность к распознанному классу.
МНС так же используется для непосредственной классификации изображений – на вход подаётся или само изображение в каком-либо виде, или набор ранее извлечённых ключевых характеристик изображения, на выходе нейрон с максимальной активностью указывает принадлежность к распознанному классу (рис. 1). Если эта активность ниже некоторого порога, то считается, что поданный образ не относится ни к одному из известных классов. Процесс обучения устанавливает соответствие подаваемых на вход образов с принадлежностью к определённому классу. Это называется обучением с учителем. В применении к распознаванию человека по изображению лица, такой подход хорош для задач контроля доступа небольшой группы лиц. Такой подход обеспечивает непосредственное сравнение сетью самих образов, но с увеличением числа классов время обучения и работы сети возрастает экспоненциально. Поэтому для таких задач, как поиск похожего человека в большой базе данных, требует извлечения компактного набора ключевых характеристик, на основе которых можно производить поиск.
Подход к классификации с использованием частотных характеристик всего изображения, описан в [7]. Применялась однослойная НС, основанная на многозначных нейронах. Отмечено 100% распознавание на базе данных MIT, но при этом осуществлялось распознавание среди изображений, которым сеть была обучена.
Применение МНС для классификации изображений лиц на основе таких характеристик, как расстояния между некоторыми специфическими частями лица (нос, рот, глаза), описано в [8]. В этом случае на вход НС подавались эти расстояния. Использовались так же гибридные методы – в первом на вход НС подавались результаты обработки скрытой марковской моделью, а во втором – результат работы НС подавался на вход марковской модели. Во втором случае преимуществ не наблюдалось, что говорит о том, что результат классификации НС достаточен.
В [9] показано применение НС для классификации изображений, когда на вход сети поступают результаты декомпозиции изображения по методу главных компонент.
В классической МНС межслойные нейронные соединения полносвязны, и изображение представлено в виде одномерного вектора, хотя оно двумерно. Архитектура свёрточной НС [10] направлена на преодоление этих недостатков. В ней использовались локальные рецепторные поля (обеспечивают локальную двумерную связность нейронов), общие веса (обеспечивают детектирование некоторых черт в любом месте изображения) и иерархическая организация с пространственными подвыборками (spatial subsampling). Свёрточная НС (СНС) обеспечивает частичную устойчивость к изменениям масштаба, смещениям, поворотам, искажениям. Архитектура СНС состоит из многих слоёв, каждый из которых имеет несколько плоскостей, причём нейроны следующего слоя связаны только с небольшим числом нейронов предыдущего слоя из окрестности локальной области (как в зрительной коре человека). Веса в каждой точке одной плоскости одинаковы (свёрточные слоя). За свёрточным слоем следует слой, уменьшающий его размерность путем локального усреднения. Затем опять свёрточный слой, и так далее. Таким образом, достигается иерархическая организация. более поздние слои извлекают более общие характеристики, меньше зависящие от искажений изображения. обучается СНС стандартным методом обратного распространения ошибки. сравнение МНС и СНС [10] показало существенные преимущества последней как по скорости, так и по надёжности классификации. Полезным свойством СНС является и то, что характеристики, формируемые на выходах верхних слоёв иерархии, могут быть применимы для классификации по методу ближайшего соседа (например, вычисляя евклидово расстояние), причем СНС может успешно извлекать такие характеристики и для образов, отсутствующих в обучающем наборе. Для СНС характерны быстрая скорость обучения и работы. Тестировании СНС на базе данных ORL, содержащей изображения лиц с небольшими изменениями освещения, масштаба, пространственных поворотов, положения и различными эмоциями, показало приблизительно 98% точность распознавания, причём для известных лиц, предъявлялись варианты их изображений, отсутствующие в обучающем наборе. такой результат делает эту архитектуру перспективной для дальнейших разработок в области распознавания изображений пространственных объектов.
МНС применяются и для обнаружения объектов определённого типа. кроме того, что любая обученная МНС в некоторой мере может определять принадлежность образов к “своим” классам, её можно специально обучить надёжному детектированию определённых классов. В этом случае выходными классами будут классы принадлежащие и не принадлежащие к заданному типу образов. В [11] применялся нейросетевой детектор для обнаружения изображения лица во входном изображении. Изображение сканировалось окном 20х20 пикселей, которое подавалось на вход сети, решающей принадлежит ли данный участок к классу лиц. Обучение производилось как с использованием положительных примеров (различных изображений лиц), так и отрицательных (изображений, не являющихся лицами). Для повышения надёжности детектирования использовался коллектив НС, обученных с различными начальными весами, вследствие чего НС ошибались по разному, а окончательное решение принималось голосованием всего коллектива.
Рис. 2. Главные компоненты (собственные лица) и разложение изображения на главные компоненты.
НС применяется так же для извлечения ключевых характеристик изображения, которые затем используются для последующей классификации. В [1,6], показан способ нейросетевой реализации метода анализа главных компонент. Суть метода анализа главных компонент заключается в получении максимально декореллированных коэффициентов, характеризующих входные образы. Эти коэффициенты называются главными компонентами и используются для статистического сжатия изображений, в котором небольшое число коэффициентов используется для представления всего образа. НС с одним скрытым слоем содержащим N нейронов (которое много меньше чем размерность изображения), обученная по методу обратного распространения ошибки восстанавливать на выходе изображение, поданное на вход, формирует на выходе скрытых нейронов коэффициенты первых N главных компонент, которые и используются для сравнения. Обычно используется от 10 до 200 главных компонент. С увеличением номера компоненты её репрезентативность сильно понижается, и использовать компоненты с большими номерами не имеет смысла. При использовании нелинейных активационных функций нейронных элементов возможна нелинейная декомпозиция на главные компоненты. Нелинейность позволяет более точно отразить вариации входных данных. Применяя анализ главных компонент к декомпозиции изображений лиц, получим главные компоненты, называемые собственными лицами (holons в работе [6]), которым так же присуще полезное свойство – существуют компоненты, которые в основном отражают такие существенные характеристики лица как пол, раса, эмоциипохожий на лицо, причём первые отражают наиболее общую форму лица, последние – различные мелкие отличия между лицами (рис. 2). такой метод хорошо применим для поиска похожих изображений лиц в больших базах данных. Показана так же возможность дальнейшего уменьшения размерности главных компонент при помощи НС [6]. Оценивая качество реконструкции входного изображения можно очень точно определять его принадлежность к классу лиц.
2. Нейронные сети высокого порядка
Нейронные сети высокого порядка (НСВП) отличаются от МНС тем, что у них только один слой, но на входы нейронов поступают так же термы высокого порядка, являющиеся произведением двух или более компонент входного вектора [1]. Такие сети так же могут формировать сложные разделяющие поверхности.
В [12] показано применение НСВП строго третьего порядка для распознавания изображений лиц, имеющих произвольные масштабы и двумерные повороты. Приведены методы обучения таких сетей. Особенность такой сети заключаются в том, что для обучения некоторому классу достаточно предъявить его образ без вариаций масштабов и поворотов – после обучения сеть будет распознавать известные классы инвариантно к масштабу и поворотам. такая сеть не является полносвязной, быстро обучается и работает. Отмечено существенное повышение точности классификации такой сетью повёрнутых и масштабированных изображений по сравнению с МНС.
3. Нейронные сети Хопфилда
НС Хопфилда (НСХ) является однослойной и полносвязной (связи нейронов на самих себя отсутствуют), её выходы связаны со входами. В отличие от МНС, НСХ является релаксационной – т.е. будучи установленной в начальное состояние, функционирует до тех пор, пока не достигнет стабильного состояния, которое и будет являться её выходным значением. НСХ применяются в качестве ассоциативной памяти и для решения оптимизационных задач. В первом случае НСХ обучается без учителя (например, по правилу Хебба), во втором случае веса между нейронами изначально кодируют решаемую задачу. НСХ бывают синхронными, когда одновременно пересчитываются все нейроны и асинхронными, когда пересчитывается случайно выбранный нейрон. Для исследования динамики функционирования НСХ используются методы Ляпунова. Показано [1], что асинхронная НСХ всегда сходится к устойчивым точкам, а аттракторами синхронной НСХ являются устойчивые стационарные точки и предельные циклы длины два. таким образом НСХ из начального состояния сходится к ближайшему локальному минимуму энергии сети, состояние нейронов в котором и будет восстановленным образом для задач распознавания, и решением – для оптимизационных задач. Для поиска глобального минимума применительно к оптимизационным задачам используют стохастические модификации НСХ [1].
Применение НСХ в качестве ассоциативной памяти позволяет точно восстанавливать образы, которым сеть обучена, при подаче на вход искажённого образа. При этом сеть “вспомнит” наиболее близкий (в смысле локального минимума энергии) образ, и таким образом распознает его. Такое функционирование так же можно представить как последовательное применение автоассоциативной памяти, описанной выше. В отличие от автоассоциативной памяти НСХ идеально точно восстановит образ. Для избежания интерференционных минимумов и повышения ёмкости сети используют различные методы [1,13]. В работе [13] описано применение НСХ, где распознаваемое изображение лица сначала подавалось на НСХ, выход которой затем сравнивался с хранимыми изображениями. Отмечено, что предварительная обработка входного изображения при помощи НСХ существенно повышает точность распознавания.
Применение НСХ в качестве оптимизационного метода для восстановления пространственной формы лица по двумерному полутоновому изображению (а так же для детектирования граней) описано в [14]. здесь используется вариация НСХ – ячеистая нейронная сеть (ЯНС), в которой нейроны связаны только с ближайшими соседями из двумерной области. Матрица связей одинакова для всех нейронов и определяется характером задачи. Отмечаются хорошие результаты восстановления трёхмерной формы (в частности для изображений лиц) и высокая скорость работы.
4. Самоорганизующиеся нейронные сети Кохонена
Самоорганизующиеся нейронные сети Кохонена (СНСК) обеспечивают топологическое упорядочивание входного пространства образов. Они позволяют топологически непрерывно отображать входное n-мерное пространство в выходное m-мерное, m<
В [10] трёхмерная СКК (по 5 узлов на каждое измерение) применялась для уменьшения размерности локальных участков изображения 5х5 (размерность 25). Входное изображение отображается на один из 125 узлов, положение которого в трёхмерной решетке кодирует вектор выходного пространства. Три измерения СКК принимаются за три ключевых характеристики (features [10]). Такое преобразование обеспечило частичную устойчивость к изменению освещения, смещениям и искажениям, избавило от необходимости предварительной обработки изображения (преимущество – ускорение работы), а так же значительно ускорило процесс обучения и классификации, делая эту систему применимой в реальном времени (использовалась для распознавания лиц). Отмечено так же небольшое преимущество СКК перед методом анализа главных компонент, которое заключалось в более высокой точности последующей классификации на основе данных уменьшенной размерности.
Нейронная сеть с радиально-базисной функцией (НСРБФ) является дальнейшим развитием НС Кохонена, в которой после конкурентного слоя добавлен ещё один слой, обучаемый по методу обратного распространения. В отличие от НС Кохонена в НСРБФ выходами нейронов конкурентного слоя являются значения функции Гаусса с нормальным законом распределения, и обнуление не победивших нейронов не требуется. Ширина радиально-базисной функции характеризует расстояние между центром кластера, который образуется каждым нейронным элементом и его ближайшими соседями.
В [9] применялись две различные архитектуры НСРБФ для распознавания лиц. На вход сети поступали предварительно извлечённые характеристики, полученные методом анализа главных компонент или коэффициенты вэйвлетных преобразований. В первой архитектуре количество выходов соответствовало количеству классов, во второй применялся коллектив сетей, каждая из которых была обучена распознавать только свой класс. Отмечены значительные преимущества классификации НСРБФ перед непосредственным сравнением ключевых характеристик.
В [15] применялись две различные архитектуры ансамблей НСРБФ для предварительной классификации изображений. На вход сети поступало изображение целиком, на выходах формировалась промежуточная классификация, которая затем подавалась на решающие деревья для контекстно-ориентированного распознавания изображений лиц (например: “найти все изображения определённого человека, где он в очках”). Различные сети в ансамблях первой архитектуры учились классифицировать изображения с различными типами изменений, второй – с одинаковыми, но количество нейронов менялось в процессе обучения. Решающий вывод делал “судья”, который принимал решение на основе голосования ансамбля сетей.
5. Когнитрон
Когнитрон [3] своей архитектурой похож на строение зрительной коры, имеет иерархическую многослойную организацию, в которой нейроны между слоями связаны только локально. Обучается конкурентным обучением (без учителя). каждый слой мозга реализует различные уровни обобщения; входной слой чувствителен к простым образам, таким, как линии, и их ориентации в определенных областях визуальной области, в то время как реакция других слоев является более сложной, абстрактной и независимой от позиции образа. Аналогичные функции реализованы в когнитроне путем моделирования организации зрительной коры.
Неокогнитрон [3] является дальнейшим развитием идеи когнитрона и более точно отражает строение зрительной системы, позволяет распознавать образы независимо от их преобразований, вращений, искажений и изменений масштаба. Неокогнитрон может как самообучаться, так и обучаться с учителем. Неокогнитрон получает на входе двумерные образы, аналогичные изображениям на сетчатой оболочке глаза, и обрабатывает их в последующих слоях аналогично тому, как это было обнаружено в зрительной коре человека. Конечно, в неокогнитроне нет ничего, ограничивающего его использование только для обработки визуальных данных, он достаточно универсален и может найти широкое применение как обобщенная система распознавания образов.
В зрительной коре были обнаружены узлы, реагирующие на такие элементы, как линии и углы определенной ориентации. На более высоких уровнях узлы реагируют на более сложные и абстрактные образы такие, как окружности, треугольники и прямоугольники. На еще более высоких уровнях степень абстракции возрастает до тех пор, пока не определятся узлы, реагирующие на лица и сложные формы. В общем случае узлы на более высоких уровнях получают вход от группы низкоуровневых узлов и, следовательно, реагируют на более широкую область визуального поля. Реакции узлов более высокого уровня менее зависят от позиции и более устойчивы к искажениям.
Когнитрон является мощным средством распознавания изображений, однако требует высоких вычислительных затрат, которые на сегодняшний день недостижимы [3].
6. Достоинства и недостатки
Рассмотренные нейросетевые методы обеспечивают быстрое и надёжное распознавание изображений. однако при применении этих методов к изображениям трёхмерных объектов возникают трудности, связанные с пространственными поворотами и изменением условий освещённости.
а
б
в
Рис. 3. С точки зрения классифицирующей системы (в) больше похоже на (б) чем на (а)
Рис. 4. Изображения одного и того же лица существенно различается при изменении освещения.
Изображения для различных углов поворота объекта существенно различаются, часть информации на изображении теряется, возникает новая, специфическая для данного угла. Например, лицо, повёрнутое на некоторый угол, с точки зрения классифицирующей системы [16] больше похоже на лицо другого человека, повёрнутое на такой же угол, чем на нужное лицо, изображённое в фас (рис. 3). аналогичная проблема с изменением освещения (рис. 4). Такие ограничение обычно преодолеваются путем предъявления всевозможных вариаций изображения (различные повороты и освещённость) при обучении, но построение такого обучающего набора – трудная задача, и чаще всего такие наборы недоступны. Как показывает мировой опыт, эти проблемы не могут быть полностью решены выбором исходного представления данных. Поэтому к классифицирующим системам предъявляется требование – имея конечный репрезентативный набор вариаций образов некоторых классов, обобщить свой опыт на все остальные классы, не входившие в обучающий набор. Т.е. система должна извлечь характеристики, инвариантные к внутриклассовым изменениям и максимально репрезентативные по отношению к межклассовым изменениям. такая задача в общем виде для систем распознавания лиц ещё не решена, но существуют методы, которые показывают возможности решения отдельных её аспектов [17,18] (инвариантность к освещению, синтез повёрнутых в пространстве изображений лиц на основе обучения). Перспективный подход в этом направлении описан в [10].
Так же существуют трудности, связанные с внутриклассовыми вариациями. Для лиц это различные эмоции, закрытые/открытые глаза, наличие очков и бород, изменения в причёске. Эти случаи система так же должна уметь обобщать.
В общем случае, при распознавании человек использует информацию от различных источников, и кроме того привлекает огромный запас контекстных знаний, который системам распознавания образов пока недоступен.
7. Заключение
Дан обзор различных нейросетевых методов распознавания изображений. Рассмотрены достоинства и недостатки этих методов при распознавании двумерных и трёхмерных объектов. Указаны проблемы при распознавании трёхмерных объектов. Выделены перспективные направления в распознавании трёхмерных объектов. Отмечены возможности применения нейросетевых методов для задачи распознавания человека по изображению лица.
8. Ресурсы в сети Интернет
Во всемирной сети интернет доступен большой объём информации, посвящённой нейросетевой тематике и проблеме распознавания изображений.
Русскоязычные ресурсы.
· http://www.neuropower.de/ – ресурс, посвящённый искусственному интеллекту и нейросетевой тематике, доступен большой объём литературы в архиве.
· HTTP://neurnews.iu4.bmstu.ru/ – статьи и книги по нейросетевой тематике.
· http://www.chat.ru/~saisa – материалы по генетическим алгоритмам.
· http://nncourse.chat.ru/ – учебное пособие “Нейронные сети (основные модели)”.
Англоязычные ресурсы.
· Большинство материалов имеет формат .ps (PostScript), для просмотра которых требуется программа GSView, адрес ресурса – http://www.cs.wisc.edu/~ghost, или требуется скопировать следующие файлы:
o ftp://ftp.cs.wisc.edu/ghost/aladdin/gs650/gs650w32.exe,
o ftp://ftp.cs.wisc.edu/ghost/ghostgum/gsv34w32.exe.
· HTTP://www.cs.rug.nl/users/peterkr/FACE/face.html – ресурс, посвящённый проблеме распознавания человека по изображению лица. Дано множество ссылок на ресурсы аналогичной тематики, на нейросетевые ресурсы, ссылки на ресурсы научных коллективов, занимающихся смежными проблемами, ссылки на тестовые базы данных.
· HTTP://www.ks.informatik.uni-kiel.de/~vok/research/research.html – ресурс профессора Волькера Крюгера. Посвящён обработке изображений и проблеме распознавания человека по изображению лица.
· HTTP://www.funet.fi/pub/sci/neural/neuroprose – архив статей по нейронным сетям.
· HTTP://www.neci.nec.com/~lawrence – ресурс профессора Стива Лоренса. Доступна публикация по свёрточным нейронным сетям.
· HTTP://www.cnl.salk.edu/~wiskott/homepage.html – ресурс о применении нейронных сетей к проблеме распознавания человека по изображению лица.
Литература