ЖУРНАЛ СТА №4/2024

ции. Архитектура ограничена вычис- лительными ресурсами из-за аппарат- ных ограничений и низкой частоты ра- боты микроконтроллеров для сниже- ния энергопотребления. Современные архитектуры обычно поставляются с новыми функциями, которые не под- держиваются существующими библио- теками SW. Поэтому архитектура NN должна определяться с учётом огра- ничений, связанных с реализацией SW, вычислительной мощностью и памя- тью, в зависимости от используемого микроконтроллера. Когда предвари- тельно обученные модели преобра- зуются для развёртывания на встроен- ных устройствах, это нормально. При изменении исходной модели ожидает- ся незначительное снижение произво- дительности. Например, в приложении для обнаружения сонливости одной из основных целей автора является срав- нение с традиционным методом – ме- ханизмом на основе порога. Также мож- но наблюдать среднюю точность до и после применения методов преобразо- вания. Снижение средней точности для наиболее эффективной модели CNN со- ставляет 8,7%. Заметно снижение точ- ности и для приложения predictive maintenance – на 5,8%. Это указывает на необходимость дальнейшей оптимиза- ции методов преобразования. Несмотря на снижение производительности при преобразовании, всё ещё можно полу- чить высокопроизводительные модели. Например, наилучшие средние резуль- таты для архитектуры CNN были полу- чены в таких приложениях, как профи- лактическое обслуживание и обнару- жение болезней на кофейных листьях. CNN, используемая для определения присутствия человека на улице, имеет невысокую точность (менее 80%), одна- ко это связано с низким разрешением входного изображения (всего 8×8). Ис- пользование изображения с более вы- соким разрешением может повысить точность обнаружения. RNNшироко ис- пользуются в периферийных вычисле- ниях, так как они эффективны при работе с данными временны́х рядов. Наиболее распространёнными архи- тектурами являются LSTM и GRU. Для некоторых приложений полезны сме- шанные архитектуры с классом CNN. Наилучшие результаты точности были получены для таких приложений, как носимые системы для обнаружения па- дений (94,41%) или классификации эпи- зодов приёма пищи (98%). В целом ре- зультаты аналогичны тем, что были по- лучены для архитектур CNN, с неболь- шим снижением производительности при использовании методов оптимиза- ции. В некоторых работах оценивается энергопотребление, которое указано в табл. 1. Например, при обнаружении за- болеваний на кофейных листьях мак- симальное энергопотребление состав- ляет 5 мВт. Энергопотребление анали- зируемых систем составляет менее 10 мВт, поэтому такие системы легко могут быть спроектированы как уст- ройства с батарейным питанием. Эф- фективность можно повысить с помо- щью методов оптимизации модели, та- ких как квантование. После квантова- ния получается разница в энергопо- треблении в 380,4 нДж. Аппаратная платформа Большинство анализируемых реше- ний используют ядра ARMCortex-M4 или M7, поскольку они демонстрируют вы- сокую производительность в категории недорогих систем. Ядра ARM Cortex-M оптимизированы для приложений с преобладанием управления потоками. Однако вывод DNN состоит из парал- лельной обработки данных и будет ху- же работать только на центральном процессоре. Для маломощных и недо- рогих датчиков не подходит добавле- ние второго DSP или ускорителя. Чтобы преодолеть разрыв между управлением потоком и параллельными вычисле- ниями, ARM предлагает семейства ядер M4 и M7 с инструкциями DSP непосред- ственно в ядре без сопроцессора. Энергопотребление, требуемый объ- ём памяти и время вывода сильно за- висят от используемой аппаратной платформы, сложности модели и часто- ты работы процессора. Эти требования устанавливаются в зависимости от при- ложения, чтобы получить максималь- но эффективную систему. Важным ша- гом при разработке приложений на встраиваемых устройствах является оп- тимизация модели. Например, кванто- вание может значительно сократить требуемый объём памяти. Однако этот метод может привести к снижению точности, поэтому правильный метод должен быть тщательно выбран. Нега- тивное влияние зависит от используе- мого метода квантования. Сейчас ис- кусственный интеллект часто исполь- зуется с STM32Cube IDE. Пакет расшире- ния X-CUBE-AI предоставляет комплекс- ные решения для автоматического пре- образования модели нейронной сети, проверки достоверности и измерения производительности системы. Поэтому 32-разрядные микроконтроллеры ARM Cortex-M – наиболее распространённая платформа. Популярность решений на базе ARM объясняется доступностью этих наборов инструментов. Большинство проектов показали мно- гообещающие результаты с точки зре- ния точности, времени выполнения, энергопотребления и объёма памяти. Од- нако парадигма пограничных вычисле- ний – новая тема исследований со мно- жеством задач. Эти проблемы касаются как аппаратных, так и программных ре- шений. В этом разделе мы обсудим высо- коуровневые проблемы и возможности для будущих исследований по внедре- нию DL на недорогих микроконтролле- рах. Они связаны с аппаратными устрой- ствами, программной реализацией и сжатием глубоких нейронных сетей. Использование специализированных аппаратных ускорителей эффективно, но разработка таких ускорителей для конкретных приложений слишком до- рога. При использовании микроконт- роллеров общего назначения опреде- лённые возможности могут повысить производительность и эффективность вычислений (например, SIMD или век- торные расширения, аппаратно реали- зованные вычисления с плавающей за- пятой, иерархия кэша или энергонеза- висимая память большего размера для хранения большого количества пара- метров). Также предлагается реализо- вать математические алгоритмы, такие как разложение по сингулярным значе- ниям, для систем с «голым металлом» серии ARM Cortex-M. Это может быть по- лезно для реализаций глубокого обуче- ния. Доступ к памяти важен в этих при- ложениях из-за большого количества перемещений данных, что сильно влияет на потребление энергии и за- держку. Чтобы компенсировать это, по- явились передовые методы, например, вычисления в памяти. В отличие от ар- хитектуры фон Неймана, где память и процессоры физически разделены, с по- мощью этого метода определённые вы- числительные задачи могут выпол- няться в самой памяти на основе физи- ческих атрибутов устройств памяти. Ис- пользуются энергонезависимые анало- говые мемристорные перемычки, кото- рые физически представляют веса в ви- де проводимостей в каждой точке пере- сечения. При подаче напряжения на строки векторно-матричное умножение генерируется как ток в строках столбцов по законам Кирхгофа и Ома. Пока эта пе- СТА 4/2024 40 www.cta.ru ОБ ЗОРЫ