ЖУРНАЛ СТА №4/2024

стями. Этот подход очень часто назы- вают пограничными вычислениями. Для запуска модели DL на встраивае- мых устройствах необходимо приме- нить один или несколько алгоритмов сжатия, таких как квантование пара- метров модели, обрезка нейронной сети, дистилляция сети и бинаризация. Также существует подход, основанный на по- лучении оптимизированной архитекту- ры, которая после обучения не требует использования методов сжатия. В этом направлении значительный вклад внес- ла архитектура SqueezeNet, цель которой получить небольшое количество пара- метров с минимальной потерей точно- сти. Встраиваемые устройства подходят только для задач вывода, которые де- шевле с точки зрения вычислительных ресурсов по сравнению с процессом машинного обучения. Среди этих уст- ройств есть микроконтроллеры, эффек- тивно используемые в различных обла- стях, например, в приложениях Интер- нета вещей. За последнее десятилетие справляться с вычислительными огра- ничениями стало легче благодаря по- явлению на рынке специализирован- ных аппаратных устройств. Эти устрой- ства, используемые в контексте глубо- кого обучения, называются аппаратны- ми ускорителями. С их помощью опти- мизируют и специализируют аппарат- ные архитектуры, что позволяет сни- зить стоимость системы и энергопо- требление, одновременно повышая про- изводительность. Для реализации при- ложений глубокого обучения встроен- ная система должна обладать высокой вычислительной мощностью и способ- ностью получать и обрабатывать дан- ные в режиме реального времени. Про- цессор должен иметь достаточно памя- ти для хранения данных модели и пара- метров. Устройства типа «система на кри- сталле» (SoC) могут быть привлека- тельным решением, включающим в себя множество периферийных уст- ройств и высокие вычислительные возможности. Это делает SoC подходя- щим выбором для сложных требова- ний приложений глубокого обучения. Один крупный производитель интег- ральных схем искусственного интел- лекта для передовых вычислений срав- нительно недавно выпустил встроен- ный микроконтроллер серии 78000 со сверхнизким энергопотреблением, спе- циально разработанный для приложе- ний искусственного интеллекта и объ- единяющий ускоритель свёрточных нейронных сетей (CNN), маломощное ядро ARM Cortex-M4 и ядро RISC-V. Эта архитектура предоставляет множество вариантов конфигурации, что позво- ляет разрабатывать приложения искус- ственного интеллекта с низким энерго- потреблением. На рис. 1 кратко представлены ос- новные характеристики ускорителя CNN и микроконтроллера: ядра, объём памяти и внешние интерфейсы. Мик- роконтроллер имеет двухъядерную ар- хитектуру: процессор ARM Cortex-M4 с FPU (до 100 МГц) и 32-разрядный сопро- цессор RISC-V (до 60 МГц). Производительность устройства бы- ла продемонстрирована на примере двух приложений: поиск ключевых слов и распознавание лиц. Результаты по точности многообещающие: 99,6% для распознавания ключевых слов и 94,4% для распознавания лиц. Ещё один крупный производитель электроники, который внёс важный вклад в развитие рынка передовых вы- числений с искусственныминтеллектом как новой парадигмы Интернета вещей, предлагает запускать нейронные сетина микроконтроллерах общего назначения STM32. Это значительно повлияет на про- дуктивность разработчиков погранич- ных систем искусственного интеллекта, сократив время развёртывания прило- жений. В данном случае основное вни- мание уделяется не аппаратным ускори- телям, а обширному набору программ- ных средств для переноса моделей DNN на стандартные микроконтроллеры STM32 с высокой эффективностью для процессорного ядра ARM Cortex-M4 и M7. Аналогичное решение также разрабо- тано для автомобильных микроконт- роллеров SPC5. Для этого используется плагин искусственного интеллекта под названием SPC5-STUDIO – AI среды раз- работки SPC5-STUDIO. Для приложений Интернета вещей нового поколения, ко- торым требуется высокая вычислитель- ная мощность (до гигабайт операций с памятью в секунду) и большой объём памяти (несколько мегабайт), была раз- работана параллельная архитектура SoC со сверхнизким энергопотреблени- ем (PULP). Другие SoC также имеют ре- шения для оптимизации и встраивания. Например, недавно былразработан16-нм SoC со специальной оптимизацией для автоматического распознавания ре- чи. Также есть платы серии TI TDAx. На рис. 2 представлено семейство процес- ОБ ЗОРЫ СТА 4/2024 35 www.cta.ru Рис. 1. Структура и основные характеристики ускорителя CNN ARM Cortex-M4 с FPU Сверхнизкое энергопотребление Внешние интерфейсы CNN Ускоритель Память ARM Cortex-M4F Cache RISC-V Smart DMA 512 кбайт 128 кбайт Quad SPI ADC I 2 C I 2 S UART Timers Parallel Camera IF Параллельных процессов Максимально слоёв 64 32…64 Макс. вх/вых каналов на слой 1024 Память данных 512 кбайт + 384 кбайт Максимальный размер входных данных 181×181 (на канал, загр) 1023×1023 (на канал потр) AI/ML – приложения, алгоритмы и фреймворки Оптимизированные библиотеки для ARM-платформы ARM-платформа IP для AI/ML Экосистема Программные продукты Аппаратная платформа Рис. 2. Процессоры ARM Cortex, оптимизированные для задач с ИИ