This page describes the structure and contents of the applications used in the ARHUDFM device.

Application groups

Functional Apps (15) Executive Apps (19) Service Apps (14)
Fading Pads Control (FPAD) Messenger (MSG) Networks (NET)
Display Control (DISP) Tasks (TSK) Accounts & Sync (ACC)
Cameras Control (CAM) Calendar (CAL) Security (SEC)
Multimedia Control (MMC) Workgroups (WGR) Integrated Devices (DVC)
Computer Vision Control (CVC) Maps and Navigation (MAP) Voice Assistant (TESS)
Computer Hearing Control (CHC) Drone RC (RPAC) Hand Tracking (HT)
IFF Control (IFF) Robot RC (RBRC) Joystick & Buttons (INP)
Radio Direction Finding Control (RDF) Fire Turret RC (FTRC) Speech-to-text (STT)
RF Drone Detection Control (RFDD) Unmanned Vehicle RC (UVRC) Voiceover (VOVR)
RF EOD Detection Control (EODD) Passive Covert Radar Control (PCSR) GNSS (GNSS)
Radar Warning Receiver Control (RWRC) APAR RC (APAR) P2P & Cloud Computing (P2P)
Antennas Control (ANTC) SDR Scan (SDRS) PTT Headset (PTTH)
Firing Assistance Control (FA) SDR 2-way (SDR2) System (SYS)
Stealth Modes Control (STM) Cryptologic Control (CRPT) Admin only (ADM)
Vitals Body Sensors Control (VBS) Multimedia Recorder and Player (REC/PLAY)
Translate (TRSL)
Virtual Mentor (VM)
Wiki (WIK)
File Explorer (FILE)

Applications in the menu structure

 redirect Further information: Graphical User Interface

Status Bar

 
UI Status Bar diagram
Indication Designation Field Apps
 
Time / Date 1. System (SYS) > Services (SRV) > Time and Date (TIME)
 
Battery (incl. save mode) 1. System (SYS) > Services (SRV) > Battery Saver (BSVE)
 
Water (incl. save mode) 1. System (SYS) > Services (SRV) > Water Saver (WSVE)
 
Spotlight 1. System (SYS) > Services (SRV) > LED Spotlight settings (SPOT)
 
Brightness modes 2. Fading Pads Control (FPAD), Display Control (DISP)
 
Windows modes 3. Display Control (DISP)
 
Camera modes 4. Cameras Control (CAM)
 
Audio modes 5. Multimedia Control (MMC)
 
Computer Vision modes 6. Computer Vision Control (CVC)
 
Computer Hearing modes 7. Computer Hearing Control (CHC)
 
Radio Detection modes 8. IFF Control (IFF), Radio Direction Finding Control (RDF), RF Drone Detection Control (RFDD), RF EOD Detection Control (EODD), Radar Warning Receiver Control (RWRC)
 
Firing Assistance modes 9. Firing Assistance Control (FA)
 
Stealth modes 10. Stealth Modes Control (STM)
 
Vitals Body Tracking modes 11. Vitals Body Sensors Control (VBS)
 
Networks modes 12. Networks (NET)

Main Menu

 
Indication Left Main menu item name Indication Right Submenu Apps or Filters item name Notice
MSG Messenger IMSG Instant messaging system
CHAT Chat Has been use Speech-to-text, Voiceover services
MAIL eMail client
SDR2 SDR 2-way
CRPT Cryptologic control
PTTH PTT Headset
TSK Tasks OVRD Overdue
ONGO Ongoing
ASST Assisting
SBME Set by me
FLLW Following
CMNT Comments
DONE Done
CAL Calendar DAY Day
WEEK Week
MNTH Month
YEAR Year
WGR Workgroups TACT Tactical
ISR ISR
FIRE Fire support
FAIR Fast air
MED Medical assist
EVAC Evacuation
LOG Logistic
MAP Map and Navigation NAV Navigation Nav grid + Compass + Azimuth
PATH Path tracking
PLAN Mission planning
ANLZ Mission analyzing
SINT Signal Intelligence SDRS SDR Scan
RDF Radio direction finding control
PCSR Passive covert radar control Active electronically scanned array (AESA) receive module only
RWRC Radar warning receiver control
APAR Active phased array radar control
RFDD RF Drone detection control
EODD RF EOD detection control
RC Remote Control RPAC Drone RC Управление разными моделями через единый встроенный контроллер. Перехват управления дронами противника (преждевременная активация сброса боеприпасов, принудительная посадка).
RBRC Robot RC
FTRC Fire turret RC
UVRC Unmanned vehicle RC
WIKI Wiki MAN Manuals
RPT Reports
ART Articles
UPD Updates
TUT Tutorial
MM Multimedia REC Multimedia recorder Photo, video, screen motion, screenshot
PLAY Multimedia player Photo, video, screen motion, screenshot, images
VM Virtual mentor incl. video chat
TRSL Translate Перевод в обе стороны, в т.ч. перевод голоса пользователя в текст > перевод на язык противника или гражданского населения > воспроизведение на языке перевода через громкоговоритель
FILE File explorer FAV Favourites
FLR Folders
CLD Clouds
TAG Tags
PROC Processing control CVC Computer Vision control База данных известных паттернов на основе ML обновляется из облака в клиенте на локальный SSD во время апдейта. Во время работы системы обнаружения (возможно со скоростью 4-12 кадров в сек.) изображения анализируются с целью выявления паттернов из БД.
CHC Computer Hearing control
IFF IFF control incl. transponder settings
STM Stealth modes control
FA Firing Assistance control
VBS Vitals Body sensors control
ANTC Antennas control
DVC Integrated devices SGHT Digital sights driver settings
DRON Drones and bots driver settings RPA / UAV, Fire turret, Dog bots
RADR Radars driver settings Anti-UAV radar, AESA transmit-receive module - TRM (remote control) small tactical radar, Metal re-radiation radar (transmit-receive module)
SENS Other Sensors driver settings
NET Networks VHF VHF
UHF UHF
HF HF
4/5G LTE and 5G
WLAN WLAN Wi-Fi, Wi-Fi Direct
BT Bluetooth 5.2
P2P P2P Multichannel p2p network:
  • Wi-Fi Direct
  • Bluetooth 5.2
  • UHF

Features:

  • User view exchange
  • Multi-party computing
SYS System CAM Cameras control Cam: zoom, filters, modes, mixed, calibration

Stereo Cam: triangulation, distance measurement HD, HDR, SWIR, LWIR, external cams

DISP Display control
FPAD Fading Pads control
MMC Multimedia control Headphones, microphones, handheld radio, loudspeaker
TESS Voice assistant
HT Hand tracking system
STT Speech-to-text settings
VOVR Voiceover settings
INP Joystick and buttons settings
GNSS GNSS GPS, Galileo, QZSS
ACC Accounts & Sync
SEC Security Password and security:
  • password
  • emergency alert
  • emergency SOS
  • lock & unlock
ADM Admin only
  • OS update, roles, remote administration
  • Clearance and data protect
  • Logs
  • System performance
  • Crashes & reboots
  • Battery usage
  • Heating
  • Charging errors
  • Installer
  • Drivers
SRV Services Time and Date, Notifications, LED Spotlight settings, Battery saver, Water saver, Accelerometer, Gyroscope, Hall sensor, Barometer, Thermometer, Ambient light sensor, Humidity sensor, Gas sensor (CO, NO2), Radiation sensor

App names in alphabetic order

Brief description of apps functionality

App 1

 redirect Main Article: [[]]

Features

Interface examples

CVC (Computer Vision Control)

 redirect Main Article: Computer Vision Control

Features

How to

Компьютерное зрение (Computer Vision, CV), в том числе машинное зрение (Machine Vision, MV) – это автоматическая фиксация и обработка изображений неподвижных и движущихся объектов при помощи компьютерных средств.

Наиболее часто используемой моделью глубокого обучения является модель искусственной нейронной сети, называемая сверточной нейронной сетью. Наиболее успешными моделями, используемыми для обнаружения, классификации и анализа изображений, являются AlexNet, ResNets, EfficientNets, YOLO, R-CNN, LambdaNetworks, VGG.

В процессе предварительного обучения нейросетей используется автоматическая разметка данных, поскольку большой объем хорошо размеченных данных является фундаментом надежной модели. Это ускоряет создание конечного приложения компьютерного зрения. В случае использования автоматической разметки специалисту зачастую необходимо только проверить точность контуров и внести необходимые изменения, что значительно сократит время подготовки датасета. Популярные решения для автоматической разметки изображений: Google’s Vision API, Cloud Annotation Tool (IBM), Computer Vision Annotation Tool (Intel). Популярные языки Python или С++, а также специализированные библиотеки. Компьютерное зрение работает в три основных этапа:

  • Получение изображения. Изображения, даже большие, можно получать в режиме реального времени с помощью видео, фотографий или 3D-технологий для анализа.
  • Обработка изображения. Модели глубокого обучения автоматизируют большую часть этого процесса, но модели часто обучаются, сначала получая тысячи помеченных или предварительно идентифицированных изображений.
  • Понимание изображения. Последний этап – это этап интерпретации, когда объект идентифицируется или классифицируется.

В части понимания изображения современные системы ИИ могут применяться следующим образом:

  • Сегментация изображения: разбивает изображение на несколько областей или фрагментов для отдельного исследования.
  • Обнаружение объекта: идентифицирует конкретный объект на изображении. Расширенное обнаружение объектов распознает множество объектов в одном изображении: футбольное поле, нападающий, защитник, мяч и так далее. Эти модели используют координаты X, Y, чтобы создать ограничивающую рамку и идентифицировать все внутри нее.
  • Распознавание лиц: расширенный тип обнаружения объектов, который не только распознает человеческое лицо на изображении, но и идентифицирует конкретного человека.
  • Обнаружение края: метод, используемый для определения внешнего края объекта или ландшафта, чтобы лучше определить, что находится на изображении.
  • Распознавание образов: процесс распознавания повторяющихся форм, цветов и других визуальных индикаторов на изображениях.
  • Классификация изображений: группирует изображения в разные категории.
  • Сопоставление признаков: тип обнаружения шаблонов, который сопоставляет сходства в изображениях, чтобы помочь их классифицировать.

Простые приложения компьютерного зрения используют только один из этих методов, но более сложные полагаются на различные методы для достижения своей цели.

Наиболее популярные библиотеки и инструменты для создания приложений компьютерного зрения:

Amazon Rekognition Платформа, выделяющаяся на фоне аналогов возможностью глубокого анализа попавших в объектив камеры предметов, сооружений и людей. Данный сервис является частью системы с интегрированным механизмом полномасштабного самообучения. Ключевой особенностью сервиса значится «глубокий анализ» – способность не просто уведомить пользователя, что на картинке был обнаружен кот или собака, а с высокой точностью указать даже породу животного. А при использовании Amazon Rekognition для распознавания лица программное обеспечение без труда определит по внешним признакам текущее эмоциональное состояние исследуемой личности. Методика включает в себя сравнение двух изображений на основе миллионов признаков.
BoofCV Библиотека Java с открытым исходным кодом для приложений робототехники и компьютерного зрения в реальном времени, которая распространяется под лицензией Apache 2.0 как для обучения, так и для бизнеса. Функциональность охватывает широкий круг вопросов, включая оптимизированные процедуры обработки изображений на низком уровне, выравнивание камеры, обнаружение/отслеживание функций, определение структуры по движению и распознавание.
CUDA Продукт NVIDIA для параллельных вычислений, которые просты в программировании, очень эффективны и быстры. Используя мощность графических процессоров, обеспечивает высокую производительность. Набор инструментов включает библиотеку NVIDIA Performance Primitives, содержащую набор функций обработки изображений, сигналов и видео.
GPUImage Структура, основанная на OpenGL ES 2.0, которая позволяет применять эффекты и каналы с ускорением на графическом процессоре (GPU) к живому движущемуся видео, изображениям и фильмам. Для запуска пользовательских каналов на GPU требуется много кода для настройки и поддержки.
Keras Библиотека Python для глубокого обучения, которая объединяет элементы разных библиотек, например, Tensorflow, Theano и CNTK. Keras занимает выгодное положение по сравнению с конкурентами, например, Scikit-learn и PyTorch, поскольку работает поверх Tensorflow.

Также может работать на Microsoft Cognitive Toolkit, Theano или PlaidML. Предназначена для быстрых экспериментов с глубокими нейронными сетями, сосредоточена на удобстве, измеряемом качестве и расширяемости. Keras следует лучшим практикам для снижения когнитивной нагрузки: предлагает стабильные и базовые API-интерфейсы и ограничивает количество действий пользователя, необходимых для обычных случаев использования.

Matlab Инструмент для создания приложений для обработки изображений, обычно используется в исследовательских целях, поскольку позволяет быстро создавать прототипы. Код Matlab очень лаконичен по сравнению с C ++, что упрощает детектирование и устранение неисправностей. Проводит предварительную проверку кода перед выполнением, предлагая несколько различных способов ускорить код.
OpenCV Самая известная библиотека, многоплатформенная и простая в использовании. Охватывает все основные стратегии и алгоритмы для выполнения некоторых задач обработки изображений и видео, превосходно работает с C ++ и Python.
SimpleCV Система для создания приложений компьютерного зрения. Предоставляет доступ к большому количеству инструментов компьютерного зрения, схожих с OpenCV, pygame и т. д. Не требует глубокого погружения в тему. Подходит для быстрого создания прототипов.
Tensorflow Бесплатная библиотека с открытым исходным кодом для потоков данных и дифференциального программирования. Это символьная математическая библиотека, которая дополнительно используется для приложений машинного обучения, например, нейронных сетей. Известность быстро возросла и превзошла существующие библиотеки из-за простоты API.
Theano Быстрая числовая библиотека Python, которая может работать на CPU или GPU. Она была создана группой LISA (в настоящее время MILA) в Монреальском университете в Канаде. Theano – это улучшенный компилятор для управления и оценки математических выражений, особенно матричных.

Датасет изображений или видео является основополагающим элементом для создания эффективно работающей модели компьютерного зрения. Как ответ потребностям сообщества разработчиков появились коллекции датасетов и инструменты поиска подходящего датасета. Ниже представлены некоторые из них:

atasets | CMU Libraries Коллекция датасетов, предоставленная университетом Карнеги Меллон.
Google Dataset Search Позволяет осуществлять поиск по ключевому слову из 25 миллионов открытых датасетов. Наиболее популярным форматом данных являются таблицы – более 6 миллионов в Dataset Search.
Kaggle Площадка для соревнований по машинному обучению с множеством интересных датасетов. В списке датасетов можно найти разные нишевые экземпляры.
NAS (Neural Architecture Search) Алгоритм выбора архитектуры нейросети и оптимизации ее гиперпараметров под конкретный датасет и задачу (классификация, сегментация и др.). NAS является подмножеством AutoML. Алгоритм NAS находит архитектуру из всех возможных архитектур, следуя стратегии поиска, которая максимизирует производительность.
UCI Machine Learning Repository Один из старейших источников датасетов в сети Интернет. Датасеты добавляются пользователями. Данные можно скачивать сразу, без регистрации
VisualData Датасеты для компьютерного зрения, разбитые по категориям. Доступен поиск.

Наиболее популярные датасеты для компьютерного зрения:

AViD. Публичный датасет с анонимизированными видеозаписями из разных стран. Датасет предназначен для задачи распознавания действий. AViD состоит из видео, где человек выполняет одно действие (всего – 887).

CelebA-Spoof. Датасет для антиспуфинга, который состоит из 625 537 изображений 10 177 людей. Антиспуфинг лица – это методы борьбы с обманом систем по распознаванию лиц. Датасет включает в себя 43 атрибута: детали лица, освещение, среду и тип обмана. CelebA-Spoof создали на основе датасета CelebA. Изображения из CelebA модифицировали и аннотировали.

CIFAR-10 и CIFAR-100 (Canadian Institute For Advanced Research). Одни из наиболее популярных открытых датасетов, используемых исследователями для обучения алгоритмов машинного зрения. Состоят из 60 000 цветных изображений размером 32×32 (5 обучающих выборок, по 10 000 изображений в каждой и одна тестовая выборка, содержащая 10 000 изображений). При этом, в CIFAR-10 все изображения разделены на 10 классов (по 6000 изображений в каждом классе), а в CIFAR-100 – на 100 классов (по 600 изображений в каждом классе).

CINIC-10. Расширение CIFAR-10, содержит изображения из CIFAR-10 и набор изображений из базы данных ImageNet. Был скомпилирован как «мост» между CIFAR-10 и ImageNet для тестирования приложений машинного обучения. Изображения разделены на три группы: обучающая, проверочная и тестовая выборки (каждая из групп содержит 90 000 изображений).

COIL100. 100 разных объектов, изображённых под каждым углом в круговом обороте.

Google’s Open Images. Коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons.

Open Images V4. Одна из версий датасета Open Images. V4 содержит 14,6 миллиона границ объектов для объектов 600 классов.

Open Images V6. В последней версии датасета появились так называемые «локализованные нарративы» для 500 тысяч изображений. Это новый вид мультимодальной разметки, в которой синхронизированы текст аннотации, начитка и движения указателя мыши по описываемым предметам. Значительно расширены типы разметки визуальных взаимосвязей между объектами на изображениях (например, «человек катается на скейтборде», «собака ловит летящий диск»). Также добавлено 2,5 млн разметок человеческих действий («прыгает», «улыбается») и 23,5 млн меток изображений.

Hypersim. Датасет от Apple с фотореалистичными синтетическими изображениями интерьеров. Для каждого изображения доступны попиксельная разметка объектов и геометрия сцены. Датасет состоит из 77,4 тысяч изображений 461 сцены.

ImageNet. Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии. Состоит из более чем 15 миллионов размеченных высококачественных изображений, разделенных на 22 000 категорий.

ImageNet-A – это датасет с примерами изображений, которые нейросеть не может классифицировать верно. По результатам, модели предсказывали объекты из датасета с точностью в 3%, в то время как для стандартного ImageNet точность предсказаний составляла 97%. ImageNet-A был собран исследователями из University of Berkeley, University of Washington и University of Chicago.

Данные состоят из 7,5 тысяч изображений объектов, которые нейросети сложно классифицировать. Эти объекты – это «естественные состязательные примеры» для нейросетей. Особенность изображений в том, что они содержат естественные оптические иллюзии, которые нейросеть не может распознать.

Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.

Labelled Faces in the Wild. Набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц.

Labelme. Датасет состоит их 187 240 изображений, 62 197 изображений с аннотациями и 658 992 помеченных объекта. В LabelMe также есть инструмент для удобной аннотации изображения для создания датасетов.

LaSOT. Масштабный датасет для обучения и оценки моделей трекинга объектов. Датасет содержит 1,5 тысяч видеоклипов с объектами 85 разных классов. Всего в датасете более 3,87 миллионов кадров. Каждый клип содержит разметку для одного объекта. Границы объекта на кадрах размечали вручную.

LSUN. Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных, содержит более 9 млн изображений.

MoGaze. Датасет с передвижениями тела и движениями взгляда. Датасет собирали для обучения моделей предсказания действия людей. Такие модели можно использовать в роботизированных системах, тесно взаимодействующих с людьми. Датасет включает в себя 180 минут данных движения с 1 627 действиями поднять-поставить.

MS COCO (Microsoft Common Objects in Context). Набор данных для обнаружения, сегментации, обнаружения ключевых точек и аннотаций. Набор данных состоит из 328 тысяч изображений с более чем 1,5 миллионов объектов на них. Все объекты находятся в их естественном окружении (контексте). Изображения, как правило, содержат объекты разных классов (только 10% имеют единственный класс). Все изображения сопровождаются аннотациями, хранящихся в json формате.

COCO-WholeBody. Первый датасет для оценки позы всего тела. COCO-WholeBody является расширением датасета COCO 2017 с теми же разбивками на тренировочную и валидационную выборки, как в COCO. Для каждого человека доступны 4 типа границ объектов: бокс человека, бокс лица, бокс левой руки и бокс правой руки. Кроме того, 133 ключевые точки: 17 для тела, 6 для ног, 68 для лица и 42 для рук. Датасет доступен исключительно для исследовательских целей. Коммерческое использование запрещено.

Visual Genome. Датасет с ~100 тыс. изображений, каждое из которых имеет в среднем 35 объектов, 26 атрибутов и 21 парную связь между объектами.

xView. Один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок. Состоит из более 1 миллиона экземпляров объектов 60 различных классов.

ARHUDFM-CV. Мы полагаем, что во время пилотного внедрения технологии на устройстве ARHUDFM, будет производиться процесс формирования датасетов статичных изображений и видео, наиболее релевантных для различных видов техники в разных окружающих условиях. Мы ожидаем, что в течение первого года использования сможем получить более 120 миллионов изображений с разметкой данных.

Interface examples

App N

 redirect Main Article: [[]]

Features

Interface examples

Modern tools

Manuals

Troubleshooting

Areas of research

Related fields

Future ideas

Further reading

See also

Public External Sections: Public Wiki Sections: Public Wiki Sections: Not-Public Wiki Sections:

Note: Unless otherwise stated, whenever the masculine gender is used, both men and women are included.

See Also Product Details

Hardware Details: Functional Apps Details: Executive Apps Details: Service Apps Details:


References

External links