


№ 4 (2024)
Обработка информации и анализ данных
Нормализация изображения текста с помощью быстрого преобразования Хафа
Аннотация
В работе приведено решение для двух классических задач геометрической нормализации цифрового образа текста: компенсация глобального угла наклона документа и устранение локальных наклонов его текстовых фрагментов. Для обеих задач, отличающихся видом геометрических искажений, решение построено на базе единого метода анализа образа быстрого преобразования Хафа. Проведена конкретизация данного метода и предложены два алгоритма для решения указанных задач, а также проведена их апробация: для задачи нормализации наклона текста – на множестве как известных корпусов данных, так и на специально собранном и опубликованном корпусе кириллических фрагментов KRUS; для задачи нормализации наклона документа – на популярном корпусе DISEC. Показано, что отличительной особенностью предложенного метода является высокое быстродействие с возможностью обработки большого диапазона углов, а сам метод может быть успешно применен в системах автоматической обработки изображений документов.



Цифровые двойники и задача обеспечения долговременной сохранности документов
Аннотация
В статье рассматривается постановка задачи долговременной сохранности документов и использование технологии цифровых двойников. Рассмотрены проблемы и риски обеспечения сохранности документов, а также негативные влияния разрушающих факторов на хранящиеся документы. Выделена проблема сохранности электронных документов. Обосновывается предположение о возможности использования технологий цифровых двойников для обеспечения долговременной сохранности в рамках цифровой трансформации экономики и общества. Приводится формальная постановка задачи обеспечения долговременной сохранности документов с использованием технологии цифровых двойников. Приводятся перспективы дальнейших исследований для решения поставленной задачи.



Индексы состояний в конечных динамических системах ориентаций полных графов
Аннотация
Рассматривается конечная динамическая система, состояниями которой являются все возможные ориентации полного графа, а эволюционная функция задается следующим образом: динамическим образом орграфа является орграф, полученный из исходного путем переориентации всех дуг, входящих в стоки. Других отличий между исходным орграфом и его образом нет. Предложен алгоритм вычисления индексов состояний системы (расстояние до аттрактора того бассейна, которому принадлежит состояние). Найден максимальный индекс состояний в системе, как следствие получены дополнительные характеристики. Приведены соответствующие таблицы для полных графов с количеством вершин от 1 до 8 включительно.



Применение математического программирования для выбора оптимальных структур многомерных линейных регрессий
Аннотация
В статье сформулирована задача одновременного отбора в многомерных линейных регрессиях как откликов, так и объясняющих переменных. Эта задача названа «отбор ключевых признаков и информативных регрессоров». Для оценивания регрессий применен метод наименьших квадратов. Сначала задача отбора заданного числа ключевых признаков и информативных регрессоров по критерию максимума суммы коэффициентов детерминации регрессий была сведена к задаче частично-булевого линейного программирования. Затем в нее были введены ограничения на знаки оценок, что позволило осуществлять отбор оптимальных структур многомерных регрессий. После чего добавлены ограничения на абсолютные вклады регрессоров в общие детерминации, что позволяет контролировать количество объясняющих переменных. При проведении вычислительных экспериментов на реальных данных при фиксированном числе ключевых признаков на построение многомерных моделей предложенным методом ушло примерно в 67,3 раза меньше времени, чем на построение их методом всех возможных регрессий. При этом ужесточение ограничений на абсолютные вклады регрессоров еще больше снизило время решения задач.



Моделирование разреженных сущностно-предметных подсхем баз данных
Аннотация
В процессе создания информационно-управляющих систем уровня предприятия всегда стремятся разместить предметные списки в одной таблице, которая будет задействована во всех ассоциациях, в которых принимают участие предметы. Однако большой диапазон требований, предъявляемых к структурной организации предметных списков, заставляет дробить предметную таблицу на множество локальных таблиц, ориентируясь, в первую очередь, на максимальную компактность последних. В данной работе ставится под сомнение догмат компактности, приводящий к лавинообразному росту количества предметных таблиц, и в качестве альтернативы выдвигается концепция управляемой разреженности, следование которой допускает, на усмотрение пользователя, сведение и близкородственных, и дальнеродственных предметных множеств в один предметный тип. Разрабатывается рамочный структурный примитив, заключающий в себе кроме собственно предметного блока, объединяющего предметные типы и классификаторы-словари последних, стандартные мета-типы и мета-ассоциации со всеми сопутствующими ограничениями, совместно гарантирующими корректность данных о предметах, размещаемых в базе данных.



Проект эффективной программной платформы для работы с генетическими данными респираторных вирусов
Аннотация
Статья посвящена разработке отечественной веб-платформы с необходимыми возможностями получения доступа к банкам генетической информации. Основная цель – предоставить исследователям возможность эффективно решать задачи биоинформатики, вирусологии и эпидемиологии, при необходимости расширяя набор доступных на сервере программ для анализа и моделирования. Проект основан на современных, эффективных, обоснованно выбранных программных решениях, обеспечивающих высокую производительность и предоставляющих множество полезных функциональных возможностей. Реализуемая веб-платформа позволяет загружать, хранить, искать и анализировать геномные последовательности вирусов, таких как грипп и SARSCoV-2, а в перспективе и другие вирусные патогены. Планируется сделать ее доступной для исследователей и периодически обновлять из открытых источников, чтобы повысить удобство и эффективность работы ученых, ведущих исследования в соответствующих областях науки.



Интеллектуальные системы и технологии
Сегментация легочных узлов на снимках компьютерной томографии
Аннотация
В статье описывается решение задачи автоматизации процесса сегментации легочных узлов на снимках компьютерной томографии для расширения функционала разработанного ранее модуля определения размеров и объемов легочных узлов. Акцент в работе делается на сравнении точности работы моделей, имеющих архитектуры ResU-Net, Attention U-Net и Dense U-Net, при обучении на снимках компьютерной томографии в исходном виде и с применением двух предлагаемых трехканальных подходов к их предварительной обработке. Для трех рассмотренных архитектур достигнуты значения коэффициента схожести Дайса и пересечения над объединением в диапазонах 0,8570–0,8735 и 0,7545–0,7881 при обучении на трехканальных снимках с усреднением. Полученные результаты позволяют сделать вывод о том, что применение методов предварительной обработки является перспективным для повышения точности сегментации. Также в статье описано обучение модели сегментации долей легких. Доработанный программный модуль принимает на вход снимки компьютерной томографии, а его выходные данные представляют собой обработанные снимки и структурированный отчет DICOM SR.



Анализ возможностей считывания показаний стрелочных приборов при помощи алгоритмов машинного зрения
Аннотация
В статье рассмотрены способы и устройства, предназначенные для считывания и дистанционной передачи показаний стрелочных приборов. Рассмотрен спектр задач, решаемых при помощи инструментов машинного зрения, и оценена применимость их к поставленной задаче. Предложено использование алгоритма машинного зрения, интегрированного в мобильное приложение для считывания показаний стрелочных приборов.



Алгоритм оценки сходимости стохастической Парето-оптимизации
Аннотация
Статья описывает исследование по разработке алгоритма для оценки сходимости стохастической Парето-оптимизации. Актуальность работы обусловлена необходимостью снижения вычислительных затрат, возникающих при больших многокритериальных вычислениях, где требуется учитывать множество конфликтующих критериев для поиска оптимальных решений. Одной из проблем в этом контексте является нахождение компромисса между точностью фронта Парето и ресурсами, необходимыми для его вычисления. В многокритериальной оптимизации важно оценивать сходимость, чтобы избежать чрезмерного числа итераций, которые могут быть неэффективными с точки зрения улучшения результата. Проблема заключается в поиске оптимального количества итераций, при котором фронт Парето достигает достаточной точности, и дальнейшие итерации не приводят к значительному улучшению качества решений. Целью исследования является разработка алгоритма, который позволяет оценить сходимость фронта Парето и определить, когда можно завершить процесс оптимизации без потери качества решений. Результаты могут быть полезны специалистам, занимающимся задачами многокритериальной оптимизации и разработкой алгоритмов на основе стохастических условий.



Математическое моделирование
Методы синтеза цифровых двойников на основе цифровых идентификационных моделей производственных процессов
Аннотация
Представлен подход к созданию цифровых двойников нового типа. Предлагается использовать идентификаторы в цепи обратной связи систем управления, формирующие точечные идентификационные модели на основе ассоциативных знаний. Описаны методы формирования управляющих воздействий в условиях возможной резкой смены режима функционирования управляемого процесса.



Математические основы информационных технологий
Эвристические подходы к построению эллипсоида минимального объема вокруг подмножества точек
Аннотация
В работе рассматривается следующая существенно комбинаторная задача: даны N точек в пространстве , построить эллипсоид минимального объема, содержащий ровно N – k точек, где k много меньше N. Предлагаются шесть алгоритмов приближенного решения этой задачи, основанные на тех или иных эвристических соображениях. Приводятся численные результаты сравнительной эффективности алгоритмов при различных предположениях о механизме генерирования точек и их количестве.


