Генерация реалистичных изображений нефтегазовой инфраструктуры на космических снимках с использованием диффузионных моделей

Обложка

Цитировать

Полный текст

Аннотация

В рамках исследования была изучена возможность применения методов машинного обучения, в частности генеративных моделей, для семантического редактирования космических снимков. Основное внимание уделено актуальной архитектуре на основе диффузионных моделей, способной генерировать целевые объекты непосредственно на спутниковых изображениях. Однако ввиду специфики выбранной предметной области - генерации реалистичных изображений объектов нефтегазовой инфраструктуры (таких как трубопроводы) были обнаружены существенные недостатки стандартной модели в части реализма и соответствия окружающему контексту. Для решения данной проблемы проводилось дообучение нейронной сети. Цель дообучения - улучшение качества визуализации проектных решений, связанных с трубопроводами. Предложен и детально описан методический подход к формированию специализированного обучающего набора данных. На основе реальных трасс трубопроводов в QGIS созданы пространственно привязанные векторные слои; сгенерирован набор тайлов космических снимков с точными аннотациями границ труб. Результаты экспериментального дообучения модели продемонстрировали значимое улучшение качества генерируемых изображений объектов нефтегазовой инфраструктуры на космических снимках по сравнению с показателями исходной, неадаптированной модели. Разработанная дообученная модель обеспечивает высокореалистичную генерацию трубопроводов, корректно интегрируя их в существующий ландшафт на снимке. Визуальное сравнение результатов до и после дообучения подтверждает устранение артефактов и достижение необходимого уровня детализации. Работа подтверждает эффективность подхода с формированием предметно-ориентированных датасетов и дообучением для решения специфических задач визуализации в ДЗЗ.

Об авторах

Василий Константинович Лобанов

Российский университет дружбы народов

Email: lobanov_vk@pfur.ru
ORCID iD: 0000-0001-8163-9663
SPIN-код: 7266-5340

старший преподаватель кафедры механики и процессов управления, инженерная академия

Российская Федерация, 117198, г. Москва, ул. Миклухо-Маклая, д. 6

Мария Сергеевна Кондрашина

Российский университет дружбы народов

Автор, ответственный за переписку.
Email: 1132236536@rudn.ru
ORCID iD: 0009-0008-8526-9143

магистрант кафедры механики и процессов управления, инженерная академия

Российская Федерация, 117198, г. Москва, ул. Миклухо-Маклая, д. 6

Шамиль Магомедэминович Гаджиев

Российский университет дружбы народов

Email: 1132236511@rudn.ru
ORCID iD: 0009-0006-1570-4133

магистрант кафедры механики и процессов управления, инженерная академия

Российская Федерация, 117198, г. Москва, ул. Миклухо-Маклая, д. 6

Максад Ширинбекович Сокибеков

Российский университет дружбы народов

Email: 1032185455@rudn.ru
ORCID iD: 0009-0009-0261-7374

магистрант кафедры архитектура, реставрация и дизайн, инженерная академия

Российская Федерация, 117198, г. Москва, ул. Миклухо-Маклая, д. 6

Список литературы

  1. Immanuel SA, Cho W, Heo J, Kwon D. Tackling Few-Shot Segmentation in Remote Sensing via Inpainting Diffusion Model. ICLR 2025 Machine Learning for Remote Sensing (ML4RS) Workshop. 2025. https://doi.org/10.48550/arXiv.2503.03785
  2. Rombach R, Blattmann A, Lorenz D, Esser P, Ommer B. High-Resolution Image Synthesis with Latent Diffusion Models. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR); 2022 June 18-24; New Orleans, LA, USA. IEEE. 2022:10674-10685. https://doi.org/10.1109/CVPR52688.2022.01042
  3. Panboonyuen T, Charoenphon C, Satirapod C. SatDiff: A Stable Diffusion Framework for Inpainting Very High-Resolution Satellite Imagery. IEEE Access. 2025;13:51617-51631. https://doi.org/10.1109/ACCESS.2025.3551782
  4. Kingma DP, Welling M. Auto-Encoding Variational Bayes (Version 11). International Conference on Learning Representations (ICLR). 2014. https://doi.org/10.48550/ARXIV.1312.6114
  5. Ronneberger O, Fischer P, Brox T. U-Net: Convo-lutional networks for biomedical image segmentation. Medical Image Computing and Computer-Assisted Inter-vention MICCAI. 2015;9351;234-241. https://doi.org/10.48550/arXiv.1505.04597
  6. Radford A, Kim JW, Hallacy C, Ramesh A, Goh G, Agarwal S, et al. Learning Transferable Visual Models from Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR. 2021;139:8748-8763. https://doi.org/10.48550/ARXIV.2103.00020
  7. Liu F, Chen D, Guan Z, Zhou X, Zhu J, Ye Q, et al. RemoteCLIP: A Vision Language Foundation Model for Remote Sensing. IEEE Transactions on Geoscience and Remote Sensing. 2024;62:1-16. https://doi.org/10.1109/TGRS.2024.3390838
  8. He K, Zhang X, Ren S, Sun J. Deep Residual Learning for Image Recognition. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016;770-778. https://doi.org/10.48550/ARXIV.1512.03385
  9. Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X, Unterthiner T, et al. An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. International Conference on Learning Representations (ICLR 2021). https://doi.org/10.48550/ARXIV.2010.11929
  10. Immanuel SA, Cho W, Heo J, Kwon D. Tackling Few-Shot Segmentation in Remote Sensing via Inpainting Diffusion Model. ICLR 2025 Machine Learning for Remote Sensing (ML4RS) Workshop. 2025. https://doi.org/10.48550/arXiv.2503.03785

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

Согласие на обработку персональных данных

 

Используя сайт https://journals.rcsi.science, я (далее – «Пользователь» или «Субъект персональных данных») даю согласие на обработку персональных данных на этом сайте (текст Согласия) и на обработку персональных данных с помощью сервиса «Яндекс.Метрика» (текст Согласия).