The Multiplication Method with Scaling the Result for High-Precision Residue Positional Interval Logarithmic Computations

Anastasia S. Korzhavina; Коржавина Анастасия Сергеевна; Vladimir S. Knyazkov; Князьков Владимир Сергеевич

doi:10.15507/2658-4123.029.201902.187-204

The Multiplication Method with Scaling the Result for High-Precision Residue Positional Interval Logarithmic Computations

Autores: Korzhavina A.S.¹, Knyazkov V.S.²^,1
Afiliações:
1. Vyatka State University
2. Penza State University
Edição: Volume 29, Nº 2 (2019)
Páginas: 187-204
Seção: Информационные системы
##submission.dateSubmitted##: 11.09.2025
##submission.dateAccepted##: 11.09.2025
##submission.datePublished##: 28.06.2019
URL: https://journals.rcsi.science/2658-4123/article/view/308868
DOI: https://doi.org/10.15507/2658-4123.029.201902.187-204
ID: 308868

Citar

Texto integral

Resumo
Texto integral
Sobre autores
Bibliografia
Arquivos suplementares
Estatísticas

Resumo

Introduction. The solution of the simulation problems critical to rounding errors, including the problems of computational mathematics, mathematical physics, optimal control, biochemistry, quantum mechanics, mathematical programming and cryptography, requires the accuracy from 100 to 1 000 decimal digits and more. The main lack of high-precision software libraries is a significant decrease of the speed-in-action, unacceptable for practical problems, in particular, when performing multiplication. A way to increase computation performance over very long numbers is using the residue number system. In this work, we discuss a new fast multiplication method with scaling the result using original hybrid residue positional interval logarithmic floating-point number representation.
Materials and Methods. The new way of the organizing numerical information is a residue positional interval logarithmic number representation in which the mantissa is presented in the residue number system, and information on an absolute value (the characteristic) in the interval logarithmic number system that makes it possible to accelerate performance of comparison and scaling is developed to increase the speed of calculations; to compare modular numbers, the provisions of interval analysis are used; to scale modular numbers, the properties of the logarithmic number system and approximate interval calculations using the Chinese reminder theorem are used.
Results. A new fast multiplication method of floating-point residue-represented numbers is developed and patented; the authors evaluated the developed method speed-in action, compared the developed method with classical and pipelined multiplication methods of long numbers.
Discussion and Conclusion. The developed method is 2.4–4.0 times faster than the pipelined multiplication method, and is 6.4–12.9 times faster than classical multiplication methods.

Palavras-chave

residue number system, high-precision computations, multiplication, scaling, interval arithmetic, comparison, logarithmic number system

Texto integral

Введение

Рост вычислительных мощностей современных компьютеров делает возможным решение прикладных задач сверхбольшой размерности с огромным количеством вычислительных операций. Неконтролируемые ошибки округления, методологически присущие стандарту вещественных чисел IEEE 754, не позволяют решить проблему точности, достоверности и воспроизводимости вычислений при решении задач данного класса [1–5]. В частности, для решения в современных постановках задач в области экспериментальной вычислительной математики [1; 2], математической физики [4], биохимии [3], астрофизики и получения достоверных результатов требуются операции с числами длиной от 100 до 1 000 десятичных цифр (с использованием специально разработанных программных библиотек высокоточных вычислений). В связи с этим актуальными направлениями исследований являются теория и способы практической реализации вычислительной математики многократной точности (высокоточная, или длинная, арифметика), оперирующей с числами произвольной длины в сверхбольших числовых диапазонах.

Для решения задач в сверхбольших числовых диапазонах в настоящее время применяются такие специализированные программные пакеты высокоточных вычислений, как ARPREC, MPFUN90, DDFUN, FMLIB, FMZM90, QD, GMP, MPFR++, NTL, PARI/GP, CLN, HPAlib, Predicates, GARPREC, GQD, MatLab, Matematica, Maple [6]. Перечисленные программные решения базируются на специально разработанных многоразрядных форматах (128-, 256-, 512-битная (и более) арифметика) в базисах классических позиционных систем счисления и правил вычислений стандарта IEEE 754. Эти решения, благодаря наличию высокоуровневых программных интерфейсов и широкого спектра реализованных библиотек математических функций, являются наиболее популярными.

Недостатком современных пакетов высокоточных вычислений является резкое снижение скорости вычислений при обработке длинных многоразрядных операндов. При выходе длины операндов за диапазон представления данных в стандарте IEEE 754 скорость вычислений снижается в десятки и тысячи раз [2; 7] из-за необходимости алгоритмической обработки цепочек межзнаковых переносов длинных операндов. В итоге время решения задачи становится неприемлемым для практической деятельности.

В связи с этим активно проводятся исследовательские и опытно-конструкторские работы по модернизации известных методов, созданию новых программно-эмулируемых и программно-аппаратных реализаций методов численной обработки информации для высокоточных и достоверных расчетов в сверхбольших числовых диапазонах.

Можно выделить два направления работ, направленных на повышение скорости вычислений при выполнении расчетов в сверхбольших числовых диапазонах. Первое направление ориентировано на модернизацию и создание новых технологий гибридных вычислений и обработки данных: численная и нечисленная обработка данных реализуется в гибридных системах кодирования с использованием «гибридных» наборов операций (сигнатур) и правил их выполнения. Математические методы и их алгоритмические решения для гибридных технологий вычислений ориентируются на программную реализацию на вычислительных платформах универсального назначения и, как правило, опираются на правила выполнения операций стандарта IEEE 754. Примером успешного использования этого подхода является библиотека высокоточной модулярно-позиционной арифметики [8], где использованы системы счисления в остаточных классах (СОК), вычисления в интервальной арифметике и позиционная система счисления стандарта IEEE 754.

Вторым направлением работ для повышения скорости вычислений в сверхвысоких числовых диапазонах является разработка специализированных средств аппаратной поддержки операций над сверхбольшими операндами, разрядность которых многократно превышает разрядную сетку современных индустриальных процессоров. Популярной технологической базой для создания таких спецпроцессоров «длинной» арифметики являются программируемые логические интегральные схемы (FPGA) и системы на кристалле [9–14]. Применение таких спецпроцессоров позволяет сократить время расчетов по сравнению с программными решениями в несколько десятков раз, но недостатки, присущие позиционной длинной арифметике, сохраняются [13]. Эти методологические недостатки позиционной арифметики приводят к необходимости построения на аппаратном уровне исполнительных устройств высокой сложности, что в конечном итоге делает невозможным создание применимых технических решений. Данная проблема частично решается введением специализированных вычислительных конвейеров; однако, как показано в работе китайских ученых [12], подобный подход также ведет к резкому увеличению аппаратных затрат, поэтому на практике число ступеней сокращается до четырех сегментов.

В связи с этим при создании средств аппаратной поддержки длинной арифметики актуален подход, ориентированный на создание вычислительных платформ, поддерживающих на аппаратном уровне технологии гибридных вычислений, что позволяет сократить аппаратные затраты по сравнению с позиционной системой счисления. Серьезный вклад в развитие этого направления внесли И. Я. Акушский, Д. И. Юдицкий, В. М. Амербаев и целый ряд не менее значимых специалистов. Наиболее широко в системах гибридных вычислений используются системы счисления в остаточных классах [8; 15; 16] и логарифмические системы счисления [17–19]. Например, системы остаточных классов успешно используются для решения задач криптографии [20; 21] и цифровой обработки сигналов [22–24].

Основным недостатком систем счисления в остаточных классах является алгоритмическая сложность выполнения немодульных операций, таких как сравнение, деление, распознавание переполнения числового диапазона, масштабирование чисел, определение знака результата выполнения операции. При вычислениях в сверхбольших числовых диапазонах выполнение перечисленных операций приводит либо к сопоставимым с их программной реализацией временным затратам, либо к практически неприемлемым аппаратным затратам. Аналогичная ситуация происходит и при использовании логарифмических систем счисления, в которых для выполнения операции алгебраического сложения с высокой точностью требуется выполнить переход в позиционную систему счисления и наоборот. Соответственно, резко увеличивается время вычислений и растут аппаратные затраты на реализацию высокоскоростных преобразователей.

В данной статье рассматривается новый, более быстрый по сравнению с аналогами метод выполнения операции умножения длинных чисел с масштабированием результата за счет применения оригинальной гибридной модулярно-позиционной интервально-логарифмической формы представления чисел с плавающей точкой. Ряд результатов по модулярно-позиционным интервально-логарифмическим вычислениям опубликован авторами ранее [25].

Обзор литературы

Основной проблемой высокоточных расчетов в сверхбольших числовых диапазонах с применением вычислительных операций по правилам стандарта IEEE 754 является выполнение контроля ошибок округления, контроля переполнения диапазона и масштабирования чисел при выполнении аддитивных и мультипликативных операций. Особенно это касается длительных итерационных и автоматных вычислений с накоплением при обработке массивов данных большого объема. Накопление ошибок при некорректно организованном контроле приводит к получению недостоверных результатов. Для обеспечения требуемой точности, достоверности и воспроизводимости расчетов в настоящее время применяются вычисления с использованием длинной позиционной арифметики, реализованной в современных специализированных библиотеках высокоточных вычислений. Основным недостатком современных библиотек длинной арифметики является неприемлемое для практики увеличение времени решения прикладных задач [4; 6]. Так, в работе китайских и итальянских ученых [7] для задач оптимального управления время вычислений возрастает с 5 с при использовании стандартного типа данных двойной точности до 980 с при использовании точности в 128 бит и до 35 ч – при использовании точности в 400 бит. Аналогичные результаты представлены в работе А. Вороса [2], где время вычисления возрастает с 4 минут до 22,5 дней. В задачах криптографии проблема ускорения арифметических операций над длинными целыми числами является не менее острой, чем в задачах моделирования [13].

Задача повышения скорости вычислений при выполнении расчетов в сверхбольших числовых диапазонах частично решается за счет применения специализированных процессоров-ускорителей для поддержки вычислений с использованием длинной арифметики. Например, японские ученые [9] представили семейство процессоров на базе FPGA, реализующих длинную арифметику типа «double-double» и «quad-double». Скорость решения задачи вычисления интегралов Фейнмана [10] с использованием данных процессоров приблизительно в 80–200 раз выше, чем скорость расчета с применением программных реализаций таких вычислений. Американскими учеными [11] приведены результаты реализации на FPGA целочисленных вычислений на длинных (разрядность – 64 000 бит) операндах в сравнении с вычислениями с применением библиотеки GMP: расчеты ускорились минимум в 5 раз при операциях сложения/вычитания и в 9 раз – при операции умножения.

Для ускорения выполнения операции умножения длинных чисел (1 024–2 048 бит) китайскими учеными [12] представлен конвейерный метод на базе 64-разрядных умножителей с глубиной конвейера до четырех ступеней (увеличение числа ступеней приводит к неоправданному росту аппаратных затрат). Как показывает анализ исследований, в области аппаратных решений умножителей в основном применяются базовые алгоритмы умножения квадратичной сложности в позиционной системе счисления [13; 14], поскольку аппаратная реализация асимптотически быстрых алгоритмов затруднена [26].

Для ускорения выполнения арифметических операций (кроме операции деления) над длинными целыми числами наиболее эффективными с точки зрения аппаратных затрат являются модулярные системы счисления. Например, исследователями [23] представлено устройство эллиптической криптографии, ускоряющее выполнение операции умножения Монтгомери с использованием 40 модулярных 15-битовых каналов. В работе австралийских ученых [16] модулярный вычислитель имеет 108 модулярных каналов с разрядной сеткой в 19 бит каждый, что позволяет работать в диапазоне чисел до 2 048 бит. Другими авторами [20] представлены модулярные устройства, позволяющие работать в диапазоне 1 024–4 096 бит.

Существенным недостатком СОК является сложность выполнения немодульных операций, таких как масштабирование, сравнение и определение переполнения диапазона представления чисел. При переполнении диапазона следует либо останавливать вычисления (так как будет получен некорректный результат), либо расширять диапазон представления чисел, либо выполнять масштабирование чисел (если это возможно).

Алгоритмы масштабирования в СОК представлены в достаточно большом количестве исследований. Разработанные методы масштабирования либо предназначены для специальных наборов модулей [27; 28], либо для масштабирования используются специальные подстановочные таблицы [22; 29; 30]. Последний подход практически неприемлем для масштабирования модулярных чисел при использовании произвольных наборов модулей большой разрядности из-за огромного (до Тбайта) объема подстановочных таблиц.

Основной сложностью при выполнении масштабирования является операция расширения базиса. Методы расширения базиса были исследованы авторами статьи ранее [25]. В результате исследований было установлено, что наиболее быстрые методы расширения базиса выполняются с использованием приближенной китайской теоремы об остатках – вычисления так называемой позиционной характеристики модулярного числа. Учеными [8] представлена интервальная позиционная характеристика (ИПХ) числа, в которой использованы преимущества интервальной арифметики [31; 32]. Использование ИПХ позволяет учитывать в явном виде ошибки округления, а также определять достоверность вычисления данной величины. Главным недостатком ИПХ является необходимость использования операций с плавающей точкой с направленным округлением, в то время как все остальные операции в СОК выполняются над целыми числами малой разрядности.

Использование логарифмической системы счисления (ЛСС) позволяет упростить выполнение операций умножения и деления, включая масштабирование [17; 33]. ЛСС превосходят по скорости и энергоэффективности арифметику с плавающей точкой на низкой разрядности операндов: до 16 бит – на любом наборе арифметических операций [18], до 32 бит – с преобладанием операций умножения и деления [19]. Дальнейшее увеличение разрядности ЛСС приводит к экспоненциальному росту сложности выполнения операций сложения и вычитания, поэтому при больших разрядностях ЛСС значительно уступает позиционной арифметике и используется только в приложениях, не требующих высокой точности [19].

В данной статье предлагается объединить преимущества СОК, ЛСС и интервальных вычислений: для высокоточных вычислений в сверхбольших числовых диапазонах рекомендуется модулярно-позиционная интервально-логарифмическая форма представления чисел и апробация эффективности таких гибридных вычислений на примере выполнения операции умножения с масштабированием.

Материалы и методы

В статье предлагается новый способ представления целых и вещественных чисел для выполнения высокоточных и достоверных вычислений в сверхбольших числовых диапазонах: гибридная модулярно-позиционная интервально-логарифмическая форма представления чисел. Вещественные числа представляются следующим образом.

Мантисса вещественного числа представляется в виде целого числа в системе остаточных классов набором n остатков ‹m₁, m₂, ..., m_n› от деления позиционного значения мантиссы на каждый из n модулей {p₁, p₂, ..., p_n}

$M \overset{С О К}{\to} ⟨m_{1}, m_{2}, \dots, m_{n}⟩,$

где $m_{i} = M mod p_{i} \equiv {|M|}_{p_{i}}$ – i-й остаток от деления числа M по i-му модулю p_i:

$\begin{matrix} m_{i} = {|M|}_{p_{i}} = M - [\frac{M}{p_{i}}] \cdot p_{i}, \\ i = 1, 2, \dots ., n, \end{matrix}$

где $[\frac{M}{p_{i}}]$ – целая часть частного $\frac{M}{p_{i}}$ ; {p₁, p₂, ..., p_n} – набор оснований или базис СОК. При этом диапазон представления модулярных мантисс определяется произведением всех модулей СОК, то есть $M \in [0; P = p_{1} \cdot p_{2} \cdot \dots \cdot p_{n})$ . Для кодирования цифр мантиссы используются целые числа без знака, представленные в позиционной системе счисления, но операции над цифрами мантиссы выполняются по правилам модулярной арифметики. Любая модульная операция $\circ \in \{+, -, \times\}$ над двумя числами ‹x₁, x₂, ..., x_n› и ‹y₁, y₂, ..., y_n›, представленными в СОК, выполняется независимо по каждому модулю:

$\{z_{1}, z_{2}, \dots, z_{n}\} = \{{|x_{1} \circ y_{1}|}_{p_{1}}, {|x_{2} \circ y_{2}|}_{p_{2}}, \dots, {|x_{n} \circ y_{n}|}_{p_{n}}\} .$

Характеристика абсолютной величины мантиссы вещественного числа представляется в виде логарифмического интервала (в интервально-логарифмической системе счисления):

$M \overset{И Л С С}{\to} \{\underline{L_{M}} = \underline{\log_{b} M}; \bar{L_{M}} = \bar{\log_{b} M}\},$

где $\underline{\log_{b} M}$ , $\bar{\log_{b} M}$ – логарифм числа по основанию b, вычисленный с округлением к –∞ и +∞ соответственно; M – модуль числа, представленный в позиционной системе счисления. Для кодирования характеристики мантиссы вещественного числа используется двоичная позиционная система счисления, но операции над значениями характеристик чисел выполняются по правилам интервальной арифметики и логарифметики. Результат умножения двух логарифмических интервалов $[\underline{L_{X}} = \underline{\log_{b} X}; \bar{L_{X}} = \bar{\log_{b} X}]$ и $[\underline{L_{Y}} = \underline{\log_{b} Y}; \bar{L_{Y}} = \bar{\log_{b} Y}]$ определяется следующим образом:

$\underline{L_{Z}} = \underline{\log_{b} X \cdot Y} = \underline{\log_{b} X + \log_{b} Y} = \underline{L_{X}} + \underline{L_{Y}},$

$\bar{L_{Z}} = \bar{\log_{b} X \cdot Y} = \bar{\log_{b} X + \log_{b} Y} = \bar{L_{X}} + \bar{L_{Y} .}$

Масштаб (порядок) числа представляется в позиционной системе счисления в виде целого числа со знаком; операции выполняются также в позиционной системе счисления.
Знак числа представляется в позиционной системе счисления в виде одноразрядного числа со знаком; причем знак равен –1, если число отрицательное, 1 – если число положительное, и 0 – в случае равенства числа нулю. Дополнительный признак нуля вводится с целью представления интервальной логарифмической характеристики нулевого операнда, для которого невозможно вычисление логарифма.

Таким образом, число в гибридной модулярно-позиционной интервально-логарифмической форме представляется в следующем виде:

$X \overset{МПИЛ-СС}{\to} [m_{1}, m_{2}, \dots, m_{n},,, λ, σ],$ где M = m₁, m₂, ..., m_n – модулярная мантисса числа; λ – масштаб (порядок) числа; $\underline{L}, \bar{L}$ – границы интервальной логарифмической характеристики мантиссы числа; σ – знак числа.

При этом позиционное значение мантиссы вещественного числа X определяется как [X · b^e], где e – целое число, определяемое необходимой точностью. Например, мантисса вещественного числа, представленного в формате с плавающей точкой стандарта IEEE 754 как $X = {(- 1)}^{s} \times 1. f \times 2^{E - E_{0}}$ , где s – знак числа; 1.f – нормализованная мантисса; E – E₀ – порядок. При переводе в гибридную форму вычисляется так:

м $M = 2^{t} \times 1. f$ , где t – разрядность мантиссы, определяемая конкретным типом данных.

Итак, позиционное значение данного числа определяется следующим образом:

$X = σ \cdot b^{λ} \cdot \sum_{i = 1}^{n} {|m_{i} \cdot {|P_{i}^{- 1}|}_{p_{i}}|}_{p_{i}} \cdot P_{i},$ где $P_{i} = \frac{P}{p_{i}}$ , ${|P_{i}^{- 1}|}_{p_{i}}$ – мультипликативная инверсия P_i по модулю p_i, определяемая из соотношения ${|P_{i}^{- 1} \cdot P_{i}|}_{p_{i}} \equiv 1$ ; $i \in [1, n]$ ; n – количество модулей.

При выполнении арифметических операций над числами, представленными в виде (1), вероятен выход за границы диапазона представления модулярных мантисс. При переполнении диапазона следует выполнить масштабирование чисел.

Масштабирование модулярных чисел выполняется на основании общего алгоритма масштабирования: пусть K – коэффициент масштабирования; Y – результат масштабирования числа X коэффициентом K; тогда результат масштабирования вычисляется по формуле:

$Y = \frac{X - {|X|}_{K}}{K},$ где |X|_K – остаток от деления числа X по модулю K.

Для случая масштабирования модулярных чисел коэффициентом, взаимно простым с основаниями СОК, используется итерационный алгоритм на основе алгоритма, предложенного сингапурскими и австралийскими учеными [27; 29].

Определение |X|_K, или так называемый этап расширения базиса, – получение остатка x_n₊₁от деления числа, представленного в СОК остатками x₁, x₂, ..., x_nпо модулям p₁, p₂, ..., p_n, на число p_n₊₁ = K.
Непосредственно масштабирование по каждому модулю выполняется по формуле:

$y_{i} = {|{|x_{i} - {|X|}_{K}|}_{p_{i}} \cdot {|K^{- 1}|}_{p_{i}}|}_{p_{i}},$ где |K^–¹|_p_i – мультипликативная инверсия по модулю p_i коэффициента K.

Основные алгоритмы расширения базиса, анализ их вычислительной сложности были рассмотрены авторами в прошлой работе [25]. В данной статье используется быстрый метод масштабирования на основании китайской теоремы об остатках (КТО).

Согласно КТО, позиционное значение числа $X \in [0, P)$ , представленного в СОК остатками ‹x₁, x₂, ..., x_n› по основаниям {p₁, p₂, ..., p_n}, вычисляется по формуле:

$X = {|\sum_{i = 1}^{n} {|x_{i} \cdot {|P_{i}^{- 1}|}_{p_{i}}|}_{p_{i}} P_{i}|}_{P} = \sum_{i = 1}^{n} {|x_{i} \cdot {|P_{i}^{- 1}|}_{p_{i}}|}_{p_{i}} \cdot P_{i} - R \cdot P,$

где $P_{i} = \frac{P}{p_{i}}$ , |P_i^–1|_p_i – мультипликативная инверсия P_i по модулю p_i; $i \in [1, n]$ ; n – количество модулей; R – позиционный индекс.

Зная значение коэффициента R, можно вычислить остаток от деления по новому основанию без перевода модулярного числа в позиционное представление:

${|X|}_{p_{n + 1}} = {|{|\sum_{i = 1}^{n} {|x_{i} \cdot {|P_{i}^{- 1}|}_{p_{i}}|}_{p_{i}} \cdot {|P_{i}|}_{p_{n + 1}}|}_{p_{n + 1}} - {|R \cdot {|P|}_{p_{n + 1}}|}_{p_{n + 1}}|}_{p_{n + 1}} .$

Для вычисления коэффициента R авторами разработан алгоритм с использованием целочисленных интервалов на основе приближенной интервальной оценки величины:

$\tilde{X} = \sum_{i = 1}^{n} {|x_{i} \cdot P_{i}^{- 1}|}_{p_{i}} \cdot \frac{1}{p_{i}} = \frac{X + R \cdot P}{P} = R + \frac{X}{P},$

где целую часть величины $\tilde{X}$ определяет коэффициент R, а дробную – значение X/P. Процесс вычисления коэффициента R с использованием вещественных интервалов с направленным округлением и необходимые условия корректности вычислений представлены в работе К. Исупова и В. Князькова [8]; метод вычисления коэффициента R с использованием целочисленных интервалов описан в патенте [34].

Результаты исследования

Умножение двух чисел, представленных в гибридной модулярно-позиционной интервально-логарифмической форме с плавающей точкой, выполняется с использованием гибридной технологии вычислений следующим образом.

Для вычисления произведения $Z = [⟨z_{1}, z_{2}, \dots, z_{n}⟩, \underline{L_{Z}}, \bar{L_{Z}}, λ_{Z}, σ_{Z}]$ чисел $X = [⟨x_{1}, x_{2}, \dots, x_{n}⟩, \underline{L_{X}}, \bar{L_{X}}, λ_{X}, σ_{X}]$ и $Y = [⟨y_{1}, y_{2}, \dots, y_{n}⟩, \underline{L_{Y}}, \bar{L_{Y}}, λ_{Y}, σ_{Y}]$ необходимо:

– вычислить знак произведения σ_Z = = σ_X · σ_Y путем алгебраического умножения знаков сомножителей;

– вычислить верхнюю границу интервальной логарифмической характеристики результата $\underline{L_{Z}} = \underline{L_{X}} + \underline{L_{Y}}$ путем алгебраического сложения значений нижних границ $\underline{L_{X}}$ и $\underline{L_{Y}}$ ИЛХ операндов в позиционной системе счисления;

– вычислить верхнюю границу ИЛХ результата $\bar{L_{Z}} = \bar{L_{X}} + \bar{L_{Y}}$ путем алгебраического сложения значений нижних границ $\bar{L_{X}}$ и $\bar{L_{Y}}$ ИЛХ операндов в позиционной системе счисления;

– вычислить порядок результата λ_Z = λ_X + λ_Y путем алгебраического сложения порядков сомножителей;

– выполнить умножение модулярных мантисс путем нахождения значений $z_{i} = {|x_{i} \cdot y_{i}|}_{p_{i}} = x_{i} \cdot y_{i} - \frac{x_{i} \cdot y_{i}}{p_{i}} \cdot p_{i}$ для всех $i \in [1; n]$ ; при этом вычисления выполняются над операндами, представленными в позиционной системе счисления по правилам модулярной арифметики.

В данной статье отсутствует описание обработки исключительных ситуаций, таких как получение машинного нуля, переполнение и т. п. Более подробно метод описан в патенте [34].

Следует отметить, что поскольку мантиссы чисел, представленные в СОК, ограничены диапазоном [0; P), то при выполнении умножения двух мантисс результат может выйти за пределы диапазона представления, то есть $M_{Z} = M_{X} \cdot M_{Y} \geq P$ . Для того чтобы мантисса результата была представима в СОК, необходимо выполнить операцию масштабирования:

$\frac{M_{X} \cdot M_{Y}}{b^{a}},$ где $a = [\log_{b} \frac{M_{X} \cdot M_{Y}}{P}]$ ; M_X, M_Y – позиционные значения мантисс; P – позиционное значение диапазона представления; [ ] означает округление к наибольшему целому.

Рассмотрим предельный случай, когда числа из диапазона [0; P) могут появиться с равной вероятностью. Вероятность того, что произведение двух мантисс выйдет за пределы диапазона представления модулярных мантисс, то есть M_X · M_Y ≥ P, равна

$p (M_{Z} \geq P) \approx \frac{{(P - 1)}^{2} - (P - 1) \ln (P - 1)}{P^{2}} \approx \frac{P - \ln P}{P} \approx 1.$

Это означает, что в предельном случае каждая операция умножения требует выполнения операции масштабирования, и при использовании позиционных характеристик (как точных, так и приближенных и интервальных) для определения коэффициента масштабирования a необходимо производить трудоемкую операцию вычисления логарифма.

В случае использования ИЛХ коэффициент a рассчитывается следующим образом:

$a = \bar{L_{X}} + \bar{L_{Y}} - L_{P},$ где $\bar{L_{X}}$ , $\bar{L_{Y}}$ – верхние границы интервальных логарифмических характеристик чисел X и Y; $L_{P} = \log_{b} P$ – константа для конкретного диапазона представления.

Таким образом, при использовании ИЛХ для вычисления коэффициента масштабирования не требуется преобразования в позиционную систему счисления и вычисления логарифма.

При умножении модулярных мантисс целесообразно выполнять масштабирование обоих операндов до непосредственного выполнения умножения; причем, если величина обоих операндов превышает значение $\sqrt{P}$ , следует распределять коэффициент масштабирования между операндами таким образом, чтобы отмасштабированные операнды не превышали величину $\sqrt{P}$ :

$b^{a} = b^{a_{X}} + b^{a_{Y}},$ где b^a^X – масштабирующий коэффициент, применяемый к первому сомножителю; b^a^Y – масштабирующий коэффициент, применяемый ко второму сомножителю; a_X и a_Y – значения, определяемые соотношениями ИЛХ операндов следующим образом.

Пусть $L_{1} = \bar{L_{X}} + \bar{L_{Y}} - L_{P}$ , $L_{2} = \bar{L_{X}} - \bar{L_{Y}}$ ; тогда $a_{X} = \frac{L_{1} + L_{2}}{2}, a_{Y} = \frac{L_{1} - L_{2}}{2}$ . Если только один из операндов превышает величину $\sqrt{P}$ , к нему необходимо применить масштабирующий коэффициент b^a.

Таким образом, если $\bar{L_{Z}} \geq L_{P}$ , необходимо выполнить масштабирование мантисс операндов, после чего выполнить умножение отмасштабированных мантисс, а также скорректировать значение порядка результата λ_z = λ_z + L₁ и значение верхней и нижней границы интервальной логарифмической характеристики результата $\underline{L_{Z}} = \underline{L_{Z}} - L_{1}$ , $\bar{L_{Z}} = \bar{L_{Z}} - L_{1}$ .

Процесс масштабирования является итерационным, поскольку за один шаг выполняется масштабирование коэффициентом, не превышающим 2^q, где q – разрядность модулей СОК.

На каждом шаге масштабирования вычисляется значение коэффициента R и остаток от деления модулярного числа на p_n₊₁ = 2^α, где α ≤ q:

$x_{n + 1} = {|M_{X}|}_{2^{α}} = {|{|\sum_{i = 1}^{n} {|{|x_{i} \cdot {|P_{i}^{- 1}|}_{p_{i}}|}_{p_{i}}|}_{2^{α}} \cdot {|P_{i}|}_{2^{α}}|}_{2^{α}} - {|R \cdot {|P|}_{2^{α}}|}_{2^{α}}|}_{2^{α}} .$

Затем выполняется масштабирование коэффициентом 2^α:

${\tilde{x}}_{i} = {|{|x_{i} - {|M_{X}|}_{2^{α}}|}_{p_{i}} \cdot {|{(2^{α})}^{- 1}|}_{p_{i}}|}_{p_{i}}$

где ${|{(2^{α})}^{- 1}|}_{p_{i}}$ – мультипликативная инверсия числа 2^α по модулю p_i – константа для конкретного значения модуля p_i.

Все вычисления производятся над целыми числами, представленными в позиционной системе счисления, по правилам модулярной арифметики.

Если a_X > q, процедура масштабирования повторяется над уже масштабированной мантиссой ${\tilde{x}}_{1}, {\tilde{x}}_{2}, \dots, {\tilde{x}}_{n}$ и так далее, пока не будет выполнено полное масштабирование коэффициентом 2^αX. Аналогичным образом выполняется масштабирование второго сомножителя Y.

Подробный алгоритм деления модулярной мантиссы числа, представленного в модулярно-позиционной интервально-логарифмической форме, на число 2^α (масштабирование степенью двойки), также представлен в патенте [34].

Среднее время выполнения разработанного метода равно $T = p (M_{Z} \geq P) \cdot t_{1} + \frac{n}{k} t_{2},$ где p(M_Z ≥ P) – вероятность того, что произведение двух мантисс выйдет за пределы диапазона представления модулярных мантисс (в предельном случае p(M_Z ≥ P) = 1); t₁ – время выполнения операции масштабирования; t₂ – время выполнения операции умножения по модулю; k – количество параллельных модулярных каналов.

Среднее время выполнения операции масштабирования определяется следующим образом:

$t_{1} = j \cdot (t_{3} + \frac{n}{k} t_{4} + \frac{n}{k} t_{5}),$

где t₃ – время выполнения операции расширения базиса; t₄ – время выполнения операции вычитания по модулю; t₅ – время выполнения операции умножения по модулю на константу; j – число итераций масштабирования.

Диапазон представления модулярных мантисс $P = \prod_{i = 1}^{n} p_{i} \approx 2^{n \cdot q}$ . Минимальный коэффициент масштабирования равен 2¹, максимальный равен $2^{\frac{n \cdot q}{2}}$ . Максимальное количество шагов масштабирования примем равным $\frac{n}{2}$ .

Таким образом, минимальное и максимальное время выполнения операции масштабирования равны соответственно:

$t_{1}_{m i n} = t_{3} + \frac{n}{k} t_{4} + \frac{n}{k} t_{5},$

$t_{1}_{m a x} = \frac{n}{2} (t_{3} + \frac{n}{k} t_{4} + \frac{n}{k} t_{5}) .$

Время выполнения операции расширения базиса равно [34]:

$t_{3} = \frac{n}{k} t_{5} + \frac{n}{k} t_{6} + t_{7},$

где t₅ – время выполнения операции умножения по модулю на константу; t₆ – время выполнения операции скалярного произведения вектора на вектор-константу; t₇ – время выполнения операции сложения.

Время выполнения операции умножения по модулю двух произвольных чисел приблизительно в 2 раза выше, чем время выполнения стандартного целочисленного умножения; время выполнения операции умножения по модулю на константу приблизительно равно времени выполнения стандартного целочисленного умножения [13]. Таким образом, минимальное и максимальное время выполнения разработанного метода равно:

$T_{m i n} = (\frac{n}{k} t_{5} + \frac{n}{k} t_{6} + t_{7} + \frac{n}{k} t_{4} + \frac{n}{k} t_{5}) + \frac{n}{k} t_{2} = (\frac{2 n}{k} t_{c} + \frac{n}{k} t_{c} + t_{c} + \frac{n}{k} t_{c}) + \frac{2 n}{k} t_{c} = (\frac{6 n}{k} + 1) t_{c},$

$T_{m a x} = \frac{n}{2} (\frac{n}{k} t_{5} + \frac{n}{k} t_{6} + t_{7} + \frac{n}{k} t_{4} + \frac{n}{k} t_{5}) + \frac{n}{k} t_{2} = \frac{n}{2} (\frac{2 n}{k} t_{c} + \frac{n}{k} t_{c} + t_{c} + \frac{n}{k} t_{c}) + \frac{2 n}{k} t_{c} = (\frac{5 n^{2} + 4 n}{2 k} + 1) t_{c},$

где t₇ – длительность такта.

Сравним разработанный метод с конвейерным методом умножения длинных чисел с плавающей точкой (обозначим его как Lei et al [12]), а также со стандартными методами умножения (обозначим их как Schulte ‒ Swarzlander [14] и Ishii [13]). В качестве контроля рассмотрим асимптотически быстрый метод, используемый для организации некоторых целочисленных двоичных умножителей (алгоритм Карацубы [26]). В табл. 1 представлены оценки времени выполнения разработанного метода и аналогов; n – количество слов базовой длины, необходимых для представления длинного числа; k – количество параллельных модулярных каналов. В табл. 2 выполнено сравнение времени выполнения разработанного метода и аналогов для чисел разрядности 1 024 и 2 048 бит (n = 16 64-разрядных слов и n = 32 64-разрядных слова соответственно). На рис. 1; 2 представлены расчеты времени выполнения разработанного метода и аналогов для разрядности сомножителей от 256 до 2 048 бит с использованием 64-разрядных (рис. 1) и 16-разрядных слов (рис. 2) соответственно.

Рис. 1. Сравнение быстродействия разработанного метода с аналогами
(с использованием 64-разрядных умножителей)

Fig. 1. The comparison of the developed method speed-in-action with analogues
using 64 bit multipliers

Рис. 2. Сравнение быстродействия разработанного метода с аналогами
(с использованием 16-разрядных умножителей)

Fig. 2. The comparison of the developed method speed-in-action with analogues
using 16 bit multipliers

Таблица 1 Сравнение временной сложности разработанного метода и аналогов

Table 1 Time complexity comparison with analogues

Метод умножения /Multiplication method	Время выполнения, тактов /Execution time, clock cycles
Lei at al.	$\frac{n^{2}}{4} + 2 n + 8$
Schulte ‒ Swarzlander	n² + n + 12
Ishii	n² + n + 7
Предложенный метод с масштабированием /Proposed method with scaling	p_n₊₁ = 2^α
Предложенный метод с масштабированием параллельный (k = n) /Proposed method with scaling parallel (k = n)	$\frac{5 n + 6}{2}$

Таблица 2 Сравнение быстродействия разработанного метода и аналогов (в тактах)

Table 2 The speed-in-action comparison (clock cycles) with analogues

Метод умножения / Multiplication method	Время выполнения, тактов / Execution time, clock cycles		Ускорение / Speed-up
Метод умножения / Multiplication method	Аналоги / Analogues	Предложенный метод (k = n) / Proposed method (k = n)	Ускорение / Speed-up
1 024 бит / 1 024 bit
Lei at al.	104	43	2,4
Schulte ‒ Swarzlander	284	43	6,6
Ishii	279	43	6,4
2 048 бит / 2 048 bit
Lei at al.	328	83	4,0
Schulte ‒ Swarzlander	1 068	83	12,9
Ishii	1 063	83	12,8

Обсуждение и заключение

Разработаны новые быстрые методы умножения модулярных чисел с плавающей точкой; проведена оценка быстродействия разработанных методов; выполнено сравнение с работами других авторов. Предложенные методы в 2,4–4,0 раза быстрее конвейерного метода умножения и в 6,4–12,9 раз быстрее классических методов умножения.

Показано, что при умножении двух модулярных чисел с плавающей точкой практически каждая операция умножения модулярных мантисс сопровождается немодульной операцией масштабирования, что существенно увеличивает общее время выполнения умножения. В связи с этим целесообразно продолжить исследования быстрых методов выполнения немодульных операций, в частности, операции масштабирования большими коэффициентами.

В данной статье не учитывается время выполнения операции преобразования чисел в модулярно-позиционную интервально-логарифмическую форму представления. Авторы считают, что разработанный метод умножения будет использоваться для обработки больших объемов числовой информации, поступающей уже в необходимом формате; преобразование же данных из других форматов, в том числе стандартных, может быть осуществлено в параллельном или конвейерном режимах и не будет приводить к значительным затратам времени.

Авторами рассмотрен алгоритм масштабирования коэффициентом, равным 2^a; при этом интервальная характеристика представлена в виде логарифмов по основанию 2. В то же время разработанный способ представления информации и выполнения операции умножения может быть использован и при других значениях основания логарифма. Так, разработанные методы могут быть применены для операций над числами вида M · 10^E. В таком случае коэффициент масштабирования будет равен 10^a. Данное преимущество может быть дополнительно использовано в задачах, критичных к ошибкам округления при вводе десятичной информации.

В качестве дальнейших исследований предполагается изучение и разработка быстрых методов выполнения немодульных операций расширения базиса и масштабирования, а также разработка арифметического модулярно-позиционного интервально-логарифмического устройства.

Sobre autores

Anastasia Korzhavina

Vyatka State University

Autor responsável pela correspondência
Email: as_korzhavina@vyatsu.ru
ORCID ID: 0000-0001-8270-2097
Researcher ID: S-1877-2018

Senior Lecturer, Chair of Electronic Computing Machines

Rússia, 36 Moskovskaya St., Kirov 610000

Vladimir Knyazkov

Penza State University; Vyatka State University

Email: kniazkov@list.ru
ORCID ID: 0000-0003-3820-6541
Researcher ID: Т-4089-2018

Chief Researcher, Research Institute of Applied and Fundamental Research, Professor, Chair of Electronic Computing Machines, D.Sc. (Engineering)

Rússia, 40 Krasnaya St., Penza 440026; 36 Moskovskaya St., Kirov 610000

Bibliografia

Iakymchuk R., Defour D., Collange S., Graillat S. Reproducible and accurate matrix multiplication.In: Nehmeier M., Wolff von Gudenberg J., Tucker W. (eds) Scientific Computing, Computer Arithmetic and Validated Numerics. SCAN 2015. Lecture Notes in Computer Science. 2016; 9553:126-137. DOI:https://doi.org/10.1007/978-3-319-31769-4_11
Voros A. Discretized Keiper/Li approach to the Riemann hypothesis. Experimental Mathematics.2018; 1-18. DOI: https://doi.org/10.1080/10586458.2018.1482480
Yang L., Ma D., Ebrahim A., Lloyd C.J., Saunders M.A., Palsson B.O. solveME: fast and reliable solution of nonlinear ME models. BMC Bioinformatics. 2016; 17:391. DOI: https://doi.org/10.1186/s12859-016-1240-1
Panzer E. Algorithms for the symbolic integration of hyperlogarithms with applications to Feynman integrals.Computer Physics Communications. 2015; 188:148-166. DOI: https://doi.org/10.1016/j.cpc.2014.10.019
Miltenberger M., Ralphs T., Steffy D. E. Exploring the numerics of branch-and-cut for mixed integer linear optimization. In: Kliewer N., Ehmke J., Borndörfer R. (eds) Operations Research Proceedings 2017. Operations Research Proceedings (GOR (Gesellschaft für Operations Research e.V.)). Cham:Springer; 2018. p. 151-157. DOI: https://doi.org/10.1007/978-3-319-89920-6_21
Bailey D.H., Borwein J.M., Kimberley J.S., Ladd W. Computer discovery and analysis of large poisson polynomials. Experimental Mathematics. 2017; 26(3):349-363. DOI: https://doi.org/10.1080/10586458.2016.1180565
Pan B., Wang Y., Tian S. A high-precision single shooting method for solving hypersensitive optimal control problems. Mathematical Problems in Engineering. 2018; 2018:7908378.DOI: https://doi.org/10.1155/2018/7908378
Isupov K., Knyazkov V. Interval estimation of relative values in residue number system. Journal of Circuits, Systems and Computers. 2018; 27(1):1850004. DOI: https://doi.org/10.1142/S0218126618500044
Nakasato N., Daisaka H., Fukushige T., Kawai A., Makino J., Ishikawa T., et al. GRAPE-MPs:Implementation of an SIMD for quadruple/hexuple/octuple-precision arithmetic operation on a structured ASIC and an FPGA In: 2012 IEEE 6th International Symposium on Embedded Multicore SoCs. IEEE;2012. p. 75-83. DOI: https://doi.org/10.1109/MCSoC.2012.31
Daisaka H., Nakasato N., Ishikawa T., Yuasa F. Application of GRAPE9-MPX for high precision calculation in particle physics and performance results. Procedia Computer Science. 2015; 51:1323-1332.DOI: https://doi.org/10.1016/j.procs.2015.05.317
El-Araby E., Gonzalez I., El-Ghazawi T. A. Bringing high-performance reconfigurable computing to exact computations. In: Bertels K., Najjar W., van Genderen A., Vassiliadis S. (eds.) 2007 International Conference on Field Programmable Logic and Applications. 2007. p. 79–85. DOI: https://doi.org/10.1109/FPL.2007.4380629
Lei Y., Dou Y., Zhou J. FPGA-specific custom VLIW architecture for arbitrary precision floatingpoint arithmetic. IEICE Transactions on Information and Systems. 2011; 94(11):2173-2183. DOI: https://doi.org/10.1587/transinf.E94.D.2173
Ishii M., Detrey J., Gaudry P., Inomata A., Fujikawa K. Fast modular arithmetic on the Kalray MPPA-256 processor for an energy-efficient implementation of ECM. IEEE Transactions on Computers.2017; 66(12):2019-2030. DOI: https://doi.org/10.1109/TC.2017.2704082
Schulte M.J., Swartzlander E.E. A family of variable-precision interval arithmetic processors.IEEE Transactions on Computers. 2000; 49(5):387-397. DOI: https://doi.org/10.1109/12.859535
Asif S., Kong Y. Highly parallel modular multiplier for elliptic curve cryptography in residue number system. Circuits, Systems, and Signal Processing. 2017; 36(3):1027-1051. DOI:https://doi.org/10.1007/s00034-016-0336-1
Kong Y., Lai Y. Low latency modular multiplication for public-key cryptosystems using a scalable array of parallel processing elements. In: 2013 IEEE 56th International Midwest Symposium on Circuits and Systems (MWSCAS). IEEE; 2013. p. 1039-1042. DOI: https://doi.org/10.1109/MWSCAS.2013.6674830
Coleman J.N., Che Ismail R. LNS with co-transformation competes with floating-point. IEEE Transactions on Computers. 2016; 65(1):136-146. DOI: https://doi.org/10.1109/TC.2015.2409059
Kouretas I., Basetas C., Paliouras V. Low-power logarithmic number system addition/subtraction and their impact on digital filters. IEEE Transactions on Computers. 2013; 62(11):2196-2209. DOI:https://doi.org/10.1109/TC.2012.111
Coleman J.N., Softley C.I., Kadlec J., Matousek R., Tichy M., Pohlet Z., et al. The European logarithmic microprocessor. IEEE Transactions on Computers. 2008; 57(4):532-546. DOI: https://doi.org/10.1109/TC.2007.70791
Bigou K., Tisserand A. Single base modular multiplication for efficient hardware RNS implementations of ECC. In: Güneysu T., Handschuh H. (eds) Cryptographic Hardware and Embedded Systems – CHES 2015.Lecture Notes in Computer Science. 2015; 9293:123-140. DOI: https://doi.org/10.1007/978-3-662-48324-4_7
Bajard J.-C., Eynard J., Merkiche N. Montgomery reduction within the context of residue number system arithmetic. Journal of Cryptographic Engineering. 2018; 8(3):189-200. DOI: https://doi.org/10.1007/s13389-017-0154-9
Czyżak M., Smyk R., Ulman Z. Pipelined scaling of signed residue numbers with the mixedradix conversion in the programmable gate array. Poznan University of Technology Academic Journals.Electrical Engineering. 2013; 76:89-99. Available at: https://yadda.icm.edu.pl/baztech/element/bwmeta1.element.baztech-5d0a87e2-2459-476f-8c7e-2d72d07072f2/c/Czyzak.pdf
Asif S., Hossain M.S., Kong Y., Abdul W. A fully RNS based ECC processor. Integration. 2018;61:138-149. DOI: https://doi.org/10.1016/j.vlsi.2017.11.010
Matutino P. M., Araújo J., Sousa L., Chaves R. Pipelined FPGA coprocessor for elliptic curve cryptography based on residue number system. In: Patt Y., Nandy S.K. (eds.) 2017 International Conference on Embedded Computer Systems: Architectures, Modeling, and Simulation (SAMOS). 2017. p. 261-268. DOI:https://doi.org/10.1109/SAMOS.2017.8344638
Korzhavina A.S., Knyazkov V.S. [Base extension in residue number systems: a review and cost analysis]. Sovremennyye naukoyemkiye tekhnologii = Modern High Technologies. 2017; 12:37-42.Available at: https://www.top-technologies.ru/ru/article/view?id=36868 (In Russ.).
Harvey D., van der Hoeven J., Lecerf G. Even faster integer multiplication. Journal of Complexity.2016; 36:1-30. DOI: https://doi.org/10.1016/j.jco.2016.03.001
Chang C.H., Low J.Y.S. Simple, fast, and exact RNS scaler for the three moduli set (2n – 1, 2n, 2n + 1).IEEE Transactions on Circuits and Systems I: Regular Papers. 2011; 58(11):2686-2697. DOI: https://doi.org/10.1109/TCSI.2011.2142950
Hiasat A. Efficient RNS scalers for the extended three-moduli set (2n – 1, 2n + p, 2n + 1). IEEE Transactions on Computers. 2017; 66(7):1253-1260. DOI: https://doi.org/10.1109/TC.2017.2652474
Kong Y., Phillips B. Fast scaling in the residue number system. IEEE Transactions on Very Large Scale Integration (VLSI) Systems. 2009; 17(3):443-447. DOI: https://doi.org/10.1109/TVLSI.2008.2004550
Meyer-Base U., Stouraitis T. New power-of-2 RNS scaling scheme for cellbased IC design.IEEE Transactions on Very Large Scale Integration (VLSI) Systems. 2003; 11(2):280-283. DOI: https://doi.org/10.1109/TVLSI.2003.810799
Johansson F. Arb: Efficient arbitrary-precision midpoint-radius interval arithmetic. IEEE Transactions on Computers. 2017; 66(8):1281-1292. DOI: https://doi.org/10.1109/TC.2017.2690633
Revol N. Introduction to the IEEE 1788-2015 standard for interval arithmetic. In: Abate A.,Boldo S. (eds.) Numerical Software Verification. NSV 2017. Lecture Notes in Computer Science. 2017;10381:14-21. DOI: https://doi.org/10.1007/978-3-319-63501-9_2
Osinin I. A modular-logarithmic coprocessor concept. In: International Conference on High Performance Computing & Simulation (HPCS). IEEE. 2017. p. 588-594. DOI: https://doi.org/10.1109/HPCS.2017.93
Knyazkov V.S., Korzhavina A.S., inventors. The method of organization of multiplying operation of two numbers in floating-point modular-logarithmic format on hybrid multicore processors. Ru Patent 2666285. 2018 Sep 06. (In Russ.).

Arquivos suplementares

Ação

1. JATS XML

Baixar

2. Fig. 1. The comparison of the developed method speed-in-action with analogues using 64 bit multipliers

Baixar (72KB)

Metadados

3. Fig. 2. The comparison of the developed method speed-in-action with analogues using 16 bit multipliers

Baixar (74KB)

Metadados

We use cookies and Yandex.Metrica to improve the Site and for good user experience. By continuing to use this Site, you confirm that you have been informed about this and agree to our personal data processing rules.

Nome de usuário
Senha
Lembrar usuário

Esqueceu a senha?	Cadastro

Nome de usuário
Senha
Lembrar usuário

Esqueceu a senha?	Cadastro

Volume 35, Nº 4 (2025)

Volume 35, Nº 4 (2025)

The Multiplication Method with Scaling the Result for High-Precision Residue Positional Interval Logarithmic Computations

Texto integral

Resumo

Palavras-chave

Texto integral

Введение

Обзор литературы

Материалы и методы

Результаты исследования

Обсуждение и заключение

Sobre autores

Anastasia Korzhavina

Vladimir Knyazkov

Bibliografia

Arquivos suplementares